Questions? Feedback? powered by Olark live chat software
Navigáció kihagyása

Azure HDInsighthoz készült Apache Spark

Felhőalapú Apache Spark az üzleti szempontból kritikus fontosságú üzemeltetési feladatokhoz

Mi az Apache Spark?

Az Apache Spark egy nyílt forráskódú adatfeldolgozási keretrendszer, amellyel nagy teljesítményű adatelemzési alkalmazások futtathatók. A Spark, amely egy memóriabeli számítási modulra épül, lehetővé teszi a big data típusú adatok hatékony lekérdezését. A modul egy párhuzamos adatfeldolgozási keretrendszert használ, amely az adatokat a memóriában, és ha szükséges, lemezen tárolja. Ez a többi technológiához képest 100-szoros sebességnövekedést és egy közös végrehajtási modellt biztosít a HDFS fájlrendszerbeli adatokon végrehajtott kinyerési, átalakítási, betöltési (ETL-), kötegelt feldolgozási, interaktív lekérdezési és egyéb feladatokhoz. Az Azure-ban könnyen, költséghatékonyan, hardvervásárlás és szoftverkonfigurálás nélkül üzembe helyezhető Apache Spark olyan teljes körű jegyzetfüzet-megoldást kínál, amely vonzó beszámolók készítését teszi lehetővé, és biztosítja a külső üzleti adatelemzési eszközökkel való együttműködést.

A szolgáltatást bemutató videó megtekintése

Egyetlen végrehajtási modell a különböző számítási feladatokhoz

Az Apache Spark egy általános végrehajtási modellt használ az Azure Storage-ban tárolt adatokkal kapcsolatos ETL-, kötegelt vagy interaktív lekérdezési, valós idejű streamelési, gépi tanulási, valamint az Azure Data Lake Store-ban tárolt adatokkal kapcsolatos diagramfeldolgozási feladatokhoz. Ez lehetővé teszi, hogy a Spark for Azure HDInsighttal olyan big data-feladatokat végezzen el közel valós időben, mint az adathamisítások felderítése, a kattintássorozati elemzés, a pénzügyi riasztások, a telemetriai adatok gyűjtése a csatlakoztatott érzékelőkről és eszközökről (IoT), a közösségi hálózatokból származó adatok elemzése, a folyamatosan működő ETL-adatcsatornák és a hálózatfigyelés.

Hatékony interaktivitás a memóriabeli feldolgozás révén

A mai felhasználók a percekig, órákig vagy napokig tartó várakozás helyett azonnali válaszokat szeretnének kapni kérdéseikre. Az Apache Spark ennek az igénynek úgy tud megfelelni, hogy az adatok memóriában való tárolásával 100-szorosára növeli a lekérdezések sebességét a Hadoopban lévő nagy adatkészletek feldolgozása közben. Ezáltal a Spark for Azure HDInsight ideális megoldást kínál a nagy teljesítményigényű big data-műveletek felgyorsítására.

Natív fejlesztői környezetek és távoli hibakeresés az IntelliJ IDEA révén

A Sparkot a fejlesztés megkönnyítése érdekében szorosan integráltuk az IntelliJ IDEA-val, ami beépített Scala- és Java-kódszerkesztési támogatást biztosít a fejlesztőknek. Távoli hibakeresés is végezhető, ami rugalmasságot biztosít a fejlesztési életciklus során, és lehetővé teszi az elkészült alkalmazás beküldését az Azure-ba. A Spark for HDInsight-fürtökbe beépítettük a gépi tanuláshoz készült legnépszerűbb Python-kódtárakat (Anaconda).

Interaktív big data-elemzés az üzleti adatelemzési eszközökkel

Az üzleti adatelemzők számára többek között Power BI-, Tableau-, SAP Lumira- és QlikView-integrációt biztosítunk. Ezáltal bármilyen méretű adat felhasználásával készíthet interaktív vizualizációkat. A hagyományos irányítópultok mellett a Power BI egy Sparkkal együttműködő streamelési összekötőt is biztosít, amely lehetővé teszi, hogy a valós idejű eseményeket a Spark Streaming használatával közvetlenül a Power BI-ban tegye közzé.

Azonnal rendelkezésre álló jegyzetfüzet-funkciók

Más Spark-ajánlatoktól eltérően, amelyek saját jegyzetfüzetek telepítését vagy jogvédett jegyzetfüzetek használatát igénylik, a HDInsighthoz készült Spark azonnali együttműködést biztosít a piacon jelenleg legnépszerűbb nyílt forráskódú jegyzetfüzettel, az iPython-alapú Jupyterrel. Ez olyan beszámolók készítését teszi lehetővé, amelyekben az adatok a kód, a statisztikai egyenletek, a leíró szöveg és a vizuális ábrázolás ötvözése révén beszédessé válnak. Annak érdekében, hogy ügyfeleink számára megkönnyítsük az integrációt, a Jupyter-közösséggel együttműködve továbbfejlesztettük a kernelt: lehetővé tettük a REST-végponton keresztüli Spark-végrehajtást, ami vonzó környezetet biztosít az adatszakértők számára.

Integráció az R Serverrel – a legnagyobb R-kompatibilis párhuzamos elemzési és gépi tanulási kódtárral

A Spark for Azure HDInsight az R Servert futtató modulként használható, amely a legnagyobb párhuzamos elemzési és gépi tanulási kódtárral rendelkezik, és együtt tud működni a nyílt forráskódú R nyelvvel. Így hasznosíthatja az R nyelv ismeretét a Sparkon futó R Server által nyújtott nagyvállalati szinten. Az R Server több szálon futó matematikai kódtárai és transzparens párhuzamos folyamatai révén akár ezerszer több adat kezelésére és akár ötvenszer nagyobb sebességre képes, mint a nyílt forráskódú R, így a segítségével pontosabb modelleket taníthat be a korábbiaknál jobb javaslatok érdekében.

Iparágvezető rendelkezésre állási garancia az üzletmenet folyamatosságára

Annak érdekében, hogy a Spark a teljesítmény tekintetében a legszigorúbb követelményeknek is megfeleljen, a Microsoft az iparág legmagasabb, 99,9%-os rendelkezésre állást garantáló SLA-jával biztosítja az üzletmenet folyamatosságát és a katasztrófahelyzetek elleni védelmet. Ezt a Clouderával közösen irányított Livy projekttel biztosítjuk, amelyben létrehoztunk egy nyílt forráskódú, Apache-licenccel igénybe vehető REST-webszolgáltatást a tartós üzemű Spark-környezetek kezelése és a Spark-feladatok beküldése céljából. Ezt az új funkciót azért hoztuk létre, hogy a Spark robusztus háttérrendszert biztosítson az interaktív jegyzetfüzetek futtatásához és annak lehetővé tételéhez, hogy a többi alkalmazás interaktív számítási feladatai kihasználhassák a Spark kapacitását.

Bármilyen típusú és méretű adatot elemezhet az alkalmazás módosítása nélkül az adatmennyiség megnövekedése esetén is

A Spark skálázhatósága érdekében a Sparkot integráltuk az Azure Data Lake Store-ral. Ez az integráció, amelyet kizárólag a Microsoft biztosít, lehetővé teszi, hogy anélkül tároljon és dolgozzon fel tetszőleges mennyiségű adatot a Sparkban, hogy az adatmennyiség megnövekedése miatt módosítania kellene alkalmazását. Ez az integráció azt is lehetővé teszi, hogy a tárolási szinten szerepköralapú hozzáférés-vezérlést valósítson meg.

Valós idejű adatfeldolgozás

Napjaink hálózatba szerveződő világát a valós időben érkező hatalmas adatmennyiségek jellemzik. A Spark Stream for HDInsight ideális megoldást kínál a nagy kihívást jelentő valós idejű alkalmazási helyzetekre, köztük az olyan IoT-szituációkra is, mint például a valós idejű távfelügyelet és -monitoring, vagy az eszközökről (például mobiltelefonokról vagy hálózathoz kapcsolódó autókból származó adatok feldolgozása).

Könnyű beállítás, gyors eredmények

A Spark for HDInsight nem igényel hosszas telepítést és konfigurálást. Az Azure mindezt megteszi Ön helyett. A Sparkot percek alatt, új hardver vásárlása vagy egyéb induló költség nélkül üzembe helyezheti.

Rugalmasan méretezhető Big Data-feldolgozási kapacitás

Az Azure felhő teljesítményét kihasználó Spark for HDInsight segítségével az igényeinek megfelelő méretű fürtöket létrehozva tetszőleges mennyiségű adatot dolgozhat fel. Csak annak a számítási teljesítménynek és tárhelynek van díja, amelyet ténylegesen használ.

A HDInsight ingyenes kipróbálása