Apache Spark pro Azure HDInsight

Apache Spark v cloudu pro stěžejní nasazení

Co je Apache Spark?

Apache Spark je opensourcová platforma, na které můžou běžet analytické aplikace zpracovávající velké objemy dat. Platforma Spark je postavená na výpočetním jádru v paměti a zajišťuje vysoký výkon při dotazování u velkých objemů dat. Ke zpracování dat využívá paralelní platformu, která data udržuje v paměti a případně taky na disku. Spark je stokrát rychlejší a má společný spouštěcí model pro různé úlohy, jako jsou extrakce, transformace, načtení (ETL), dávkové zpracování, interaktivní dotazy a další datové úlohy v Apache HDFS (Hadoop Distributed File System). Díky Azure je nasazení Apache Sparku jednoduché a cenově přístupné, protože nemusíte kupovat žádný hardware ani konfigurovat software.V plnohodnotném poznámkovém bloku můžete vytvářet poutavé příběhy nebo můžete Spark integrovat s partnerskými nástroji business intelligence.

Podívejte se na video s přehledem Apache Sparku

Základní modul Apache Spark poskytuje platformu, která dokáže kombinovat různé typy zpracování, mimo jiné Spark SQL, Spark Streaming, MLlib (strojové učení) a GraphX (výpočty grafů).

Jeden spouštěcí model pro různé úkoly

Apache Spark využívá společný spouštěcí model, který umožňuje s daty uloženými v Azure Data Lake Store provádět různé úlohy, jako jsou ETL, dávkové dotazy, interaktivní dotazy, streamování v reálném čase, machine learning nebo zpracování grafů. Se Sparkem pro Azure HDInsight tak můžete skoro v reálném čase řešit problémy velkých objemů dat, jako jsou odhalování podvodů, analýza dat o navštívených stránkách, finanční upozornění, telemetrie z připojených čidel a zařízení Internetu věcí (IoT), sociální analýza, trvale zapnuté kanály ETL a monitorování sítě.

Zpracování v paměti pro interaktivní scénáře

Zákazníci v dnešní době očekávají na své dotazy rychlou odpověď, nechtějí čekat minuty, hodiny nebo dokonce dny. Apache Spark to umožňuje. Data jsou držená v paměti, takže při zpracování velkých datových sad v Hadoopu jsou dotazy až stokrát rychlejší. Spark pro Azure HDInsight je ideální ke zrychlení aplikací pro náročné zpracovávání velkých objemů dat.

Vývoj v nativním prostředí a vzdálené ladění pomocí IntelliJ IDEA

Abychom usnadnili vývoj pro Spark, zavedli jsme těsnou integraci s IntelliJ IDEA, která umožňuje psát kód s nativní podporou jazyků Scala a Java. Můžete využít vzdálené ladění, které zajišťuje flexibilitu vývojového cyklu a poskytuje možnost odeslat hotovou aplikaci do Azure. Clustery Sparku pro HDInsight mají také už načtené oblíbené knihovny jazyka Python (Anaconda) pro machine learning.

Využití nástrojů BI k interaktivní analýze velkých objemů dat

Specialistům na obchodní analýzy nabízíme integraci s Power BI a také dalšími nástroji business intelligence, jako jsou Tableau, SAP BusinessObjects Lumira a QlikView. Je tak možné vytvářet interaktivní vizualizace pro data libovolné velikosti. Kromě tradičních řídicích panelů Power BI nabízí konektor pro streamování, který je integrovaný se Sparkem a umožňuje publikovat události ze Spark Streamingu v reálném čase přímo do Power BI.

Okamžité využití poznámkového bloku

Na rozdíl od jiných nabídek Sparku, které vyžadují instalaci vlastních nebo využití speciálních poznámkových bloků, Spark pro HDInsight nabízí okamžitou integraci s Jupyterem (iPython), nejoblíbenějším opensourcovým poznámkovým blokem na trhu. Díky tomu je možné vytvářet příběhy, které jsou kombinací kódu, statistických rovnic a vizualizací a které data srozumitelným způsobem interpretují. Chceme zjednodušit integraci, a proto jsme ve spolupráci s komunitou Jupyteru vylepšili jádro umožňující spuštění Sparku prostřednictvím koncového bodu REST. Pro vědce, kteří se specializují na data, je to velice přínosné.

Integrace s R Serverem – rozsáhlá knihovna pro paralelní analýzy a machine learning kompatibilní s jazykem R

Spark for Azure HDInsight se dá využít jako modul pro spuštění R Serveru, který má integrovanou největší knihovnu pro paralelní analýzy a machine learning a umožňuje využívat opensourcový jazyk R. Díky tomu můžete využít důvěrně známé prostředí jazyka R se škálováním na podnikové úrovni, které poskytuje R Server běžící na Sparku. Díky matematickým knihovnám s víc vlákny a transparentní paralelizaci v R Serveru kombinovaném se Sparkem dokážete zpracovat datové objemy až 1000krát větší a zajistit až 50x rychlejší zpracování než při použití opensourcového jazyka R. Budete tak moct vytrénovat přesnější modely pro zajištění lepších predikcí než dřív.

Nejvyšší dostupnost pro kontinuitu podnikových procesů

Aby bylo možné Spark spouštět v co největším měřítku, Microsoft poskytuje garanci nejvyšší dostupnosti SLA (99,9 %), která zajišťuje kontinuitu podnikových procesů a ochranu před katastrofickými událostmi. Spojili jsme se s Clouderou a v rámci projektu Livy jsme vytvořili webovou službu REST s opensourcovou licencí Apache pro správu dlouhodobě spuštěných kontextů Sparku a odesílání sparkových úloh. Tato nová funkce je navržená tak, aby se Spark stal robustnějším back-endem pro spouštění interaktivních poznámkových bloků a aby jej pro své interaktivní úlohy mohly využívat i jiné aplikace.

Analýza libovolných dat libovolné velikosti beze změn při nárůstu jejich objemu

Abychom zajistili spouštění Sparku v příslušném měřítku, integrovali jsme Spark se službou Azure Data Lake Store. Tato integrace je dostupná výhradně od Microsoftu a umožňuje Sparku ukládat a zpracovávat data, která se škálují na libovolnou velikost, aniž by se při nárůstu jejich objemu vynucovaly změny v aplikaci. Prostřednictvím této integrace můžete na úrovni úložiště implementovat řízení přístupu k datům na základě rolí.

Zpracování v reálném čase pro scénáře v reálném čase

Pro dnešní propojený svět jsou charakteristická velká data přicházející v reálném čase. Spark Stream pro HDInsight je ideální pro náročné scénáře v reálném čase. K jeho využití se nabízejí nejrůznější příležitosti, včetně scénářů Internetu věcí (IoT), vzdálené správy v reálném čase, monitorování nebo získávání informací ze zařízení, jako jsou mobilní telefony a auta připojená k síti.

Snadné nastavení, rychlé výsledky

U Sparku pro HDInsight odpadá časově náročná instalace a nastavení. Azure to udělá za vás. Zprovoznění zvládnete během několika minut. Spark můžete nasadit, aniž byste kupovali nový hardware nebo měli předem jiné výdaje.

Přizpůsobivá kapacita pro velké objemy dat

Spark pro HDInsight využívá výkonu Azure, který usnadňuje vytváření clusterů jakékoli velikosti pro zpracování libovolných objemů dat na vyžádání. Platíte jenom za výpočetní výkon a úložiště, které využíváte.

Vyzkoušejte HDInsight zdarma