Apache Spark för Azure HDInsight

Apache Spark i molnet för verksamhetskritiska distributioner

Vad är Apache Spark?

Apache Spark är ett bearbetningsramverk med öppen källkod som kör storskaliga dataanalysprogram. Spark bygger på en minnesintern databearbetningsmotor, som möjliggör frågekörning på stordata med höga prestanda. Det utnyttjar ett parallellt databearbetningsramverk, där data bevaras i minnet och på disk om så behövs. På så sätt kan Spark leverera 100 gånger högre hastighet och en gemensam körningsmodell för uppgifter som ETL (Extract, Transform, Load), batchfrågekörning, interaktiva frågor på data i Apache HDFS (Hadoop Distributed File System) och annat. Tack vare Azure är Apache Spark lätt och kostnadseffektivt att distribuera utan någon maskinvara att köpa, ingen programvara att konfigurera, en fullständig anteckningsbok för kommentarer samt integrering med Business Intelligence-verktyg från partner.

Titta på en översiktsvideo om Apache Spark

Apache Sparks kärnmotor ger ett bearbetningsramverk som kan kombinera olika typer av bearbetning, inklusive Spark SQL, Spark Streaming, MLlib (maskininlärning ), och Graphx (grafberäkning).

En körningsmodell för flera uppgifter

Apache Spark utnyttjar en gemensam körningsmodell för flera olika uppgifter, som ETL, batchfrågekörning, interaktiva frågor, realtidsströmning, maskininlärning och diagrambearbetning på data som är lagrade i Azure Data Lake Store. Det gör att du kan använda Spark för Azure HDInsight till att lösa utmaningar med stordata i nästintill realtid, som bedrägerikontroll, klickströmsanalys, finansaviseringar, telemetri från sensorer och enheter i Sakernas Internet (IoT, Internet of Things), analys av sociala medier, ETL-pipelines som ”alltid är på” samt övervakning av nätverk.

Minnesintern bearbetning för interaktiva scenarion

Kunder idag förväntar sig snabba svar på sina frågor och är inte beredda att vänta i minuter, timmar eller dagar. Apache Spark uppfyller detta genom att ha kvar data i minnet för att uppnå upp till 100 gånger snabbare frågekörning vid bearbetning av stora datamängder i Hadoop. Det gör Spark för Azure HDInsight perfekt för att snabba på intensiva stordataprogram.

Använd IntelliJ IDEA för interna utvecklarfunktioner och fjärrfelsökning

För att göra utvecklingen i Spark enklare har vi introducerat bättre integrering med IntelliJ IDEA så att du kan koda med internt redigeringsstöd för Scala och Java. Du kan utföra fjärrfelsökning, vilket ger flexibilitet i utvecklingslivscykeln och möjligheten att skicka programmet till Azure när det är klart. Spark för HDInsight-kluster levereras också med de populäraste Python-biblioteken (Anaconda) för maskininlärning.

Dra nytta av BI-verktyg för att analysera stordata interaktivt

För affärsanalytiker erbjuder vi integrering med Power BI och andra Business Intelligence-verktyg som Tableau, SAP BusinessObjects Lumira och QlikView. Det innebär att du kan skapa interaktiva visualiseringar utifrån data med valfri storlek. Utöver de traditionella instrumentpanelerna erbjuder Power BI en strömningsanslutningstjänst som integreras med Spark, vilket gör att du kan publicera realtidshändelser från Spark Streaming direkt till Power BI.

Direkt anteckningsbokupplevelse

Till skillnad från andra Spark-tjänster, som kräver att du installerar egna anteckningsböcker eller utnyttjar tillverkarspecifika anteckningsböcker, har Spark för HDInsight direkt integrering med Jupyter (iPython), den populäraste anteckningsboken med öppen källkod på marknaden. Det innebär att du kan skapa text som kombinerar kod, statistiska beräkningar och visualiseringar som berättar en historia om uppgifterna. För att förenkla integreringen för dig har vi samarbetat med Jupyter-communityn för att förbättra kärnan och göra det möjligt att köra Spark via en REST-slutpunkt, vilket är intressant för dataexperter.

Integrerat med R Server, ett stort R-kompatibelt bibliotek för parallell analys och maskininlärning

Använd Spark för Azure HDInsight som motor för att köra R Server, som har ett stort bibliotek för parallell analys och maskininlärning som skapats för användning med R-språket med öppen källkod. Det låter dig dra nytta av det välkända R, samtidigt som du utnyttjar enterprise-skalan hos R Server som körs på Spark. Med matematikbibliotek med flera trådar och transparent parallellisering i R Server, i kombination med Spark, betyder det att du kan hantera upp till 1 000 gånger mer data och upp till 50 gånger snabbare hastigheter än med R med öppen källkod, vilket låter dig skapa mer exakta modeller för bättre förutsägelser än tidigare.

Högsta tillgänglighet för affärskontinuitet

För att köra Spark i högsta skala ger dig Microsoft en serviceavtalsgaranti på branschens högsta tillgänglighet på 99,9 % för att säkerställa affärskontinuitet och skydd mot katastrofhändelser. Tillsammans med Cloudera ledde vi projektet Livy där vi skapade en Apache-licensierad REST-webbtjänst med öppen källkod för hantering av Spark-kontexter som körs länge och sändning av Spark-jobb. Den här nya funktionen är utformad för att göra Spark till en mer stabil serverdel för att köra interaktiva anteckningsböcker och tillåta att andra program utnyttjar Spark för sina interaktiva arbetsbelastningar.

Analysera valfria data med valfri storlek utan ändringar när de växer

För att se till att Spark körs i skala har vi integrerat Spark med Azure Data Lake Store. Integreringen är endast tillgänglig från Microsoft och gör att Spark kan lagra och bearbeta data som skalas till valfri storlek utan tvingande ändringar av programmet när data växer. Tack vare den här integreringen kan du implementera rollbaserade dataåtkomstkontroller på lagringsnivå.

Realtidsbearbetning för realtidsscenarion

Dagens uppkopplade värld definieras av Big Data som kommer i realtid. Spark Stream för HDInsight är perfekt för utmanande realtidsscenarion. Det möjliggör flera olika alternativ, inklusive IoT-situationer (Sakernas Internet) som fjärrhantering och övervakning i realtid och att få information från enheter som mobiltelefoner och anslutna bilar.

Enkel konfigurering, snabba resultat

Du slipper tidskrävande installationer och konfigureringar med Spark för HDInsight. Azure gör det åt dig. Du kommer igång på några minuter och kan distribuera Spark utan att behöva köpa ny maskinvara eller betala andra startavgifter.

Elastisk kapacitet för Big Data

Spark för HDInsight utnyttjar kraften i Azure, vilket gör det enkelt för dig att skapa kluster av alla storlekar för att bearbeta vilken mängd data som helst. Du betalar endast för den beräkning och lagring som du använder.

Prova HDInsight kostnadsfritt