Questions? Feedback? powered by Olark live chat software
Hoppa över navigering

Apache Spark för Azure HDInsight

Apache Spark i molnet för verksamhetskritiska distributioner

Vad är Apache Spark?

Apache Spark är ett bearbetningsramverk med öppen källkod som kör storskaliga dataanalysprogram. Spark bygger på en minnesintern databearbetningsmotor och möjliggör frågekörning på stordata med höga prestanda. Ett parallellt databearbetningsramverk används, där data bevaras i minnet och på disk om så behövs. På så sätt kan Spark leverera 100 gånger högre hastighet och en gemensam körningsmodell för olika uppgifter, t.ex. ETL (Extract, Transform, Load), batchfrågekörning, interaktiva frågor på data i HDFS (Hadoop Distributed File System) och annat. Tack vare Azure är Apache Spark lätt och kostnadseffektivt att distribuera utan någon maskinvara att köpa, ingen programvara att konfigurera, en fullständig anteckningsbok för kommentarer samt integrering med Business Intelligence-verktyg från partner.

Titta på en översiktsvideo

En körningsmodell för flera uppgifter

Apache Spark använder en gemensam körningsmodell för flera olika uppgifter, t.ex. ETL, batchfrågekörning, interaktiva frågor, realtidsströmning, maskininlärning och diagrambearbetning på data som är lagrade i Azure Data Lake Store. På så sätt kan du använda Spark för Azure HDInsight till att lösa utmaningar med stordata i nästintill realtid, t.ex. bedrägerikontroll, klickströmsanalys, finansaviseringar, telemetri från anslutna sensorer och enheter (IoT, Internet of Things), analys av sociala medier, ETL-pipelines som är ”alltid på” samt övervakning av nätverk.

Minnesintern bearbetning för interaktiva scenarion

Dagens användare förväntar sig snabba svar på sina frågor i stället för att vänta i minuter, timmar eller dagar. Apache Spark uppfyller detta genom att ha kvar data i minnet för att uppnå upp till 100 gånger snabbare frågekörning vid bearbetning av stora datamängder i Hadoop. Det gör Spark för Azure HDInsight perfekt för att snabba på intensiva stordataprogram.

Interna utvecklarfunktioner och fjärrfelsökning med hjälp av IntelliJ IDEA

För att göra utvecklingen i Spark enklare har vi introducerat bättre integrering med IntelliJ IDEA så att utvecklare kan koda med internt redigeringsstöd för Scala och Java. Du kan utföra fjärrfelsökning, vilket ger flexibilitet i utvecklingslivscykeln och möjligheten att skicka programmet till Azure när det är klart. Spark för HDInsight-kluster levereras också med de populäraste Python-biblioteken (Anaconda) för maskininlärning.

Analysera stordata interaktivt med hjälp av BI-verktyg

För affärsanalytiker erbjuder vi integrering med Power BI samt andra Business Intelligence-verktyg, bland annat Tableau, SAP Lumira och QlikView. Det innebär att du kan skapa interaktiva visualiseringar utifrån data med valfri storlek. Utöver de traditionella instrumentpanelerna erbjuder Power BI en strömningsanslutningstjänst med integrering med Spark, så att du kan publicera realtidshändelser från Spark Streaming direkt till Power BI.

Direkt anteckningsbokupplevelse

Till skillnad från andra Spark-erbjudanden, som kräver att du installerar egna anteckningsböcker eller utnyttjar tillverkarspecifika anteckningsböcker, har Spark för HDInsight direkt integrering med Jupyter (iPython), den populäraste anteckningsboken med öppen källkod på marknaden. Det innebär att du kan skapa text som kombinerar kod, statistiska beräkningar och visualiseringar som berättar en historia om uppgifterna. För att förenkla integreringen för våra kunder har vi samarbetat med Jupyter-communityn och förbättrat kärnan så att det blir möjligt med Spark-körning via en REST-slutpunkt, vilket är intressant för dataexperter.

Integrerat med R-server, det största R-kompatibla, parallella analys och ML-biblioteket

Spark för Azure HDInsight kan utnyttjas som en motor för att köra R-server, som har det största biblioteket för parallell analys och maskininlärning som skapats för användning med R-språket med öppen källkod. Det låter dig dra nytta av det välkända R, samtidigt som du utnyttjar enterprise-skalan hos R-server som körs på Spark. Med matematikbibliotek med flera trådar och transparent parallellisering i R-server kan du hantera upp till 1 000 gånger mer data och upp till 50 gånger snabbare hastigheter än med R med öppen källkod, vilket låter dig skapa mer exakta modeller för bättre förutsägelser än vad som har varit möjligt tidigare.

Garanti om högsta tillgänglighet för affärskontinuitet

För att köra Spark i högsta skala tillhandahåller Microsoft en serviceavtalsgaranti om branschens högsta tillgänglighet på 99,9 % för att säkerställa affärskontinuitet och skydd mot katastrofhändelser. Det gjorde vi genom att tillsammans med Cloudera leda projektet Livy och skapa en Apache-licensierad REST-webbtjänst med öppen källkod för hantering av Spark-kontexter som körs länge och sändning av Spark-jobb. Den nya funktionen har utformats för att göra Spark till en mer stabil serverdel för att köra interaktiva anteckningsböcker och tillåta att andra program utnyttjar Spark för sina interaktiva arbetsbelastningar.

Analysera valfria data med valfri storlek utan ändringar när de växer

För att se till att Spark körs i skala har vi integrerat Spark med Azure Data Lake Store. Integreringen är endast tillgänglig från Microsoft och gör att Spark kan lagra och bearbeta data som skalas till valfri storlek utan tvingande ändringar av programmet när data växer. Tack vare integreringen kan du även implementera rollbaserade dataåtkomstkontroller på lagringsnivå.

Realtidsbearbetning för realtidsscenarion

Dagens uppkopplade värld definieras av Big Data som kommer i realtid. Spark Stream för HDInsight är perfekt för utmanande realtidsscenarion. Det möjliggör flera olika alternativ, bland annat IoT-situationer, till exempel fjärrhantering i realtid och övervakning, eller informationshämtning från enheter som mobiltelefoner eller anslutna bilar.

Enkel konfigurering, snabba resultat

Med Spark för HDInsight slipper du tidskrävande installation och konfigurering. Azure gör det åt dig. Du kommer igång på några minuter och kan distribuera Spark utan att behöva betala för ny maskinvara eller andra startkostnader.

Elastisk kapacitet för Big Data

Spark för HDInsight använder kraften i Azure-molnet, vilket gör det lättare att skapa kluster i alla storlekar och bearbeta vilken mängd data som helst på begäran. Vi debiterar endast för den behandling och lagring som du faktiskt använder.

Prova HDInsight kostnadsfritt