Apache Spark for Azure HDInsight

Apache Spark i clouden til missionskritiske udrulninger

Hvad er Apache Spark?

Apache Spark er en behandlingsstruktur med åben kildekode, som kører programmer til dataanalyse i stor målestok. Spark er baseret på et beregningsprogram i hukommelsen, som muliggør højtydende forespørgsel på Big Data. Det gør brug af en parallel databehandlingsstruktur, der permanent har data i hukommelsen og på disk, hvis det er nødvendigt. Det giver Spark mulighed for at levere 100 gange hurtigere hastighed og en fælles udførelsesmodel til opgaver som ETL (udtrækning, transformering og indlæsning), batch, interaktive forespørgsler og andet i data i HDFS (Apache Hadoop-distribueret filsystem). Azure gør Apache Spark nem og billig at implementere, uden at der skal købes hardware, uden at der skal konfigureres software, med en komplet notesbogsoplevelse til udarbejdelse af overbevisende fortællinger og integration med BI-værktøjer fra partnere.

Se en Apache Spark-oversigtsvideo

Kerneprogrammet Apache Spark sørger for en processtruktur, der kan kombinere forskellige procestyper, herunder SQL, Spark Streaming, MLlib (machine learning) og GraphX (grafberegning).

En udførelsesmodel til flere opgaver

Apache Spark drager fordel af en fælles udførelsesmodel til at udføre flere opgaver som ETL, batchforespørgsler, interaktive forespørgsler, streaming i realtid, maskinindlæring og grafbehandling af data, der er lagret i Azure Data Lake Store. På den måde kan du bruge Spark for Azure HDInsight til at løse udfordringer ved Big Data i realtid, f.eks. registrering af svindel, clickstream-analyse, økonomiske advarsler, telemetri fra IoT-sensorer og -enheder (Tingenes internet), social analyse, ETL-pipelines, der altid er "på" og netværksovervågning.

Behandling i hukommelsen for interaktive scenarier

I dag forventer brugerne hurtigt svar på deres spørgsmål i stedet for at skulle vente i flere minutter, timer eller dage. Apache Spark leverer ved permanent at have data i hukommelsen, så der fås op til 100 x hurtigere forespørgsler, samtidig med at der behandles store datasæt i Hadoop. Det gør Spark for Azure HDInsight ideel til at øge hastigheden i intensive Big Data-programmer.

Brug IntelliJ IDEA til oprindelige udvikleroplevelser og fjernbaseret fejlfinding

For at gøre udvikling på Spark lettere har vi introduceret en stærk integration med IntelliJ IDEA, så du kan kode med understøttelse af oprindelig oprettelse vha. Scala og Java. Du kan udføre fjernbaseret fejlfinding, som giver dig fleksibilitet i forhold til din udviklingslivscyklus samt mulighed for at sende programmet til Azure, når det er klar. Spark for HDInsight-klynger leveres også forudindlæst med de mest populære Python-biblioteker (Anaconda) til maskinindlæring.

Gør brug af BI-værktøjer, så du interaktivt kan analysere Big Data

Hvis du er forretningsanalytiker, tilbyder vi integration med Power BI sammen med andre Business Intelligence-værktøjer, såsom Tableau, SAP BusinessObjects Lumira og QlikView. På denne måde kan du skabe interaktive visualiseringer over data uanset datamængde. Udover de traditionelle dashboards giver Power BI dig en streamingforbindelse, som kan integreres med Spark. Det giver dig mulighed for at publicere hændelser fra Spark Streaming direkte til Power BI i realtid.

Køreklar notesbogsoplevelse

Til forskel fra andre Spark-tilbud, som kræver, at du installerer dine egne notesbøger eller drager fordel af privatejede notesbøger, er Spark for HDInsight klar til integration med Jupyter (iPython), den mest populære notesbog med åben kildekode på markedet. Dermed kan du oprette beretninger, der kombinerer kode, statistiske ligninger og visualiseringer, som fortæller en historie om dataene. Med henblik på at gøre integrationen enklere for dig, har vi samarbejdet med Jupyter-community'et om at forbedre den kerne, som giver mulighed for Spark-udførelse via et REST-slutpunkt. Det giver dataeksperter en fantastisk oplevelse.

Integreret med R Server – et stort R-kompatibelt bibliotek med parallelanalyser og maskinel indlæring

Brug Spark til Azure HDInsight som maskine til at køre R Server, som har et stort bibliotek med parallelanalyser og maskinel indlæring, der er bygget til at fungere sammen med åben kildekode-sproget R. Det giver dig mulighed for at bruge de velkendte funktioner i R sammen med den store kapacitet fra R Server, der kører på Spark. Flertrådede matematikbiblioteker og gennemsigtig parallelisering i R Server kombineret med Spark betyder håndtering af datamængder, der er op til 1.000 gange større, op til 50 gange hurtigere end med åben kildekode-sproget R – hvilket giver dig mulighed for oplæring af mere præcise modeller, så du kan opnå bedre forudsigelser, end hvad der tidligere var muligt.

Den højeste tilgængelige forretningskontinuitet

Microsoft har den SLA i branchen, som har den højeste tilgængelighed på 99,9 %, så du kan køre Spark i den højeste skalering. Det sikrer forretningskontinuitet og beskyttelse mod katastrofale hændelse. I samarbejde med Cloudera er vi toneangivende med projektet Livy og har oprettet en Apache-licenseret REST-webtjeneste i åben kildekode til administration af Spark-kontekster, der kører i lang tid samt indsendelse af Spark-job. Denne nye egenskab er udviklet til at gøre Spark til en mere robust backend i forbindelse med kørsel af interaktive notesbøger samt for at tillade andre programmer at udnytte Spark til deres interaktive arbejdsbelastninger.

Analysér data i en hvilken som helst volumen, uden at der sker ændringer, efterhånden som datamængden øges

Vi har integreret Spark med Azure Data Lake Store for at sikre, at Spark kører i stor skala. Denne integration er kun tilgængelig hos Microsoft, og den giver Spark mulighed for at gemme og behandle data, der kan skaleres til en vilkårlig størrelse, uden at det medfører ændringer af programmet, efterhånden som datamængderne øges. Med denne integration kan du implementere rollebaserede dataadgangskontroller på lagerniveau.

Behandling i realtid for scenarier i realtid

Hele verden er i dag forbundet og defineres af Big Data, der ankommer i realtid. Spark Stream for HDInsight er ideel til svære scenarier i realtid. Det muliggør forskellige muligheder herunder IoT-scenarier (Tingenes internet), såsom fjernadministration i realtid samt overvågning og opnåelse af indblik via enheder som mobiltelefoner eller opkoblede biler.

Nem opsætning, hurtige resultater

Der er ingen tidskrævende installation eller konfiguration med Spark for HDInsight. Azure klarer det hele for dig. Du er klar til at gå i gang på få minutter og kan implementere Spark uden at skulle købe ny hardware eller betale noget på forskud.

Elastisk kapacitet for Big Data

Spark for HDInsight udnytter effekten ved Azure, som gør det nemmere at oprette klynger af enhver størrelse for at behandle alle mængder data efter behov. Du betaler kun for den beregning og det lager, du bruger.

Prøv HDInsight gratis