Questions? Feedback? powered by Olark live chat software
Spring over navigation

Apache Spark for Azure HDInsight

Apache Spark i clouden til missionskritiske udrulninger

Hvad er Apache Spark?

Apache Spark er en behandlingsstruktur med åben kildekode, som kører programmer til dataanalyse i stor målestok. Spark er baseret på et beregningsprogram i hukommelsen og muliggør højtydende forespørgsel på Big Data. Det gør brug af en parallel databehandlingsstruktur, der permanent har data i hukommelsen og på disk, hvis det er nødvendigt. Det giver Spark mulighed for at levere 100 gange hurtigere hastighed og en fælles udførelsesmodel til forskellige opgaver som ETL (udtrækning, transformering og indlæsning), batch, interaktive forespørgsler og andet i data i HDFS (Hadoop-distribueret filsystem). Azure gør Apache Spark nem og billig at implementere, uden at der skal købes hardware, uden at der skal konfigureres software, med en komplet notesbogsoplevelse til udarbejdelse af overbevisende fortællinger og integration med BI-værktøjer fra partnere.

Se en oversigtsvideo

En udførelsesmodel til flere opgaver

Apache Spark gør brug af en fælles udførelsesmodel til at udføre flere opgaver som ETL, batchforespørgsler, interaktive forespørgsler, streaming i realtid, maskinindlæring og grafbehandling af data, der er lagret i Azure Data Lake Store. På den måde kan du bruge Spark for Azure HDInsight til at løse udfordringer ved Big Data i realtid, f.eks. registrering af svindel, clickstream-analyse, økonomiske advarsler, telemetri fra tilsluttede sensorer og enheder (Tingenes internet – IoT), social analyse, ETL-pipelines, der altid er "på" og netværksovervågning.

Behandling i hukommelsen for interaktive scenarier

De moderne brugere forventer hurtigt svar på deres spørgsmål i stedet for at skulle vente i flere minutter, timer eller dage. Apache Spark leverer ved permanent at have data i hukommelsen, så der fås op til 100 x hurtigere forespørgsler, samtidig med at der behandles store datasæt i Hadoop. Det gør Spark for Azure HDInsight ideel til at øge hastigheden i intensive Big Data-programmer.

Oprindelige udvikleroplevelser og fjernbaseret fejlfinding vha. IntelliJ IDEA

For at gøre udvikling på Spark lettere har vi introduceret en stærk integration med IntelliJ IDEA, så udviklerne kan kode med understøttelse af oprindelig oprettelse vha. Scala og Java. Du kan udføre fjernbaseret fejlfinding, som giver dig fleksibilitet i forhold til din udviklingslivscyklus samt mulighed for at sende programmet til Azure, når det er klar. Spark for HDInsight-klynger leveres også forudindlæst med de mest populære Python-biblioteker (Anaconda) til maskinindlæring.

Udnyt BI-værktøjer, så du interaktivt kan analysere Big Data

Hvis du er forretningsanalytiker, tilbyder vi integration med Power BI sammen med andre Business Intelligence-værktøjer, såsom Tableau, SAP Lumira og QlikView. På denne måde kan du skabe interaktive visualiseringer over data uanset datamængde. Udover de traditionelle dashboards tilbyder Power BI en streamingforbindelse, som kan integreres med Spark. Det giver dig mulighed for at publicere hændelser fra Spark Streaming direkte til Power BI i realtid.

Køreklar notesbogsoplevelse

Til forskel fra andre Spark-tilbud, som kræver, at du installerer dine egne notesbøger eller udnytter privatejede notesbøger, er Spark for HDInsight klar til integration med Jupyter (iPython), den mest populære notesbog med åben kildekode på markedet. Dermed kan du oprette beretninger, der kombinerer kode, statistiske ligninger og visualiseringer, som fortæller en historie om dataene. Med henblik på at forenkle integrationen for vores kunder, har vi samarbejdet med Jupyter-community'et om at forbedre den kerne, som giver mulighed for Spark-udførelse via et REST-slutpunkt. Det giver dataeksperter en fantastisk oplevelse.

Integreret med R Server – det største R-kompatible bibliotek med parallelanalyser og maskinel indlæring

Spark til Azure HDInsight kan bruges som maskine til at køre R Server, med det største bibliotek med parallelanalyser og maskinel indlæring, der er bygget til at fungere sammen med åben kildekode-sproget R. Det giver dig mulighed for at bruge de velkendte funktioner i R sammen med den store kapacitet fra R Server, der kører på Spark. Flertrådede matematikbiblioteker og gennemsigtig parallelisering i R Server kombineret med Spark betyder håndtering af datamængder, der er op til 1.000 gange større, op til 50 gange hurtigere end med åben kildekode-sproget R – hvilket giver dig mulighed for oplæring af mere præcise modeller, så du kan opnå bedre forudsigelser, end hvad der tidligere var muligt.

Den højeste tilgængelige garanti for forretningskontinuitet

Microsoft har den SLA-garanti i branchen, som har den højeste tilgængelighed på 99,9 %, så du kan køre Spark i den højeste skalering. Det sikrer forretningskontinuitet og beskyttelse mod katastrofale hændelse. Det har vi gjort ved sammen med Cloudera at være toneangivende med projektet Livy, hvor der oprettes en Apache-licenseret REST-webstjeneste i åben kildekode til administration af Spark-kontekster, der kører i lang tid samt indsendelse af Spark-job. Denne nye egenskab blev udviklet til at gøre Spark til en mere robust backend i forbindelse med kørsel af interaktive notesbøger samt for at tillade andre programmer at udnytte Spark til deres interaktive arbejdsbelastninger.

Analysér data i en hvilken som helst volumen, uden at der sker ændringer, efterhånden som datamængden øges

Vi har integreret Spark med Azure Data Lake Store for at sikre, at Spark kan køre i stor skala. Denne integration er kun tilgængelig hos Microsoft, og den giver Spark mulighed for at gemme og behandle data, der kan skaleres til en vilkårlig størrelse, uden at det medfører ændringer af programmet, efterhånden som datamængderne øges. Med denne integration kan du også implementere rollebaserede dataadgangskontroller på lagerniveau.

Behandling i realtid for scenarier i realtid

Hele verden er i dag forbundet og defineres af Big Data, der ankommer i realtid. Spark Stream for HDInsight er ideel til svære scenarier i realtid. Det vil muliggøre forskellige muligheder herunder IoT-scenarier, såsom fjernadministration i realtid og overvågning eller opnåelse af indblik via enheder som mobiltelefoner eller opkoblede biler.

Nem opsætning, hurtige resultater

Med Spark for HDInsight er der ingen tidskrævende installation eller opsætning. Azure klarer det hele for dig. Du er klar til at gå i gang på få minutter og kan implementere Spark uden at skulle købe ny hardware eller betale noget på forskud.

Elastisk kapacitet for Big Data

Spark for HDInsight udnytter kraften i Azure-skyen til at gøre det nemmere at oprette klynger af enhver størrelse til at behandle alle mængder data efter behov. Vi opkræver kun betaling for den beregning og det lager, du rent faktisk bruger.

Prøv HDInsight gratis