Apache Spark for Azure HDInsight

Apache Spark i skyen for driftskritiske distribusjoner

Hva er Apache Spark?

Apache Spark er et behandlingsrammeverk med åpen kilde som kjører dataanalyseapper i stor skala. Spark er bygget på en minneintern databehandlingsmotor og gir høy ytelse ved spørring av store data. Den drar nytte av et rammeverk for parallell databehandling som beholder data internt i minnet og på disk om nødvendig. På den måten kan Spark levere både 100 ganger høyere hastighet og en felles kjøringsmodell for oppgaver som blant annet ETL, batchoppgaver og interaktive spørringer på data i Hadoop Distributed File System (HDFS). Azure gjør det enkelt og kostnadseffektivt å distribuere Apache Spark. Du trenger ikke kjøpe maskinvare eller konfigurere programvare, og du får en komplett notatblokkopplevelse for å forfatte fengslende tekster samt integrasjon med BI-verktøy fra tredjeparter.

Se en oversiktsvideo for Apache Spark

Kjernemotoren Apache Spark sørger for et prosessrammeverk som kan kombinere forskjellige prosesstyper, inkludert Spark SQL, Spark Streaming, MLlib (maskinlæring) og GraphX (grafberegning).

Én kjøringsmodell for flere oppgaver

Apache Spark drar nytte av en felles kjøringsmodell for å utføre flere oppgaver, blant annet ETL, batchspørringer, interaktive spørringer, strømming i sanntid, maskinlæring og diagrambehandling, på data lagret i Azure Data Lake Store. Dette gjør det mulig å bruke Spark for Azure HDInsight til å løse utfordringer med store data i nær sanntid, blant annet svindelidentifisering, klikkstrømanalyse, økonomivarsler, telemetri fra tingenes Internett (IoT), sensorer og enheter, sosial analyse, alltid aktiverte ETL-datasamlebånd, og nettverksovervåkning.

Minneintern behandling for interaktive scenarioer

Dagens kunder forventer raske svar på spørsmålene sine i stedet for å måtte vente minutter, timer eller dager. Apache Spark sikrer dette ved å beholde data i minnet, noe som gir opptil 100 ganger raskere spørringer ved behandling av store datasett i Hadoop. Dette gjør Spark for Azure HDInsight til en ideell løsning for å få fart på intensive anvendelser av store data.

Bruk IntelliJ IDEA for egen utviklergrensesnitt og ekstern feilsøking

For å gjøre utvikling på Spark enklere har vi introdusert en dyp integrering med IntelliJ IDEA for å gjøre det mulig å kode med innebygd redigeringsstøtte for Scala og Java. Du kan utføre ekstern feilsøking, noe som gir fleksibilitet i utviklingssyklusen og mulighet til å sende programmet til Azure når det er ferdig. Spark for HDInsight-klynger er også forhåndsinnlastet med de mest populære Python-bibliotekene (Anaconda) for maskinlæring.

Utnytt fordelen ved BI-verktøy for å analysere store data interaktivt

For forretningsanalytikere kan vi tilby integrering med Power BI samt andre forretningsintelligensverktøy som Tableau, SAP BusinessObjects Lumira og QlikView. Slik kan du bygge interaktive visualiseringer av data i alle størrelser. I tillegg til de tradisjonelle instrumentpanelene tilbyr Power BI en strømmekobling som integrerer med Spark, slik at du kan publisere hendelser fra Spark Streaming direkte til Power BI.

Leveres med notatblokk-integrering

Til forskjell fra andre Spark-tilbud hvor du må installere dine egne notatblokkprogrammer eller benytte deg av fordelen ved egne løsninger, leveres Spark for HDInsight med integrering for Jupyter (iPython), markedets mest populære notatblokkprogram med åpen kilde. Ved hjelp av dette kan du lage tekster som kombinerer kode, statistiske beregninger og visualiseringer som forteller en historie om dataene. For å gjøre integreringen enklere for deg, har vi arbeidet med Jupyter-samfunnet for å forbedre kjernen som gjør det mulig å kjøre Spark via et REST-endepunkt, noe IT-eksperter vil sette pris på.

Integrer med R Server – et stort maskinlæringsbibliotek for parallell analyse med R-kompatibilitet

Bruk Spark for Azure HDInsight som en motor til å kjøre R Server, som har det største biblioteket for parallell analyse og maskinlæring, utviklet for å fungere med åpen kilde R-språk. Dette lar det utnytte kjennskapen til R, med foretaksnivå og R Server som kjører på Spark. Flertrådede matematiske biblioteker og gjennomsiktig parallellisering i R Server, kombinert med Spark, betyr at du kan håndtere opptil 1000x mer data og opptil 50x raskere hastighet enn åpen kildekode-R. Dette hjelper deg til å trene opp mer nøyaktige modeller for bedre prognoser enn det som før var mulig.

Høy tilgjengelighet for kontinuerlig forretningsdrift

For at du skal kunne kjøre Spark i høyeste skala, har Microsoft en serviceavtale (SLA) med bransjens høyeste tilgjengelighet på 99,9 % for å sikre kontinuerlig drift for bedriften og beskyttelse mot katastrofehendelser. Vi har gjort dette i sammen med Cloudera og prosjektet Livy for å skape en Apache-lisensiert REST-webtjeneste med åpen kilde for å administrere Spark-kontekster med lang kjøretid og levere Spark-jobber. Denne nye funksjonaliteten ble utviklet for å gi Spark en mer robust serverdel for å drive interaktive notisblokker og la andre programmer bruke Spark til å dra nytte av dets interaktive belastninger.

Analyser data i alle størrelser uten at noe endrer seg når dataene vokser

For å sikre at Spark kjører skalert har vi integrert Spark med Azure Data Lake Store. Denne integreringen er kun tilgjengelig fra Microsoft og gjør det mulig for Spark å lagre og behandle data i alle størrelser uten å tvinge programmet til å gjøre endringer etter hvert som dataene vokser. Via denne integreringen kan du implementere rollebaserte datatilgangskontroller på lagernivå.

Sanntidsbehandling for sanntidsscenarioer

Dataverdenen i dag er definert av store data som ankommer i sanntid. Spark Stream for HDInsight er perfekt for utfordrende sanntidsscenarioer. Den aktiverer ulike muligheter, deriblant scenarioer for Tingenes Internett (IoT), ekstern administrasjon og overvåking i sanntid og innsikt fra enheter som mobiltelefoner og tilkoblede biler.

Enkel installasjon, raske resultater

Med Spark for HDInsight er det ikke behov for tidkrevende installasjon eller konfigurasjon. Azure gjør jobben for deg. Du er i gang på få minutter og kan distribuere Spark uten behov for ny maskinvare eller andre forhåndskostnader.

Elastisk kapasitet for store data

Spark for HDInsight drar nytte av kraften til Azure, slik at det blir lettere å opprette klynger av alle størrelser for å behandle alle datamengder på forespørsel. Du betaler bare for databehandlingen og lagringsplassen du bruker.

Prøv HDInsight gratis