Apache Spark voor Azure HDInsight

Apache Spark in de cloud voor essentiële implementaties

Wat is Apache Spark?

Apache Spark is een open-source verwerkingsframework waarmee grootschalige toepassingen voor gegevensanalyse worden uitgevoerd. Spark is gebaseerd op een rekenengine die is geïntegreerd in het geheugen, en zorgt voor hoge prestaties bij het uitvoeren van query's bij big data. Het profiteert van een framework voor parallelle gegevensverwerking die indien nodig kan omgaan met in een geheugen geïntegreerde gegevens of schijfgegevens. Op deze manier kan Spark zowel een 100x hogere snelheid als een gemeenschappelijk uitvoeringsmodel bieden voor taken als extraheren, transformeren, laden (ETL), batch, interactieve query's en andere taken voor gegevens in een Apache HDFS (Hadoop Distributed File System). Azure maakt Apache Spark gemakkelijk en betaalbaar te implementeren. Er hoeft geen hardware te worden aangeschaft en geen software te worden geconfigureerd. Het biedt een volledige notebookervaring voor aansprekende scenario's en integratie met Business Intelligence-hulpmiddelen van partners.

Bekijk een video met een overzicht van Apache Spark

De Apache Spark-kernengine biedt een verwerkingsframework waarmee verschillende verwerkingstypen kunnen worden gecombineerd, waaronder Spark SQL, Spark Streaming, MLlib (machine learning) en GraphX (grafiekberekening).

Eén uitvoeringsmodel voor meerdere taken

Apache Spark profiteert van een gemeenschappelijk uitvoeringsmodel voor meerdere taken, zoals ETL, batchquery's, interactieve query's, realtime streaming, machine learning en grafische verwerking voor gegevens die zijn opgeslagen in Azure Data Lake Store. Zo kunt u Spark voor Azure HDInsight gebruiken voor het aangaan van uitdagingen op big data-gebied, nagenoeg in realtime. Denk bijvoorbeeld aan fraudedetectie, klikstreamanalyse, financiële meldingen, telemetrie van sensors en apparaten van het Internet of Things (IoT), sociale analyses, 'always on' ETL-pijplijnen en netwerkbewaking.

Verwerking in het geheugen voor interactieve scenario's

De klanten van vandaag verwachten een snel antwoord op hun vragen en willen geen minuten, uren of dagen meer op een antwoord wachten. Apache Spark maakt dit waar door gegevens in het geheugen te controleren voor 100x snellere query's, terwijl grote gegevenssets worden verwerkt in Hadoop. Dit maakt Spark voor Azure HDInsight ideaal voor het versnellen van intensieve big data-toepassingen.

Gebruik IntelliJ IDEA voor systeemeigen ontwikkelaarservaringen en het opsporen van fouten op afstand

Wij hebben de ontwikkeling van Spark gemakkelijker gemaakt dankzij een diepgaande integratie met IntelliJ IDEA zodat u code kunt gebruiken met systeemeigen ontwerpondersteuning voor Scala en Java. U kunt fouten op afstand opsporen, waardoor u flexibel kunt ontwikkelen en de mogelijkheid hebt om de toepassing wanneer die klaar is, naar Azure te verzenden. Spark voor HDInsight-clusters worden ook vooraf geladen met de populairste Python-bibliotheken (Anaconda) voor machine learning.

Profiteer van Business Intelligence-hulpmiddelen om big data te analyseren

Voor zakelijke analisten bieden wij behalve andere Business Intelligence-hulpmiddelen, zoals Tableau, SAP BusinessObjects Lumira en QlikView, ook integratie met Power BI. Op die manier kunt u interactieve visualisaties van gegevens van elke grootte maken. Behalve de traditionele dashboards levert Power BI een streaming-connector die is geïntegreerd met Spark, waardoor u vanuit Spark Streaming rechtstreeks en in realtime gebeurtenissen kunt publiceren naar Power BI.

Klant-en-klare notebook-ervaring

In tegenstelling tot andere Spark-aanbiedingen, waarbij u uw eigen notebooks moet installeren of notebooks van anderen moet gebruiken, kan Spark for HDInsight direct worden geïntegreerd met Jupyter (iPython), het populairste open source-notebook op de markt. Zo kunt u scenario's maken waar code, statistische vergelijkingen en visualisaties worden gecombineerd die meer zeggen over de gegevens. We hebben de integratie gemakkelijker gemaakt voor u door samen te werken met de Jupyter-community om de kernel te verbeteren, waardoor Spark via een REST-eindpunt kan worden uitgevoerd, wat gegevenswetenschappers een fascinerende ervaring geeft.

Geïntegreerd met R Server – een grote R-compatibele bibliotheek voor parallelle analyse en Machine Learning

Gebruik Spark for Azure HDInsight als een engine voor R Server, die is voorzien van een grote bibliotheek voor parallelle analyses en Machine Learning voor samenwerking met de open source-taal R. Hierdoor kunt u profiteren van de vertrouwdheid van R, met R Server op ondernemingsschaal die op Spark wordt uitgevoerd. Dankzij de multi-threaded wiskundebibliotheken en transparante parallellisering in R Server in combinatie met Spark kunnen tot wel 1000x meer gegevens worden verwerkt en tot wel 50x hogere snelheden worden bereikt dan bij open-source R, zodat u nauwkeurigere modellen kunt trainen voor het doen van betere voorspellingen dan voorheen.

Hoogste beschikbaarheid voor bedrijfscontinuïteit

Spark kan op de hoogste schaal worden uitgevoerd, omdat Microsoft u met 99,9% de hoogst mogelijk beschikbare SLA geeft om u ervan te verzekeren dat uw bedrijfsactiviteiten niet worden onderbroken en u beschermd bent tegen catastrofale gebeurtenissen. Samen met Cloudera en het project Livy hebben we het project geleid om een door Apache gelicentieerde open-source REST-webservice te maken voor het beheren van langlopende Spark-contexten en het indienen van Spark-taken. Deze nieuwe mogelijkheid is ontworpen om van Spark een robuustere back-end voor het uitvoeren van interactieve notebooks te maken en om andere toepassingen te laten profiteren van Spark voor hun interactieve workloads.

Gegevens van elke grootte analyseren zonder wijzigingen naarmate de hoeveelheid gegevens groter wordt

We hebben Spark geïntegreerd met Azure Data Lake Store om ervoor te zorgen dat Spark op schaal wordt uitgevoerd. Deze integratie is alleen verkrijgbaar bij Microsoft en maakt dat Spark gegevens die naar elke grootte kunnen worden geschaald, kan opslaan en verwerken zonder dat uw toepassing noodgedwongen moet worden gewijzigd wanneer de hoeveelheid gegevens groter wordt. Via deze integratie kunt u ook gegevenstoegangsbeheer op basis van rollen implementeren op het opslagniveau.

Realtime verwerking van realtime scenario's

De wereld van vandaag draait om big data die in realtime wordt aangeleverd. Spark Stream for HDInsight is ideaal voor uitdagende realtime scenario's. Het voorziet in verschillende mogelijkheden, waaronder IoT-scenario's (Internet Of Things; internet der dingen), het in realtime extern beheren en controleren van apparaten en het verkrijgen van inzichten op basis van apparaten als mobiele telefoons en verbonden auto's.

Eenvoudig instellen, snel resultaat

Met Spark voor HDInsight is er geen tijdrovende installatie of configuratie nodig. Azure doet het allemaal voor u. Het is binnen enkele minuten voor elkaar, en u kunt Spark implementeren zonder nieuwe hardware aan te schaffen of vooraf andere kosten te maken.

Flexibele capaciteit voor big data

Spark voor HDInsight profiteert van de schaalbaarheid van Azure, wat het u gemakkelijker maakt om clusters van elke grootte te maken voor het verwerken van elke hoeveelheid gegevens op aanvraag. U betaalt alleen de gebruikte reken- en opslagcapaciteit.

Probeer HDInsight gratis