Apache Spark für Azure HDInsight

Apache Spark in der Cloud für unternehmenskritische Bereitstellungen

Was ist Apache Spark?

Bei Apache Spark handelt es sich um ein Open Source-Verarbeitungsframework, mit dem Sie Anwendungen für umfangreiche Datenanalysen ausführen können. Spark basiert auf einem In-Memory-Computemodul und ermöglicht so eine hohe Abfrageleistung für Big Data. Spark nutzt ein Framework für die parallele Datenverarbeitung, um Daten bei Bedarf in den Arbeitsspeicher und auf Datenträger zu schreiben. Dadurch profitieren Sie mit Spark von einer 100-mal schnelleren Abfrageleistung und einem einheitlichen Ausführungsmodell für Aufgaben wie ETL-Prozesse (Extrahieren, Transformieren, Laden), Batchverarbeitung, interaktive Abfragen und andere Vorgänge, die für Daten in einem Apache Hadoop Distributed File System (HDFS) ausgeführt werden. Azure ermöglicht eine problemlose und kosteneffektive Bereitstellung von Apache Spark, ohne dass Sie zu diesem Zweck Hardware erwerben oder Software konfigurieren müssen. Darüber hinaus profitieren Sie von den umfangreichen Funktionen einer Notebookanwendung, mit der Sie Berichte ansprechend gestalten können, sowie von Integrationsmöglichkeiten mit Business Intelligence-Tools von Partnern.

Video mit einer Übersicht über Apache Spark ansehen

Das Apache Spark-Hauptmodul bietet ein Datenverarbeitungsframework, das unterschiedliche Typen der Datenverarbeitung kombiniert, einschließlich Spark SQL, Spark Streaming, MLlib (maschinelles Lernen) und GraphX (Berechnung von Diagrammen).

Ein einheitliches Ausführungsmodell für verschiedene Aufgaben

Apache Spark nutzt ein einheitliches Ausführungsmodell für verschiedene Aufgaben, die für Daten in Azure Data Lake Store ausgeführt werden, wie z.B. ETL-Prozesse, Batchabfragen, interaktive Abfragen, Echtzeitstreaming, Machine Learning und die Verarbeitung von Diagrammen. Dadurch lassen sich mit Spark für Azure HDInsight Big Data-Herausforderungen nahezu in Echtzeit meistern. Dazu zählen u.a. Betrugserkennung, Clickstreamanalysen, Warnungen zu Finanzvorgängen, Telemetriedaten von Sensoren und Geräten im Internet der Dinge (Internet of Things, IoT), Analyse sozialer Medien, Always On-ETL-Pipelines sowie Netzwerküberwachung.

In-Memory-Verarbeitung für interaktive Szenarien

Heutzutage erwarten Kunden schnelle Antworten auf ihre Fragen und möchten nicht mehr Minuten, Stunden oder gar Tage darauf warten. Apache Spark erfüllt diese Erwartungen durch In-Memory-Speicherung der Daten, um eine bis zu 100-mal schnellere Abfrageleistung zu erzielen, während große Datasets in Hadoop verarbeitet werden. Dadurch ist Spark für Azure HDInsight die ideale Lösung, um die Verarbeitungsgeschwindigkeit von Big Data-Anwendungen zu steigern.

Native Entwickleroberfläche und Remotedebuggen über IntelliJ IDEA

Zur Vereinfachung der Entwicklung mit Spark unterstützen wir eine nahtlose Integration in IntelliJ IDEA, um Ihnen die Programmierung mit nativen Tools für Scala und Java zu ermöglichen. Sie haben die Möglichkeit zum Remotedebuggen und erhalten so Flexibilität in Ihrem Entwicklungslebenszyklus und die Möglichkeit zum Übermitteln der Anwendung an Azure, wenn sie bereit ist. Auf Spark für HDInsight-Clustern sind auch die beliebtesten Python-Bibliotheken (Anaconda) für Machine Learning bereits installiert.

BI-Tools zum interaktiven Analysieren von Big Data nutzen

Für Business Analysts bieten wir eine Integration in Power BI sowie weitere Business Intelligence-Tools wie Tableau, SAP BusinessObjects Lumira und QlikView an. So können Sie interaktive Visualisierungen über Daten jedes beliebigen Umfangs erstellen. Zusätzlich zu den herkömmlichen Dashboards bietet Power BI einen Streamingconnector mit Integration in Spark, sodass Sie Echtzeitereignisse aus Spark Streaming direkt in Power BI veröffentlichen können.

Sofort einsatzbereite Notebookoberfläche

Im Gegensatz zu anderen Spark-Angeboten, für die Sie Ihre eigenen Notebooks installieren oder proprietäre Notebooks nutzen müssen, bietet Spark für HDInsight eine sofort einsatzbereite Integration mit Jupyter (iPython), dem beliebtesten Open Source-Notebook auf dem Markt. So können Sie Code, statistische Gleichungen und Visualisierungen zu einem aussagekräftigen Bericht über die Daten kombinieren. Um die Integration für Sie zu vereinfachen, haben wir zusammen mit der Jupyter-Community an einer Verbesserung des Kernels gearbeitet, um die Spark-Ausführung über einen REST-Endpunkt zu ermöglichen und so ein überzeugendes Benutzererlebnis für Datenspezialisten zu schaffen.

Integration in R Server – eine umfangreiche R-kompatible Bibliothek für parallele Analysen und Machine Learning

Nutzen Sie Spark für Azure HDInsight als Modul zum Ausführen von R Server, um von einer umfangreichen Bibliothek für parallele Analysen und Machine Learning zu profitieren, die für den Einsatz mit der Open Source-Sprache R erstellt wurde. So können Sie mit der vertrauten Sprache R arbeiten und profitieren vom Funktions- und Leistungsumfang der Unternehmensklasse, den R Server auf Spark bietet. Mathematische Multithreadbibliotheken und transparente Parallelisierung in R Server ermöglichen in Kombination mit Spark die Verarbeitung von bis zu 1.000-mal mehr Daten mit einer bis zu 50-mal höheren Geschwindigkeit als bei Open Source-R. So können Sie Modelle präziser trainieren, um bessere Vorhersagen zu erstellen als je zuvor.

Höchste Verfügbarkeit für Geschäftskontinuität

Damit Sie Spark in größtmöglichem Umfang ausführen können, bietet Microsoft die branchenweit höchste Verfügbarkeits-SLA von 99,9 %, um Geschäftskontinuität sicherzustellen und Sie gegen Katastrophen zu wappnen. Wir waren zusammen mit Cloudera und dem Projekt „Livy“ federführend an der Erstellung eines Open Source-basierten, von Apache lizenzierten REST-Webdiensts für die Verwaltung von Spark-Kontexten mit langer Ausführungsdauer und für die Übermittlung von Spark-Aufträgen beteiligt. Diese neue Funktion erhöht die Stabilität von Spark als Back-End für die Ausführung interaktiver Notebooks und ermöglicht anderen Anwendungen die Nutzung von Spark für ihre interaktiven Workloads.

Daten beliebiger Größe analysieren, ohne bei Datenwachstum Änderungen vornehmen zu müssen

Um sicherzustellen, dass Spark in Umgebungen jeder Größe ausgeführt werden kann, haben wir Spark in Azure Data Lake Store integriert. Diese Integration ist ausschließlich von Microsoft verfügbar und ermöglicht Spark das Speichern und Verarbeiten von Daten, die auf jeden beliebigen Umfang skaliert werden können, ohne dass dadurch Änderungen an Ihrer Anwendung erforderlich werden. Durch diese Integration können Sie auch eine rollenbasierte Datenzugriffssteuerung auf Speicherebene implementieren.

Echtzeitverarbeitung für Echtzeitszenarien

Big Data, die in Echtzeit zur Verfügung gestellt werden, spielen heutzutage eine immer größere Rolle. Spark Stream für HDInsight eignet sich ideal für die Herausforderungen dieser Echtzeitszenarien. Diese Lösung bietet eine Vielzahl von Möglichkeiten: Szenarien für das Internet der Dinge (Internet of Things, IoT), Remoteverwaltung und -überwachung in Echtzeit sowie das Gewinnen von Erkenntnissen aus Daten, die von Geräten wie z.B. Mobiltelefonen und vernetzten Autos gesendet werden.

Problemlose Einrichtung, schnelle Ergebnisse

Mit Spark für HDInsight gehören zeitaufwendige Installations- oder Einrichtungsschritte der Vergangenheit an. Azure übernimmt all dies für Sie. Sie können Spark innerhalb weniger Minuten bereitstellen, ohne zu diesem Zweck neue Hardware erwerben oder vorab andere Investitionen tätigen zu müssen.

Elastische Kapazität für Big Data

Da Spark für HDInsight die leistungsstarken Azure-Funktionen nutzt, können Sie problemlos Cluster jeglicher Größenordnung erstellen, mit denen nach Bedarf verschiedene Datenvolumen verarbeitet werden können. Sie zahlen nur für die von Ihnen genutzte Computeleistung und Speicherkapazität.

HDInsight kostenlos testen