Extrahieren, Transformieren und Laden (ETL) mit HDInsight

Azure Data Factory

Azure Data Lake Storage

Azure HDInsight

Lösungsmöglichkeiten

Dieser Artikel ist ein Lösungsvorschlag. Wenn Sie möchten, dass wir diesen Artikel um weitere Informationen ergänzen, z. B. potenzielle Anwendungsfälle, alternative Dienste, Überlegungen zur Implementierung oder Preisempfehlungen, lassen Sie es uns über Feedback auf GitHub wissen.

Diese Lösungsidee veranschaulicht, wie Sie Ihre Big Data-Cluster nach Bedarf mithilfe von Hadoop MapReduce und Apache Spark extrahieren, transformieren und laden.

Aufbau

Diagram showing the dataflow for extract, transform, and load big data clusters by using Azure HDInsight, Hadoop MapReduce, and Apache Spark.

Laden Sie eine Visio-Datei dieser Architektur herunter.

Datenfluss

Die Daten fließen wie folgt durch die Architektur:

Richten Sie mithilfe von Azure Data Factory verknüpfte Dienste für Quellsysteme und Datenspeicher ein. Für Azure Data Factory-Pipelines werden mehr als 90 Connectors unterstützt. Diese enthalten auch generische Protokolle für Datenquellen, für die kein nativer Connector verfügbar ist.
Laden Sie Daten aus Quellsystemen in Azure Data Lake, indem Sie das Tool zum Kopieren von Daten verwenden.
Mit Azure Data Factory kann ein bedarfsgesteuerter HDInsight-Cluster erstellt werden. Erstellen Sie zunächst einen bedarfsgesteuerten verknüpften HDInsight-Dienst. Erstellen Sie als Nächstes eine Pipeline, und verwenden Sie je nach Hadoop-Framework (z. B. Hive, MapReduce, Spark usw.) die entsprechende HDInsight-Aktivität.
Lösen Sie die Ausführung der Pipeline in Azure Data Factory aus. Bei der Architektur wird davon ausgegangen, dass Azure Data Lake Store als Dateisystem in dem Hadoop-Skript verwendet wird, das von der in Schritt 3 erstellten HDInsight-Aktivität ausgeführt wird. Das Skript wird von einem bedarfsgesteuerten HDInsight-Cluster ausgeführt, von dem Daten in einen Data Lake-Bereich für zusammengestellte Daten geschrieben werden.

Komponenten

Azure Data Factory: Datenintegrationsdienst auf Cloudebene für die Orchestrierung des Datenflusses.
Azure Data Lake Storage: Skalierbarer und kostengünstiger Cloudspeicher für die Big Data-Verarbeitung.
Apache Hadoop: Framework für die verteilte Big Data-Verarbeitung.
Apache Spark: Framework für die verteilte Big Data-Verarbeitung, bei dem die In-Memory-Verarbeitung unterstützt wird, um die Leistung für Big Data-Anwendungen zu steigern.
Azure HDInsight: Clouddistribution von Hadoop-Komponenten.

Szenariodetails

In dieser Lösungsidee wird der Datenfluss für einen ETL-Anwendungsfall beschrieben.

Mögliche Anwendungsfälle

Azure HDInsight kann für verschiedenste Big Data-Verarbeitungsszenarien verwendet werden. Dabei kann es sich um Verlaufsdaten (Daten, die bereits erfasst und gespeichert wurden) oder um Echtzeitdaten (Daten, die direkt von der Quelle gestreamt werden) handeln. Weitere Informationen zur Verarbeitung solcher Daten finden Sie unter Verwendungsszenarien für HDInsight.

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautor:

Jon Dobrzeniecki | Cloud Solution Architect

Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.

Nächste Schritte

Erfahren Sie mehr über die Komponententechnologien:

Erkunden Sie die verwandten Architekturen: