Lösungsmöglichkeiten
Dieser Artikel ist ein Lösungsvorschlag. Wenn Sie möchten, dass wir diesen Artikel um weitere Informationen ergänzen, z. B. potenzielle Anwendungsfälle, alternative Dienste, Überlegungen zur Implementierung oder Preisempfehlungen, lassen Sie es uns über Feedback auf GitHub wissen.
Diese Lösungsidee veranschaulicht, wie Sie Ihre Big Data-Cluster nach Bedarf mithilfe von Hadoop MapReduce und Apache Spark extrahieren, transformieren und laden.
Aufbau
Laden Sie eine Visio-Datei dieser Architektur herunter.
Datenfluss
Die Daten fließen wie folgt durch die Architektur:
Richten Sie mithilfe von Azure Data Factory verknüpfte Dienste für Quellsysteme und Datenspeicher ein. Für Azure Data Factory-Pipelines werden mehr als 90 Connectors unterstützt. Diese enthalten auch generische Protokolle für Datenquellen, für die kein nativer Connector verfügbar ist.
Laden Sie Daten aus Quellsystemen in Azure Data Lake, indem Sie das Tool zum Kopieren von Daten verwenden.
Mit Azure Data Factory kann ein bedarfsgesteuerter HDInsight-Cluster erstellt werden. Erstellen Sie zunächst einen bedarfsgesteuerten verknüpften HDInsight-Dienst. Erstellen Sie als Nächstes eine Pipeline, und verwenden Sie je nach Hadoop-Framework (z. B. Hive, MapReduce, Spark usw.) die entsprechende HDInsight-Aktivität.
Lösen Sie die Ausführung der Pipeline in Azure Data Factory aus. Bei der Architektur wird davon ausgegangen, dass Azure Data Lake Store als Dateisystem in dem Hadoop-Skript verwendet wird, das von der in Schritt 3 erstellten HDInsight-Aktivität ausgeführt wird. Das Skript wird von einem bedarfsgesteuerten HDInsight-Cluster ausgeführt, von dem Daten in einen Data Lake-Bereich für zusammengestellte Daten geschrieben werden.
Komponenten
- Azure Data Factory: Datenintegrationsdienst auf Cloudebene für die Orchestrierung des Datenflusses.
- Azure Data Lake Storage: Skalierbarer und kostengünstiger Cloudspeicher für die Big Data-Verarbeitung.
- Apache Hadoop: Framework für die verteilte Big Data-Verarbeitung.
- Apache Spark: Framework für die verteilte Big Data-Verarbeitung, bei dem die In-Memory-Verarbeitung unterstützt wird, um die Leistung für Big Data-Anwendungen zu steigern.
- Azure HDInsight: Clouddistribution von Hadoop-Komponenten.
Szenariodetails
In dieser Lösungsidee wird der Datenfluss für einen ETL-Anwendungsfall beschrieben.
Mögliche Anwendungsfälle
Azure HDInsight kann für verschiedenste Big Data-Verarbeitungsszenarien verwendet werden. Dabei kann es sich um Verlaufsdaten (Daten, die bereits erfasst und gespeichert wurden) oder um Echtzeitdaten (Daten, die direkt von der Quelle gestreamt werden) handeln. Weitere Informationen zur Verarbeitung solcher Daten finden Sie unter Verwendungsszenarien für HDInsight.
Beitragende
Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:
Hauptautor:
- Jon Dobrzeniecki | Cloud Solution Architect
Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.
Nächste Schritte
Erfahren Sie mehr über die Komponententechnologien:
- Tutorial: Erstellen bedarfsgesteuerter Apache Hadoop-Cluster in HDInsight mit Azure Data Factory
- Einführung in den Azure Data Factory-Dienst
- Einführung in Azure Data Lake Storage Gen2
- Laden von Daten in Azure Data Lake Storage Gen2 mit Azure Data Factory
- Worum handelt es sich bei Apache Hadoop in Azure HDInsight?
- Aufrufen von MapReduce-Programmen über Data Factory
- Verwenden von MapReduce mit Apache Hadoop in HDInsight
- Was ist Apache Spark in Azure HDInsight?
Zugehörige Ressourcen
Erkunden Sie die verwandten Architekturen: