Extraheren, transformeren en laden (ETL) met HDInsight

Azure Data Factory
Azure Data Lake Storage
Azure HDInsight

Oplossingsideeën

Dit artikel is een oplossingsidee. Als u wilt dat we de inhoud uitbreiden met meer informatie, zoals mogelijke use cases, alternatieve services, implementatieoverwegingen of prijsrichtlijnen, laat het ons dan weten door GitHub-feedback te geven.

Dit oplossingsidee illustreert hoe u uw big data-clusters op aanvraag extraheert, transformeert en laadt met behulp van Hadoop MapReduce en Apache Spark.

Architectuur

Diagram showing the dataflow for extract, transform, and load big data clusters by using Azure HDInsight, Hadoop MapReduce, and Apache Spark.

Een Visio-bestand van deze architectuur downloaden.

Gegevensstroom

De gegevens stromen als volgt door de architectuur:

  1. Gebruik Azure Data Factory om gekoppelde services tot stand te brengen voor bronsystemen en gegevensarchieven. Azure Data Factory Pipelines ondersteunen meer dan 90 connectors die ook algemene protocollen bevatten voor gegevensbronnen waar geen systeemeigen connector beschikbaar is.

  2. Laad gegevens uit bronsystemen in Azure Data Lake met het hulpprogramma Copy Data.

  3. Azure Data Factory kan een HDInsight-cluster op aanvraag maken. Begin met het maken van een gekoppelde HDInsight-service op aanvraag. Maak vervolgens een pijplijn en gebruik de juiste HDInsight-activiteit, afhankelijk van het Hadoop-framework dat wordt gebruikt (dat wil gezegd Hive, MapReduce, Spark, enzovoort).

  4. Activeer de pijplijn in Azure Data Factory. In de architectuur wordt ervan uitgegaan dat Azure Data Lake Store wordt gebruikt als het bestandssysteem in het Hadoop-script dat wordt uitgevoerd door de HDInsight-activiteit die is gemaakt in stap 3. Het script wordt uitgevoerd door een HDInsight-cluster op aanvraag dat gegevens naar een gecureerd gebied van de data lake schrijft.

Onderdelen

  • Azure Data Factory - Cloudschaalservice voor gegevensintegratie voor het organiseren van de gegevensstroom.
  • Azure Data Lake Storage : schaalbare en rendabele cloudopslag voor verwerking van big data.
  • Apache Hadoop - Framework voor gedistribueerde verwerking van big data
  • Apache Spark : framework voor gedistribueerde verwerking van big data dat ondersteuning biedt voor in-memory verwerking om de prestaties voor big data-toepassingen te verbeteren.
  • Azure HDInsight - Clouddistributie van Hadoop-onderdelen.

Scenariodetails

In dit oplossingsidee wordt de gegevensstroom voor een ETL-gebruiksscenario beschreven.

Potentiële gebruikscases

U kunt Azure HDInsight gebruiken voor verschillende scenario's in de verwerking van big data. Hierbij kan het gaan om historische gegevens (gegevens die al zijn verzameld en opgeslagen), maar ook om realtime gegevens (gegevens die rechtstreeks vanuit de bron worden gestreamd). Zie Scenario's voor het gebruik van HDInsight voor meer informatie over het verwerken van dergelijke gegevens.

Bijdragers

Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.

Hoofdauteur:

Als u niet-openbare LinkedIn-profielen wilt zien, meldt u zich aan bij LinkedIn.

Volgende stappen

Meer informatie over de onderdeeltechnologieën:

Gerelateerde architecturen verkennen: