Oplossingsideeën
Dit artikel is een oplossingsidee. Als u wilt dat we de inhoud uitbreiden met meer informatie, zoals mogelijke use cases, alternatieve services, implementatieoverwegingen of prijsrichtlijnen, laat het ons dan weten door GitHub-feedback te geven.
Dit oplossingsidee illustreert hoe u uw big data-clusters op aanvraag extraheert, transformeert en laadt met behulp van Hadoop MapReduce en Apache Spark.
Architectuur
Een Visio-bestand van deze architectuur downloaden.
Gegevensstroom
De gegevens stromen als volgt door de architectuur:
Gebruik Azure Data Factory om gekoppelde services tot stand te brengen voor bronsystemen en gegevensarchieven. Azure Data Factory Pipelines ondersteunen meer dan 90 connectors die ook algemene protocollen bevatten voor gegevensbronnen waar geen systeemeigen connector beschikbaar is.
Laad gegevens uit bronsystemen in Azure Data Lake met het hulpprogramma Copy Data.
Azure Data Factory kan een HDInsight-cluster op aanvraag maken. Begin met het maken van een gekoppelde HDInsight-service op aanvraag. Maak vervolgens een pijplijn en gebruik de juiste HDInsight-activiteit, afhankelijk van het Hadoop-framework dat wordt gebruikt (dat wil gezegd Hive, MapReduce, Spark, enzovoort).
Activeer de pijplijn in Azure Data Factory. In de architectuur wordt ervan uitgegaan dat Azure Data Lake Store wordt gebruikt als het bestandssysteem in het Hadoop-script dat wordt uitgevoerd door de HDInsight-activiteit die is gemaakt in stap 3. Het script wordt uitgevoerd door een HDInsight-cluster op aanvraag dat gegevens naar een gecureerd gebied van de data lake schrijft.
Onderdelen
- Azure Data Factory - Cloudschaalservice voor gegevensintegratie voor het organiseren van de gegevensstroom.
- Azure Data Lake Storage : schaalbare en rendabele cloudopslag voor verwerking van big data.
- Apache Hadoop - Framework voor gedistribueerde verwerking van big data
- Apache Spark : framework voor gedistribueerde verwerking van big data dat ondersteuning biedt voor in-memory verwerking om de prestaties voor big data-toepassingen te verbeteren.
- Azure HDInsight - Clouddistributie van Hadoop-onderdelen.
Scenariodetails
In dit oplossingsidee wordt de gegevensstroom voor een ETL-gebruiksscenario beschreven.
Potentiële gebruikscases
U kunt Azure HDInsight gebruiken voor verschillende scenario's in de verwerking van big data. Hierbij kan het gaan om historische gegevens (gegevens die al zijn verzameld en opgeslagen), maar ook om realtime gegevens (gegevens die rechtstreeks vanuit de bron worden gestreamd). Zie Scenario's voor het gebruik van HDInsight voor meer informatie over het verwerken van dergelijke gegevens.
Bijdragers
Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.
Hoofdauteur:
- Jon Dobrzeniecki | Cloud Solution Architect
Als u niet-openbare LinkedIn-profielen wilt zien, meldt u zich aan bij LinkedIn.
Volgende stappen
Meer informatie over de onderdeeltechnologieën:
- Zelfstudie: Apache Hadoop-clusters op aanvraag maken in HDInsight met behulp van Azure Data Factory
- Inleiding tot Azure Data Factory
- Inleiding tot Azure Data Lake Storage Gen2
- Gegevens laden in Azure Data Lake Storage Gen2 met Azure Data Factory
- Wat is Apache Hadoop in Azure HDInsight?
- MapReduce-programma's aanroepen vanuit Data Factory
- MapReduce gebruiken in Apache Hadoop in HDInsight
- Wat is Apache Spark in Azure HDInsight
Verwante resources
Gerelateerde architecturen verkennen: