Extrahera, transformera och läsa in (ETL) med HDInsight

Azure Data Factory
Azure Data Lake Storage
Azure HDInsight

Lösningsidéer

Den här artikeln är en lösningsidé. Om du vill att vi ska utöka innehållet med mer information, till exempel potentiella användningsfall, alternativa tjänster, implementeringsöverväganden eller prisvägledning, kan du meddela oss genom att ge GitHub-feedback.

Den här lösningsidén illustrerar hur du extraherar, transformerar och läser in dina stordatakluster på begäran med hjälp av Hadoop MapReduce och Apache Spark.

Arkitektur

Diagram showing the dataflow for extract, transform, and load big data clusters by using Azure HDInsight, Hadoop MapReduce, and Apache Spark.

Ladda ned en Visio-fil med den här arkitekturen.

Dataflöde

Data flödar genom arkitekturen på följande sätt:

  1. Använd Azure Data Factory och etablera länkade tjänster till källsystem och datalager. Azure Data Factory Pipelines stöder över 90 anslutningsappar som även innehåller allmänna protokoll för datakällor där en intern anslutningsapp inte är tillgänglig.

  2. Läs in data från källsystem till Azure Data Lake med verktyget Kopiera data.

  3. Azure Data Factory kan skapa ett HDInsight-kluster på begäran. Börja med att skapa en länkad HDInsight-tjänst på begäran. Skapa sedan en pipeline och använd lämplig HDInsight-aktivitet beroende på vilket Hadoop-ramverk som används (dvs. Hive, MapReduce, Spark osv.).

  4. Utlös pipelinen i Azure Data Factory. Arkitekturen förutsätter att Azure Data Lake Store används som filsystem i Hadoop-skriptet som körs av HDInsight-aktiviteten som skapades i steg 3. Skriptet körs av ett HDInsight-kluster på begäran som skriver data till ett kuraterat område i datasjön.

Komponenter

  • Azure Data Factory – dataintegreringstjänsten för molnskala för orkestrering av dataflöde.
  • Azure Data Lake Storage – skalbar och kostnadseffektiv molnlagring för bearbetning av stordata.
  • Apache Hadoop – Ramverk för distribuerad bearbetning av stordata
  • Apache Spark – Ramverk för distribuerad bearbetning av stordata som stöder minnesintern bearbetning för att öka prestandan för stordataprogram.
  • Azure HDInsight – Molndistribution av Hadoop-komponenter.

Information om scenario

Den här lösningsidén beskriver dataflödet för ett ETL-användningsfall.

Potentiella användningsfall

Du kan använda Azure HDInsight för olika scenarier vid bearbetning av stordata. Det kan vara historiska data (data som redan har samlats in och lagrats) eller realtidsdata (data som strömmas direkt från källan). Mer information om hur du bearbetar sådana data finns i Scenarier för användning av HDInsight.

Deltagare

Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.

Huvudförfattare:

Om du vill se icke-offentliga LinkedIn-profiler loggar du in på LinkedIn.

Nästa steg

Läs mer om komponentteknikerna:

Utforska relaterade arkitekturer: