使用 HDInsight 擷取、轉換和載入 (ETL)

Azure Data Factory

Azure Data Lake 儲存體

Azure HDInsight

解決方案構想

本文是解決方案概念。如果您想要使用詳細資訊來擴充內容，例如潛在的使用案例、替代服務、實作考慮或定價指引，請提供 GitHub 意見反應讓我們知道。

此解決方案概念說明如何使用Hadoop MapReduce和Apache Spark依需求擷取、轉換和載入巨量數據叢集。

架構

Diagram showing the dataflow for extract, transform, and load big data clusters by using Azure HDInsight, Hadoop MapReduce, and Apache Spark.

數據流會流經架構，如下所示：

使用 Azure Data Factory，建立來源系統和數據存放區的連結服務。 Azure Data Factory 管線支援 90 個以上的連接器，這些連接器也包含原生連接器無法使用之數據源的一般通訊協定。
使用複製資料工具，將數據從來源系統載入 Azure Data Lake。
Azure Data Factory 能夠建立隨選 HDInsight 叢集。從建立隨選 HDInsight 連結服務開始。接下來，根據所使用的Hadoop架構，建立管線並使用適當的HDInsight活動（也就是Hive、MapReduce、Spark 等）。
在 Azure Data Factory 中觸發管線。此架構假設 Azure Data Lake Store 會作為在步驟 3 中建立之 HDInsight 活動所執行的 Hadoop 腳本中的文件系統。腳本將由隨選 HDInsight 叢集執行，該叢集會將數據寫入數據湖的策劃區域。

此解決方案概念描述 ETL 使用案例的數據流。

您可以在巨量數據處理的各種案例中使用 Azure HDInsight。其可以是歷程記錄資料 (已收集及儲存的資料) 或即時資料 (從來源直接串流處理的資料)。如需處理這類數據的詳細資訊，請參閱使用 HDInsight 的案例。

本文由 Microsoft 維護。原始投稿人如下。

主體作者：

若要查看非公用LinkedIn配置檔，請登入LinkedIn。

深入瞭解元件技術：

探索相關的架構：