使用 HDInsight 擷取、轉換和載入 (ETL)

Azure Data Factory
Azure Data Lake 儲存體
Azure HDInsight

解決方案構想

本文是解決方案概念。 如果您想要使用詳細資訊來擴充內容,例如潛在的使用案例、替代服務、實作考慮或定價指引,請提供 GitHub 意見反應讓我們知道。

此解決方案概念說明如何使用Hadoop MapReduce和Apache Spark依需求擷取、轉換和載入巨量數據叢集。

架構

Diagram showing the dataflow for extract, transform, and load big data clusters by using Azure HDInsight, Hadoop MapReduce, and Apache Spark.

下載此架構的 Visio 檔案

資料流程

數據流會流經架構,如下所示:

  1. 使用 Azure Data Factory,建立 來源系統和數據存放區的連結服務 。 Azure Data Factory 管線支援 90 個以上的連接器,這些連接器也包含原生連接器無法使用之數據源的一般通訊協定。

  2. 使用 複製資料工具,將數據從來源系統載入 Azure Data Lake。

  3. Azure Data Factory 能夠建立隨選 HDInsight 叢集。 從建立 隨選 HDInsight 連結服務開始。 接下來, 根據所使用的Hadoop架構,建立管線 並使用適當的HDInsight活動(也就是Hive、MapReduce、Spark 等)。

  4. 在 Azure Data Factory 中觸發管線。 此架構假設 Azure Data Lake Store 會作為在步驟 3 中建立之 HDInsight 活動所執行的 Hadoop 腳本中的文件系統。 腳本將由隨選 HDInsight 叢集執行,該叢集會將數據寫入數據湖的策劃區域。

元件

  • Azure Data Factory - 用於協調數據流的雲端規模數據整合服務。
  • Azure Data Lake 儲存體 - 可調整且符合成本效益的雲端記憶體,以進行巨量數據處理。
  • Apache Hadoop - 巨量數據分散式處理架構
  • Apache Spark - 巨量數據分散式處理架構,可支援記憶體內部處理,以提升巨量數據應用程式的效能。
  • Azure HDInsight - Hadoop 元件的雲端散發。

案例詳細資料

此解決方案概念描述 ETL 使用案例的數據流。

潛在的使用案例

您可以在巨量數據處理的各種案例中使用 Azure HDInsight。 其可以是歷程記錄資料 (已收集及儲存的資料) 或即時資料 (從來源直接串流處理的資料)。 如需處理這類數據的詳細資訊,請參閱 使用 HDInsight 的案例。

參與者

本文由 Microsoft 維護。 原始投稿人如下。

主體作者:

若要查看非公用LinkedIn配置檔,請登入LinkedIn。

下一步

深入瞭解元件技術:

探索相關的架構: