Kinyerés, átalakítás és betöltés (ETL) a HDInsight használatával

Azure Data Factory
Azure Data Lake Storage
Azure HDInsight

Megoldási ötletek

Ez a cikk egy megoldási ötlet. Ha azt szeretné, hogy további információkkal bővítsük a tartalmat, például a lehetséges használati eseteket, alternatív szolgáltatásokat, megvalósítási szempontokat vagy díjszabási útmutatást, a GitHub visszajelzésével tudassa velünk.

Ez a megoldási ötlet bemutatja, hogyan lehet igény szerint kinyerni, átalakítani és betölteni big data fürtöit a Hadoop MapReduce és az Apache Spark használatával.

Felépítés

Diagram showing the dataflow for extract, transform, and load big data clusters by using Azure HDInsight, Hadoop MapReduce, and Apache Spark.

Töltse le az architektúra Visio-fájlját.

Adatfolyam

Az adatok az alábbi módon haladnak át az architektúrán:

  1. Az Azure Data Factory használatával hozzon létre társított szolgáltatásokat a forrásrendszerekhez és adattárakhoz. Az Azure Data Factory Pipelines több mint 90 összekötőt támogat, amelyek általános protokollokat is tartalmaznak olyan adatforrásokhoz, ahol natív összekötő nem érhető el.

  2. Adatok betöltése forrásrendszerekből az Azure Data Lake-be az Adatok másolása eszközzel.

  3. Az Azure Data Factory képes igény szerinti HDInsight-fürtöt létrehozni. Először hozzon létre egy igény szerinti HDInsight társított szolgáltatást. Ezután hozzon létre egy folyamatot, és használja a megfelelő HDInsight-tevékenységet a használt Hadoop-keretrendszertől függően (azaz Hive, MapReduce, Spark stb.).

  4. Indítsa el a folyamatot az Azure Data Factoryben. Az architektúra feltételezi, hogy az Azure Data Lake Store a 3. lépésben létrehozott HDInsight-tevékenység által végrehajtott Hadoop-szkript fájlrendszere. A szkriptet egy igény szerinti HDInsight-fürt hajtja végre, amely adatokat ír a data lake egy válogatott területére.

Összetevők

  • Azure Data Factory – Felhőalapú adatintegrációs szolgáltatás az adatfolyamok vezénylésével.
  • Azure Data Lake Storage – Méretezhető és költséghatékony felhőalapú tárolás big data-feldolgozáshoz.
  • Apache Hadoop – Big Data elosztott feldolgozási keretrendszer
  • Apache Spark – Big data elosztott feldolgozási keretrendszer, amely támogatja a memórián belüli feldolgozást a big data-alkalmazások teljesítményének növelése érdekében.
  • Azure HDInsight – A Hadoop-összetevők felhőbeli elosztása.

Forgatókönyv részletei

Ez a megoldási ötlet egy ETL-használati eset adatfolyamát ismerteti.

Lehetséges használati esetek

Az Azure HDInsightot a big data-feldolgozás különböző forgatókönyveihez használhatja. Ezek lehetnek előzményadatok (már összegyűjtött és tárolt adatok) vagy valós idejű adatok (közvetlenül a forrásból streamelt adatok). Az ilyen adatok feldolgozásával kapcsolatos további információkért lásd a HDInsight használatára vonatkozó forgatókönyveket.

Közreműködők

Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.

Fő szerző:

A nem nyilvános LinkedIn-profilok megtekintéséhez jelentkezzen be a LinkedInbe.

További lépések

További információ az összetevők technológiáiról:

Ismerkedjen meg a kapcsolódó architektúrákkal: