Megoldási ötletek
Ez a cikk egy megoldási ötlet. Ha azt szeretné, hogy további információkkal bővítsük a tartalmat, például a lehetséges használati eseteket, alternatív szolgáltatásokat, megvalósítási szempontokat vagy díjszabási útmutatást, a GitHub visszajelzésével tudassa velünk.
Ez a megoldási ötlet bemutatja, hogyan lehet igény szerint kinyerni, átalakítani és betölteni big data fürtöit a Hadoop MapReduce és az Apache Spark használatával.
Felépítés
Töltse le az architektúra Visio-fájlját.
Adatfolyam
Az adatok az alábbi módon haladnak át az architektúrán:
Az Azure Data Factory használatával hozzon létre társított szolgáltatásokat a forrásrendszerekhez és adattárakhoz. Az Azure Data Factory Pipelines több mint 90 összekötőt támogat, amelyek általános protokollokat is tartalmaznak olyan adatforrásokhoz, ahol natív összekötő nem érhető el.
Adatok betöltése forrásrendszerekből az Azure Data Lake-be az Adatok másolása eszközzel.
Az Azure Data Factory képes igény szerinti HDInsight-fürtöt létrehozni. Először hozzon létre egy igény szerinti HDInsight társított szolgáltatást. Ezután hozzon létre egy folyamatot, és használja a megfelelő HDInsight-tevékenységet a használt Hadoop-keretrendszertől függően (azaz Hive, MapReduce, Spark stb.).
Indítsa el a folyamatot az Azure Data Factoryben. Az architektúra feltételezi, hogy az Azure Data Lake Store a 3. lépésben létrehozott HDInsight-tevékenység által végrehajtott Hadoop-szkript fájlrendszere. A szkriptet egy igény szerinti HDInsight-fürt hajtja végre, amely adatokat ír a data lake egy válogatott területére.
Összetevők
- Azure Data Factory – Felhőalapú adatintegrációs szolgáltatás az adatfolyamok vezénylésével.
- Azure Data Lake Storage – Méretezhető és költséghatékony felhőalapú tárolás big data-feldolgozáshoz.
- Apache Hadoop – Big Data elosztott feldolgozási keretrendszer
- Apache Spark – Big data elosztott feldolgozási keretrendszer, amely támogatja a memórián belüli feldolgozást a big data-alkalmazások teljesítményének növelése érdekében.
- Azure HDInsight – A Hadoop-összetevők felhőbeli elosztása.
Forgatókönyv részletei
Ez a megoldási ötlet egy ETL-használati eset adatfolyamát ismerteti.
Lehetséges használati esetek
Az Azure HDInsightot a big data-feldolgozás különböző forgatókönyveihez használhatja. Ezek lehetnek előzményadatok (már összegyűjtött és tárolt adatok) vagy valós idejű adatok (közvetlenül a forrásból streamelt adatok). Az ilyen adatok feldolgozásával kapcsolatos további információkért lásd a HDInsight használatára vonatkozó forgatókönyveket.
Közreműködők
Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.
Fő szerző:
- Jon Dobrzeniecki | Felhőmegoldás-tervező
A nem nyilvános LinkedIn-profilok megtekintéséhez jelentkezzen be a LinkedInbe.
További lépések
További információ az összetevők technológiáiról:
- Oktatóanyag: Igény szerinti Apache Hadoop-fürtök létrehozása a HDInsightban az Azure Data Factory használatával
- Az Azure Data Factory bemutatása
- Az Azure Data Lake Storage Gen2 bemutatása
- Adatok betöltése az Azure Data Lake Storage Gen2-be az Azure Data Factoryvel
- Mi az Az Apache Hadoop az Azure HDInsightban?
- MapReduce-programok meghívása a Data Factoryből
- Use MapReduce in Apache Hadoop on HDInsight
- Mi az az Apache Spark az Azure HDInsightban?
Kapcsolódó erőforrások
Ismerkedjen meg a kapcsolódó architektúrákkal: