Idee per le soluzioni
Questo articolo è un'idea di soluzione. Per espandere il contenuto con altre informazioni, ad esempio potenziali casi d'uso, servizi alternativi, considerazioni sull'implementazione o indicazioni sui prezzi, inviare commenti e suggerimenti su GitHub.
Questa soluzione illustra come estrarre, trasformare e caricare i cluster Big Data su richiesta usando Hadoop MapReduce e Apache Spark.
Architettura
Scaricare un file di Visio di questa architettura.
Flusso di dati
I dati passano attraverso l'architettura come segue:
Usando Azure Data Factory, stabilire servizi collegati ai sistemi di origine e agli archivi dati. Azure Data Factory Pipelines supporta 90 connettori che includono anche protocolli generici per le origini dati in cui un connettore nativo non è disponibile.
Caricare i dati dai sistemi di origine in Azure Data Lake con lo strumento Copia dati.
Azure Data Factory è in grado di creare un cluster HDInsight su richiesta. Per iniziare, creare un servizio collegato HDInsight su richiesta. Creare quindi una pipeline e usare l'attività HDInsight appropriata a seconda del framework Hadoop in uso, ovvero Hive, MapReduce, Spark e così via.
Attivare la pipeline in Azure Data Factory. L'architettura presuppone che Azure Data Lake Store venga usato come file system nello script Hadoop eseguito dall'attività HDInsight creata nel passaggio 3. Lo script verrà eseguito da un cluster HDInsight su richiesta che scriverà i dati in un'area curata del data lake.
Componenti
- Azure Data Factory - Servizio di integrazione dei dati su scala cloud per orchestrare il flusso di dati.
- Azure Data Lake Archiviazione: archiviazione cloud scalabile e conveniente per l'elaborazione di Big Data.
- Apache Hadoop - Framework di elaborazione distribuita per Big Data
- Apache Spark : framework di elaborazione distribuita di Big Data che supporta l'elaborazione in memoria per migliorare le prestazioni per le applicazioni Big Data.
- Azure HDInsight - Distribuzione cloud dei componenti Hadoop.
Dettagli dello scenario
Questa idea di soluzione descrive il flusso di dati per un caso d'uso ETL.
Potenziali casi d'uso
È possibile usare Azure HDInsight per diversi scenari nell'elaborazione di Big Data. Possono essere dati cronologici (dati già raccolti e archiviati) o dati in tempo reale (dati trasmessi direttamente dall'origine). Per altre informazioni sull'elaborazione di tali dati, vedere Scenari per l'uso di HDInsight.
Collaboratori
Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.
Autore principale:
- Jon Eseguezeniecki | Cloud Solution Architect
Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.
Passaggi successivi
Altre informazioni sulle tecnologie dei componenti:
- Esercitazione: Creare cluster Apache Hadoop su richiesta in HDInsight con Azure Data Factory
- Introduzione al servizio Azure Data Factory
- Introduzione ad Azure Data Lake Storage Gen2
- Caricare dati in Azure Data Lake Storage Gen2 con Azure Data Factory
- Che cos'è Apache Hadoop in Azure HDInsight?
- Richiamare i programmi MapReduce da Data factory
- Usare MapReduce in Apache Hadoop in HDInsight
- Funzione di Apache Spark in Azure HDInsight
Risorse correlate
Esplorare le architetture correlate: