Estrazione, trasformazione e caricamento di dati con HDInsight

Azure Data Factory
Azure Data Lake Storage
Azure HDInsight

Idee per le soluzioni

Questo articolo è un'idea di soluzione. Per espandere il contenuto con altre informazioni, ad esempio potenziali casi d'uso, servizi alternativi, considerazioni sull'implementazione o indicazioni sui prezzi, inviare commenti e suggerimenti su GitHub.

Questa soluzione illustra come estrarre, trasformare e caricare i cluster Big Data su richiesta usando Hadoop MapReduce e Apache Spark.

Architettura

Diagram showing the dataflow for extract, transform, and load big data clusters by using Azure HDInsight, Hadoop MapReduce, and Apache Spark.

Scaricare un file di Visio di questa architettura.

Flusso di dati

I dati passano attraverso l'architettura come segue:

  1. Usando Azure Data Factory, stabilire servizi collegati ai sistemi di origine e agli archivi dati. Azure Data Factory Pipelines supporta 90 connettori che includono anche protocolli generici per le origini dati in cui un connettore nativo non è disponibile.

  2. Caricare i dati dai sistemi di origine in Azure Data Lake con lo strumento Copia dati.

  3. Azure Data Factory è in grado di creare un cluster HDInsight su richiesta. Per iniziare, creare un servizio collegato HDInsight su richiesta. Creare quindi una pipeline e usare l'attività HDInsight appropriata a seconda del framework Hadoop in uso, ovvero Hive, MapReduce, Spark e così via.

  4. Attivare la pipeline in Azure Data Factory. L'architettura presuppone che Azure Data Lake Store venga usato come file system nello script Hadoop eseguito dall'attività HDInsight creata nel passaggio 3. Lo script verrà eseguito da un cluster HDInsight su richiesta che scriverà i dati in un'area curata del data lake.

Componenti

  • Azure Data Factory - Servizio di integrazione dei dati su scala cloud per orchestrare il flusso di dati.
  • Azure Data Lake Archiviazione: archiviazione cloud scalabile e conveniente per l'elaborazione di Big Data.
  • Apache Hadoop - Framework di elaborazione distribuita per Big Data
  • Apache Spark : framework di elaborazione distribuita di Big Data che supporta l'elaborazione in memoria per migliorare le prestazioni per le applicazioni Big Data.
  • Azure HDInsight - Distribuzione cloud dei componenti Hadoop.

Dettagli dello scenario

Questa idea di soluzione descrive il flusso di dati per un caso d'uso ETL.

Potenziali casi d'uso

È possibile usare Azure HDInsight per diversi scenari nell'elaborazione di Big Data. Possono essere dati cronologici (dati già raccolti e archiviati) o dati in tempo reale (dati trasmessi direttamente dall'origine). Per altre informazioni sull'elaborazione di tali dati, vedere Scenari per l'uso di HDInsight.

Collaboratori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.

Autore principale:

Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.

Passaggi successivi

Altre informazioni sulle tecnologie dei componenti:

Esplorare le architetture correlate: