Extrair, transformar e carregar (ETL) usando o HDInsight

Fábrica de dados do Azure
Armazenamento do Azure Data Lake
Azure HDInsight

Ideias de soluções

Esse artigo é uma ideia de solução. Caso deseje que ampliemos o conteúdo com mais informações, como possíveis casos de uso, serviços alternativos, considerações sobre implementação ou diretrizes de preços, fale conosco enviando seus comentários no GitHub.

Essa ideia de solução ilustra como extrair, transformar e carregar seus clusters de big data sob demanda usando o Hadoop MapReduce e o Apache Spark.

Arquitetura

Diagram showing the dataflow for extract, transform, and load big data clusters by using Azure HDInsight, Hadoop MapReduce, and Apache Spark.

Baixe um Arquivo Visio dessa arquitetura.

Fluxo de dados

Os dados fluem pela arquitetura da seguinte forma:

  1. Usando o Azure Data Factory, estabeleça Serviços Vinculados para sistemas de origem e armazenamentos de dados. Os Pipelines do Azure Data Factory dão suporte a conectores 90+ que também incluem protocolos genéricos para fontes de dados onde um conector nativo não está disponível.

  2. Carregue dados de sistemas de origem no data lake do Azure com a ferramenta Copiar Dados.

  3. O Azure Data Factory é capaz de criar um cluster HDInsight sob demanda. Comece criando um Serviço Vinculado do HDInsight sob demanda. Em seguida, crie um pipeline e use a atividade apropriada do HDInsight, dependendo da estrutura do Hadoop que está sendo usada (ou seja, Hive, MapReduce, Spark etc.).

  4. Disparar o pipeline do Azure Data Factory. A arquitetura pressupõe que o repositório Azure Data Lake é usado como o sistema de arquivos no script Hadoop executado pela atividade do HDInsight criada na Etapa 3. O script será executado por um cluster HDInsight sob demanda que gravará dados em uma área selecionada do data lake.

Componentes

  • Azure Data Factory - Serviço de integração de dados em escala de nuvem para orquestrar o fluxo de dados.
  • Azure Data Lake Storage - Armazenamento em nuvem escalável e econômico para processamento de big data.
  • Apache Hadoop - Estrutura de processamento distribuído de Big Data
  • Apache Spark - Estrutura de processamento distribuído de big data que oferece suporte ao processamento na memória para aumentar o desempenho de aplicativos de big data.
  • Azure HDInsight - Distribuição em nuvem de componentes Hadoop.

Detalhes do cenário

Essa ideia de solução descreve o fluxo de dados para um caso de uso de ETL.

Possíveis casos de uso

Você pode usar o Azure HDInsight para vários cenários de processamento de big data. Podem ser dados históricos (dados que já estão coletados e armazenados) ou dados em tempo real (dados que são transmitidos diretamente da fonte). Para obter mais informações sobre como processar esses dados, consulte Cenários para usar o HDInsight.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Autor principal:

Para ver perfis não públicos do LinkedIn, entre no LinkedIn.

Próximas etapas

Saiba mais sobre as tecnologias dos componentes:

Explorar arquiteturas relacionadas: