Editar

Extração, transformação e carregamento (ETL) com o HDInsight

Azure Data Factory
Azure Data Lake Storage
Azure HDInsight

Ideias de soluções

Este artigo é uma ideia de solução. Se você quiser que expandamos o conteúdo com mais informações, como possíveis casos de uso, serviços alternativos, considerações de implementação ou orientação de preços, informe-nos fornecendo feedback do GitHub.

Esta ideia de solução ilustra como extrair, transformar e carregar seus clusters de big data sob demanda usando o Hadoop MapReduce e o Apache Spark.

Arquitetura

Diagram showing the dataflow for extract, transform, and load big data clusters by using Azure HDInsight, Hadoop MapReduce, and Apache Spark.

Transfira um ficheiro do Visio desta arquitetura.

Fluxo de dados

Os dados fluem através da arquitetura da seguinte maneira:

  1. Usando o Azure Data Factory, estabeleça Serviços Vinculados para sistemas de origem e armazenamentos de dados. Os Pipelines do Azure Data Factory dão suporte a conectores 90+ que também incluem protocolos genéricos para fontes de dados onde um conector nativo não está disponível.

  2. Carregue dados de sistemas de origem no data lake do Azure com a ferramenta Copiar Dados.

  3. O Azure Data Factory é capaz de criar um cluster HDInsight sob demanda. Comece criando um Serviço Vinculado do HDInsight sob demanda. Em seguida, crie um pipeline e use a atividade apropriada do HDInsight, dependendo da estrutura do Hadoop que está sendo usada (ou seja, Hive, MapReduce, Spark, etc.).

  4. Acione o pipeline no Azure Data Factory. A arquitetura pressupõe que o repositório Azure Data Lake seja usado como o sistema de arquivos no script Hadoop executado pela atividade HDInsight criada na Etapa 3. O script será executado por um cluster HDInsight sob demanda que gravará dados em uma área selecionada do data lake.

Componentes

  • Azure Data Factory - Serviço de integração de dados em escala de nuvem para orquestrar o fluxo de dados.
  • Azure Data Lake Storage - Armazenamento em nuvem escalável e econômico para processamento de big data.
  • Apache Hadoop - Estrutura de processamento distribuído de Big Data
  • Apache Spark - Estrutura de processamento distribuído de Big Data que suporta processamento na memória para aumentar o desempenho de aplicativos de big data.
  • Azure HDInsight - Distribuição na nuvem de componentes Hadoop.

Detalhes do cenário

Esta ideia de solução descreve o fluxo de dados para um caso de uso de ETL.

Potenciais casos de utilização

Você pode usar o Azure HDInsight para vários cenários no processamento de big data. Podem ser dados históricos (dados já recolhidos e armazenados) ou dados em tempo real (dados transmitidos diretamente da origem). Para obter mais informações sobre como processar esses dados, consulte Cenários para usar o HDInsight.

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Autor principal:

Para ver perfis não públicos do LinkedIn, inicie sessão no LinkedIn.

Próximos passos

Saiba mais sobre as tecnologias de componentes:

Explore arquiteturas relacionadas: