Ideias de soluções
Este artigo é uma ideia de solução. Se você quiser que expandamos o conteúdo com mais informações, como possíveis casos de uso, serviços alternativos, considerações de implementação ou orientação de preços, informe-nos fornecendo feedback do GitHub.
Esta ideia de solução ilustra como extrair, transformar e carregar seus clusters de big data sob demanda usando o Hadoop MapReduce e o Apache Spark.
Arquitetura
Transfira um ficheiro do Visio desta arquitetura.
Fluxo de dados
Os dados fluem através da arquitetura da seguinte maneira:
Usando o Azure Data Factory, estabeleça Serviços Vinculados para sistemas de origem e armazenamentos de dados. Os Pipelines do Azure Data Factory dão suporte a conectores 90+ que também incluem protocolos genéricos para fontes de dados onde um conector nativo não está disponível.
Carregue dados de sistemas de origem no data lake do Azure com a ferramenta Copiar Dados.
O Azure Data Factory é capaz de criar um cluster HDInsight sob demanda. Comece criando um Serviço Vinculado do HDInsight sob demanda. Em seguida, crie um pipeline e use a atividade apropriada do HDInsight, dependendo da estrutura do Hadoop que está sendo usada (ou seja, Hive, MapReduce, Spark, etc.).
Acione o pipeline no Azure Data Factory. A arquitetura pressupõe que o repositório Azure Data Lake seja usado como o sistema de arquivos no script Hadoop executado pela atividade HDInsight criada na Etapa 3. O script será executado por um cluster HDInsight sob demanda que gravará dados em uma área selecionada do data lake.
Componentes
- Azure Data Factory - Serviço de integração de dados em escala de nuvem para orquestrar o fluxo de dados.
- Azure Data Lake Storage - Armazenamento em nuvem escalável e econômico para processamento de big data.
- Apache Hadoop - Estrutura de processamento distribuído de Big Data
- Apache Spark - Estrutura de processamento distribuído de Big Data que suporta processamento na memória para aumentar o desempenho de aplicativos de big data.
- Azure HDInsight - Distribuição na nuvem de componentes Hadoop.
Detalhes do cenário
Esta ideia de solução descreve o fluxo de dados para um caso de uso de ETL.
Potenciais casos de utilização
Você pode usar o Azure HDInsight para vários cenários no processamento de big data. Podem ser dados históricos (dados já recolhidos e armazenados) ou dados em tempo real (dados transmitidos diretamente da origem). Para obter mais informações sobre como processar esses dados, consulte Cenários para usar o HDInsight.
Contribuidores
Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.
Autor principal:
- Jon Dobrzeniecki - Brasil | Arquiteto de Soluções Cloud
Para ver perfis não públicos do LinkedIn, inicie sessão no LinkedIn.
Próximos passos
Saiba mais sobre as tecnologias de componentes:
- Tutorial: Criar clusters Apache Hadoop sob demanda no HDInsight usando o Azure Data Factory
- Introdução ao Azure Data Factory
- Introdução ao Azure Data Lake Storage Gen2
- Carregue dados no Azure Data Lake Storage Gen2 com o Azure Data Factory
- O que é o Apache Hadoop no Azure HDInsight?
- Invoque programas MapReduce do Data Factory
- Utilizar o MapReduce no Apache Hadoop no HDInsight
- O que é Apache Spark em Azure HDInsight
Recursos relacionados
Explore arquiteturas relacionadas: