Migrar clusters Apache Hadoop locais para o Azure HDInsight - motivação e benefícios

Este artigo é o primeiro de uma série sobre práticas recomendadas para migrar implantações de ecossistema Apache Hadoop locais para o Azure HDInsight. Esta série de artigos destina-se a pessoas responsáveis pelo design, implantação e migração de soluções Apache Hadoop no Azure HDInsight. As funções que podem se beneficiar desses artigos incluem arquitetos de nuvem, administradores de Hadoop e engenheiros de DevOps. Desenvolvedores de software, engenheiros de dados e cientistas de dados também devem se beneficiar da explicação de como diferentes tipos de clusters funcionam na nuvem.

Por que migrar para o Azure HDInsight

O Azure HDInsight é uma distribuição em nuvem de componentes do Hadoop. O Azure HDInsight torna mais fácil, rápido e rentável processar quantidades enormes de dados. O HDInsight inclui as estruturas de código aberto mais populares, como:

  • Apache Hadoop
  • Apache Spark
  • Apache Hive com LLAP
  • Apache Kafka
  • Apache HBase

Vantagens do Azure HDInsight em relação ao Hadoop local

  • Baixo custo - Os custos podem ser reduzidos criando clusters sob demanda e pagando apenas pelo que você usa. A computação e o armazenamento dissociados proporcionam flexibilidade, mantendo o volume de dados independente do tamanho do cluster.

  • Criação automatizada de clusters - A criação automatizada de clusters requer instalação e configuração mínimas. A automação pode ser usada para clusters sob demanda.

  • Hardware e configuração gerenciados - Não há necessidade de se preocupar com o hardware físico ou a infraestrutura com um cluster HDInsight. Basta especificar a configuração do cluster e o Azure a configura.

  • Facilmente escalável - O HDInsight permite dimensionar cargas de trabalho para cima ou para baixo. O Azure cuida da redistribuição de dados e do reequilíbrio da carga de trabalho sem interromper os trabalhos de processamento de dados.

  • Disponibilidade global - O HDInsight está disponível em mais regiões do que qualquer outra oferta de análise de big data. O Azure HDInsight também está disponível no Azure Government, na China e na Alemanha, o que lhe permite satisfazer as suas necessidades empresariais nas principais áreas soberanas.

  • Seguro e compatível - O HDInsight permite que você proteja seus ativos de dados corporativos com a Rede Virtual do Azure, criptografia e integração com o Microsoft Entra ID. O HDInsight também cumpre os padrões de conformidade mais populares da indústria e do governo.

  • Gerenciamento simplificado de versões - o Azure HDInsight gerencia a versão dos componentes do ecossistema Hadoop e os mantém atualizados. As atualizações de software geralmente são um processo complexo para implantações locais.

  • Clusters menores otimizados para cargas de trabalho específicas com menos dependências entre componentes - Uma configuração Hadoop local típica usa um único cluster que serve a muitos propósitos. Com o Azure HDInsight, clusters específicos de carga de trabalho podem ser criados. A criação de clusters para cargas de trabalho específicas elimina a complexidade de manter um único cluster com complexidade crescente.

  • Produtividade - Você pode usar várias ferramentas para Hadoop e Spark em seu ambiente de desenvolvimento preferido.

  • Extensibilidade com ferramentas personalizadas ou aplicativos de terceiros - os clusters HDInsight podem ser estendidos com componentes instalados e também podem ser integrados com outras soluções de big data usando implantações de um clique do Azure Marketplace.

  • Fácil gerenciamento, administração e monitoramento - o Azure HDInsight integra-se aos logs do Azure Monitor para fornecer uma interface única com a qual você pode monitorar todos os seus clusters.

  • Integração com outros serviços do Azure - o HDInsight pode ser facilmente integrado com outros serviços populares do Azure, como os seguintes:

    • Azure Data Factory (ADF)
    • Armazenamento de Blobs do Azure
    • Azure Data Lake Storage Gen2
    • BD do Cosmos para o Azure
    • Base de Dados SQL do Azure
    • Azure Analysis Services
  • Processos e componentes de autorrecuperação - O HDInsight verifica constantemente a infraestrutura e os componentes de código aberto usando sua própria infraestrutura de monitoramento. Ele também recupera automaticamente falhas críticas, como indisponibilidade de componentes e nós de código aberto. Os alertas são acionados no Ambari se algum componente OSS falhar.

Para obter mais informações, consulte o artigo O que é o Azure HDInsight e a pilha de tecnologia Apache Hadoop.

Processo de planeamento da migração

As etapas a seguir são recomendadas para planejar uma migração de clusters Hadoop locais para o Azure HDInsight:

  1. Entenda a implantação local e as topologias atuais.
  2. Entenda o escopo atual do projeto, os cronogramas e a experiência da equipe.
  3. Entenda os requisitos do Azure.
  4. Construa um plano detalhado com base nas melhores práticas.

Recolha de detalhes para preparar uma migração

Esta seção fornece modelos de questionários para ajudar a reunir informações importantes sobre:

  • A implantação local
  • Detalhes do projeto
  • Requisitos do Azure

Questionário de implantação local

Pergunta Exemplo Resposta:
Tema: Ambiente
Versão da Distribuição de Cluster HDP 2.6.5, CDH 5.7
Componentes do ecossistema de Big Data HDFS, Fios, Colmeia, LLAP, Impala, Kudu, HBase, Faísca, MapReduce, Kafka, Zookeeper, Solr, Sqoop, Oozie, Ranger, Atlas, Falcão, Zeppelin, R
Tipos de cluster Hadoop, Faísca, Confluente Kafka, Solr
Número de clusters 4
Número de nós mestres 2
Número de nós de trabalho 100
Número de nós de borda 5
Espaço total em disco 100 TB
Configuração do nó mestre m/y, cpu, disco, etc.
Configuração de nós de dados m/y, cpu, disco, etc.
Configuração de nós de borda m/y, cpu, disco, etc.
Encriptação HDFS? Sim
Elevada Disponibilidade HDFS HA, Metastore HA
Recuperação de desastres / Backup Cluster de backup?
Sistemas dependentes do Cluster SQL Server, Teradata, Power BI, MongoDB
Integrações de terceiros Tableau, GridGain, Qubole, Informática, Splunk
Tópico: Segurança
Segurança de perímetro Firewalls
Autenticação de cluster e autorização Ative Directory, Ambari, Cloudera Manager, Sem autenticação
Controlo de Acesso HDFS Manual, usuários ssh
Autenticação do Hive e autorização Sentinela, LDAP, AD com Kerberos, Ranger
Auditoria Ambari, Cloudera Navigator, Ranger
Monitorização Grafite, recolhido, , Telegraf, statsdInfluxDB
Alertas Kapacitor, Prometheus, Datadog
Duração da retenção de dados Três anos, cinco anos
Administradores de cluster Administrador único, vários administradores

Questionário de detalhes do projeto

Pergunta Exemplo Resposta:
Tópico: Cargas de trabalho e frequência
Trabalhos do MapReduce 10 empregos - duas vezes por dia
Vagas de Hive 100 empregos - a cada hora
Trabalhos em lote do Spark 50 trabalhos - a cada 15 minutos
Vagas de Spark Streaming 5 trabalhos - a cada 3 minutos
Trabalhos de Streaming estruturado 5 trabalhos - a cada minuto
Linguagens de Programação Python, Scala, Java
Scripting Shell, Python
Tópico: Dados
Origens de dados Arquivos simples, Json, Kafka, RDBMS
Orquestração de dados Fluxos de trabalho Oozie, fluxo de ar
Em pesquisas de memória Apache Ignite, Redis
Destinos dos dados HDFS, RDBMS, Kafka, MPP
Tópico: Metadados
Tipo de banco de dados do Hive Mysql, Postgres
Número de metastores do Hive 2
Número de tabelas Hive 100
Número de apólices Ranger 20
Número de fluxos de trabalho do Oozie 100
Tópico: Escala
Volume de dados, incluindo replicação 100 TB
Volume de ingestão diária 50 GB
Taxa de crescimento de dados 10% ao ano
Taxa de crescimento de nós de cluster 5% ao ano
Tópico: Utilização do cluster
Média de CPU % utilizada 60%
Memória média % utilizada 75%
Espaço em disco utilizado 75%
Rede média % utilizada 25%
Tópico: Pessoal
Número de administradores 2
Número de desenvolvedores 10
Número de utilizadores finais 100
Competências Hadoop, Faísca
Número de recursos disponíveis para os esforços de migração 2
Tópico: Limitações
Limitações atuais A latência é alta
Desafios atuais Emissão de simultaneidade

Questionário de requisitos do Azure

Pergunta Exemplo Resposta:
Tema: Infraestrutura
Região preferida E.U.A Leste
VNet preferido? Sim
HA / DR necessário? Sim
Integração com outros serviços na nuvem? ADF, Azure Cosmos DB
Tópico: Movimentação de dados
Preferência de carga inicial DistCp, Caixa de dados, ADF, WANDisco
Delta de transferência de dados DistCp, AzCopy
Transferência de dados incremental contínua DistCp, Sqoop
Tópico: Monitoramento & Alertas
Usar o Azure Monitoring & Alerting vs Integrar monitoramento de terceiros Usar o Azure Monitoring & Alerting
Tópico: Preferências de segurança
Pipeline de dados privados e protegidos? Sim
Cluster ingressado no domínio (ESP)? Sim
Sincronização do AD local com a nuvem? Sim
Número de utilizadores do AD a sincronizar? 100
Ok para sincronizar senhas com a nuvem? Sim
Utilizadores apenas na nuvem? Sim
MFA necessário? Não
Requisitos de autorização de dados? Sim
Controle de acesso baseado em função? Sim
Auditoria necessária? Sim
Criptografia de dados em repouso? Sim
Encriptação de dados em trânsito? Sim
Tópico: Preferências de rearquitetura
Cluster único vs Tipos de cluster específicos Tipos de cluster específicos
Armazenamento colocalizado vs armazenamento remoto? Armazenamento remoto
Tamanho menor do cluster à medida que os dados são armazenados remotamente? Tamanho menor do cluster
Usar vários clusters menores em vez de um único cluster grande? Usar vários clusters menores
Usar um metastore remoto? Sim
Compartilhar metastores entre clusters diferentes? Sim
Desconstruir cargas de trabalho? Substitua trabalhos do Hive por trabalhos do Spark
Usar o ADF para orquestração de dados? Não

Próximos passos

Leia o próximo artigo desta série: