Pular para o conteúdo principal

O que é um data lake?

Saiba mais sobre a diferença entre data lakes e data warehouses. Descubra como criar uma base escalonável para todas as suas análises com o Azure.

Definição de Data Lake

Este guia introdutório explora os muitos benefícios e casos de uso de um data lake. Saiba o que é um data lake, por quê ele é importante e como ele difere de um data warehouse ou de um data lakehouse. Mas, primeiro, vamos definir o que é um data lake.

Um data lake é um repositório centralizado que ingere e armazena grandes volumes de dados em sua forma original. Os dados podem ser processados e usados como base para uma variedade de necessidades analíticas. Devido à sua arquitetura aberta e escalonável, um data lake pode acomodar todos os tipos de dados, de qualquer fonte, desde estruturadas (tabelas de banco de dados, planilhas do Excel), semiestruturados (arquivos XML, páginas da Web) até não estruturados (imagens, arquivos de áudio, tweets), tudo sem sacrificar a fidelidade. Os arquivos de dados normalmente são armazenados em zonas preparadas, brutos, limpos e coletados, para que diferentes tipos de usuários possam usar os dados em suas várias formas para atender às suas necessidades. Os data lakes fornecem consistência de dados básica em uma variedade de aplicativos, habilitando a análise de Big Data, o aprendizado de máquina, a análise preditiva e outras formas de ação inteligente.

Por que os data lakes são importantes para as empresas?

O mundo altamente conectado e orientado por insights de hoje não seria possível sem o advento de soluções de data lake. Isso ocorre porque as organizações dependem de plataformas abrangentes de data lake, como o Azure Data Lake, para manter os dados brutos consolidados, integrados, seguros e acessíveis. Ferramentas de armazenamento escalonáveis como Azure Data Lake Storage podem armazenar e proteger dados em um local central, eliminando silos a um custo ideal. Isso estabelece a base para que os usuários executem uma ampla variedade de categorias de carga de trabalho, como processamento de Big Data, consultas SQL, mineração de texto, análise de streaming e aprendizado de máquina. Os dados podem ser usados para alimentar a visualização de dados upstream e as necessidades de relatório ad hoc. Uma plataforma de dados moderna e de ponta a ponta, como Azure Synapse Analytics atende às necessidades completas de uma arquitetura de Big Data centralizada no data lake.

Casos de uso de Data Lake

Com uma solução bem arquitetada, o potencial de inovação é infinito. Aqui estão apenas alguns exemplos de como as organizações, em uma variedade de setores, usam plataformas de data lake para otimizar seu crescimento:

  • Streaming de mídia. Empresas de streaming baseadas em assinatura coletam e processam insights sobre o comportamento do cliente, que podem usar para melhorar seu algoritmo de recomendação.
  • Finanças As empresas de investimento usam os dados de mercado mais atualizados, que são coletados e armazenados em tempo real, para gerenciar com eficiência os riscos de portfólio.
  • Serviços de saúde. Empresas de serviços de saúde dependem de big data para melhorar a qualidade do atendimento aos pacientes. Os médicos usam grandes quantidades de dados históricos para simplificar os caminhos dos pacientes, resultando em melhores resultados e na redução do custo dos cuidados.
  • Varejista da Omnichannel. Os varejistas usam data lakes para capturar e consolidar dados que vêm de vários pontos de toque, incluindo celular, redes sociais, chat, boca a boca e pessoalmente.
  • IoT. Sensores de hardware geram quantidades enormes de dados semiestruturados e não estruturados no mundo físico ao redor. Os data lakes fornecem um repositório central no qual essas informações devem ser usadas para análise futura.
  • Cadeia de fornecimento digital. Os data lakes ajudam os fabricantes a consolidar dados de armazenamento diferentes, incluindo sistemas EDI, XML e JSONs.
  • Vendas. Especialistas em dados e engenheiros de vendas geralmente compilam modelos preditivos para ajudar a determinar o comportamento do cliente e reduzir a rotatividade geral.

Data lake em comparação a data warehouse

Agora você sabe o que é um data lake, por quê ele é importante e como é usado em várias organizações. Mas qual é a diferença entre um data lake e um data warehouse? E quando é apropriado usar um ou outro?

Embora data lakes e data warehouses sejam semelhantes, pois armazenam e processam dados, cada um tem suas próprias especialidades e, portanto, seus próprios casos de uso. É por isso que é comum para uma organização de nível empresarial incluir um data lake e um data warehouse em seu ecossistema de análise. Ambos os repositórios trabalham juntos para formar um sistema seguro de ponta a ponta para armazenamento, processamento e tempo de insight mais rápido.

Um data lake captura dados relacionais e não relacionais de uma variedade de fontes: aplicativos de negócios, aplicativos móveis, dispositivos IoT, redes sociais ou streaming - sem precisar definir a estrutura ou o esquema dos dados até que eles sejam lidos. O esquema na leitura garante que qualquer tipo de dados possa ser armazenado em sua forma bruta. Como resultado, os data lakes podem conter uma ampla variedade de tipos de dados, de estruturados a semiestruturados a não estruturados, em qualquer escala. Sua natureza flexível e escalonável os torna essenciais para executar formas complexas de análise de dados usando diferentes tipos de ferramentas de processamento de computação, como o Apache Spark or Azure Machine Learning..

Por outro lado, um data warehouse é relacional por natureza. A estrutura ou o esquema é modelado ou predefinido por requisitos de negócios e produtos que são coletados, conformados e otimizados para operações de consulta SQL. Embora um data lake tenha dados de todos os tipos de estrutura, incluindo dados brutos e não processados, um data warehouse armazena dados que foram tratados e transformados com uma finalidade específica em mente, que podem ser usados para gerar relatórios analíticos ou operacionais. Isso torna os data warehouses ideais para produzir formas mais padronizadas de análise de BI ou para atender a um caso de uso de negócios que já foi definido.

Não disponível Data Lake Data warehouse
Tipo Estruturado, semiestruturado, não estruturado Estruturado
Não disponível Relacional, não relacional Relacional
Esquema Esquema na leitura Esquema na gravação
Formatar Bruto, não filtrado Processado, examinado
Fontes Big Data, IoT, mídia social, dados de streaming Aplicativo, negócios, dados transacionais, relatórios em lotes
Escalabilidade Fácil de dimensionar a um baixo custo Difícil e caro de dimensionar
Usuários Cientistas de dados, engenheiros de dados Profissionais de data warehouse, analistas de negócios
Casos de uso Aprendizado de máquina, análise preditiva, análise em tempo real Relatórios principais, BI

Data lake vs. data lakehouse

Agora você sabe a diferença entre um data lake e um data warehouse. Mas qual é a diferença entre um data lake e um data lakehouse? É necessário ter ambos?

Apesar de suas muitas vantagens, uma data lake tradicional tem suas desvantagens. Como os data lakes podem acomodar todos os tipos de dados, de todos os tipos de fontes, podem ocorrer problemas relacionados ao controle de qualidade, dados corrompidos e particionamento inadequado. Uma configuração mal gerenciada data lake não apenas compromete a integridade dos dados, mas pode levar a gargalos, desempenho lento e riscos de segurança.

É aqui que o data lakehouse entra em cena. Um data lakehouse é uma solução de armazenamento aberta baseada em padrões multifacetados por natureza. Ele pode atender às necessidades de cientistas de dados e engenheiros que realizam análise e processamento profundos de dados, bem como as necessidades de profissionais tradicionais do data warehouse que coletam e publicam dados para business intelligence e relatórios. A vantagem do lakehouse é que cada carga de trabalho pode operar perfeitamente sobre o data lake sem precisar duplicar os dados em outro banco de dados estruturalmente predefinido. Isso garante que todos estão trabalhando nos dados mais atualizados, além de reduzir redundâncias.

Os data lakehouses abordam os desafios dos data lakes tradicionais adicionando uma camada de armazenamento do Delta Lake diretamente sobre a o data lake da nuvem. A camada de armazenamento fornece uma arquitetura analítica flexível que pode lidar com transações ACID (atomicidade, consistência, isolamento e durabilidade) para confiabilidade de dados, integrações de streaming e recursos avançados, como controle de versão de dados e imposição de esquema. Isso permite uma variedade de atividades analíticas no lake, tudo isso sem comprometer a consistência dos dados principais. Embora a necessidade de um lakehouse dependa de quão complexas são suas necessidades, sua flexibilidade e intervalo o torna uma solução ideal para muitas organizações corporativas.

Não disponível Data Lake Data lakehouse
Tipo Estruturado, semiestruturado, não estruturado Estruturado, semiestruturado, não estruturado
Não disponível Relacional, não relacional Relacional, não relacional
Esquema Esquema na leitura Esquema na leitura, esquema na gravação
Formatar Bruto, não filtrado, processado, coletado Arquivos de formato delta brutos, não filtrados, processados, coletados
Fontes Big Data, IoT, mídia social, dados de streaming Big Data, IoT, mídia social, dados de streaming, aplicativo, negócios, dados transacionais, relatórios em lotes
Escalabilidade Fácil de dimensionar a um baixo custo Fácil de dimensionar a um baixo custo
Usuários Cientistas de dados Analistas de negócios, engenheiros de dados, cientistas de dados
Casos de uso Aprendizado de máquina, análise preditiva Relatórios principais, BI, aprendizado de máquina, análise preditiva

O que é a arquitetura de data lake?

No fundo, um data lake é um repositório de armazenamento sem nenhuma arquitetura definida própria. Para aproveitar ao máximo seus recursos, ele requer uma ampla variedade de ferramentas, tecnologias e mecanismos de computação que ajudam a otimizar a integração, o armazenamento e o processamento de dados. Essas ferramentas trabalham juntas para criar uma arquitetura em camadas coesivamente, que é informada por Big Data e executada sobre o data lake. Essa arquitetura também pode formar a estrutura operacional de um data lakehouse. Cada organização tem sua própria configuração exclusiva, mas a maioria das arquiteturas de data lakehouse tem o seguinte:

  • Gerenciamento e orquestração de recurso. Um gerenciador de recursos permite que o data lake execute tarefas consistentemente alocando a quantidade correta de dados, recursos e potência de computação para os locais corretos.
  • Conectores para fácil acesso. Uma variedade de fluxos de trabalho permite que os usuários acessem e compartilhem facilmente os dados necessários da forma que precisam.
  • Análise confiável. Um bom serviço de análise deve ser rápido, escalonável e distribuído. Ele também deve dar suporte a uma variedade de categorias de carga de trabalho em vários idiomas.
  • Classificação de dados. A criação de perfil, catálogo e arquivamento de dados ajuda as organizações a manterem o controle do conteúdo, qualidade e localização dos dados.
  • Extrair, carregar, transformar (ELT) processos. O ELT refere-se aos processos pelos quais os dados são extraídos de várias fontes e carregados na zona bruta do data lake, depois limpos e transformados após a extração para que os aplicativos possam usá-los prontamente.
  • segurança e suporte. Ferramentas de proteção de dados como mascaramento, auditoria, criptografia e monitoramento de acesso garantem que seus dados permaneçam seguros e privados.
  • Governança e administração. Para que a plataforma data lake seja executada da maneira mais suave possível, os usuários devem ser instruídos sobre sua configuração arquitetônica, bem como práticas recomendadas para o gerenciamento de dados e operações.

Perguntas frequentes

  • Um data lake é um repositório centralizado que ingere, armazena e permite o processamento de grandes volumes de dados em sua forma original. Ele pode acomodar todos os tipos de dados, que são então usados para ativar a análise de big data, machine learning e outras formas de ação inteligente.

    Saiba mais sobre o data lakes

  • As organizações em uma variedade de setores, incluindo varejo, finanças e entretenimento, usam plataformas de data lake para armazenar dados, coletar insights e melhorar a qualidade geral de seus serviços. As empresas de investimento, por exemplo, usam data lakes para coletar e processar dados de entrada no mercado, permitindo que elas gerenciem riscos de portfólio com mais eficiência.
  • Os data Lakes armazenam todos os tipos de dados brutos, que os cientistas de dados podem então usar para uma variedade de projetos. Os data warehouses armazenam dados limpos e processados, que podem ser usados para o relatório analítico ou operacional de origem, bem como casos específicos de uso de BI.

    Explore os data lakes em comparação a data warehouses

  • Um data lakehouse combina elementos de um data lake e de um data warehouse para formar uma solução flexível, de ponta a ponta para fins de ciência de dados e business intelligence.

    Saiba mais sobre data lakehouses

  • Claro. As principais organizações em todos os setores dependem das grandes quantidades de dados armazenados nos data lakes para potencialize a ação inteligente, obter insights e expandir.

    Descubra os benefícios dos data lakes

  • Grandes volumes de dados, incluindo dados brutos e não estruturados, podem ser difíceis de gerenciar, levando a gargalos, dados corrompidos, problemas de controle de qualidade e problemas de desempenho. É por isso que é importante manter boas práticas de governança e administração para ajudá-lo a executar sua data lake sem problemas.
  • A arquitetura do Data Lake refere-se à configuração específica de ferramentas e tecnologias que ajuda a manter os dados do data lake integrados, acessíveis, organizados e seguros.

    Explore as práticas recomendadas para a arquitetura de data lake

Conta Gratuita

Experimente os serviços de Cloud Computing do Azure gratuitamente por até 30 dias.

PAGO CONFORME O USO

Comece com preços pré-pagos. Não há compromisso antecipado—cancele a qualquer momento.

Podemos ajudar você?