O que é um data lake?
Saiba mais sobre a diferença entre data lakes e data warehouses. Descubra como criar uma base escalonável para todas as suas análises com o Azure.
Definição de data lake
Este guia introdutório explora os muitos benefícios e casos de uso de um data lake. Saiba o que é data lake, por que ele é importante e descubra a diferença entre data lakes e data warehouses. Mas, primeiro, vamos definir data lake como um termo.
Um data lake é um repositório centralizado que ingere e armazena grandes volumes de dados em sua forma original. Os dados podem ser processados e usados como base para uma variedade de necessidades analíticas. Devido à sua arquitetura aberta e escalonável, um data lake pode acomodar todos os tipos de dados de qualquer fonte, desde dados estruturados (tabelas de banco de dados, planilhas do Excel) até semiestruturados (arquivos XML, páginas da Web) e não estruturados (imagens, arquivos de áudio, tweets), tudo sem sacrificar a fidelidade. Os arquivos de dados normalmente são armazenados em zonas preparadas - brutos, limpos e coletados - para que diferentes tipos de usuários possam usar os dados em suas várias formas para atender às suas necessidades. Os data lakes fornecem consistência de dados básica em uma variedade de aplicativos, habilitando a análise de Big Data, o aprendizado de máquina, a análise preditiva e outras formas de ação inteligente.
Por que os data lakes são importantes para as empresas?
O mundo altamente conectado e orientado por insights de hoje não seria possível sem o advento das soluções de data lake. Isso ocorre porque as organizações dependem de plataformas abrangentes de data lakes, como o Azure Data Lake, para manter os dados brutos consolidados, integrados, seguros e acessíveis. Ferramentas de armazenamento escalonáveis como o Azure Data Lake Storage podem armazenar e proteger dados em um local central, eliminando silos a um custo ideal. Isso estabelece a base para que os usuários executem uma ampla variedade de categorias de carga de trabalho, como processamento de Big Data, consultas SQL, mineração de texto, análise de streaming e aprendizado de máquina. Os dados podem ser usados para alimentar a visualização de dados upstream e as necessidades de relatório ad hoc. Uma plataforma de dados moderna e de ponta a ponta, como o Azure Synapse Analytics atende às necessidades completas de uma arquitetura de Big Data centralizada em torno do data lake.
Casos de uso do data lake
Com uma solução bem arquitetada, o potencial de inovação é infinito. Aqui estão apenas alguns exemplos de como as organizações em uma variedade de setores usam plataformas de data lake para otimizar seu crescimento:
- Streaming de mídia. As empresas de streaming baseadas em assinatura coletam e processam insights sobre o comportamento do cliente, que podem usar para melhorar o algoritmo de recomendação.
- Finanças. Os bancos de investimento usam os dados de mercado mais atualizados, que são coletados e armazenados em tempo real, para gerenciar com eficiência os riscos de portfólio.
- Serviços de saúde. As organizações de saúde dependem de Big Data para melhorar a qualidade do atendimento aos pacientes. Os hospitais usam grandes quantidades de dados históricos para simplificar as etapas de atendimento dos pacientes, resultando em melhores resultados e redução do custo do atendimento.
- Varejista omnicanal. Os varejistas usam data lakes para capturar e consolidar dados provenientes de vários pontos de toque, incluindo dispositivos móveis, sociais, chat, o boca a boca e pessoalmente.
- IoT. Sensores de hardware geram enormes quantidades de dados semiestruturados e não estruturados no mundo físico ao redor. Os data lakes fornecem um repositório central no qual essas informações residam para análise futura.
- Cadeia de fornecimento digital. Os data lakes ajudam os fabricantes a consolidar dados de armazenamento diferentes, incluindo sistemas EDI, XML e JSONs.
- Sales. Cientistas de dados e engenheiros de vendas geralmente criam modelos preditivos para ajudar a determinar o comportamento do cliente e reduzir a rotatividade geral.
Data lake versus data warehouse
Agora você sabe o que é um data lake, por que ele é importante e como ele é usado em várias organizações. Mas qual é a diferença entre um data lake e um data warehouse? E quando é apropriado usar um e não o outro?
Embora data lakes e data warehouses sejam semelhantes , pois eles armazenam e processam dados, cada um tem suas próprias especialidades e, portanto, seus próprios casos de uso. É por isso que é comum para uma organização de nível empresarial incluir um data lake e um data warehouse em seu ecossistema de análise. Ambos os repositórios trabalham juntos para formar um sistema seguro de ponta a ponta para armazenamento, processamento e tempo de insight mais rápido.
Um data lake captura dados relacionais e não relacionais de uma variedade de fontes — aplicativos de negócios, aplicativos móveis, dispositivos IoT, mídia social ou streaming — sem precisar definir a estrutura ou o esquema dos dados até que eles sejam lidos. O esquema na leitura garante que qualquer tipo de dados possa ser armazenado em sua forma bruta. Como resultado, os data lakes podem conter uma ampla variedade de tipos de dados, de estruturados a semiestruturados e não estruturados, em qualquer escala. Sua natureza flexível e escalonável os torna essenciais para executar formas complexas de análise de dados usando diferentes tipos de ferramentas de processamento de computação, como Apache Spark ou Azure Machine Learning.
Em contraste, um data warehouse é relacional por natureza. A estrutura ou o esquema é modelado ou predefinido por requisitos de negócios e produtos que são coletados, ajustados e otimizados para operações de consulta SQL. Enquanto um data lake armazena dados de todos os tipos de estrutura, incluindo dados brutos e não processados, um data warehouse armazena dados que foram tratados e transformados com uma finalidade específica em mente, que podem ser usados para gerar relatórios analíticos ou operacionais. Isso torna os data warehouses ideais para produzir formas mais padronizadas de análise de BI ou para atender a um caso de uso de negócios que já foi definido.
Data lake | Data warehouse | |
---|---|---|
Tipo | Estruturado, semiestruturado, não estruturado | Estruturado |
Relacional, não relacional | Relacional | |
Esquema | Esquema na leitura | Esquema na gravação |
Formato | Brutos, não filtrados | Processado, examinado |
Fontes | Big Data, IoT, mídia social, dados de streaming | Aplicativo, negócios, dados transacionais, relatórios em lotes |
Escalabilidade | Fácil de escalar a baixo custo | Difícil e caro de escalar |
Usuários | Cientistas de dados, engenheiros de dados | Profissionais de data warehouse, analistas de negócios |
Casos de uso | Aprendizado de máquina, análise preditiva, análise em tempo real | Relatórios principais, BI |
Data lake versus data lakehouse
Agora você sabe a diferença entre um data lake e um data warehouse. Mas qual é a diferença entre um data lake e um data lakehouse? E é necessário ter ambos?
Apesar de suas muitas vantagens, uma data lake tradicional tem também suas desvantagens. Como os data lakes podem acomodar todos os tipos de dados de todos os tipos de fontes, podem ocorrer problemas relacionados ao controle de qualidade, dados corrompidos e particionamento inadequado. Um data lake mal gerenciado não apenas prejudica a integridade dos dados, mas também pode levar a gargalos, desempenho lento e riscos de segurança.
É aqui que o data lakehouse entra em cena. Um data lakehouse é uma solução de armazenamento aberta baseada em padrões que é multifacetada por natureza. Ele pode atender às necessidades de cientistas de dados e engenheiros que realizam análise e processamento profundos de dados, bem como as necessidades de profissionais tradicionais de data warehouse que coletam e publicam dados para business intelligence e relatórios. A vantagem do lakehouse é que cada carga de trabalho pode operar perfeitamente em conjunto com o data lake sem precisar duplicar os dados em outro banco de dadosestruturalmente predefinido. Isso garante que todos estão trabalhando com os dados mais atualizados, além de reduzir redundâncias.
Os data lakehouses abordam os desafios dos data lakes tradicionais adicionando uma camada de armazenamento do Delta Lake diretamente sobre o data lake de nuvem. A camada de armazenamento fornece uma arquitetura analítica flexível que pode lidar com transações ACID (atomicidade, consistência, isolamento e durabilidade) para confiabilidade de dados, integrações de streaming e recursos avançados, como controle de versão de dados e imposição de esquema. Isso permite uma variedade de atividades analíticas no lake, tudo isso sem comprometer a consistência dos dados principais. Embora a necessidade de um lakehouse dependa de quão complexas são suas necessidades, sua flexibilidade e intervalo o tornam uma solução ideal para muitas organizações corporativas.
Data lake | Data lakehouse | |
---|---|---|
Tipo | Estruturado, semiestruturado, não estruturado | Estruturado, semiestruturado, não estruturado |
Relacional, não relacional | Relacional, não relacional | |
Esquema | Esquema na leitura | Esquema na leitura, esquema na gravação |
Formato | Brutos, não filtrados, processados, coletados | Arquivos de formato delta brutos, não filtrados, processados, coletados |
Fontes | Big Data, IoT, mídia social, dados de streaming | Big Data, IoT, mídia social, dados de streaming, aplicativo, negócios, dados transacionais, relatórios em lotes |
Escalabilidade | Fácil de escalar a baixo custo | Fácil de escalar a baixo custo |
Usuários | Cientistas de dados | Analistas de negócios, engenheiros de dados, cientistas de dados |
Casos de uso | Aprendizado de máquina, análise preditiva | Relatórios principais, BI, aprendizado de máquina, análise preditiva |
O que é a arquitetura de data lake?
Na sua essência, um data lake é um repositório de armazenamento sem nenhuma arquitetura definida própria. Para aproveitar ao máximo seus recursos, ele requer uma ampla variedade de ferramentas, tecnologias e mecanismos de computação que ajudam a otimizar a integração, o armazenamento e o processamento de dados. Essas ferramentas trabalham juntas para criar uma arquitetura em camadas coesivas, que é informada por Big Data e é executada sobre o data lake. Essa arquitetura também pode formar a estrutura operacional de um data lakehouse. Cada organização tem sua própria configuração exclusiva, mas a maioria das arquiteturas de data lakehouse tem os seguintes recursos:
- Gerenciamento e orquestração de recursos. Um gerenciador de recursos permite que o data lake execute tarefas consistentemente alocando a quantidade certa de dados, recursos e poder de computação aos locais certos.
- Conectores para fácil acesso. Uma variedade de fluxos de trabalho permite que os usuários acessem e compartilhem facilmente os dados necessários na forma em que precisam.
- Análise confiável. Um bom serviço de análise deve ser rápido, escalonável e distribuído. Ele também deve dar suporte a uma variedade diversificada de categorias de carga de trabalho em várias linguagens.
- Classificação de dados. A criação de perfil de dados, a catalogação e o arquivamento ajudam as organizações a controlar o conteúdo, a qualidade, a localização e o histórico de dados.
- Processo de ELT (extração, carregamento e transformação). ELT refere-se aos processos pelos quais os dados são extraídos de várias fontes e carregados na zona bruta do data lake e, em seguida, limpos e transformados após a extração para que os aplicativos possam usá-los prontamente.
- Segurança e suporte. Ferramentas de proteção de dados como mascaramento, auditoria, criptografia e monitoramento de acesso garantem que seus dados permaneçam seguros e privados.
- Governança e administração. Para que a plataforma de data lake seja executada da maneira mais tranquila possível, os usuários devem ser instruídos sobre sua configuração de arquitetura, bem como práticas recomendadas para gerenciamento de dados e operações.
Recursos adicionais
Perguntas frequentes
-
Um data lake é um repositório centralizado que ingere, armazena e permite o processamento de grandes volumes de dados em sua forma original. Ele pode acomodar todos os tipos de dados, que são usados para a análise de Big Data, aprendizado de máquina e outras formas de ação inteligente.
-
As organizações em uma variedade de setores, incluindo varejo, finanças e entretenimento, usam plataformas de data lake para armazenar dados, coletar insights e melhorar a qualidade geral de seus serviços. Os bancos de investimento, por exemplo, usam data lakes para coletar e processar dados de entrada no mercado, permitindo que elas gerenciem riscos de portfólio com mais eficiência.
-
Os data lakes armazenam todos os tipos de dados brutos, que os cientistas de dados podem usar para uma variedade de projetos. Os data warehouses armazenam dados limpos e processados, que podem ser usados para criar relatórios analíticos ou operacionais, bem como casos de uso específicos de BI.
-
Um data lakehouse combina elementos de um data lake e um data warehouse para formar uma solução flexível de ponta a ponta para ciência de dados e business intelligence.
-
Com certeza. As principais organizações em todos os setores dependem das grandes quantidades de dados armazenados em data lakes para impulsionar ações inteligentes, obter insights e crescer.
-
Grandes volumes de dados, incluindo dados brutos e não estruturados, podem ser difíceis de gerenciar, levando a gargalos, dados corrompidos, problemas de controle de qualidade e problemas de desempenho. É por isso que é importante manter boas práticas de governança e administração para ajudá-lo a executar sua plataforma de data lake sem problemas.
-
A arquitetura do data lake refere-se à configuração específica de ferramentas e tecnologias que ajuda a manter os dados do data lake integrados, acessíveis, organizados e seguros.
Explore as práticas recomendadas para a arquitetura de data lake
Conta Gratuita
Experimente os serviços de computação em nuvem do Azure gratuitamente por 30 dias.
Pagamento conforme o uso
Comece com preços pagos conforme o uso. Não há um compromisso antecipado, cancele a qualquer momento.