O que é um Data Lake?
Saiba mais sobre a diferença entre data lakes e armazéns de dados. Descubra como criar uma base dimensionável para todas as suas análises com o Azure.
Definição de data lake
Este guia introdutório explora os muitos benefícios e casos de utilização de um data lake. Saiba o que é um data lake, por que é importante e descubra a diferença entre data lakes e armazéns de dados. Mas, primeiro, vamos definir o data lake como um termo.
Um data lake é um repositório centralizado que ingere e armazena grandes volumes de dados na sua forma original. Em seguida, os dados podem ser processados e utilizados como base para uma variedade de necessidades analíticas. Devido à sua arquitetura aberta e dimensionável, um data lake pode acomodar todos os tipos de dados de qualquer origem, desde tabelas estruturadas (tabelas de bases de dados, folhas do Excel) a semiestruturadas (ficheiros XML, páginas Web) a não estruturadas (imagens, ficheiros de áudio, tweets), tudo sem sacrificar a fidelidade. Normalmente, os ficheiros de dados são armazenados em zonas faseadas (não formatadas, limpas e organizadas), para que diferentes tipos de utilizadores possam utilizar os dados nas suas várias formas para atender às suas necessidades. Os data lakes fornecem consistência de dados principais em várias aplicações, ao impulsionar a análise de macrodados, machine learning, análise preditiva e outras formas de ação inteligente.
Por que motivo os data lakes são importantes para as empresas?
Atualmente, o mundo altamente ligado e orientado por informações não seria possível sem o aparecimento de soluções de data lake. Isto porque as organizações dependem de plataformas abrangentes de data lakes, como o Azure Data Lake, para manter os dados não processados consolidados, integrados, seguros e acessíveis. As ferramentas de armazenamento dimensionáveis, como o Azure Data Lake Storage, podem armazenar e proteger dados num único local central, eliminando silos a um custo ideal. Isto estabelece a base para os utilizadores realizarem uma grande variedade de categorias de carga de trabalho, como o processamento de macrodados, consultas SQL, extração de texto, análise de transmissão em fluxo e machine learning. Em seguida, os dados podem ser utilizados para alimentar as necessidades de visualização de dados a montante e relatórios ad hoc. Uma plataforma de dados moderna e ponto a ponto, como o Azure Synapse Analytics, aborda as necessidades completas de uma arquitetura de macrodados centrada no data lake.
Casos de utilização do data lake
Com uma solução bem arquitetada, o potencial da inovação é infinito. Eis apenas alguns exemplos de como as organizações de vários setores utilizam plataformas de data lake para otimizar o crescimento:
- Suporte de dados de transmissão em fluxo. As empresas de transmissão em fluxo baseadas em subscrição recolhem e processam informações sobre o comportamento dos clientes, que podem utilizar para melhorar o algoritmo de recomendação.
- Finanças. As empresas de investimento utilizam os dados de mercado mais atualizados, que são recolhidos e armazenados em tempo real, para gerir de forma eficiente os riscos de portfólio.
- Cuidados de saúde. As organizações de cuidados de saúde dependem de macrodados para melhorar a qualidade dos cuidados de saúde dos pacientes. Os hospitais utilizam grandes quantidades de dados históricos para simplificar os caminhos dos pacientes, resultando em melhores resultados e redução do custo dos cuidados.
- Revendedor omnicanal. Os revendedores utilizam data lakes para capturar e consolidar dados provenientes de vários pontos de toque, incluindo dispositivos móveis, redes sociais, chat, palavras-chave e em pessoa.
- IoT. Os sensores de hardware geram enormes quantidades de dados semiestruturados para dados não estruturados no mundo físico adjacente. Os data lakes fornecem um repositório central para que estas informações residam para análise futura.
- Cadeia de fornecimento digital. Os data lakes ajudam os fabricantes a consolidar dados de armazenamento diferentes, incluindo sistemas EDI, XML e JSONs.
- Vendas. Os cientistas de dados e os engenheiros de vendas criam frequentemente modelos preditivos para ajudar a determinar o comportamento dos clientes e a reduzir as taxas de abandono gerais.
Data lake vs. armazém de dados
Agora já sabe o que é um data lake, por que motivo é importante e como é utilizado em várias organizações. Qual a diferença entre um armazém de dados e um data lake? E quando é adequado utilizar um em vez do outro?
Embora os data lakes e armazéns de dados sejam semelhantes na forma como armazenam e processam dados, cada um tem as suas próprias especialidades e, por conseguinte, os seus próprios casos de utilização. É por isso que é comum uma organização de nível empresarial incluir um data lake e um armazém de dados no seu ecossistema de análise. Ambos os repositórios funcionam em conjunto para formar um sistema ponto a ponto seguro para armazenamento, processamento e tempo de informação mais rápido.
Um data lake captura dados relacionais e não relacionais de várias fontes — aplicações empresariais, aplicações móveis, dispositivos IoT, redes sociais ou transmissão em fluxo — sem ter de definir a estrutura ou o esquema dos dados até estes serem lidos. O esquema na leitura garante que qualquer tipo de dados pode ser armazenado na sua forma não processada. Como resultado, os data lakes podem conter uma grande variedade de tipos de dados, desde estruturados a semiestruturados a não estruturados, em qualquer escala. A sua natureza flexível e dimensionável torna-os essenciais para realizar formas complexas de análise de dados com diferentes tipos de ferramentas de processamento de computação, como o Apache Spark ou o Azure Machine Learning.
Por contraste, um armazém de dados é relacional por natureza. A estrutura ou esquema é modelado ou predefinido pelos requisitos de negócio e produto organizados, conformes e otimizados para operações de consulta SQL. Embora um data lake tenha dados de todos os tipos de estrutura, incluindo dados não processados, um armazém de dados armazena dados que foram tratados e transformados com um objetivo específico em mente, que podem ser utilizados para a origem de relatórios operacionais ou de análise. Isto torna os armazéns de dados ideais para produzir formas de análise de BI mais padronizadas ou para servir um caso de utilização empresarial que já foi definido.
Data lake | Armazém de dados | |
---|---|---|
Tipo | Estruturados, semiestruturados, não estruturados | Estruturado |
Relacional, não relacional | Relacional | |
Esquema | Esquema na leitura | Esquema na escrita |
Formato | Dados não processados nem filtrados | Processados e verificados |
Origens | Macrodados, IoT, redes sociais, dados de transmissão em fluxo | Aplicação, negócio, dados transacionais, relatórios em lote |
Escalabilidade | Fácil de dimensionar a um custo reduzido | Dimensionamento difícil e dispendioso |
Utilizadores | Cientistas e engenheiros de dados | Profissionais do armazém de dados, analistas de negócio |
Casos de utilização | Aprendizagem automática, análise preditiva e análise em tempo real | Relatórios essenciais, BI |
Data lake vs. data lakehouse
Qual a diferença entre um armazém de dados e um data lake. Mas qual é a diferença entre um data lake e um data lakehouse? E é necessário ter ambos?
Apesar das suas muitas vantagens, um data lake tradicional também tem as suas desvantagens. Uma vez que os data lakes podem acomodar todos os tipos de dados de todos os tipos de fontes, podem ocorrer problemas relacionados com o controlo de qualidade, danos em dados e partições inadequadas. Um data lake mal gerido não só anula a integridade dos dados, como também pode levar a estrangulamentos, desempenho lento e riscos de segurança.
É aí que o data lakehouse entra em jogo. Um data lakehouse é uma solução de armazenamento baseada em normas aberta que é multifacetada por natureza. Pode atender às necessidades de cientistas de dados e engenheiros que realizam análises e processamentos de dados profundos, bem como as necessidades dos profissionais tradicionais do armazém de dados que realizam a organização e publicação de dados para fins de business intelligence e relatórios. A beleza do lakehouse é que cada carga de trabalho pode operar de forma totalmente integrada sobre o data lake sem ter de duplicar os dados para outra base de dadospredefinida estruturalmente. Isto garante que todos estão a trabalhar nos dados mais atualizados, ao mesmo tempo que reduzem as redundâncias.
Os data lakehouses abordam os desafios dos data lakes tradicionais ao adicionar uma camada de armazenamento do Delta Lake diretamente sobre o data lake na cloud. A camada de armazenamento fornece uma arquitetura analítica flexível que consegue lidar com transações ACID (atomicidade, consistência, isolamento e durabilidade) para fiabilidade de dados, integrações de transmissão em fluxo e funcionalidades avançadas, como o controlo de versões de dados e a imposição de esquemas. Isto permite uma variedade de atividades analíticas sobre o lake, tudo sem comprometer a consistência dos dados principais. Embora a necessidade de um lakehouse dependa do quão complexas são as suas necessidades, a flexibilidade e o intervalo fazem com que seja uma solução ideal para muitas organizações empresariais.
Data lake | Data lakehouse | |
---|---|---|
Tipo | Estruturados, semiestruturados, não estruturados | Estruturados, semiestruturados, não estruturados |
Relacional, não relacional | Relacional, não relacional | |
Esquema | Esquema na leitura | Esquema na leitura, esquema na escrita |
Formato | Não processado, não filtrado, processado, organizado | Ficheiros não processados, não filtrados, processados, organizados, de formato delta |
Origens | Macrodados, IoT, redes sociais, dados de transmissão em fluxo | Macrodados, IoT, redes sociais, dados de transmissão em fluxo, aplicação, negócio, dados transacionais, relatórios em lote |
Escalabilidade | Fácil de dimensionar a um custo reduzido | Fácil de dimensionar a um custo reduzido |
Utilizadores | Cientistas de dados | Analistas de negócio, engenheiros de dados, cientistas de dados |
Casos de utilização | Aprendizagem automática, análise preditiva | Relatórios principais, BI, aprendizagem automática, análise preditiva |
O que é a arquitetura do data lake?
Na sua essência, um data lake é um repositório de armazenamento sem arquitetura própria definida. Aproveitar ao máximo as suas capacidades, requer uma vasta gama de ferramentas, tecnologias e motores de computação que ajudam a otimizar a integração, o armazenamento e o processamento de dados. Estas ferramentas funcionam em conjunto para criar uma arquitetura em camadas coesa, que é informada pelos macrodados e é executado sobre o data lake. Esta arquitetura também pode formar a estrutura operacional de um data lakehouse. Cada organização tem a sua própria configuração exclusiva, mas a maioria das arquiteturas do data lakehouse apresentam o seguinte:
- Gestão e orquestração de recursos. Um gestor de recursos permite que o data lake execute tarefas de forma consistente ao alocar a quantidade certa de dados, recursos e poder de computação para os locais certos.
- Conectores para acesso fácil. Uma variedade de fluxos de trabalho permite aos utilizadores aceder e partilhar facilmente os dados de que precisam na forma em que precisam.
- Análise fiável. Um bom serviço de análise deve ser rápido, dimensionável e distribuído. Também deve suportar uma variedade diversificada de categorias de cargas de trabalho em vários idiomas.
- Classificação de dados. A análise para otimização, a catalogação e o arquivo de dados ajudam as organizações a controlar o conteúdo, a qualidade, a localização e o histórico de dados.
- Extraia, carregue, transforme processos (ELT). O ELT refere-se aos processos através dos quais os dados são extraídos de várias fontes e carregados para a zona não processada do data lake e, em seguida, limpos e transformados após a extração para que as aplicações os possam utilizar prontamente.
- Segurança e suporte. As ferramentas de proteção de dados, como mascaramento, auditoria, encriptação e monitorização de acesso, garantem que os seus dados permanecem seguros e privados.
- Governação e gestão. Para que a plataforma de data lake seja a mais simples possível, os utilizadores devem ser instruídos sobre a configuração arquitetural, bem como as melhores práticas para a gestão de dados e operações.
Recursos adicionais
Perguntas mais frequentes
-
Um data lake é um repositório centralizado que ingere, armazena e permite o processamento de grandes volumes de dados na sua forma original. Pode acomodar todos os tipos de dados, que são depois utilizados para a análise de macrodados, machine learning e outras formas de ação inteligente.
-
As organizações de vários setores, incluindo retalho, finanças e entretenimento, utilizam plataformas de data lake para armazenar dados, recolher informações e melhorar a qualidade geral dos seus serviços. As empresas de investimento, por exemplo, utilizam data lakes para recolher e processar dados de entrada no mercado, permitindo-lhes gerir os riscos de portfólio de forma mais eficiente.
-
Os data lakes armazenam todos os tipos de dados não processados, que os cientistas de dados podem utilizar em vários projetos. Os armazéns de dados armazenam dados limpos e processados, que podem ser utilizados para origem de relatórios operacionais ou de análise, bem como casos de utilização de BI específicos.
-
Um data lakehouse combina elementos de um data lake e de um armazém de dados para formar uma solução ponto a ponto flexível para fins de ciência de dados e business intelligence.
-
Claramente. As principais organizações de todos os setores dependem das enormes quantidades de dados armazenados em data lakes para gerar ações inteligentes, obter informações e crescer.
-
Grandes volumes de dados, incluindo dados não processados e não estruturados, podem ser difíceis de gerir, o que leva a estrangulamentos, danos em dados, problemas de controlo de qualidade e problemas de desempenho. É por isso que é importante manter boas práticas de governação e gestão para o ajudar a executar a sua plataforma de data lake sem problemas.
-
A arquitetura do data Lake refere-se à configuração específica de ferramentas e tecnologias que ajuda a manter os dados do data lake integrados, acessíveis, organizados e seguros.
Explorar as melhores práticas para a arquitetura do data lake
Conta Gratuita
Experimente os serviços de Informática em Nuvem do Azure gratuitamente por um período de 30 dias.
Pay as you go
Comece a trabalhar ao optar pelos preços de crédito pré-pago. Não existe compromisso inicial, pelo que pode cancelar a qualquer altura.