O que é um data lake?
Saiba mais sobre a diferença entre data lakes e armazéns de dados. Descubra como criar uma base dimensionável para todas as suas análises com o Azure.
Definição de data lake
Este guia introdutório explora os muitos benefícios e casos de utilização de um data lake. Saiba o que é um data lake, por que motivo é importante, e descubra a diferença entre data lakes e armazém de dados. Mas primeiro, vamos definir data lake como termo.
Um data lake é um repositório centralizado que ingere e armazena grandes volumes de dados na sua forma original. Os dados podem depois ser processados e utilizados como base para uma variedade de necessidades analíticas. Devido à sua arquitetura aberta e dimensionável, um data lake pode acomodar todos os tipos de dados de qualquer origem, desde estruturados (tabelas de bases de dados, folhas do Excel) a semiestruturados (ficheiros XML, páginas Web) a não estruturados (imagens, ficheiros de áudio, tweets), tudo sem sacrificar a fidelidade. Normalmente, os ficheiros de dados são armazenados em zonas faseadas (não processados, limpos e selecionados) para que diferentes tipos de utilizadores possam utilizar os dados nas suas várias formas para atender às suas necessidades. Os data lakes fornecem consistência de dados principal em várias aplicações, ao impulsionar a análise de macrodados, a aprendizagem automática, a análise preditiva e outras formas de ação inteligente.
Por que motivo os data lakes são importantes para as empresas?
O mundo altamente ligado e orientado por informações de hoje não seria possível sem o aparecimento de soluções de data lake. Isto deve-se ao fato de as organizações contarem com plataformas abrangentes de data lakes, como o Azure Data Lake, para manter os dados não processados consolidados, integrados, seguros e acessíveis. As ferramentas de armazenamento dimensionáveis, como o Azure Data Lake Storage, podem armazenar e proteger dados num único local central, eliminando silos a um custo ideal. Isto estabelece a base para que os utilizadores realizem uma grande variedade de categorias de carga de trabalho, como o processamento de macrodados, consultas SQL, extração de texto, análise de transmissão em fluxo e aprendizagem automática. Os dados podem então ser utilizados para alimentar as necessidades de visualização de dados de origem e de relatórios ad hoc. Uma plataforma de dados ponto a ponto moderna, como o Azure Synapse Analytics, aborda as necessidades completas de uma arquitetura de macrodados centrada no data lake.
Casos de utilização de data lake
Com uma solução bem arquitetada, o potencial para inovação é infinito. Eis apenas alguns exemplos de como as organizações de vários setores utilizam plataformas de data lake para otimizar os respetivos crescimentos:
- Transmissão em fluxo de multimédia. As empresas de transmissão em fluxo baseadas em subscrições recolhem e processam informações sobre o comportamento dos clientes, que podem utilizar para melhorar o algoritmo de recomendação.
- Finanças. As empresas de investimento utilizam os dados de mercado mais atualizados, que são recolhidos e armazenados em tempo real, para gerir de forma eficiente os riscos de portefólios.
- Cuidados de saúde. As organizações de cuidados de saúde contam com macrodados para melhorar a qualidade dos cuidados de saúde dos pacientes. Os hospitais utilizam grandes quantidades de dados históricos para simplificar os caminhos dos pacientes, resultando em melhores resultados e em redução do custo dos cuidados.
- Revendedor omnicanal. Os revendedores utilizam data lakes para capturar e consolidar dados provenientes de vários pontos de toque, incluindo dispositivos móveis, redes sociais, chat, oral e pessoalmente.
- IoT. Os sensores de hardware geram enormes quantidades de dados semiestruturados a não estruturados no mundo físico adjacente. Os data lakes fornecem um repositório central onde estas informações residem para análise futura.
- Cadeia de abastecimento digital. Os data lakes ajudam os fabricantes a consolidar dados de armazenamento distintos, incluindo sistemas EDI, XML e JSONs.
- Vendas. Os cientistas de dados e os engenheiros de vendas criam frequentemente modelos preditivos para ajudar a determinar o comportamento dos clientes e a reduzir as taxas de abandono gerais.
Data lake em oposição a armazém de dados
Agora já sabe o que é um data lake, por que motivo é importante e como é utilizado em várias organizações. Mas qual é a diferença entre um data lake e um armazém de dados? E quando é adequado utilizar um em vez do outro?
Embora os data lakes e os armazéns de dados sejam semelhantes, uma vez que ambos armazenam e processam dados, cada um tem as suas próprias especialidades e, por conseguinte, os seus próprios casos de utilização. É por isso que é comum uma organização de nível empresarial incluir um data lake e um armazém de dados no seu ecossistema de análise. Ambos os repositórios funcionam em conjunto para formar um sistema ponto a ponto seguro para armazenamento, processamento e tempo de obtenção de informação mais rápido.
Um data lake captura dados relacionais e não relacionais de uma variedade de origens, aplicações empresariais, aplicações móveis, dispositivos IoT, redes sociais ou transmissão em fluxo, sem ter de definir a estrutura ou o esquema dos dados até que sejam lidos. O esquema na leitura garante que qualquer tipo de dados pode ser armazenado na sua forma não processada. Como resultado, os data lakes podem conter uma grande variedade de tipos de dados, desde estruturados a semiestruturados a não estruturados, em qualquer escala. A sua natureza flexível e dimensionável torna-os essenciais para realizar formas complexas de análise de dados utilizando diferentes tipos de ferramentas de processamento de computação, como o Apache Spark ou o Azure Machine Learning.
Por outro lado, um armazém de dados tem uma natureza relacional. A estrutura ou o esquema é modelado ou predefinido pelos requisitos empresariais e dos produtos que são selecionados, adaptados e otimizados para operações de consulta SQL. Embora um data tem dados de todos os tipos de estrutura, incluindo dados não processados, um armazém de dados armazena dados que foram tratados e transformados com um objetivo específico em mente, que podem depois ser utilizados como origem de relatórios operacionais ou de análise. Isto torna os armazéns de dados ideais para produzir formas de análise de BI mais padronizadas ou para servir um caso de utilização empresarial que já tenha sido definido.
Data lake | Armazém de dados | |
---|---|---|
Tipo | Estruturado, semiestruturado, não estruturado | Estruturado |
Relacional, não relacional | Relacional | |
Esquema | Esquema na leitura | Esquema na escrita |
Formato | Não processados, não filtrados | Processados, examinados |
Origens | Macrodados, IoT, redes sociais, dados de transmissão em fluxo | Aplicação, negócios, dados transacionais, relatórios em lote |
Escalabilidade | Fácil de dimensionar a um custo reduzido | Difícil e dispendioso de dimensionar |
Utilizadores | Cientistas de dados, engenheiros de dados | Profissionais de armazém de dados, analistas empresariais |
Casos de utilização | Aprendizagem automática, análise preditiva, análise em tempo real | Relatórios principais, BI |
Data lake vs. data lakehouse
Agora sabe a diferença entre um data lake e um armazém de dados. Mas qual é a diferença entre um data lake e um data lakehouse? E é necessário ter ambos?
Apesar das suas muitas vantagens, um data lake tradicional não deixa de ter os seus inconvenientes. Uma vez que os data lakes podem acomodar todos os tipos de dados de todos os tipos de origens, podem ocorrer problemas relacionados com o controlo de qualidade, danos em dados e partições inadequadas. Um data lake mal gerido não só afeta a integridade dos dados, como também pode levar a estrangulamentos, desempenho lento e riscos de segurança.
É aí que o data lakehouse entra em ação. Um data lakehouse é uma solução de armazenamento baseada em normas abertas que é multifacetada por natureza. Pode abordar as necessidades de cientistas e engenheiros de dados que realizam análises e processamentos de dados vastos, bem como as necessidades de profissionais de armazéns de dados tradicionais que selecionam e publicam dados para fins de business intelligence e relatórios. A beleza do lakehouse é que cada carga de trabalho pode operar continuamente no data lake sem ter de duplicar os dados para outra base de dados estruturalmente predefinida. Isto garante que todos estão a trabalhar nos dados mais atualizados, ao mesmo tempo que se reduzem as redundâncias.
Os data lakehouses abordam os desafios dos data lakes tradicionais ao adicionar uma camada de armazenamento do Delta Lake diretamente sobre o data lake na cloud. A camada de armazenamento fornece uma arquitetura analítica flexível que consegue lidar com transações ACID (atomicidade, consistência, isolamento e durabilidade) para fiabilidade de dados, integrações de transmissão em fluxo e funcionalidades avançadas, como o controlo de versões de dados e a imposição de esquemas. Isto permite uma variedade de atividades analíticas sobre o lake, tudo sem comprometer a consistência dos dados principal. Embora a necessidade de um lakehouse dependa do quão complexas são as suas necessidades, a flexibilidade e a variedade fazem com que seja uma solução ideal para muitas organizações empresariais.
Data lake | Data lakehouse | |
---|---|---|
Tipo | Estruturado, semiestruturado, não estruturado | Estruturado, semiestruturado, não estruturado |
Relacional, não relacional | Relacional, não relacional | |
Esquema | Esquema na leitura | Esquema na leitura, esquema na escrita |
Formato | Não processado, não filtrado, processado, selecionado | Ficheiros não processados, não filtrados, processados, selecionados, de formato delta |
Origens | Macrodados, IoT, redes sociais, dados de transmissão em fluxo | Macrodados, IoT, redes sociais, dados de transmissão em fluxo, aplicação, negócios, dados transacionais, relatórios em lote |
Escalabilidade | Fácil de dimensionar a um custo reduzido | Fácil de dimensionar a um custo reduzido |
Utilizadores | Cientistas de dados | Analistas empresariais, engenheiros de dados, cientistas de dados |
Casos de utilização | Aprendizagem automática, análise preditiva | Relatórios principais, BI, aprendizagem automática, análise preditiva |
O que é a arquitetura do data lake?
Na sua essência, um data lake é um repositório de armazenamento sem arquitetura própria definida. Para tirar o máximo partido das suas capacidades, requer uma vasta gama de ferramentas, tecnologias e motores de computação que ajudam a otimizar a integração, o armazenamento e o processamento de dados. Estas ferramentas funcionam em conjunto para criar uma arquitetura em camadas coesas, que é informada por macrodados e é executada sobre o data lake. Esta arquitetura também pode formar a estrutura operacional de um data lakehouse. Cada organização tem a sua própria configuração exclusiva, mas a maioria das arquiteturas de data lakehouses apresentam o seguinte:
- Gestão e orquestração de recursos. Um gestor de recursos permite que o data lake execute tarefas de forma consistente ao alocar a quantidade certa de dados, recursos e poder de computação para os locais certos.
- Conectores para acesso fácil. Uma variedade de fluxos de trabalho permite aos utilizadores aceder facilmente, e partilhar, os dados de que precisam na forma em que precisam.
- Análise fiável. Um bom serviço de análise deve ser rápido, dimensionável e distribuído. Também deve suportar uma variedade diversificada de categorias de cargas de trabalho em vários idiomas.
- Classificação de dados. A análise para otimização, a catalogação e o arquivo de dados ajudam as organizações a controlar o conteúdo, a qualidade, a localização e o histórico dos dados.
- Extrair, carregar, transformar (ELT) processos. O ELT refere-se ao processo através do qual os dados são extraídos de várias origens e carregados para a zona não processada do data lake e, em seguida, limpos e transformados após a extração para que as aplicações os possam utilizar prontamente.
- Segurança e suporte. As ferramentas de proteção de dados, como mascaramento, auditoria, encriptação e monitorização de acesso, garantem que os seus dados permanecem seguros e privados.
- Governação e administração. Para que a plataforma de data lake seja executada sem problemas, os utilizadores devem ser instruídos sobre a configuração arquitetural, bem como as melhores práticas para a gestão de dados e operações.
Recursos adicionais
Explorar
Ideias de soluções
Guias
Perguntas mais frequentes
-
Um data lake é um repositório centralizado que ingere, armazena e permite o processamento de grandes volumes de dados na sua forma original. Pode acomodar todos os tipos de dados, que são depois utilizados para alimentar análise de macrodados, aprendizagem automática e outras formas de ação inteligente.
-
Organizações de várias indústrias, incluindo retalho, finanças e entretenimento, utilizam plataformas data lake para armazenar dados, recolher informações e melhorar a qualidade geral dos seus serviços. As empresas de investimento, por exemplo, utilizam data lakes para recolher e processar dados de mercado, permitindo-lhes gerir os riscos de portefólio de forma mais eficiente.
-
Os data lakes armazenam todos os tipos de dados não processados, que os cientistas de dados podem depois utilizar em vários projetos. Os armazéns de dados armazenam dados limpos e processados, que podem depois ser utilizados como origem de relatórios de análise ou operacionais, bem como de casos de utilização de BI específicos.
-
Um data lakehouse combina elementos de um data lake e de um armazém de dados para formar uma solução ponto a ponto flexível para fins de ciência de dados e business intelligence.
-
Absolutamente. As principais organizações de todas as indústrias dependem de enormes quantidades de dados armazenados em data lakes para acionar ações inteligentes, obter informações e crescer.
-
Grandes volumes de dados, incluindo dados não brutos e não estruturados, podem ser difíceis de gerir, o que leva a estrangulamentos, danos nos dados, problemas de controlo de qualidade e problemas de desempenho. É por isso que é importante manter boas práticas de governação e gestão para o ajudar a executar a sua plataforma de data lake sem problemas.
-
A arquitetura do data lake refere-se à configuração específica de ferramentas e tecnologias que ajuda a manter os dados do data lake integrados, acessíveis, organizados e seguros.
Explore as melhores práticas para a arquitetura do data lake
Conta Gratuita
Experimente os serviços de Computação na Cloud do Azure gratuitamente durante um período de até 30 dias.
"Pay-As-You-Go"
Comece a trabalhar com os preços pay as you go. Sem compromisso inicial— cancele em qualquer altura.