Ignorar Navegação

O que é o Data Lake

Veja como os data lakes diferem dos armazéns de dados e dos data lakehouses. Descubra como criar uma base dimensionável para todas as suas análises com o Azure.

O que é um data lake?

Este guia introdutório explora os muitos benefícios e casos de utilização de um data lake. Saiba o que é um data lake, por que motivo é importante e como difere de um armazém de dados ou data lakehouse. Mas primeiro, vamos definir data lake como termo.

Um data lake é um repositório centralizado que ingere e armazena grandes volumes de dados na sua forma original. Os dados podem depois ser processados e utilizados como base para uma variedade de necessidades analíticas. Devido à sua arquitetura aberta e dimensionável, um data lake pode acomodar todos os tipos de dados de qualquer origem, desde estruturados (tabelas de bases de dados, folhas do Excel) a semiestruturados (ficheiros XML, páginas Web) a não estruturados (imagens, ficheiros de áudio, tweets), tudo sem sacrificar a fidelidade. Normalmente, os ficheiros de dados são armazenados em zonas faseadas (não processados, limpos e selecionados) para que diferentes tipos de utilizadores possam utilizar os dados nas suas várias formas para atender às suas necessidades. Os data lakes fornecem consistência de dados principal em várias aplicações, ao impulsionar a análise de macrodados, a aprendizagem automática, a análise preditiva e outras formas de ação inteligente.

Os data lakes são importantes?

O mundo altamente ligado e orientado por informações de hoje não seria possível sem o aparecimento de soluções de data lake. Isto deve-se ao fato de as organizações contarem com plataformas abrangentes de data lakes, como o Azure Data Lake, para manter os dados não processados consolidados, integrados, seguros e acessíveis. As ferramentas de armazenamento dimensionáveis, como o Azure Data Lake Storage, podem armazenar e proteger dados num único local central, eliminando silos a um custo ideal. Isto estabelece a base para que os utilizadores realizem uma grande variedade de categorias de carga de trabalho, como o processamento de macrodados, consultas SQL, extração de texto, análise de transmissão em fluxo e aprendizagem automática. Os dados podem então ser utilizados para alimentar as necessidades de visualização de dados de origem e de relatórios ad hoc. Uma plataforma de dados ponto a ponto moderna, como o Azure Synapse Analytics, aborda as necessidades completas de uma arquitetura de macrodados centrada no data lake.

Casos de utilização de data lake

Com uma solução bem arquitetada, o potencial para inovação é infinito. Eis apenas alguns exemplos de como as organizações de vários setores utilizam plataformas de data lake para otimizar os respetivos crescimentos:

  • Transmissão em fluxo de multimédia. As empresas de transmissão em fluxo baseadas em subscrições recolhem e processam informações sobre o comportamento dos clientes, que podem utilizar para melhorar o algoritmo de recomendação.
  • Finanças. As empresas de investimento utilizam os dados de mercado mais atualizados, que são recolhidos e armazenados em tempo real, para gerir de forma eficiente os riscos de portefólios.
  • Cuidados de saúde. As organizações de cuidados de saúde contam com macrodados para melhorar a qualidade dos cuidados de saúde dos pacientes. Os hospitais utilizam grandes quantidades de dados históricos para simplificar os caminhos dos pacientes, resultando em melhores resultados e em redução do custo dos cuidados.
  • Revendedor omnicanal. Os revendedores utilizam data lakes para capturar e consolidar dados provenientes de vários pontos de toque, incluindo dispositivos móveis, redes sociais, chat, oral e pessoalmente.
  • IoT. Os sensores de hardware geram enormes quantidades de dados semiestruturados a não estruturados no mundo físico adjacente. Os data lakes fornecem um repositório central onde estas informações residem para análise futura.
  • Cadeia de abastecimento digital. Os data lakes ajudam os fabricantes a consolidar dados de armazenamento distintos, incluindo sistemas EDI, XML e JSONs.
  • Vendas. Os cientistas de dados e os engenheiros de vendas criam frequentemente modelos preditivos para ajudar a determinar o comportamento dos clientes e a reduzir as taxas de abandono gerais.

Data lake em oposição a armazém de dados

Agora já sabe o que é um data lake, por que motivo é importante e como é utilizado em várias organizações. Mas qual é a diferença entre um data lake e um armazém de dados? E quando é adequado utilizar um em vez do outro?

Embora os data lakes e os armazéns de dados sejam semelhantes uma vez que ambos armazenam e processam dados, cada um tem as suas próprias especialidades e, por conseguinte, os seus próprios casos de utilização. É por isso que é comum uma organização de nível empresarial incluir um data lake e um armazém de dados no seu ecossistema de análise. Ambos os repositórios funcionam em conjunto para formar um sistema ponto a ponto seguro para armazenamento, processamento e tempo de obtenção de informação mais rápido.

Um data lake captura dados relacionais e não relacionais de uma variedade de origens, aplicações empresariais, aplicações móveis, dispositivos IoT, redes sociais ou transmissão em fluxo, sem ter de definir a estrutura ou o esquema dos dados até que sejam lidos. O esquema na leitura garante que qualquer tipo de dados pode ser armazenado na sua forma não processada. Como resultado, os data lakes podem conter uma grande variedade de tipos de dados, desde estruturados a semiestruturados a não estruturados, em qualquer escala. A sua natureza flexível e dimensionável torna-os essenciais para realizar formas complexas de análise de dados utilizando diferentes tipos de ferramentas de processamento de computação, como o Apache Spark ou o Azure Machine Learning.

Por outro lado, um armazém de dados tem uma natureza relacional. A estrutura ou o esquema é modelado ou predefinido pelos requisitos empresariais e dos produtos que são selecionados, adaptados e otimizados para operações de consulta SQL. Embora um data tem dados de todos os tipos de estrutura, incluindo dados não processados, um armazém de dados armazena dados que foram tratados e transformados com um objetivo específico em mente, que podem depois ser utilizados como origem de relatórios operacionais ou de análise. Isto torna os armazéns de dados ideais para produzir formas de análise de BI mais padronizadas ou para servir um caso de utilização empresarial que já tenha sido definido.

Não disponível Data lake Armazém de dados
Tipo Estruturado, semiestruturado, não estruturado Estruturado
Não disponível Relacional, não relacional Relacional
Esquema Esquema na leitura Esquema na escrita
Formato Não processados, não filtrados Processados, examinados
Origens Macrodados, IoT, redes sociais, dados de transmissão em fluxo Aplicação, negócios, dados transacionais, relatórios em lote
Escalabilidade Fácil de dimensionar a um custo reduzido Difícil e dispendioso de dimensionar
Utilizadores Cientistas de dados, engenheiros de dados Profissionais de armazém de dados, analistas empresariais
Casos de utilização Aprendizagem automática, análise preditiva, análise em tempo real Relatórios principais, BI

O que é um data lakehouse?

Agora sabe a diferença entre um data lake e um armazém de dados. Mas qual é a diferença entre um data lake e um data lakehouse? E é necessário ter ambos?

Apesar das suas muitas vantagens, um data lake tradicional não deixa de ter os seus inconvenientes. Uma vez que os data lakes podem acomodar todos os tipos de dados de todos os tipos de origens, podem ocorrer problemas relacionados com o controlo de qualidade, danos em dados e partições inadequadas. Um data lake mal gerido não só afeta a integridade dos dados, como também pode levar a estrangulamentos, desempenho lento e riscos de segurança.

É aí que o data lakehouse entra em ação. Um data lakehouse é uma solução de armazenamento baseada em normas abertas que é multifacetada por natureza. Pode abordar as necessidades de cientistas e engenheiros de dados que realizam análises e processamentos de dados vastos, bem como as necessidades de profissionais de armazéns de dados tradicionais que selecionam e publicam dados para fins de business intelligence e relatórios. A beleza do lakehouse é que cada carga de trabalho pode operar continuamente no data lake sem ter de duplicar os dados para outra base de dados estruturalmente predefinida. Isto garante que todos estão a trabalhar nos dados mais atualizados, ao mesmo tempo que se reduzem as redundâncias.

Os data lakehouses abordam os desafios dos data lakes tradicionais ao adicionar uma camada de armazenamento do Delta Lake diretamente sobre o data lake na cloud. A camada de armazenamento fornece uma arquitetura analítica flexível que consegue lidar com transações ACID (atomicidade, consistência, isolamento e durabilidade) para fiabilidade de dados, integrações de transmissão em fluxo e funcionalidades avançadas, como o controlo de versões de dados e a imposição de esquemas. Isto permite uma variedade de atividades analíticas sobre o lake, tudo sem comprometer a consistência dos dados principal. Embora a necessidade de um lakehouse dependa do quão complexas são as suas necessidades, a flexibilidade e a variedade fazem com que seja uma solução ideal para muitas organizações empresariais.

Não disponível Data lake Data lakehouse
Tipo Estruturado, semiestruturado, não estruturado Estruturado, semiestruturado, não estruturado
Não disponível Relacional, não relacional Relacional, não relacional
Esquema Esquema na leitura Esquema na leitura, esquema na escrita
Formato Não processado, não filtrado, processado, selecionado Ficheiros não processados, não filtrados, processados, selecionados, de formato delta
Origens Macrodados, IoT, redes sociais, dados de transmissão em fluxo Macrodados, IoT, redes sociais, dados de transmissão em fluxo, aplicação, negócios, dados transacionais, relatórios em lote
Escalabilidade Fácil de dimensionar a um custo reduzido Fácil de dimensionar a um custo reduzido
Utilizadores Cientistas de dados Analistas empresariais, engenheiros de dados, cientistas de dados
Casos de utilização Aprendizagem automática, análise preditiva Relatórios principais, BI, aprendizagem automática, análise preditiva

O que é a arquitetura do data lake?

Na sua essência, um data lake é um repositório de armazenamento sem arquitetura própria definida. Para tirar o máximo partido das suas capacidades, requer uma vasta gama de ferramentas, tecnologias e motores de computação que ajudam a otimizar a integração, o armazenamento e o processamento de dados. Estas ferramentas funcionam em conjunto para criar uma arquitetura em camadas coesas, que é informada por macrodados e é executada sobre o data lake. Esta arquitetura também pode formar a estrutura operacional de um data lakehouse. Cada organização tem a sua própria configuração exclusiva, mas a maioria das arquiteturas de data lakehouses apresentam o seguinte:

  • Gestão e orquestração de recursos. Um gestor de recursos permite que o data lake execute tarefas de forma consistente ao alocar a quantidade certa de dados, recursos e poder de computação para os locais certos.
  • Conectores para acesso fácil. Uma variedade de fluxos de trabalho permite aos utilizadores aceder facilmente, e partilhar, os dados de que precisam na forma em que precisam.
  • Análise fiável. Um bom serviço de análise deve ser rápido, dimensionável e distribuído. Também deve suportar uma variedade diversificada de categorias de cargas de trabalho em vários idiomas.
  • Classificação de dados. A análise para otimização, a catalogação e o arquivo de dados ajudam as organizações a controlar o conteúdo, a qualidade, a localização e o histórico dos dados.
  • Extrair, carregar, transformar (ELT) processos. O ELT refere-se ao processo através do qual os dados são extraídos de várias origens e carregados para a zona não processada do data lake e, em seguida, limpos e transformados após a extração para que as aplicações os possam utilizar prontamente.
  • Segurança e suporte. As ferramentas de proteção de dados, como mascaramento, auditoria, encriptação e monitorização de acesso, garantem que os seus dados permanecem seguros e privados.
  • Governação e administração. Para que a plataforma de data lake seja executada sem problemas, os utilizadores devem ser instruídos sobre a configuração arquitetural, bem como as melhores práticas para a gestão de dados e operações.

Perguntas mais frequentes

  • Um data lake é um repositório centralizado que ingere, armazena e permite o processamento de grandes volumes de dados na sua forma original. Pode acomodar todos os tipos de dados, que são depois utilizados para alimentar análise de macrodados, aprendizagem automática e outras formas de ação inteligente.

    Saiba mais sobre data lakes

  • Os data lakes armazenam todos os tipos de dados não processados, que os cientistas de dados podem depois utilizar em vários projetos. Os armazéns de dados armazenam dados limpos e processados, que podem depois ser utilizados como origem de relatórios de análise ou operacionais, bem como de casos de utilização de BI específicos.

    Explorar data lakes e armazéns de dados

  • Um data lakehouse combina elementos de um data lake e de um armazém de dados para formar uma solução ponto a ponto flexível para fins de ciência de dados e business intelligence.

    Saiba mais sobre data lakehouses

  • Absolutamente. As principais organizações de todas as indústrias dependem de enormes quantidades de dados armazenados em data lakes para acionar ações inteligentes, obter informações e crescer.

    Descubra os benefícios dos data lakes

  • A arquitetura do data lake refere-se à configuração específica de ferramentas e tecnologias que ajuda a manter os dados do data lake integrados, acessíveis, organizados e seguros.

    Explore as melhores práticas para a arquitetura do data lake

Comece a utilizar com uma conta gratuita do Azure

Desfrute de serviços de análise populares gratuitamente durante 12 meses, mais de 25 serviços gratuitos sempre e $200 de crédito para utilizar nos primeiros 30 dias.

Contactar um especialista de vendas do Azure

Receba conselhos sobre como começar a trabalhar com a análise no Azure. Faça perguntas, saiba mais sobre os preços e as melhores práticas e obtenha ajuda para criar uma solução que vá de encontro às suas necessidades.

Como podemos ajudá-lo?