Trace Id is missing
Pular para o conteúdo principal
Quatro pessoas conversando frente a frente sobre uma apresentação no laptop

O que é um data warehouse?

Aprenda o que é um data warehouse, os benefícios de usá-lo, as melhores práticas a serem consideradas durante a fase de design e quais ferramentas incorporar quando finalmente chegar a hora de criá-lo.

O que é um data warehouse?

Primeiro, vamos definir o que é um data warehouse e por que convém usar um em sua organização.

Um data warehouse é um repositório centralizado que armazena dados estruturados (tabelas de banco de dados, planilhas do Excel) e dados semiestruturados (arquivos XML, páginas da Web) para geração de relatórios e análises. Os dados fluem de várias fontes, como sistemas de ponto de venda, aplicativos de negócios e bancos de dados relacionais e geralmente são limpos e padronizados antes de chegarem ao warehouse. Como o data warehouse pode armazenar grandes quantidades de informações, ele fornece aos usuários acesso fácil a uma abundância de dados históricos que podem ser usados para mineração e visualização de dados, entre outros formatos de relatórios de business intelligence.

Duas pessoas verificando dados de relatório em uma tabela

Benefícios do data warehouse

Dados confiáveis, especialmente quando agregados ao longo do tempo, ajudam os usuários a tomar decisões mais inteligentes e informadas sobre a maneira como administram sua organização – e os data warehouses tornam isso possível. Os benefícios do armazenamento de dados corporativos são inúmeros, mas algumas das vantagens mais impactantes incluem:

Data warehouse versus data lake

Está claro que os data warehouses são essenciais para as operações analíticas de qualquer organização. Mas qual é a diferença entre um data warehouse e outros tipos de repositórios de dados, como um data lake? E quando um deve ser usado em detrimento do outro?

Assim como os repositórios, tanto data warehouses quanto data lakes armazenam e processam dados. No entanto, embora pareçam ter a mesma funcionalidade, cada um deles tem seus próprios casos de uso específicos. É por isso que as organizações costumam incorporar ambos os sistemas para formar uma solução completa de ponta a ponta capaz de lidar com uma ampla gama de finalidades.

Uma data warehouse é relacional por natureza. Isso significa que a estrutura ou esquema dos dados é determinado por requisitos predefinidos de negócios e produtos que são selecionados, moldados e otimizados para operações de consulta SQL. Como resultado, os data warehouses são mais indicados para armazenar dados que foram tratados com uma finalidade específica em mente, como mineração de dados para análise de BI ou para fornecer um caso de uso de negócios já identificado.

Assim como os data warehouses, os data lakes armazenam dados estruturados e semiestruturados. No entanto, eles também são capazes de acomodar dados brutos e não processados de uma variedade de fontes não relacionais, incluindo aplicativos móveis, dispositivos IoT, mídia social ou streaming. Isso porque a estrutura ou esquema em um data lake não é definida até que os dados sejam lidos. Como resultado de sua natureza flexível e escalonável, os data lakes são frequentemente usados para executar formas inteligentes de análise de dados, como aprendizado de máquina.

plano de suporte de toda a organização
Data Lake Data warehouse
Tipo

Estruturado, semiestruturado, não estruturado
Relacional, não relacional

Estruturado
Relacional

Esquema

Esquema na leitura

Esquema na gravação

Formatar

Bruto, não filtrado

Processado, examinado

Fontes

Big Data, IoT, mídia social, dados de streaming

Aplicativo, negócios, dados transacionais, relatórios em lotes

Escalabilidade

Fácil de escalar a baixo custo

Difícil e caro de escalar

Usuários

Cientistas de dados, engenheiros de dados

Profissionais de data warehouse, analistas de negócios

Casos de uso

Aprendizado de máquina, análise preditiva, análise em tempo real

Relatórios principais, BI

Pessoa sentada em uma cadeira trabalhando em um computador desktop

Arquitetura e design do data warehouse

Agora que você sabe por que e quando deve usar um data warehouse, vamos nos aprofundar em como ele funciona observando seu design. Um data warehouse é mais do que apenas um único silo que opera de maneira autônoma. Em vez disso, ele é um sistema altamente estruturado e cuidadosamente arquitetado, composto de várias camadas que interagem com seus dados – e estes entre si – de maneiras diferentes. Normalmente, essas camadas incluem:

A camada inferior

Os dados são ingeridos de várias fontes, depois limpos e transformados para outros aplicativos o usarem em um processo chamado ELT (extração, transformação e carregamento). A camada inferior também é um local em que os dados são armazenados e otimizados, o que leva a tempos de consulta mais rápidos e melhor desempenho geral.

Camada intermediária

É aqui que você encontrará o mecanismo analítico, também conhecido como servidor OLAP (processamento analítico online). Os servidores OLAP acessam grandes volumes de dados do data warehouse em alta velocidade, gerando resultados de maneira extremamente rápida.

Camada superior

A camada superior é o local em que a interface front-end apresenta visualmente os dados processados, que podem ser acessados e usados pelos analistas para analisar todos os seus relatórios e demandas de BI de autoatendimento.

Como criar um data warehouse

Ao projetar e criar um data warehouse, é importante considerar os objetivos de sua organização, tanto de longo prazo quanto ad hoc, bem como a natureza de seus dados. Você está integrando quantas fontes de dados? Você planeja automatizar seus fluxos de trabalho? Como você explorará e analisará seus dados? Sua criação variará de acordo com a complexidade de suas demandas, mas um warehouse de banco de dados corporativo típico pode consistir nos seguintes componentes:

  1. Fontes de dados que extraem dados operacionais de sistemas de pontos de venda, aplicativo de negócios, entre outros dados relacionais
  2. Uma área de preparo em que os dados são limpos e transformados para o warehouse ou repositório centralizado
  3. Um warehouse ou repositório centralizado que armazena dados operacionais processados, metadados, dados resumidos e dados brutos para facilitar o acesso do usuário
  4. A adição de data marts, que pegam os dados do repositório centralizado e os disponibilizam em subconjuntos para grupos selecionados de usuários
  5. Uma área restrita, que pode ser usada por cientistas de dados para testar novas formas de exploração de dados em um ambiente protegido
  6. Uma ampla variedade de ferramentas de armazenamento de dados, estruturas e APIs de integração, armazenamento, desempenho e análise
Pessoa analisando gráficos em um laptop e relatórios de dados em dois outros monitores
Tela de laptop com gráficos abertos

Ferramentas, software e recursos de data warehouse

No mundo centrado em dados de hoje, muitas das principais empresas de software possuem uma gama aparentemente interminável de software de data warehouse, cada um com seu próprio caso de uso específico. Pode parecer assustador, mas para criar uma solução coesa e de alto desempenho, convém investir nas ferramentas e tecnologias certas. Cada organização tem uma demanda diferente, mas alguns produtos essenciais de armazenamento de dados a serem analisados são:

Data warehouse de nuvem e nuvem híbrida

Uma solução unificada de armazenamento de dados baseada em nuvem, como o Azure Synapse Analytics, oferece às organizações a capacidade de escalar, computar e armazenar em uma velocidade mais rápida e a um custo menor.

Ferramentas de integração de dados

Os pipelines de ETL permitem que os usuários criem, programem e orquestrem seus fluxos de trabalho para que os dados de origem sejam automaticamente integrados, limpos e padronizados.

Armazenamento de objeto

Uma solução de armazenamento de objeto pode conter grandes quantidades de dados estruturados, semiestruturados e não estruturados, o que a torna perfeita para preparar dados de origem antes de serem carregados no warehouse.

Ferramentas de armazenamento

Uma solução de armazenamento distribuído contém grandes conjuntos de dados em tabelas relacionais com armazenamento colunar. Isso reduz muito os custos, melhora o desempenho da consulta e acelera o tempo de geração de insights.

Ferramentas de desempenho

Para aumentar o desempenho de seus aplicativos, convém incorporar o Apache Spark, uma estrutura de processamento paralelo de código aberto que oferece suporte ao processamento na memória.

Gerenciamento de recursos e cargas de trabalho

Um gerenciador de recursos aloca poder de computação em suas cargas de trabalho para que você possa carregar, analisar, gerenciar e exportar dados de acordo com isso.

Modelagem de dados

A modelagem de dados combina várias fontes de dados em um único modelo semântico, fornecendo uma visão estruturada e simplificada de seus dados.

Ferramentas de business intelligence

As ferramentas de análise de negócios ajudam a fornecer informações aos usuários na forma de painéis, relatórios e outras ferramentas de visualização.

Recursos de segurança e privacidade

Os recursos de segurança e conformidade, como criptografia de dados, autenticação de usuário e monitoramento de acesso, garantem que seus dados permaneçam protegidos.

Duas pessoas conversando, com a pessoa à direita segurando um laptop

O que aconteceu com o SQL Data Warehouse do Azure?

As funcionalidades associadas ao SQL Data Warehouse do Azure agora são um recurso do Azure Synapse Analytics chamado pool de SQL dedicado. Os clientes atuais do SQL Data Warehouse do Azure podem continuar executando suas cargas de trabalho usando o recurso de pool de SQL dedicado no Azure Synapse Analytics sem precisar realizar nenhuma alteração. Eles também podem começar a gerenciar seus dados de warehouse com o Azure Synapse Analytics para aproveitar recursos avançados de análise, como exploração de data lake sem servidor e mecanismos de SQL e Apache Spark™ integrados.

Perguntas frequentes

  • Um data warehouse é um repositório centralizado que contém dados estruturados (tabelas de banco de dados, planilhas do Excel) e dados semiestruturados (arquivos XML, páginas da Web) para fins de geração de relatórios, análises e outras formas de business intelligence.

  • Há muitos benefícios em usar um data warehouse. Por exemplo, um data warehouse consolida várias fontes de dados em uma única fonte fidedigna, que as organizações podem usar para tomar decisões mais informadas sobre negócios e operações.

  • Os data warehouses armazenam dados estruturados e semiestruturados que podem ser usados para mineração de dados de origem, visualização de dados, entre outros casos de uso específicos de BI. Os data lakes armazenam vários tipos de dados brutos, que os cientistas de dados podem usar para fornecer uma variedade de projetos.

  • Um data warehouse costuma ser composto de várias camadas: a camada inferior, em que os dados são coletados e armazenados; a camada intermediária, em que os dados são analisados; e a camada superior, na qual os dados são exibidos para os usuários acessarem e analisarem.

  • Ao projetar e criar uma infraestrutura de data warehouse, é importante considerar a natureza de seus dados e como você gostaria de transformá-los. Alguns elementos comuns de uma criação típica incluem fontes de dados, uma área de preparação, o próprio warehouse, data marts, áreas restritas e várias ferramentas de integração.

  • Muitas grandes empresas de software agora possuem uma ampla gama de produtos de data warehouse.

  • Essas funcionalidades agora são um recurso do Azure Synapse Analytics chamado pool de SQL dedicado. Os clientes atuais SQL Data Warehouse do Azure podem continuar executando suas cargas de trabalho aqui sem precisar executar nenhuma alteração.

Conta gratuita

Experimente os serviços de computação em nuvem do Azure gratuitamente por 30 dias.

Pagamento conforme o uso

Comece com preços pagos conforme o uso. Não há um compromisso antecipado, cancele a qualquer momento.