O que é um data warehouse?
Saiba o que é data warehouse, os benefícios de usar um, as práticas recomendadas a serem consideradas durante a fase de design e quais ferramentas incorporar quando finalmente for a hora de criar.
O que é um data warehouse?
Primeiro, vamos definir o que é um data warehouse e por que você pode querer usar um para sua organização.
Um data warehouse é um repositório centralizado que armazena dados estruturados (tabelas de banco de dados, planilhas do Excel) e dados semiestruturados (arquivos XML, páginas da Web) para fins de relatório e análise. Os dados fluem de uma variedade de fontes, como sistemas de ponto de venda, aplicativos de negócios e bancos de dados relacionais, e geralmente são limpos e padronizados antes de chegar ao depósito. Como um data warehouse pode armazenar grandes quantidades de informações, ele fornece aos usuários acesso fácil a uma grande quantidade de dados históricos, que podem ser usados para mineração de dados, visualização de dados e outras formas de relatórios de business intelligence.
Benefícios do data warehouse
Os dados confiáveis, especialmente quando agregados ao longo do tempo, ajudam os usuários a tomar decisões mais inteligentes e informadas sobre a maneira como executam sua organização. São os data warehouses que tornam isso possível. Os benefícios do data warehouse corporativo são diversos, mas algumas das vantagens mais impactante incluem:
- Consolidação de dados de várias fontes em uma única fonte de verdade
- Armazenamento e análise de dados históricos de longo prazo abrangendo meses e anos
- Limpando e transformando dados para que eles sejam precisos, consistentes e padronizados em estrutura e forma
- Reduzindo os tempos de consulta ao coletar dados e processar análises, o que melhora o desempenho geral em todos os sistemas
- Carregando dados com eficiência sem precisar lidar com os custos de implantação ou infraestrutura
- Protegendo dados para que eles sejam privados, protegidos e seguros
- Preparação de dados para análise por meio de mineração de dados, ferramentas de visualização e outras formas de análise avançada
Data lake em comparação a data warehouse
É claro que os data warehouses são essenciais para as operações de análise de qualquer organização. Mas qual é a diferença entre um data warehouse e outros tipos de repositórios de dados, como um data lake? E quando um ou o outro devem ser usados?
Como repositórios, data warehouses e data lakes armazenam e processam dados. No entanto, embora pareçam oferecer a mesma funcionalidade, cada um deles tem seus próprios casos de uso específicos. É por isso que as organizações normalmente incorporam os dois sistemas para formar uma solução completa de ponta a ponta que pode lidar com uma ampla variedade de finalidades.
Um data warehouse é relacional por natureza. Isso significa que a estrutura ou o esquema dos dados é determinado por requisitos predefinidos de negócios e produtos que são coletados e otimizados para operações de consulta SQL. Como resultado, os data warehouses são mais usados para armazenar dados que foram tratados com uma finalidade específica em mente, como mineração de dados para análise de BI ou para fornecimento de um caso de uso de negócios que já foi identificado.
Como data warehouses, os data lakes contêm dados estruturados e semiestruturados. No entanto, eles também são capazes de acomodar dados brutos e não processados de uma variedade de fontes não relacionais, incluindo aplicativos móveis, dispositivos IoT, mídia social ou streaming. Isso ocorre porque a estrutura ou o esquema em um data lake não é definido até que os dados sejam lidos. Como resultado de sua natureza flexível e escalonável, os data lakes geralmente são usados para executar formas inteligentes de análise de dados, como aprendizado de máquina.
Data Lake | Data warehouse | |
---|---|---|
Tipo |
Estruturado, semiestruturado, não estruturado Relacional, não relacional |
Estruturado Relacional |
Esquema | Esquema na leitura | Esquema na gravação |
Formatar | Bruto, não filtrado | Processado, examinado |
Fontes | Big Data, IoT, mídia social, dados de streaming | Aplicativo, negócios, dados transacionais, relatórios em lotes |
Escalabilidade | Fácil de dimensionar a um baixo custo | Difícil e caro de dimensionar |
Usuários | Cientistas de dados, engenheiros de dados | Profissionais de data warehouse, analistas de negócios |
Casos de uso | Aprendizado de máquina, análise preditiva, análise em tempo real | Relatórios principais, BI |

Arquitetura e design do data warehouse
Agora que você sabe por que e quando deve usar um data warehouse, vamos nos aprofundar em como ele funciona examinando o design do data warehouse. Um data warehouse é mais do que apenas um único silo operando por conta própria. Em vez disso, é um sistema altamente estruturado e cuidadosamente arquitetado composto por várias camadas que interagem com seus dados e entre si de maneiras diferentes. Normalmente, essas camadas incluem:
A camada inferior
Os dados são ingeridos de várias fontes e, em seguida, limpos e transformados para que outros aplicativos os usem em um processo chamado ETL (extração, transformação e carregamento). A camada inferior também é onde os dados são armazenados e otimizados, o que leva a tempos de consulta mais rápidos e melhor desempenho geral.
Camada intermediária
É aqui que você encontrará o mecanismo de análise, também conhecido como servidor OLAP (processamento analítico online). Os servidores OLAP acessam grandes volumes de dados do data warehouse em uma alta velocidade, o que leva a resultados extremamente rápidos.
Camada superior
A camada superior é onde a interface de front-end apresenta visualmente os dados processados, que os analistas podem acessar e usar para todas as suas necessidades de relatórios e BI de autoatendimento.
Como criar um data warehouse
Quando projetar e criar um data warehouse, é importante considerar as metas da sua organização, tanto a longo prazo quanto ad hoc, bem como a natureza dos seus dados. Quantas fontes de dados você está integrando? Você planeja automatizar seus fluxos de trabalho? Como você explorará e analisará seus dados? Sua compilação variará dependendo da complexidade de suas necessidades, mas um warehouse de banco de dados empresarial típico pode consistir nos seguintes componentes:
- Origens de dados que extraem dados operacionais de sistemas de ponto de venda, aplicativos de negócios e outros bancos de dados relacionais
- Umlocal em que os dados são limpos e transformados para o repositório centralizado ou de depósito
- Um warehouse ou repositório centralizado que armazena dados operacionais processados, metadados, dados de resumo, e dados brutos para facilitar o acesso do usuário
- A adição de data marts, que obtém dados do repositório centralizado e os fornece em subconjuntos para grupos selecionados de usuários
- Uma sandbox, que os cientistas de dados podem usar para testar novas formas de exploração de dados em um ambiente protegido
- Uma ampla variedade de ferramentas de armazenamento de dados e APIs para integração, armazenamento, desempenho e análise

Ferramentas, software e recursos de data warehouse
No mundo centrado em dados de hoje, muitas das principais empresas de software apresentam uma variedade aparentemente infinita de softwares data warehouse, cada um com seu próprio caso de uso específico. Pode parecer assustador, mas para criar uma solução coesa e de alto desempenho, convém investir nas ferramentas e tecnologias certas. As necessidades de cada organização são diferentes, mas aqui estão alguns produtos data warehouse essenciais para verificar:
Armazenamento de dados em nuvem e nuvem híbrida
Uma solução unificada de data warehouse baseada em nuvem, como Azure Synapse Analytics, oferece às organizações a capacidade de dimensionar, computar e armazenar em velocidade mais rápida e custo menor.
Ferramentas de integração de dados
Os pipelines de ETL permitem que os usuários criem, agendem e orquestrem seus fluxos de trabalho para que os dados de origem sejam integrados, limpos e padronizados automaticamente.
Armazenamento de objetos
Uma solução de armazenamento de objetos pode conter grandes quantidades de dados estruturados, semiestruturados e não estruturados, o que o torna perfeito para preparar dados de origem antes de serem carregados no depósito.
Ferramentas de armazenamento
Uma solução de armazenamento distribuído contém grandes conjuntos de dados em tabelas relacionais com armazenamento colunar. Isso reduz muito os custos, melhora o desempenho da consulta e acelera o tempo de insight.
Ferramentas de desempenho
Para aumentar o desempenho de seus aplicativos, convém incorporar Apache Spark, uma estrutura de processamento paralelo de software livre que dá suporte ao processamento na memória.
Gerenciamento de recursos e cargas de trabalho
Um gerenciador de recursos aloca capacidade de computação a suas cargas de trabalho para que você possa carregar, analisar, gerenciar e exportar dados adequadamente.
Modelagem de dados
A modelagem de dados combina várias fontes de dados em um único modelo semântico, fornecendo uma exibição estruturada e simplificada dos seus dados.
Ferramentas de business intelligence
As ferramentas de análise de negócios ajudam a fornecer insights aos usuários na forma de dashboards, relatórios e outras ferramentas de visualização.
Recursos de segurança e privacidade
Recursos de segurança e conformidade, como criptografia de dados, autenticação de usuário e monitoramento de acesso, garantem que seus dados permaneçam protegidos.

O que aconteceu com o SQL Data Warehouse do Azure?
Os recursos associados ao SQL do Azure Data Warehouse agora são um recurso do Azure Synapse Analytics chamado pool de SQL dedicado. Os clientes SQL do Azure Data Warehouse existentes podem continuar executando suas cargas de trabalho SQL do Azure Data Warehouse existentes usando o recurso de pool de SQL dedicado no Azure Synapse Analytics sem passar por nenhuma alteração. Os clientes também podem começar a gerenciar seus dados de warehouse existentes com o Azure Synapse Analytics para aproveitar os recursos avançados de análise, como a exploração de data lake sem servidor e os mecanismos SQL e Apache Spark™ integrados.
.Perguntas frequentes
-
Um data warehouse é um repositório centralizado que contém dados estruturados (tabelas de banco de dados, planilhas do Excel) e dados semiestruturados (arquivos XML, páginas da Web) para fins de relatório, análise e outras formas de business intelligence.
-
Há muitos benefícios em usar um data warehouse. Por exemplo, um data warehouse consolida várias fontes de dados em uma única fonte de verdade, que as organizações podem usar para tomar decisões mais informadas sobre negócios e operações.
-
Data warehouses armazenam dados estruturados e semiestruturados, que podem ser usados para a mineração de dados de origem, a visualização de dados e outros casos de uso específicos de BI. Os data lakes armazenam vários tipos de dados brutos, que os cientistas de dados podem usar para criar uma variedade de projetos.
-
Um data warehouse normalmente é composto de várias camadas: a camada inferior, em que os dados são coletados e armazenados, a camada intermediária, em que os dados são analisados; e a camada superior, em que os dados são exibidos para os usuários acessarem e analisarem.
-
Quando projetar e criar uma infraestrutura de data warehouse, é importante considerar a natureza dos seus dados e como você gostaria de transformá-los. Alguns elementos comuns de uma compilação típica incluem fontes de dados, uma área de preparo, o próprio depósito, data marts, áreas restritas e várias ferramentas de integração.
-
As principais empresas de software agora abrangem uma ampla variedade de produtos da data warehouse.
-
Essas funcionalidades agora são um recurso de Azure Synapse Analytics chamado pool de SQL dedicado. Os clientes SQL do Azure Data Warehouse existentes podem continuar executando suas cargas de trabalho aqui sem passar por nenhuma alteração.
Recursos adicionais
Explorar
Guias
Conta Gratuita
Experimente os serviços de Cloud Computing do Azure gratuitamente por até 30 dias.
PAGO CONFORME O USO
Comece com preços pré-pagos. Não há compromisso antecipado—cancele a qualquer momento.