O que é um data warehouse?
Primeiro, vamos definir o que é um data warehouse e por que convém usar um em sua organização.
Um data warehouse é um repositório centralizado que armazena dados estruturados (tabelas de banco de dados, planilhas do Excel) e dados semiestruturados (arquivos XML, páginas da Web) para geração de relatórios e análises. Os dados fluem de várias fontes, como sistemas de ponto de venda, aplicativos de negócios e bancos de dados relacionais e geralmente são limpos e padronizados antes de chegarem ao warehouse. Como o data warehouse pode armazenar grandes quantidades de informações, ele fornece aos usuários acesso fácil a uma abundância de dados históricos que podem ser usados para mineração e visualização de dados, entre outros formatos de relatórios de business intelligence.
Benefícios do data warehouse
Dados confiáveis, especialmente quando agregados ao longo do tempo, ajudam os usuários a tomar decisões mais inteligentes e informadas sobre a maneira como administram sua organização – e os data warehouses tornam isso possível. Os benefícios do armazenamento de dados corporativos são inúmeros, mas algumas das vantagens mais impactantes incluem:
-
Consolidação de dados de várias fontes em uma única fonte fidedigna
-
Armazenamento e análise de dados históricos de longo prazo abrangendo meses e anos
-
Limpeza e transformação de dados a fim de torná-los precisos, consistentes e padronizados em estrutura e forma
-
Redução de tempos de consulta na coleta e processamento de dados e análises, melhorando o desempenho geral nos sistemas
-
Carregamento de dados com eficiência, sem ter que lidar com os custos de implantação ou infraestrutura
-
Proteção de dados a fim de torná-los privados, protegidos e seguros
-
Preparação de dados para análise por meio de mineração de dados, ferramentas de visualização e outras formas de análise avançada
Data warehouse versus data lake
Está claro que os data warehouses são essenciais para as operações analíticas de qualquer organização. Mas qual é a diferença entre um data warehouse e outros tipos de repositórios de dados, como um data lake? E quando um deve ser usado em detrimento do outro?
Assim como os repositórios, tanto data warehouses quanto data lakes armazenam e processam dados. No entanto, embora pareçam ter a mesma funcionalidade, cada um deles tem seus próprios casos de uso específicos. É por isso que as organizações costumam incorporar ambos os sistemas para formar uma solução completa de ponta a ponta capaz de lidar com uma ampla gama de finalidades.
Uma data warehouse é relacional por natureza. Isso significa que a estrutura ou esquema dos dados é determinado por requisitos predefinidos de negócios e produtos que são selecionados, moldados e otimizados para operações de consulta SQL. Como resultado, os data warehouses são mais indicados para armazenar dados que foram tratados com uma finalidade específica em mente, como mineração de dados para análise de BI ou para fornecer um caso de uso de negócios já identificado.
Assim como os data warehouses, os data lakes armazenam dados estruturados e semiestruturados. No entanto, eles também são capazes de acomodar dados brutos e não processados de uma variedade de fontes não relacionais, incluindo aplicativos móveis, dispositivos IoT, mídia social ou streaming. Isso porque a estrutura ou esquema em um data lake não é definida até que os dados sejam lidos. Como resultado de sua natureza flexível e escalonável, os data lakes são frequentemente usados para executar formas inteligentes de análise de dados, como aprendizado de máquina.
Data Lake | Data warehouse | |
---|---|---|
Tipo | Estruturado, semiestruturado, não estruturado | Estruturado |
Esquema | Esquema na leitura | Esquema na gravação |
Formatar | Bruto, não filtrado | Processado, examinado |
Fontes | Big Data, IoT, mídia social, dados de streaming | Aplicativo, negócios, dados transacionais, relatórios em lotes |
Escalabilidade | Fácil de escalar a baixo custo | Difícil e caro de escalar |
Usuários | Cientistas de dados, engenheiros de dados | Profissionais de data warehouse, analistas de negócios |
Casos de uso | Aprendizado de máquina, análise preditiva, análise em tempo real | Relatórios principais, BI |
Arquitetura e design do data warehouse
Agora que você sabe por que e quando deve usar um data warehouse, vamos nos aprofundar em como ele funciona observando seu design. Um data warehouse é mais do que apenas um único silo que opera de maneira autônoma. Em vez disso, ele é um sistema altamente estruturado e cuidadosamente arquitetado, composto de várias camadas que interagem com seus dados – e estes entre si – de maneiras diferentes. Normalmente, essas camadas incluem:
A camada inferior
Os dados são ingeridos de várias fontes, depois limpos e transformados para outros aplicativos o usarem em um processo chamado ELT (extração, transformação e carregamento). A camada inferior também é um local em que os dados são armazenados e otimizados, o que leva a tempos de consulta mais rápidos e melhor desempenho geral.
Camada intermediária
É aqui que você encontrará o mecanismo analítico, também conhecido como servidor OLAP (processamento analítico online). Os servidores OLAP acessam grandes volumes de dados do data warehouse em alta velocidade, gerando resultados de maneira extremamente rápida.
Camada superior
A camada superior é o local em que a interface front-end apresenta visualmente os dados processados, que podem ser acessados e usados pelos analistas para analisar todos os seus relatórios e demandas de BI de autoatendimento.
Como criar um data warehouse
Ao projetar e criar um data warehouse, é importante considerar os objetivos de sua organização, tanto de longo prazo quanto ad hoc, bem como a natureza de seus dados. Você está integrando quantas fontes de dados? Você planeja automatizar seus fluxos de trabalho? Como você explorará e analisará seus dados? Sua criação variará de acordo com a complexidade de suas demandas, mas um warehouse de banco de dados corporativo típico pode consistir nos seguintes componentes:
- Fontes de dados que extraem dados operacionais de sistemas de pontos de venda, aplicativo de negócios, entre outros dados relacionais
- Uma área de preparo em que os dados são limpos e transformados para o warehouse ou repositório centralizado
- Um warehouse ou repositório centralizado que armazena dados operacionais processados, metadados, dados resumidos e dados brutos para facilitar o acesso do usuário
- A adição de data marts, que pegam os dados do repositório centralizado e os disponibilizam em subconjuntos para grupos selecionados de usuários
- Uma área restrita, que pode ser usada por cientistas de dados para testar novas formas de exploração de dados em um ambiente protegido
- Uma ampla variedade de ferramentas de armazenamento de dados, estruturas e APIs de integração, armazenamento, desempenho e análise
Ferramentas, software e recursos de data warehouse
No mundo centrado em dados de hoje, muitas das principais empresas de software possuem uma gama aparentemente interminável de software de data warehouse, cada um com seu próprio caso de uso específico. Pode parecer assustador, mas para criar uma solução coesa e de alto desempenho, convém investir nas ferramentas e tecnologias certas. Cada organização tem uma demanda diferente, mas alguns produtos essenciais de armazenamento de dados a serem analisados são:
Data warehouse de nuvem e nuvem híbrida
Uma solução unificada de armazenamento de dados baseada em nuvem, como o Azure Synapse Analytics, oferece às organizações a capacidade de escalar, computar e armazenar em uma velocidade mais rápida e a um custo menor.
Ferramentas de integração de dados
Os pipelines de ETL permitem que os usuários criem, programem e orquestrem seus fluxos de trabalho para que os dados de origem sejam automaticamente integrados, limpos e padronizados.
Armazenamento de objeto
Uma solução de armazenamento de objeto pode conter grandes quantidades de dados estruturados, semiestruturados e não estruturados, o que a torna perfeita para preparar dados de origem antes de serem carregados no warehouse.
Ferramentas de armazenamento
Uma solução de armazenamento distribuído contém grandes conjuntos de dados em tabelas relacionais com armazenamento colunar. Isso reduz muito os custos, melhora o desempenho da consulta e acelera o tempo de geração de insights.
Ferramentas de desempenho
Para aumentar o desempenho de seus aplicativos, convém incorporar o Apache Spark, uma estrutura de processamento paralelo de código aberto que oferece suporte ao processamento na memória.
Gerenciamento de recursos e cargas de trabalho
Um gerenciador de recursos aloca poder de computação em suas cargas de trabalho para que você possa carregar, analisar, gerenciar e exportar dados de acordo com isso.
Modelagem de dados
A modelagem de dados combina várias fontes de dados em um único modelo semântico, fornecendo uma visão estruturada e simplificada de seus dados.
Ferramentas de business intelligence
As ferramentas de análise de negócios ajudam a fornecer informações aos usuários na forma de painéis, relatórios e outras ferramentas de visualização.
Recursos de segurança e privacidade
Os recursos de segurança e conformidade, como criptografia de dados, autenticação de usuário e monitoramento de acesso, garantem que seus dados permaneçam protegidos.
O que aconteceu com o SQL Data Warehouse do Azure?
As funcionalidades associadas ao SQL Data Warehouse do Azure agora são um recurso do Azure Synapse Analytics chamado pool de SQL dedicado. Os clientes atuais do SQL Data Warehouse do Azure podem continuar executando suas cargas de trabalho usando o recurso de pool de SQL dedicado no Azure Synapse Analytics sem precisar realizar nenhuma alteração. Eles também podem começar a gerenciar seus dados de warehouse com o Azure Synapse Analytics para aproveitar recursos avançados de análise, como exploração de data lake sem servidor e mecanismos de SQL e Apache Spark™ integrados.
Perguntas frequentes
-
Um data warehouse é um repositório centralizado que contém dados estruturados (tabelas de banco de dados, planilhas do Excel) e dados semiestruturados (arquivos XML, páginas da Web) para fins de geração de relatórios, análises e outras formas de business intelligence.
-
Há muitos benefícios em usar um data warehouse. Por exemplo, um data warehouse consolida várias fontes de dados em uma única fonte fidedigna, que as organizações podem usar para tomar decisões mais informadas sobre negócios e operações.
-
Os data warehouses armazenam dados estruturados e semiestruturados que podem ser usados para mineração de dados de origem, visualização de dados, entre outros casos de uso específicos de BI. Os data lakes armazenam vários tipos de dados brutos, que os cientistas de dados podem usar para fornecer uma variedade de projetos.
-
Um data warehouse costuma ser composto de várias camadas: a camada inferior, em que os dados são coletados e armazenados; a camada intermediária, em que os dados são analisados; e a camada superior, na qual os dados são exibidos para os usuários acessarem e analisarem.
-
Ao projetar e criar uma infraestrutura de data warehouse, é importante considerar a natureza de seus dados e como você gostaria de transformá-los. Alguns elementos comuns de uma criação típica incluem fontes de dados, uma área de preparação, o próprio warehouse, data marts, áreas restritas e várias ferramentas de integração.
-
Muitas grandes empresas de software agora possuem uma ampla gama de produtos de data warehouse.
-
Essas funcionalidades agora são um recurso do Azure Synapse Analytics chamado pool de SQL dedicado. Os clientes atuais SQL Data Warehouse do Azure podem continuar executando suas cargas de trabalho aqui sem precisar executar nenhuma alteração.
Recursos adicionais
Conta gratuita
Experimente os serviços de computação em nuvem do Azure gratuitamente por 30 dias.
Pagamento conforme o uso
Comece com preços pagos conforme o uso. Não há um compromisso antecipado, cancele a qualquer momento.