Ignorar navegação

O que é um data warehouse?

Saiba o que é data warehouse, os benefícios de usar um, as práticas recomendadas a serem consideradas durante a fase de design e quais ferramentas incorporar quando finalmente for a hora de criar.

O que é um data warehouse?

Primeiro, vamos definir o que é um data warehouse e por que você pode querer usar um na sua organização.

Um data warehouse é um repositório centralizado que armazena dados estruturados (tabelas de banco de dados, planilhas do Excel) e dados semiestruturados (arquivos XML, páginas da Web) para fins de relatório e análise. Os dados fluem de uma variedade de fontes, como sistemas de ponto de venda, aplicativos de negócios e bancos de dados relacionais, e geralmente são limpos e padronizados antes de atingirem o depósito. Como um data warehouse pode armazenar grandes quantidades de informações, ele fornece aos usuários acesso fácil a uma grande quantidade de dados históricos, que podem ser usados para mineração de dados, visualização de dados e outras formas de relatórios de business intelligence.

Benefícios do data warehouse

Os dados confiáveis, especialmente quando agregados ao longo do tempo, ajudam os usuários a tomar decisões mais inteligentes e informadas sobre a maneira como executam sua organização. São os data warehouses que tornam isso possível. Os benefícios do data warehouse corporativo são diversos, mas algumas das vantagens mais impactante incluem:

  • Consolidação de dados de várias fontes em uma única fonte de verdade
  • Armazenamento e análise de dados históricos de longo prazo abrangendo meses e anos
  • Limpando e transformando dados para que eles sejam precisos, consistentes e padronizados em estrutura e forma
  • Reduzindo os tempos de consulta ao coletar dados e processar análises, o que melhora o desempenho geral em todos os sistemas
  • Carregando dados com eficiência sem precisar lidar com os custos de implantação ou infraestrutura
  • Protegendo dados para que eles sejam privados, protegidos e seguros
  • Preparação de dados para análise por meio de mineração de dados, ferramentas de visualização e outras formas de análise avançada

Data lake em comparação a data warehouse

É claro que os data warehouses são essenciais para as operações de análise de qualquer organização. Mas qual é a diferença entre um data warehouse e outros tipos de repositórios de dados, como um data lake? E quando um ou o outro devem ser usados?

Como repositórios, os data warehouses e data lakes armazenam e processam dados. No entanto, embora pareçam oferecer a mesma funcionalidade, cada um deles tem seus próprios casos de uso específicos. É por isso que as organizações normalmente incorporam os dois sistemas para formar uma solução completa de ponta a ponta que pode lidar com uma ampla variedade de finalidades.

Um data warehouse é relacional por natureza. Isso significa que a estrutura ou o esquema dos dados é determinado por requisitos predefinidos de negócios e produtos que são coletados e otimizados para operações de consulta SQL. Como resultado, os data warehouses são mais usados para armazenar dados que foram tratados com uma finalidade específica em mente, como mineração de dados para análise de BI ou para fornecimento de um caso de uso de negócios que já foi identificado.

Como data warehouses, os data lakes contêm dados estruturados e semiestruturados. No entanto, eles também são capazes de acomodar dados brutos e não processados de uma variedade de fontes não relacionais, incluindo aplicativos móveis, dispositivos IoT, mídia social ou streaming. Isso ocorre porque a estrutura ou o esquema em um data lake não é definido até que os dados sejam lidos. Como resultado de sua natureza flexível e escalonável, os data lakes geralmente são usados para executar formas inteligentes de análise de dados, como aprendizado de máquina.

Não disponível Data Lake Data warehouse
Tipo Estruturado, semiestruturado, não estruturado
Relacional, não relacional
Estruturado
Relacional
Esquema Esquema na leitura Esquema na gravação
Formatar Bruto, não filtrado Processado, examinado
Fontes Big Data, IoT, mídia social, dados de streaming Aplicativo, negócios, dados transacionais, relatórios em lotes
Escalabilidade Fácil de dimensionar a um baixo custo Difícil e caro de dimensionar
Usuários Cientistas de dados, engenheiros de dados Profissionais de data warehouse, analistas de negócios
Casos de uso Aprendizado de máquina, análise preditiva, análise em tempo real Relatórios principais, BI

Arquitetura e design do data warehouse

Agora que você sabe por que e quando deve usar um data warehouse, vamos nos aprofundar em como ele funciona examinando o design do data warehouse. Um data warehouse é mais do que apenas um único silo operando por conta própria. Em vez disso, é um sistema altamente estruturado e cuidadosamente arquitetado composto por várias camadas que interagem com seus dados e entre si de maneiras diferentes. Normalmente, essas camadas incluem:

A camada inferior

Os dados são ingeridos de várias fontes e, em seguida, limpos e transformados para que outros aplicativos os usem em um processo chamado ETL (extração, transformação e carregamento). A camada inferior também é onde os dados são armazenados e otimizados, o que leva a tempos de consulta mais rápidos e melhor desempenho geral.

Camada intermediária

É aqui que você encontrará o mecanismo de análise, também conhecido como servidor OLAP (processamento analítico online). Os servidores OLAP acessam grandes volumes de dados do data warehouse em uma alta velocidade, o que leva a resultados extremamente rápidos.

Camada superior

A camada superior é onde a interface de front-end apresenta visualmente os dados processados, que os analistas podem acessar e usar para todas as suas necessidades de relatórios e BI de autoatendimento.

Como criar um data warehouse

Quando projetar e criar um data warehouse, é importante considerar as metas da sua organização, tanto a longo prazo quanto ad hoc, bem como a natureza dos seus dados. Quantas fontes de dados você está integrando? Você planeja automatizar seus fluxos de trabalho? Como você explorará e analisará seus dados? Sua compilação variará dependendo da complexidade de suas necessidades, mas um warehouse de banco de dados empresarial típico pode consistir nos seguintes componentes:

  1. Origens de dados que extraem dados operacionais de sistemas de ponto de venda, aplicativos de negócios e outros bancos de dados relacionais
  2. Umlocal em que os dados são limpos e transformados para o repositório centralizado ou de depósito
  3. Um warehouse ou repositório centralizado que armazena dados operacionais processados, metadados, dados de resumo, e dados brutos para facilitar o acesso do usuário
  4. A adição de data marts, que obtém dados do repositório centralizado e os fornece em subconjuntos para grupos selecionados de usuários
  5. Uma sandbox, que os cientistas de dados podem usar para testar novas formas de exploração de dados em um ambiente protegido
  6. Uma ampla variedade de ferramentas de armazenamento de dados e APIs para integração, armazenamento, desempenho e análise

Ferramentas, software e recursos de data warehouse

No mundo centrado em dados de hoje, muitas das principais empresas de software apresentam uma variedade aparentemente infinita de softwares data warehouse, cada um com seu próprio caso de uso específico. Pode parecer assustador, mas para criar uma solução coesa e de alto desempenho, convém investir nas ferramentas e tecnologias certas. As necessidades de cada organização são diferentes, mas aqui estão alguns produtos data warehouse essenciais para verificar:

Armazenamento de dados em nuvem e nuvem híbrida

Uma solução unificada de data warehouse baseada em nuvem, como Azure Synapse Analytics, oferece às organizações a capacidade de dimensionar, computar e armazenar em velocidade mais rápida e custo menor.

Ferramentas de integração de dados

Os pipelines de ETL permitem que os usuários criem, agendem e orquestrem seus fluxos de trabalho para que os dados de origem sejam integrados, limpos e padronizados automaticamente.

Armazenamento de objetos

Uma solução de armazenamento de objetos pode conter grandes quantidades de dados estruturados, semiestruturados e não estruturados, o que o torna perfeito para preparar dados de origem antes de serem carregados no depósito.

Ferramentas de armazenamento

Uma solução de armazenamento distribuído contém grandes conjuntos de dados em tabelas relacionais com armazenamento colunar. Isso reduz muito os custos, melhora o desempenho da consulta e acelera o tempo de insight.

Ferramentas de desempenho

Para aumentar o desempenho de seus aplicativos, convém incorporar Apache Spark, uma estrutura de processamento paralelo de software livre que dá suporte ao processamento na memória.

Gerenciamento de recursos e cargas de trabalho

Um gerenciador de recursos aloca capacidade de computação a suas cargas de trabalho para que você possa carregar, analisar, gerenciar e exportar dados adequadamente.

Modelagem de dados

A modelagem de dados combina várias fontes de dados em um único modelo semântico, fornecendo uma exibição estruturada e simplificada dos seus dados.

Ferramentas de business intelligence

As ferramentas de análise de negócios ajudam a fornecer insights aos usuários na forma de dashboards, relatórios e outras ferramentas de visualização.

Recursos de segurança e privacidade

Recursos de segurança e conformidade, como criptografia de dados, autenticação de usuário e monitoramento de acesso, garantem que seus dados permaneçam protegidos.

O que aconteceu com o SQL Data Warehouse do Azure?

Os recursos associados ao SQL do Azure Data Warehouse agora são um recurso do Azure Synapse Analytics chamado pool de SQL dedicado. Os clientes SQL do Azure Data Warehouse existentes podem continuar executando suas cargas de trabalho SQL do Azure Data Warehouse existentes usando o recurso de pool de SQL dedicado no Azure Synapse Analytics sem passar por nenhuma alteração. Os clientes também podem começar a gerenciar seus dados de warehouse existentes com o Azure Synapse Analytics para aproveitar os recursos avançados de análise, como a exploração de data lake sem servidor e os mecanismos SQL e Apache Spark™ integrados.

.

Perguntas frequentes

  • Um data warehouse é um repositório centralizado que contém dados estruturados (tabelas de banco de dados, planilhas do Excel) e dados semiestruturados (arquivos XML, páginas da Web) para fins de relatório, análise e outras formas de business intelligence.

    Saiba mais sobre data warehouses

  • Há muitos benefícios em usar um data warehouse. Por exemplo, um data warehouse consolida várias fontes de dados em uma única fonte de verdade, que as organizações podem usar para tomar decisões mais informadas sobre negócios e operações.

    Explore benefícios adicionais

  • Os data warehouses armazenam dados estruturados e semiestruturados, que podem ser usados para mineração de dados de origem, visualização de dados e outros casos de uso específicos de BI. Os data lakes armazenam vários tipos de dados brutos, que os cientistas de dados podem usar para criar uma variedade de projetos.
  • Um data warehouse normalmente é composto de várias camadas: a camada inferior, em que os dados são coletados e armazenados, a camada intermediária, em que os dados são analisados; e a camada superior, em que os dados são exibidos para os usuários acessarem e analisarem.

    Descobrir arquiteturas de data warehouse

  • Quando projetar e criar uma infraestrutura de data warehouse, é importante considerar a natureza dos seus dados e como você gostaria de transformá-los. Alguns elementos comuns de uma compilação típica incluem fontes de dados, uma área de preparo, o próprio depósito, data marts, áreas restritas e várias ferramentas de integração.

    Dicas sobre como criar um data warehouse

  • As principais empresas de software agora abrangem uma ampla variedade de produtos da data warehouse.

    Explorar ferramentas de data warehouse, software e recursos

  • Essas funcionalidades são um recurso de Azure Synapse Analytics chamado pool de SQL dedicado. Os clientes SQL do Azure Data Warehouse existentes podem continuar executando suas cargas de trabalho aqui sem passar por nenhuma alteração.

    Saiba mais sobre SQL do Azure Data Warehouse

Introdução a uma conta gratuita do Azure

Aproveite os serviços de análise populares gratuitamente por 12 meses, mais de 25 serviços gratuitos sempre  e $200 crédito para usar nos primeiros 30 dias.

Conecte-se a um especialista de vendas do Azure

Obtenha conselhos sobre como começar a usar a análise no Azure. Faça perguntas, saiba mais sobre preços e práticas recomendadas e obtenha ajuda para criar uma solução para atender às suas necessidades.

Podemos ajudar você?