Trace Id is missing
Avançar para o conteúdo principal
Quatro pessoas numa reunião presencial com uma apresentação num computador portátil

O que é um armazém de dados?

Saiba o que é um armazém de dados, os benefícios de utilizá-lo, as melhores práticas a considerar durante a fase de criação e as ferramentas a incorporar na fase de desenvolvimento.

O que é um armazém de dados?

Em primeiro lugar, vamos explicar o que é um armazém de dados e o motivo pelo qual recomendamos que utilize um na sua organização.

Um armazém de dados é um repositório centralizado que contém dados estruturados (tabelas de bases de dados, folhas do Excel) e dados semiestruturados (ficheiros XML, páginas Web) para fins de análise e criação de relatórios. Os dados proveem de diversas origens, como sistemas de ponto de venda, aplicações empresariais e bases de dados relacionais, e são normalmente limpos e uniformizados antes de serem guardados no armazém. Uma vez que um armazém de dados pode armazenar grandes quantidades de informações, este fornece aos utilizadores um acesso simplificado a uma vasta gama de dados históricos, que podem ser utilizados para efeitos de datamining, apresentação de dados e outras formas de relatórios de business intelligence.

Duas pessoas sentadas a consultar dados numa tabela

Benefícios dos armazéns de dados

Os dados fiáveis, especialmente quando agregados ao longo do tempo, ajudam os utilizadores a tomar decisões mais inteligentes e informadas sobre como deverão gerir a sua organização. Os armazéns de dados tornam isto possível. Os benefícios do armazenamento de dados empresariais são inúmeros, mas algumas das vantagens mais proeminentes incluem:

Armazém de dados vs. data lake

Naturalmente, os armazéns de dados são essenciais para as operações de análise de qualquer organização. Qual é afinal a diferença entre um armazém de dados e outros tipos de repositórios de dados, como um data lake? Em que situações deve ser utilizado um destes tipos em detrimento dos restantes?

Tratando-se de repositórios, tanto os armazéns de dados como os data lakes armazenam e processam dados. Contudo, embora pareçam oferecer a mesma funcionalidade, cada um dos dois tipos de repositório tem os seus casos de utilização distintos. É por este motivo que as empresas incorporam normalmente ambos os sistemas para formar uma solução completa ponto a ponto, direcionada a um vasto leque de objetivos.

Um armazém de dados é relacional por natureza. Isto significa que a estrutura ou o esquema dos dados é determinado pelos requisitos de negócio e produto predefinidos que são organizados, ajustados e otimizados para as operações de consulta SQL. Como resultado, os armazéns de dados são mais utilizados para armazenar dados que foram tratados com um objetivo específico em mente, como datamining para análise de BI, ou para o armazenamento de um caso de utilização empresarial que já tenha sido identificado.

Tal como os armazéns de dados, os data lakes contêm tanto dados estruturados como semiestruturados. No entanto, também são capazes de acomodar dados não processados de diversas origens não relacionais, incluindo aplicações para dispositivos móveis, dispositivos IoT, redes sociais ou transmissão em fluxo. Isto deve-se ao facto de a estrutura ou o esquema num data lake não estar definido até os dados serem lidos. Devido à sua natureza flexível e dimensionável, os data lakes são frequentemente utilizados para realizar formas inteligentes de análise de dados, como a aprendizagem automática.

plano de suporte em toda a organização
Data lake Armazém de dados
Tipo

Estruturados, semiestruturados, não estruturados
Relacional, não relacional

Estruturado
Relacional

Esquema

Esquema na leitura

Esquema na gravação

Formato

Dados não processados nem filtrados

Dados processados e verificados

Origens

Macrodados, IoT, redes sociais, dados de transmissão em fluxo

Aplicação, negócio, dados transacionais, relatórios em lote

Escalabilidade

Fácil de dimensionar a um custo reduzido

Dimensionamento difícil e dispendioso

Utilizadores

Cientistas e engenheiros de dados

Profissionais do armazém de dados, analistas de negócio

Casos de utilização

Aprendizagem automática, análise preditiva e análise em tempo real

Relatórios essenciais, BI

Uma mulher sentada a trabalhar num computador de secretária

Arquitetura e design do armazém de dados

Agora que sabe porquê e quando deve utilizar um armazém de dados, vamos olhar para o design de um armazém para saber como estes funcionam. Um armazém de dados é mais do que apenas um repositório que funciona de forma isolada. Em vez disso, é um sistema estruturado e cuidadosamente arquitetado, composto por várias camadas que interagem com os seus dados, bem como entre si, de várias formas. Geralmente, estas camadas incluem:

A camada inferior

Os dados são ingeridos a partir de várias origens e, em seguida, limpos e transformados para utilização noutras aplicações, num processo chamado extração, transformação e carregamento (ETL). A camada inferior também é onde os dados são armazenados e otimizados, o que permite tempos de consulta mais rápidos e um melhor desempenho geral.

Camada intermédia

É aqui que encontrará o motor de análise, também conhecido como servidor OLAP (Online Analytical Processing). Os servidores OLAP acedem a grandes quantidades de dados no armazém de dados a elevada velocidade, o que permite obter resultados extremamente rápidos.

Camada superior

É na camada superior que a interface front-end apresenta os dados processados visualmente. Os analistas podem aceder a estes dados e utilizá-los para todas as suas necessidades de criação de relatórios e BI de gestão personalizada.

Como desenvolver um armazém de dados

Ao estruturar e desenvolver um armazém de dados, é importante considerar os objetivos da sua organização, tanto a longo prazo como para casos particulares, bem como a natureza dos seus dados. Quantas origens de dados está a integrar? Pretende automatizar os seus fluxos de trabalho? Como irá explorar e analisar os seus dados? A sua estrutura irá variar consoante a complexidade das necessidades, mas um armazém de base de dados empresarial típico pode consistir nos seguintes componentes:

  1. Origens de dados que extraem dados operacionais de sistemas de ponto de venda, aplicações empresariais, entre outras bases de dados relacionais
  2. Uma área de testes onde os dados são limpos e transformados para o armazém ou repositório centralizado
  3. Um armazém ou repositório centralizado que armazena dados operacionais processados, metadados, dados de resumo e dados não processados para um acesso simplificado para o utilizador
  4. A adição de data marts, que retiram dados do repositório centralizado e distribuem os mesmos em subconjuntos para grupos de utilizadores específicos
  5. Um sandbox, que os cientistas de dados podem utilizar para testar novas formas de exploração de dados num ambiente protegido
  6. Uma grande diversidade de ferramentas de armazenamento de dados, arquiteturas e APIs para efeitos de integração, armazenamento, desempenho e análise
Uma pessoa a analisar gráficos no portátil e a visualizar relatórios de dados em dois monitores
Ecrã de computador portátil com gráficos abertos

Ferramentas, software e recursos de armazenamento de dados

No mundo centrado em dados da atualidade, muitas das grandes empresas de software possuem uma gama aparentemente inesgotável de software de armazenamento de dados, cada um com o seu caso de utilização específico. Pode parecer uma tarefa intimidante, mas, para criar uma solução coesa e de elevado desempenho, é recomendável que invista nas ferramentas e tecnologias apropriadas. Cada organização tem necessidades diferentes, mas seguem-se alguns produtos essenciais de armazenamento de dados que poderão ajudar:

Armazenamento de dados na nuvem e na nuvem híbrida

Uma solução unificada de armazenamento de dados baseada na nuvem, como o Azure Synapse Analytics, dá às organizações a capacidade de dimensionar, calcular e armazenar a uma maior velocidade e com custos mais baixos.

Ferramentas de integração de dados

Os pipelines de ETL permitem que os utilizadores criem, agendem e organizem os seus fluxos de trabalho, para que os dados de origem sejam automaticamente integrados, limpos e uniformizados.

Armazenamento de objetos

Uma solução de armazenamento de objetos pode conter grandes quantidades de dados estruturados, semiestruturados e não estruturados, o que a torna ideal para testar dados de origem antes de estes serem depositados no armazém.

Ferramentas de armazenamento

Uma solução de armazenamento distribuído contém grandes conjuntos de dados em tabelas relacionais com armazenamento em colunas. Isto reduz significativamente os custos, melhora o desempenho das consultas e reduz o tempo necessário para obter as informações.

Ferramentas de desempenho

Para melhorar o desempenho das suas aplicações, poderá querer incorporar o Apache Spark, uma arquitetura open-source de processamento paralelo que suporta o processamento dentro da memória.

Gestão de cargas de trabalho e recursos

Um gestor de recursos proporciona poder de computação às suas cargas de trabalho para que possa carregar, analisar, gerir e exportar dados conforme necessário.

Modelação de dados

A modelação de dados combina várias origens de dados num único modelo semântico, que fornece uma vista estruturada e simplificada dos seus dados.

Ferramentas de business intelligence

As ferramentas de análise de negócios ajudam a fornecer informações aos utilizadores sob a forma de dashboards, relatórios e outras ferramentas de visualização.

Funcionalidades de segurança e privacidade

As funcionalidades de segurança e conformidade, como a encriptação de dados, a autenticação de utilizadores e a monitorização de acessos, garantem que os seus dados permanecem protegidos.

Um homem e uma mulher a conversar enquanto o primeiro (à direita) segura num portátil

O que aconteceu ao Data Warehouse do SQL do Azure?

As capacidades associadas ao Data Warehouse do SQL do Azure são agora uma funcionalidade do Azure Synapse Analytics , a que chamamos conjunto de SQL dedicado. Os clientes existentes do Data Warehouse do SQL do Azure podem continuar a executar as cargas de trabalho existentes do Data Warehouse do SQL do Azure com a funcionalidade de conjunto de SQL dedicado no Azure Synapse Analytics sem terem de passar por quaisquer alterações. Os clientes também podem começar a gerir os dados de armazém existentes com o Azure Synapse Analytics para tirar partido das funcionalidades de análise avançadas, como a exploração sem servidor do data lake e os motores integrados do SQL e do Apache Spark™.

Perguntas mais frequentes

  • Um armazém de dados é um repositório centralizado que contém dados estruturados (tabelas de bases de dados, folhas do Excel) e dados semiestruturados (ficheiros XML, páginas Web) para efeitos de criação de relatórios, análise e outras formas de business intelligence.

  • Há vários benefícios de que pode usufruir ao utilizar um armazém de dados. Por exemplo, um armazém de dados consolida múltiplas origens de dados numa única fonte de verdade, em que as organizações podem basear-se para tomar decisões mais informadas relativamente a negócios e operações.

  • Os armazéns de dados armazenam dados estruturados e semiestruturados, que podem ser utilizados para efeitos de datamining, apresentação de dados e outros casos específicos de utilização de BI. Os data lakes armazenam vários tipos de dados não processados, que os cientistas de dados podem utilizar numa variedade de projetos.

  • Um armazém de dados é normalmente composto por várias camadas: a camada inferior, onde os dados são recolhidos e armazenados; a camada intermédia, onde os dados são analisados; e a camada superior, onde os dados são apresentados para os utilizadores acederem e analisarem.

  • Ao estruturar e desenvolver uma infraestrutura de armazém de dados, é importante considerar a natureza dos seus dados e a forma como pretende transformá-los. Alguns elementos comuns de uma estrutura de desenvolvimento típica incluem as origens de dados, uma área de testes, o próprio armazém, data marts e várias ferramentas de integração.

  • Muitas das grandes empresas de software têm agora uma vasta gama de produtos de armazém de dados.

  • Estas capacidades são agora uma funcionalidade do Azure Synapse Analytics designada conjunto de SQL dedicado. Os clientes atuais do Data Warehouse do SQL do Azure podem continuar a executar as suas cargas de trabalho aqui, sem precisarem de realizar qualquer alteração.

Conta Gratuita

Experimente os serviços de Informática em Nuvem do Azure gratuitamente por um período de 30 dias.

Crédito pré-pago

Comece a trabalhar ao optar pelos preços de crédito pré-pago. Não existe compromisso inicial, pelo que pode cancelar a qualquer altura.