Avançar para o conteúdo principal

O que é um armazém de dados?

Saiba o que é um armazém de dados, os benefícios de utilizar um, as melhores práticas a considerar durante a fase de design e as ferramentas a incorporar quando, finalmente, estiver na altura de criar.

O que é um armazém de dados?

Primeiro, vamos definir o que é um armazém de dados e por que motivo poderá querer utilizar um para a sua organização.

Um armazém de dados é um repositório centralizado que armazena dados estruturados (tabelas de bases de dados, folhas do Excel) e dados semiestruturados (ficheiros XML, páginas Web) para efeitos de relatório e análise. Os dados fluem a partir de uma variedade de origens, como sistemas de ponto de venda, aplicações empresariais e bases de dados relacionais, sendo normalmente limpos e normalizados antes de chegar ao armazém. Uma vez que um armazém de dados pode armazenar grandes quantidades de informações, proporciona aos utilizadores acesso fácil a uma grande quantidade de dados históricos, que podem ser utilizados para extração de dados, visualização de dados e outras formas de relatórios de business intelligence.

Benefícios do armazém de dados

Os dados fiáveis, especialmente quando agregados ao longo do tempo, ajudam os utilizadores a tomar decisões mais inteligentes e informadas sobre a forma como são executados na sua organização e os armazéns de dados são o que torna isso possível. As vantagens do armazenamento de dados empresariais são inúmeras, mas algumas das vantagens mais impactantes incluem:

  • Consolidar dados de várias fontes numa única origem verdadeira
  • Armazenar e analisar dados históricos de longo prazo que abrangem meses e anos
  • Limpar e transformar dados para que sejam precisos, consistentes e padronizados em estrutura e forma
  • Reduzir os tempos de consulta ao recolher dados e ao processar análises, o que melhora o desempenho geral em todos os sistemas
  • Carregar dados de forma eficiente sem ter de lidar com os custos de implementação ou infraestrutura
  • Proteger dados para que seja privado, protegido e seguro
  • Preparar dados para análise através de extração de dados, ferramentas de visualização e outras formas de análise avançada

Armazém de dados vs. data lake

É claro que os armazéns de dados são essenciais para as operações de análise de qualquer organização. Mas qual é a diferença entre um armazém de dados e outros tipos de repositórios de dados, como um data lake? E quando deve ser utilizado um sobre o outro?

Como repositórios, os armazéns de dados e os data lakes armazenam e processam dados. No entanto, embora possam parecer oferecer a mesma funcionalidade, cada uma tem os seus próprios casos de utilização específicos. É por este motivo que as organizações incorporam normalmente ambos os sistemas para formar uma solução completa e ponto a ponto que pode lidar com uma vasta gama de objetivos.

Um armazém de dados é de natureza relacional. Isto significa que a estrutura ou o esquema dos dados é determinado pelos requisitos de negócio e produto predefinidos que são organizados, conformes e otimizados para operações de consulta SQL. Como resultado, os armazéns de dados são mais utilizados para armazenar dados que foram tratados com um objetivo específico em mente, como a extração de dados para análise de BI, ou para o armazenamento de um caso de utilização empresarial que já tenha sido identificado.

Tal como os armazéns de dados, os data lakes têm dados estruturados e semiestruturados. No entanto, também são capazes de acomodar dados não processados e não processados de uma variedade de fontes não relacionais, incluindo aplicações móveis, dispositivos IoT, redes sociais ou transmissão em fluxo. Isto deve-se ao fato de a estrutura ou o esquema num data lake não ser definido até que os dados são lidos. Como resultado da sua natureza flexível e dimensionável, os data lakes são frequentemente utilizados para realizar formas inteligentes de análise de dados, como machine learning.

Não disponível Data lake Armazém de dados
Tipo Estruturado, semiestruturado, não estruturado
Relacional, não relacional
Estruturado
Relacional
Esquema Esquema na leitura Esquema na escrita
Formato Não processados, não filtrados Processados, examinados
Origens Macrodados, IoT, redes sociais, dados de transmissão em fluxo Aplicação, negócios, dados transacionais, relatórios em lote
Escalabilidade Fácil de dimensionar a um custo reduzido Difícil e dispendioso de dimensionar
Utilizadores Cientistas de dados, engenheiros de dados Profissionais de armazém de dados, analistas empresariais
Casos de utilização Aprendizagem automática, análise preditiva, análise em tempo real Relatórios principais, BI

Arquitetura e design do armazém de dados

Agora que sabe porquê e quando deve utilizar um armazém de dados, vamos ver como funciona ao ver o design do armazém de dados. Um armazém de dados é mais do que apenas um único silo que funciona sozinho. Em vez disso, é um sistema altamente estruturado e cuidadosamente arquitetados composto por várias camadas que interagem com os seus dados, e entre si, de formas diferentes. Normalmente, estes escalões incluem:

A camada inferior

Os dados são ingeridos a partir de várias fontes e, em seguida, limpos e transformados para que outras aplicações utilizem num processo chamado extração, transformação e carregamento (ETL). A camada inferior também é onde os dados são armazenados e otimizados, o que leva a tempos de consulta mais rápidos e um melhor desempenho geral.

Camada média

É aqui que encontrará o motor de análise, também conhecido como servidor de processamento analítico online (OLAP). Os servidores OLAP acederão a grandes volumes de dados do armazém de dados a uma alta velocidade, o que leva a resultados muito rápidos.

Escalão superior

O escalão superior é onde a interface de front-end apresenta visualmente os dados processados, que os analistas podem aceder e utilizar para todas as suas necessidades de relatórios e BI self-service.

Como criar um armazém de dados

Ao estruturar e criar um armazém de dados, é importante considerar os objetivos da sua organização, tanto a longo prazo como ad hoc, bem como a natureza dos seus dados. Quantas origens de dados está a integrar? Pretende automatizar os seus fluxos de trabalho? Como irá explorar e analisar os seus dados? O seu desenvolvimento irá variar dependendo da complexidade das suas necessidades, mas um armazém de bases de dados empresarial típico pode consistir nos seguintes componentes:

  1. Origens de dados que extraiam dados operacionais de sistemas de ponto de venda, aplicações empresariais e outras bases de dados relacionais
  2. Uma área de teste onde os dados são limpos e transformados para o armazém ou repositório centralizado
  3. Um armazém ou repositório centralizado que armazena dados operacionais processados, metadados, dados de resumo e dados não processados para facilitar o acesso dos utilizadores
  4. A adição de data marts, que recebem dados do repositório centralizado e servem-nos em subconjuntos para grupos selecionados de utilizadores
  5. Um sandbox, que os cientistas de dados podem utilizar para testar novas formas de exploração de dados num ambiente protegido
  6. Uma grande variedade de ferramentas de armazenamento de dados, estruturas e APIs para integração, armazenamento, desempenho e análise

Ferramentas, software e recursos do armazém de dados

No mundo centrado em dados atual, muitas das grandes empresas de software têm uma gama aparentemente infinita de software de armazém de dados, cada uma com o seu próprio caso de utilização específico. Pode parecer assustador, mas para criar uma solução coesa e de elevado desempenho, vai querer investir nas ferramentas e tecnologias certas. As necessidades de cada organização são diferentes, mas eis alguns produtos essenciais do armazém de dados a ter em conta:

Armazenamento de dados na nuvem e na nuvem híbrida

Uma solução unificada de armazenamento de dados com base na cloud, como o Azure Synapse Analytics dá às organizações a capacidade de dimensionar, calcular e armazenar a uma velocidade mais rápida e a um custo mais baixo.

Ferramentas de integração de dados

Os pipelines de ETL permitem aos utilizadores criar, agendar e orquestrar os seus fluxos de trabalho para que os dados de origem sejam automaticamente integrados, limpos e padronizados.

Armazenamento de objetos

Uma solução de armazenamento de objetos pode conter grandes quantidades de dados estruturados, semiestruturados e não estruturados, o que o torna perfeito para os dados de origem de faseamento antes de ser carregado para o armazém.

Ferramentas de armazenamento

Uma solução de armazenamento distribuído contém grandes conjuntos de dados em tabelas relacionais com armazenamento em colunas. Isto reduz bastante os custos, melhora o desempenho das consultas e acelera o tempo de informação.

Ferramentas de Desempenho

Para aumentar o desempenho das suas aplicações, poderá querer incorporar o Apache Spark, uma estrutura de processamento paralelo open-source que suporta o processamento dentro da memória.

Gestão de recursos e cargas de trabalho

Um gestor de recursos atribui poder de computação às suas cargas de trabalho para que possa carregar, analisar, gerir e exportar dados em função disso.

Modelação de dados

A modelação de dados combina várias fontes de dados num único modelo semântico, fornecendo uma vista estruturada e simplificada dos seus dados.

Ferramentas de business intelligence

As ferramentas de análise de negócio ajudam a fornecer informações aos utilizadores na forma de dashboards, relatórios e outras ferramentas de visualização.

Funcionalidades de segurança e privacidade

As funcionalidades de segurança e conformidade, como a encriptação de dados, a autenticação de utilizador e a monitorização de acesso, garantem que os seus dados permanecem protegidos.

O que aconteceu ao Azure SQL Data Warehouse?

As capacidades associadas ao Azure SQL Data Warehouse são agora uma funcionalidade do Azure Synapse Analytics denominado conjunto de SQL dedicado. Os clientes existentes do Azure SQL Data Warehouse podem continuar a executar as cargas de trabalho existentes do Azure SQL Data Warehouse com a funcionalidade de conjunto de SQL dedicado no Azure Synapse Analytics sem passar por quaisquer alterações. Os clientes também podem começar a gerir os dados de armazém existentes com o Azure Synapse Analytics para tirar partido de funcionalidades de análise avançadas, como a exploração de data lake sem servidor e SQL integrado e Apache Spark™ motores.

Perguntas mais frequentes

  • Um armazém de dados é um repositório centralizado que contém dados estruturados (tabelas de bases de dados, folhas do Excel) e dados semiestruturados (ficheiros XML, páginas Web) para fins de relatório, análise e outras formas de business intelligence.

    Saiba mais sobre armazéns de dados

  • A utilização de um armazém de dados tem muitas vantagens. Por exemplo, um armazém de dados consolida várias fontes de dados numa única fonte de verdade, que organizações podem então utilizar para tomar decisões mais informadas sobre negócios e operações.

    Explorar benefícios adicionais

  • Os armazéns de dados armazenam dados estruturados e semiestruturados, que podem ser utilizados para extração de dados de origem, visualização de dados e outros casos de utilização de BI específicos. Os data lakes armazenam vários tipos de dados não brutos, que os cientistas de dados podem utilizar para origem de vários projetos.

    Saiba mais sobre os data lakes

  • Um armazém de dados é normalmente composto por várias camadas: a camada inferior, onde os dados são recolhidos e armazenados; a camada média, onde os dados são analisados; e o escalão superior, onde os dados são apresentados para os utilizadores acederem e analisarem.

    Descubra as arquiteturas de armazém de dados

  • Ao estruturar e criar uma infraestrutura de armazém de dados, é importante considerar a natureza dos seus dados e como os quer transformar. Alguns elementos comuns de um desenvolvimento típico incluem as fontes de dados, uma área de teste, o próprio armazém, data marts, sandboxes e várias ferramentas de integração.

    Obtenha sugestões sobre como criar um armazém de dados

  • Muitas grandes empresas de software têm agora uma vasta gama de produtos de armazém de dados.

    Explore ferramentas, software e recursos do armazém de dados

  • Estas capacidades são agora uma funcionalidade do Azure Synapse Analytics denominada conjunto de SQL dedicado. Os clientes existentes do Armazém de Dados do SQL do Azure podem continuar a executar as suas cargas de trabalho aqui sem necessidade de quaisquer alterações.

    Saiba mais sobre o Azure Synapse Analytics

Conta Gratuita

Experimente os serviços de Computação na Cloud do Azure gratuitamente durante um período de até 30 dias.

"Pay-As-You-Go"

Comece a trabalhar com os preços pay as you go. Sem compromisso inicial— cancele em qualquer altura.

Como podemos ajudá-lo?