Almacenamiento de datos empresarial

Azure Blob Storage
Azure Data Lake
Azure Synapse Analytics

Ideas de solución

Este artículo es una idea de solución. Si te gustaría que ampliemos este artículo con más información, como posibles casos de uso, servicios alternativos, consideraciones de implementación o una guía de precios, comunícalo a través de los Comentarios de GitHub.

En este artículo se presenta una solución para un almacenamiento de datos de empresa en Azure que:

  • Reúne todos los datos, independientemente de la escala o el formato.
  • Proporciona a todos los usuarios una forma de obtener información de los datos a través de paneles analíticos, informes operativos y análisis avanzados.

Apache® y Apache Spark son marcas comerciales registradas o marcas comerciales de Apache Software Foundation en los Estados Unidos u otros países. El uso de estas marcas no implica la aprobación de Apache Software Foundation.

Architecture

Architecture diagram of an enterprise data warehouse that uses Azure Synapse Analytics, Data Lake Storage, Analysis Services, and Power BI.

Descargue un archivo Visio de esta arquitectura.

Flujo de datos

  1. Las canalizaciones de Azure Synapse Analytics reúnen datos estructurados, no estructurados y semiestructurados, como registros, archivos y medios. Las canalizaciones almacenan los datos en Azure Data Lake Storage.
  2. Los grupos de Apache Spark en Azure Synapse Analytics limpian y transforman los datos de Data Lake Storage.
  3. Azure Synapse Analytics combina los datos procesados con datos estructurados existentes, lo que crea un centro de datos unificado.
  4. Un grupo de SQL dedicado hace que los datos estén disponibles para los informes operativos y los paneles analíticos que derivan información. Azure Analysis Services sirve los informes y paneles a miles de usuarios finales.

Componentes

  • Azure Synapse Analytics es un servicio de análisis para sistemas de almacenamiento de datos y de macrodatos. Esta herramienta usa una arquitectura de procesamiento paralelo masivo y tiene una integración profunda con los servicios de Azure.
  • Las canalizaciones de Azure Synapse Analytics proporcionan una manera de crear, programar y orquestar flujos de trabajo, como los flujos de trabajo de extracción, carga, transformación (ELT) y extracción, transformación, carga (ETL).
  • Azure Blob Storage es un almacenamiento de objetos rentable y escalable de forma masiva para cualquier tipo de dato no estructurado (imágenes, vídeos, audio, documentos, etc.)
  • Data Lake Storage es un repositorio de almacenamiento que contiene una gran cantidad de datos en su formato nativo y sin procesar. Data Lake Storage se compila a partir de Blob Storage. Por lo tanto, Data Lake Storage ofrece las capacidades de escalabilidad, almacenamiento en capas, alta disponibilidad y recuperación ante desastres de Blob Storage.
  • Los grupos de Spark de Azure Synapse Analytics ofrecen un marco de procesamiento paralelo que admite el procesamiento en memoria para mejorar el rendimiento de las aplicaciones analíticas de macrodatos.
  • Analysis Services es un motor de análisis de nivel empresarial que da a los usuarios una forma sencilla de realizar análisis de datos ad hoc. Puede usar Analysis Services para controlar, probar y ofrecer soluciones empresariales a gran escala.
  • Power BI es un conjunto de herramientas de análisis empresarial que proporciona información detallada acerca de toda la organización. Puede usar Power BI para conectarse a cientos de orígenes de datos, simplificar la preparación de datos e impulsar el análisis ad hoc. También puede crear informes atractivos y publicarlos para su organización con el fin de que se usen en la web y en los dispositivos móviles.

Detalles del escenario

Un almacenamiento de datos de empresa reúne todos los datos, independientemente del origen, el formato o la escala. Un almacenamiento de datos también proporciona una manera de ejecutar análisis de alto rendimiento en los datos, para que pueda obtener información a través de paneles analíticos, informes operativos y análisis avanzados.

Esta solución establece un almacenamiento de datos que:

  • Es un origen único de confianza para sus datos.
  • Integra orígenes de datos relacionales con otros conjuntos de datos no estructurados.
  • Usa el modelado semántico y potentes herramientas de visualización para simplificar el análisis de los datos.

Para integrar datos en una plataforma unificada, esta solución usa canalizaciones de Azure Synapse Analytics. Estas canalizaciones ofrecen capacidades ELT y ETL. En concreto, puede usar las canalizaciones para mover datos en flujos de trabajo controlados por datos. Las canalizaciones funcionan con varios formatos y estructuras de datos.

Las canalizaciones almacenan los datos en Data Lake Storage, que se compila a partir de Blob Storage. Este servicio de almacenamiento puede controlar grandes volúmenes de datos no estructurados.

Los grupos de Spark de Azure Synapse Analytics forman una parte clave de la solución. Estos grupos limpian y transforman los datos almacenados en Azure. Su marco de procesamiento paralelo admite el procesamiento en memoria para alcanzar una mayor velocidad y eficiencia. Los grupos también admiten el escalado automático, por lo que pueden agregar o quitar nodos según sea necesario.

Un grupo de SQL dedicado hace que los datos procesados estén disponibles para el análisis de alto rendimiento. Este grupo almacena datos en tablas relacionales con almacenamiento en columnas, un formato que reduce significativamente el coste del almacenamiento de datos. También mejora el rendimiento de las consultas, por lo que puede ejecutar análisis a escala masiva.

Posibles casos de uso

Puede usar esta solución en escenarios como los siguientes, que implican grandes volúmenes de datos:

  • Integración de dispositivos de IoT
  • Plataformas de datos de clientes
  • Procesamiento de lenguaje natural
  • Algoritmos de aprendizaje automático

Precios

Para ver una estimación del coste de esta solución, consulte un ejemplo de precios en la calculadora de precios.

Pasos siguientes