Корпоративное хранилище данных

хранилище BLOB-объектов Azure
Azure Data Lake
Azure Synapse Analytics

Идеи решения

Эта статья является идеей решения. Если вы хотите расширить содержимое с дополнительными сведениями, такими как потенциальные варианты использования, альтернативные службы, рекомендации по реализации или рекомендации по ценам, сообщите нам, предоставив отзыв GitHub.

В этой статье представлено решение для корпоративного хранилища данных в Azure, которое:

  • Объединяет все данные независимо от масштаба или формата.
  • Предоставляет всем пользователям возможность получать аналитические сведения от данных с помощью аналитических панелей мониторинга, операционных отчетов и расширенной аналитики.

Apache® и Apache Spark являются зарегистрированными товарными знаками или товарными знаками Apache Software Foundation в США и/или других странах. Использование этих меток не подразумевает подтверждения от Apache Software Foundation.

Архитектура

Architecture diagram of an enterprise data warehouse that uses Azure Synapse Analytics, Data Lake Storage, Analysis Services, and Power BI.

Скачайте файл Visio для этой архитектуры.

Поток данных

  1. Конвейеры Azure Synapse Analytics объединяют структурированные, неструктурированные и полуструктурированные данные, такие как журналы, файлы и носители. Конвейеры хранят данные в Azure Data Lake служба хранилища.
  2. Пулы Apache Spark в Azure Synapse Analytics очищают и преобразуют данные data Lake служба хранилища.
  3. Azure Synapse Analytics объединяет обработанные данные с существующими структурированными данными, создавая один унифицированный концентратор данных.
  4. Выделенный пул SQL предоставляет данные для операционных отчетов и аналитических панелей мониторинга, которые получают аналитические сведения. Службы Azure Analysis Services служат отчетам и панелям мониторинга тысячам конечных пользователей.

Компоненты

  • Azure Synapse Analytics — это служба аналитики для хранилищ данных и систем обработки больших данных. Это средство использует архитектуру массовой параллельной обработки и имеет глубокую интеграцию со службами Azure.
  • Конвейеры Azure Synapse Analytics предоставляют способ создания, планирования и оркестрации рабочих процессов, таких как извлечение, загрузка, преобразование (ELT) и извлечение, преобразование, преобразование, загрузка рабочих процессов (ETL).
  • Хранилище BLOB-объектов Azure обеспечивает масштабируемое, экономичное хранилище объектов для любого типа неструктурированных данных— изображений, видео, аудио, документов и т. д.
  • Data Lake служба хранилища — это репозиторий хранилища, в котором хранится большой объем данных в собственном, необработанном формате. Data Lake служба хранилища построен на основе служба хранилища BLOB-объектов. В результате Data Lake служба хранилища предлагает возможности масштабируемости, многоуровневого хранилища, высокого уровня доступности и аварийного восстановления больших двоичных объектов служба хранилища.
  • Пулы Spark Azure Synapse Analytics предоставляют параллельную платформу обработки, которая поддерживает обработку в памяти для повышения производительности приложений аналитики больших данных.
  • Службы Analysis Services — это подсистема аналитики корпоративного уровня, которая позволяет пользователям выполнять нерегламентированный анализ данных. Службы Analysis Services можно использовать для управления, тестирования и доставки бизнес-решений в большом масштабе.
  • Power BI — это набор инструментов бизнес-аналитики, которые обеспечивают целостное представление обо всей вашей организации. Power BI можно использовать для подключения к сотням источников данных, упрощению подготовки данных и нерегламентированному анализу. Вы также можете создавать красивые отчеты и публиковать их для вашей организации для использования в Интернете и на мобильных устройствах.

Подробности сценария

Хранилище корпоративных данных объединяет все данные независимо от источника, формата или масштабирования. Хранилище данных также позволяет выполнять высокопроизводительную аналитику данных, чтобы получить аналитические сведения с помощью аналитических панелей мониторинга, операционных отчетов и расширенной аналитики.

Это решение устанавливает хранилище данных, которое:

  • Является одним источником истины для ваших данных.
  • Интегрирует реляционные источники данных с другими неструктурированными наборами данных.
  • Использует семантические моделированию и мощные средства визуализации для более простого анализа данных.

Чтобы интегрировать данные в единую платформу, это решение использует конвейеры Azure Synapse Analytics. Эти конвейеры предлагают возможности ELT и ETL. В частности, конвейеры можно использовать для перемещения данных в рабочих процессах, управляемых данными. Конвейеры работают с различными форматами и структурами данных.

Конвейеры хранят данные в Data Lake служба хранилища, которая основана на служба хранилища BLOB-объектов. Эта служба хранилища может обрабатывать большие объемы неструктурированных данных.

Пулы Azure Synapse Analytics Spark образуют ключевую часть решения. Эти пулы очищают и преобразуют данные, хранящиеся в Azure. Их платформа параллельной обработки поддерживает обработку в памяти для скорости и эффективности. Пулы также поддерживают автоматическое масштабирование, чтобы они могли добавлять или удалять узлы по мере необходимости.

Выделенный пул SQL делает обработанные данные доступными для высокопроизводительной аналитики. В этом пуле хранятся данные в реляционных таблицах с хранилищем столбцов, что значительно снижает затраты на хранение данных. Он также повышает производительность запросов, поэтому вы можете выполнять аналитику в большом масштабе.

Потенциальные варианты использования

Это решение можно использовать в таких сценариях, как следующие, которые включают большие объемы данных:

  • Интеграция устройств Интернета вещей
  • Платформы данных клиента
  • Обработка естественного языка
  • Алгоритмы машинного обучения

Цены

Чтобы просмотреть оценку стоимости этого решения, см . пример ценообразования в калькуляторе цен.

Следующие шаги