Идеи решения
Эта статья является идеей решения. Если вы хотите расширить содержимое с дополнительными сведениями, такими как потенциальные варианты использования, альтернативные службы, рекомендации по реализации или рекомендации по ценам, сообщите нам, предоставив отзыв GitHub.
В этой статье представлено решение для корпоративного хранилища данных в Azure, которое:
- Объединяет все данные независимо от масштаба или формата.
- Предоставляет всем пользователям возможность получать аналитические сведения от данных с помощью аналитических панелей мониторинга, операционных отчетов и расширенной аналитики.
Apache® и Apache Spark являются зарегистрированными товарными знаками или товарными знаками Apache Software Foundation в США и/или других странах. Использование этих меток не подразумевает подтверждения от Apache Software Foundation.
Архитектура
Скачайте файл Visio для этой архитектуры.
Поток данных
- Конвейеры Azure Synapse Analytics объединяют структурированные, неструктурированные и полуструктурированные данные, такие как журналы, файлы и носители. Конвейеры хранят данные в Azure Data Lake служба хранилища.
- Пулы Apache Spark в Azure Synapse Analytics очищают и преобразуют данные data Lake служба хранилища.
- Azure Synapse Analytics объединяет обработанные данные с существующими структурированными данными, создавая один унифицированный концентратор данных.
- Выделенный пул SQL предоставляет данные для операционных отчетов и аналитических панелей мониторинга, которые получают аналитические сведения. Службы Azure Analysis Services служат отчетам и панелям мониторинга тысячам конечных пользователей.
Компоненты
- Azure Synapse Analytics — это служба аналитики для хранилищ данных и систем обработки больших данных. Это средство использует архитектуру массовой параллельной обработки и имеет глубокую интеграцию со службами Azure.
- Конвейеры Azure Synapse Analytics предоставляют способ создания, планирования и оркестрации рабочих процессов, таких как извлечение, загрузка, преобразование (ELT) и извлечение, преобразование, преобразование, загрузка рабочих процессов (ETL).
- Хранилище BLOB-объектов Azure обеспечивает масштабируемое, экономичное хранилище объектов для любого типа неструктурированных данных— изображений, видео, аудио, документов и т. д.
- Data Lake служба хранилища — это репозиторий хранилища, в котором хранится большой объем данных в собственном, необработанном формате. Data Lake служба хранилища построен на основе служба хранилища BLOB-объектов. В результате Data Lake служба хранилища предлагает возможности масштабируемости, многоуровневого хранилища, высокого уровня доступности и аварийного восстановления больших двоичных объектов служба хранилища.
- Пулы Spark Azure Synapse Analytics предоставляют параллельную платформу обработки, которая поддерживает обработку в памяти для повышения производительности приложений аналитики больших данных.
- Службы Analysis Services — это подсистема аналитики корпоративного уровня, которая позволяет пользователям выполнять нерегламентированный анализ данных. Службы Analysis Services можно использовать для управления, тестирования и доставки бизнес-решений в большом масштабе.
- Power BI — это набор инструментов бизнес-аналитики, которые обеспечивают целостное представление обо всей вашей организации. Power BI можно использовать для подключения к сотням источников данных, упрощению подготовки данных и нерегламентированному анализу. Вы также можете создавать красивые отчеты и публиковать их для вашей организации для использования в Интернете и на мобильных устройствах.
Подробности сценария
Хранилище корпоративных данных объединяет все данные независимо от источника, формата или масштабирования. Хранилище данных также позволяет выполнять высокопроизводительную аналитику данных, чтобы получить аналитические сведения с помощью аналитических панелей мониторинга, операционных отчетов и расширенной аналитики.
Это решение устанавливает хранилище данных, которое:
- Является одним источником истины для ваших данных.
- Интегрирует реляционные источники данных с другими неструктурированными наборами данных.
- Использует семантические моделированию и мощные средства визуализации для более простого анализа данных.
Чтобы интегрировать данные в единую платформу, это решение использует конвейеры Azure Synapse Analytics. Эти конвейеры предлагают возможности ELT и ETL. В частности, конвейеры можно использовать для перемещения данных в рабочих процессах, управляемых данными. Конвейеры работают с различными форматами и структурами данных.
Конвейеры хранят данные в Data Lake служба хранилища, которая основана на служба хранилища BLOB-объектов. Эта служба хранилища может обрабатывать большие объемы неструктурированных данных.
Пулы Azure Synapse Analytics Spark образуют ключевую часть решения. Эти пулы очищают и преобразуют данные, хранящиеся в Azure. Их платформа параллельной обработки поддерживает обработку в памяти для скорости и эффективности. Пулы также поддерживают автоматическое масштабирование, чтобы они могли добавлять или удалять узлы по мере необходимости.
Выделенный пул SQL делает обработанные данные доступными для высокопроизводительной аналитики. В этом пуле хранятся данные в реляционных таблицах с хранилищем столбцов, что значительно снижает затраты на хранение данных. Он также повышает производительность запросов, поэтому вы можете выполнять аналитику в большом масштабе.
Потенциальные варианты использования
Это решение можно использовать в таких сценариях, как следующие, которые включают большие объемы данных:
- Интеграция устройств Интернета вещей
- Платформы данных клиента
- Обработка естественного языка
- Алгоритмы машинного обучения
Цены
Чтобы просмотреть оценку стоимости этого решения, см . пример ценообразования в калькуляторе цен.
Следующие шаги
- Документация по Azure Synapse Analytics
- Документация по конвейерам Azure Synapse Analytics
- Общие сведения о хранилище объектов в Azure
- Пулы Spark Для Azure Synapse Analytics
- Документация по службам Analysis Services
- Документация по Power BI