Что такое хранилище данных?
Сначала определим, что такое хранилище данных и почему его следует использовать в организации.
Хранилище данных — это централизованный репозиторий, в котором хранятся структурированные данные (таблицы базы данных, листы Excel) и частично структурированные данные (файлы XML, веб-страницы) для целей отчетности и анализа. Данные поступают из различных источников, таких как системы обработки продаж, бизнес-приложения и реляционные базы данных. Перед тем как попасть в хранилище, обычно данные очищаются и стандартизуются. Поскольку в хранилище данных могут находиться большие объемы информации, оно обеспечивает пользователям простой доступ к большому количеству исторических данных, которые можно использовать для анализа, визуализации данных и других форм отчетности бизнес-аналитики.
Преимущества использования хранилищ данных
Надежные данные, особенно агрегированные во времени, помогают пользователям принимать более разумные и обоснованные решения по управлению организацией, и именно хранилища данных делают это возможным. Существует множество преимуществ корпоративного хранилища данных. Вот лишь некоторые из них:
-
Объединение данных из нескольких источников в один надежный источник
-
Хранение и анализ данных прошлых месяцев и лет
-
Очистка и преобразование данных для точной, согласованной и стандартизированной структуры и формы
-
Сокращение времени запросов при сборе данных и обработке аналитики, что повышает общую производительность в разных системах
-
Эффективная загрузка данных без затрат на развертывание или инфраструктуру
-
Обеспечение безопасности, конфиденциальности и защиты данных
-
Подготовка данных для анализа с помощью интеллектуального анализа данных, средств визуализации и других расширенных средств аналитики
Хранилище и озеро данных: разница
Хранилища данных необходимы для проведения операций аналитики в любой организации. Но в чем разница между хранилищем данных и другими типами репозиториев данных, такими как озеро данных? И когда следует использовать разные типы?
Будучи репозиториями, хранилища данных и озера данных хранят и обрабатывают данные. И хотя у них есть схожие функции, использование каждого из них предполагает свои особые сценарии. Именно поэтому организации обычно реализуют обе системы для создания полного комплексного решения, которое может взять на себя широкий спектр задач.
Хранилище данных имеет реляционный характер. Это означает, что структура или схема данных определяется предопределенных бизнес-требованиями и требованиями к продуктам, которые курируются, соответствуют и оптимизированы для операций запросов SQL. Поэтому хранилища данных лучше всего использовать для хранения данных, обработанных с определенной целью, например для бизнес-аналитики или для поиска уже определенного варианта использования.
Как и в хранилищах данных, в озерах данных имеются структурированные и полуструктурированные данные. Однако они также могут совмещать необработанные и "сырые" данные из различных нереляционных источников, включая мобильные приложения, устройства Интернета вещей, социальные сети или потоковую передачу. Это связано с тем, что структура или схема в озере данных не определена до чтения данных. В результате своей гибкой масштабируемой природы озера данных часто используются для выполнения интеллектуальных форм анализа данных, таких как машинное обучение.
Озеро данных | Хранилище данных | |
---|---|---|
Тип | Структурированные, полуструктурированные и неструктурированные | Структурированные |
Схема | Схема при чтении | Схема при записи |
Формат | Необработанные, без фильтрации | Обработанные, с проверкой |
Источники | Большие данные, Интернет вещей, социальные сети, потоковые данные | Приложение, бизнес, транзакционные данные, пакетная отчетность |
Масштабируемость | Простота масштабирования с низкими затратами | Сложно и дорого масштабировать |
Пользователи | Специалисты по обработке и анализу данных, инженеры данных | Специалисты по хранилищам данных, бизнес-аналитики |
Варианты использования | Машинное обучение, прогнозная аналитика, аналитика в реальном времени | Основные отчеты, бизнес-аналитика |
Архитектура и дизайн хранилища данных
Теперь вы знаете, когда и почему следует использовать хранилище данных. Давайте рассмотрим, как это работает на примере проекта хранилища данных. Хранилище данных — это не просто отдельный набор данных, работающий самостоятельно. Это хорошо структурированная, тщательно разработанная система, состоящая из нескольких уровней, взаимодействующих с данными и друг с другом различными способами. Как правило, в эти уровни входят:
Нижний уровень
Данные извлекаются из нескольких источников, а затем очищаются и преобразуются для использования другими приложениями в процессе, называемом ETL — извлечение, преобразование и загрузка. На нижнем уровне данные также хранятся и оптимизируются, что приводит к ускорению запросов и общей производительности.
Средний уровень
Здесь вы найдете обработчик аналитики, также известный как сервер OLAP. Серверы OLAP с высокой скоростью имеют доступ к большим объемам данных из хранилища, что приводит к быстрому результату.
Верхний уровень
Верхний уровень — это конечный интерфейс, где визуально представляются обработанные данные. Аналитики могут получить к ним доступ и использовать для всех своих отчетов и самостоятельной бизнес-аналитики.
Создание хранилища данных
При проектировании и создании хранилища данных важно учитывать цели организации — как долгосрочные, так и специальные, а также характер данных. Сколько источников данных вы интегрируете? Планируете ли вы автоматизировать свои бизнес-процессы? Как вы анализируете свои данные? Ваша сборка зависит от сложности ваших потребностей, но типичное хранилище корпоративных баз данных может состоять из следующих компонентов:
- Источники данных, которые извлекают операционные данные из систем обработки продаж, бизнес-приложений и других реляционных баз данных
- Промежуточная область, где данные очищаются и преобразуются для хранилища или централизованного репозитория
- Хранилище или централизованный репозиторий, в котором хранятся обработанные операционные данные, метаданные, сводные данные и необработанные данные для удобного доступа пользователей
- Добавление киосков данных, которые принимают данные из централизованного репозитория и обслуживают их в подмножествах для выбранных групп пользователей
- Песочница, которую могут использовать специалисты по обработке и анализу данных для тестирования новых форм исследования данных в защищенной среде
- Широкий спектр средств хранения данных, платформ и API для интеграции, хранения, производительности и анализа
Средства, программное обеспечение и ресурсы хранилища данных
В современном мире, ориентированном на данные, многие крупные компании, работающие с программным обеспечением, используют на первый взгляд бесконечный ряд программ для хранения данных, каждая из которых имеет собственный конкретный вариант использования. Это может показаться сложной задачей, но для создания единого и высокоскоростного решения необходимо вложить средства и технологии. Потребности каждой организации отличаются, но вот некоторые основные решения хранилища данных, которые могут быть полезны:
Облачное и гибридное облачное хранение данных
Единое облачное решение для хранения данных, например Azure Synapse Analytics, позволяет организациям масштабировать, вычислять и хранить данные с большем скоростью и меньшими затратами.
Средства интеграции данных
Конвейеры ETL позволяют пользователям создавать, планировать и оркестрировать свои рабочие процессы, чтобы исходные данные автоматически интегрировались, объединялись и стандартизировались.
Хранилище объектов
Решение для хранения объектов может удерживать большие объемы структурированных, полуструктурированных и неструктурированных данных, что делает его идеальным решением для промежуточного хранения исходных данных перед их загрузкой в хранилище.
Средства для хранения
Решение распределенного хранилища содержит большие наборы данных в реляционных таблицах со столбцами. Это значительно снижает затраты, повышает производительность запросов и ускоряет анализ.
Средства обеспечения производительности
Apache Spark — это платформа параллельной обработки с открытым кодом, которая поддерживает обработку в памяти, чтобы повысить производительность приложений для анализа больших данных.
Управление ресурсами и рабочей нагрузкой
Диспетчер ресурсов выделяет вычислительные ресурсы рабочим нагрузкам, чтобы вы могли загружать, анализировать, экспортировать данные и управлять ими соответствующим образом.
Моделирование данных
Моделирование данных объединяет несколько источников данных в единую семантическую модель, обеспечивая структурированное и упрощенное представление данных.
Средства бизнес-аналитики
Инструменты бизнес-аналитики помогают предоставлять пользователям аналитические сведения в виде панелей мониторинга, отчетов и других средств визуализации.
Функции обеспечения безопасности и конфиденциальности
Функции обеспечения безопасности и соответствия требованиям, такие как шифрование данных, проверка подлинности пользователей и мониторинг доступа, обеспечивают защиту данных.
Что случилось с Хранилищем данных SQL Azure?
Возможности, связанные с хранилищем данных SQL Azure, теперь являются функцией службы Azure Synapse Analytics, называемой выделенным пулом SQL. Существующие клиенты хранилища данных SQL Azure могут продолжать использовать существующие рабочие нагрузки хранилища данных SQL Azure с помощью выделенной функции пула SQL в Azure Synapse Analytics, не внося никаких изменений. Клиенты также могут приступить к управлению существующими данными хранилища с помощью Azure Synapse Analytics и воспользоваться расширенными функциями аналитики, например исследованием бессерверного озера данных и интегрированными ядрами SQL и Apache Spark™.
Вопросы и ответы
-
Хранилище данных — это централизованный репозиторий, в котором хранятся структурированные данные (таблицы базы данных, листы Excel) и частично структурированные данные (файлы XML, веб-страницы) для целей отчетности, анализа и других форм бизнес-аналитики.
-
Использование хранилища данных имеет множество преимуществ. Например, хранилище данных объединяет несколько источников данных в один единый источник, который организации могут использовать для принятия более обоснованных решений в отношении бизнеса и операций.
-
В хранилищах данных хранятся структурированные и полуструктурированные данные, которые можно использовать для интеллектуального анализа исходных данных, визуализации данных и других случаев использования бизнес-анализа. В озерах данных хранятся различные типы необработанных данных, которые затем можно использовать для источников различных проектов.
-
Хранилище данных обычно состоит из нескольких уровней: нижнего уровня, где собираются и хранятся данные, среднего уровня, где анализируются данные, и верхнего уровня, где отображаются данные для доступа и анализа.
-
При проектировании и создании инфраструктуры хранилища данных важно учитывать характер данных и то, как вы хотите их преобразовать. Некоторые распространенные элементы типичной сборки включают источники данных, промежуточное место, само хранилище, хранилища данных, песочницы и различные средства интеграции.
-
Многие крупные компании, работающие с программным обеспечением, теперь имеют широкий спектр решений хранилища данных.
-
Эти возможности теперь являются функцией службы Azure Synapse Analytics, называемой выделенным пулом SQL. Существующие клиенты хранилища данных SQL Azure могут продолжать работу с рабочими нагрузками, не внося никаких изменений.
Дополнительные ресурсы
Бесплатная учетная запись
Попробуйте облачные вычисления от Azure бесплатно в течение 30 дней.
Оплата по мере использования
Начните работу с оплатой по мере использования. Никаких предварительных обязательств — подписку можно отменить в любое время.