Пропустить навигацию

Что такое хранилище данных?

Узнайте, что такое хранилище данных, в чем преимущества его использования, какие рекомендации следует учитывать на этапе разработки, а также какие инструменты следует использовать, когда придет время сборки.

Что такое хранилище данных?

Сначала давайте определим, что такое хранилище данных и почему оно может понадобиться для вашей организации.

Хранилище данных — это центральный репозиторий, который содержит структурированные (таблицы базы данных, листы Excel) и полуструктурированные данные (XML-файлы, веб-страницы) для целей составления отчетов и анализа. Данные поступают из различных источников, таких как системы торговых терминалов, бизнес-приложения и реляционные базы данных, и обычно очищаются и стандартизируются перед тем, как попасть в хранилище. Поскольку хранилище данных может содержать большие объемы информации, оно обеспечивает пользователям простой доступ к огромному объему исторических данных, которые можно использовать для интеллектуального анализа данных, визуализации данных и других форм отчетности по бизнес-аналитике.

Преимущества хранилища данных

Надежные данные, особенно когда они накапливаются со временем, помогают пользователям принимать более обоснованные решения о работе их организаций, и хранилища данных делают это возможным. Хранение корпоративных данных обеспечивает массу преимуществ, наиболее важные из которых:

  • Объединение данных из нескольких источников в один источник достоверной информации
  • Хранение и анализ долгосрочных исторических данных, охватывающих месяцы и годы
  • Очистка и преобразование данных, чтобы они были точными, согласованными и стандартизированными по структуре и по форме
  • Ускорение выполнения запросов при сборе и анализе данных, что повышает общую производительность в разных системах
  • Эффективная загрузка данных без затрат на развертывание или инфраструктуру
  • Обеспечение безопасности данных, чтобы они оставались конфиденциальными, защищенными и безопасными
  • Подготовка данных для анализа с помощью интеллектуального анализа данных, инструментов визуализации и других видов расширенной аналитики

Сравнение хранилища данных с озером данных

Понятно, что хранилища данных необходимы любой организации для аналитических операций. Но в чем различие между хранилищем данных и другими типами репозиториев данных, такими как озеро данных? И когда следует использовать одни, а когда — другие?

Используемые в качестве репозиториев, хранилища данных и озера данных хранят и обрабатывает данные. Хотя доступные в них функции одни и те же, у каждого из этих типов есть свои особые случаи использования. Именно поэтому организации обычно применяют обе системы для создания полного, законченного решения, которое может решать широкий спектр задач.

Хранилище данных имеет реляционный характер. Это означает, что структура или схема данных определяется заранее заданными бизнес-требованиями и требованиями к продуктам, подобранными, адаптированными и оптимизированными для работы с запросами SQL. Поэтому хранилища данных лучше всего использовать для хранения данных, которые были обработаны с определенной целью, такой как интеллектуальный анализ данных для бизнес-аналитики или для обслуживания определенного ранее бизнес-варианта использования.

Как и хранилища данных, озера данных содержат структурированные и полуструктурированные данные. Однако они также могут принимать неформатированные и необработанные данные из различных нереляционных источников, включая мобильные приложения, устройства IoT, социальные сети или потоковую передачу. Дело в том, что структура или схема в озере данных не определяется, пока данные не будут прочитаны. Благодаря своей гибкой масштабируемой природе озера данных часто используются для проведения интеллектуальных форм анализа данных, таких как машинное обучение.

Недоступно Озеро данных Хранилище данных
Тип Структурированные, полуструктурированные, неструктурированные
Реляционные, нереляционные
Структурированные
Реляционные
Схема Структурирование при чтении Структурирование при записи
Формат Без форматирования, без фильтрации Обработано, проверено
Источники Большие данные, Интернет вещей, социальные сети, потоковые данные Данные приложений, бизнес-данные, транзакционные данные, пакетные отчеты
Масштабируемость Легкое масштабирование при низких затратах Сложное и дорогое масштабирование
Пользователи Специалисты по обработке и анализу данных, инженеры данных Специалисты по хранилищам данных, бизнес-аналитики
Варианты использования Машинное обучение, прогнозная аналитика, аналитика в реальном времени Базовая отчетность, бизнес-аналитика

Архитектура и строение хранилища данных

Теперь, когда вы знаете, зачем и когда следует использовать хранилище данных, давайте посмотрим, как оно работает, изучив строение хранилища данных. Хранилище данных — это не просто изолированный склад. Скорее, это хорошо структурированная, грамотно устроенная система, состоящая из нескольких уровней, которые по-разному взаимодействуют с вашими данными и друг с другом. Как правило, эти уровни включают следующие:

Нижний уровень

Данные извлекаются из нескольких источников, а затем очищаются и преобразуются для использования другими приложениями в так называемом процессе извлечения, преобразования и загрузки (ETL). На нижнем уровне данные также хранятся и оптимизируются, что приводит к ускорению выполнения запросов и повышению общей производительности.

Средний уровень

Здесь находится подсистема аналитики, также называемая как сервер OLAP. Серверы OLAP могут с высокой скоростью обращаться к большим объемам данных из хранилища данных, что дает молниеносные результаты.

Верхний уровень

На верхнем уровне входной интерфейс визуально представляет обработанные данные для доступа и использования аналитиками для всех своих потребностей в составлении отчетов и проведения самостоятельной бизнес-аналитики.

Как создать хранилище данных

При проектировании и создании хранилища данных важно учитывать цели вашей организации, как долговременные, так и сиюминутные, а также природу ваших данных. Сколько источников данных вы интегрируете? Планируете ли вы автоматизировать свои рабочие процессы? Как вы будете исследовать и анализировать данные? Объем вашей работы будет зависеть от сложности ваших потребностей, но обычно корпоративное хранилище данных может состоять из следующих компонентов:

  1. Источники данных, которые извлекают рабочие данные из систем торговых терминалов, бизнес-приложений и других реляционных баз данных
  2. Промежуточная область, в которой данные очищаются и преобразуются для хранилища данных или центрального репозитория
  3. Хранилище данных или центральный репозиторий, в котором хранятся обработанные рабочие данные, метаданные, сводные данные и необработанные данные для удобства доступа пользователей
  4. Киоски данных, которые берут данные из центрального репозитория и в виде поднаборов предлагают их выбранным группам пользователей
  5. Песочница, которую исследователи данных могут использовать для тестирования новых форм изучения данных в защищенной среде
  6. Разнообразные инструменты хранилища данных, платформы и программные интерфейсы для интеграции, хранения, обработки и анализа

Инструменты, программное обеспечение и ресурсы хранилищ данных

В современном мире, ориентированном на данные, множество крупных компаний-разработчиков программного обеспечения предлагают, казалось бы, бесконечный ассортимент программного обеспечения для хранилищ данных, причем каждый продукт предназначен для особого конкретного варианта использования. Выбор может показаться сложной задачей, но для создания единого высокопроизводительного решения необходимо инвестирование в инструменты и технологии. У каждой организации есть свои уникальные потребности, но некоторые основные продукты для хранилища данных, на которые надо обратить внимание, приведены ниже:

Облачное и гибридное облачное хранение данных

Унифицированное облачное решение для хранилища данных, такое как Azure Synapse Analytics, позволяет организациям быстрее масштабировать, вычислять и хранить данные с более высокой скоростью и меньшими расходами.

Инструменты интеграции данных

Конвейеры ETL позволяют пользователям создавать, планировать и организовывать свои рабочие процессы, чтобы исходные данные автоматически интегрировались, очищались и стандартизировались.

Хранилище объектов

Решение для хранения объектов может содержать большие объемы структурированных, полуструктурированных и неструктурированных данных, благодаря чему идеально подходит для промежуточного хранения исходных данных перед их загрузкой в хранилище.

Инструменты хранилища данных

Распределенное хранилище содержит большие наборы данных в реляционных таблицах с хранением по столбцам. Это значительно снижает затраты, повышает производительность выполнения запросов и ускоряет анализ.

Средства обеспечения производительности

Чтобы повысить производительность приложений, вам может оказаться полезной Apache Spark, платформа параллельной обработки с открытым исходным кодом, которая поддерживает обработку в памяти.

Управление ресурсами и рабочими нагрузками

Диспетчер ресурсов выделяет рабочим нагрузкам вычислительные ресурсы, чтобы вы могли загружать, анализировать данные, управлять ими и экспортировать их как требуется.

Моделирование данных

Моделирование данных объединяет несколько источников данных в единую семантическую модель, обеспечивая структурированное и упрощенное представление данных.

Инструменты бизнес-аналитики

Инструменты бизнес-аналитики помогают предоставлять пользователям аналитические сведения в виде панелей мониторинга, отчетов и других средств визуализации.

Функции безопасности и конфиденциальности

Функции обеспечения безопасности и соответствия требованиям, такие как шифрование данных, проверка подлинности пользователей и мониторинг доступа, обеспечивают защиту ваших данных.

Что случилось с Хранилищем данных SQL Azure?

Возможности, связанные с хранилищем данных SQL Azure, теперь реализованы в функции Azure Synapse Analytics, называемой выделенным пулом SQL. Существующие клиенты хранилища данных SQL Azure могут работать со своими данными в хранилище данных SQL Azure с помощью выделенного пула SQL в Azure Synapse Analytics без каких-либо изменений. Клиенты также могут приступить к управлению существующими данными хранилища с помощью Azure Synapse Analytics, чтобы воспользоваться расширенными функциями аналитики, такими как исследование данных в бессерверном озере и интегрированные обработчики SQL и Apache Spark™.

Часто задаваемые вопросы

  • Хранилище данных — это централизованный репозиторий, который содержит структурированные (таблицы базы данных, листы Excel) и полуструктурированные данные (XML-файлы, веб-страницы) для целей создания отчетов, анализа и других видов бизнес-аналитики.

    Подробнее о хранилищах данных

  • Использование хранилища данных дает множество преимуществ. К примеру, хранилище данных объединяет несколько источников данных в единый источник достоверной информации, который организации могут использовать для принятия более обоснованных решений по бизнесу и операциям.

    Оценить дополнительные преимущества

  • В хранилищах данных хранятся структурированные и полуструктурированные данные, которые можно использовать для интеллектуального анализа исходных данных, визуализации данных и других конкретных вариантов использования бизнес-анализа. В озерах данных хранятся различные типы необработанных данных, которые затем можно использовать как источники для различных проектов.
  • Хранилище данных обычно состоит из нескольких уровней: нижнего уровня, на котором собираются и хранятся данные; среднего уровня, на котором данные анализируются; и верхнего уровня, на котором данные отображаются для доступа и разбора пользователями.

    Об архитектурах хранилищ данных

  • При проектировании и создании инфраструктуры хранилища данных важно учитывать характер данных и то, как они должны быть преобразованы. Как правило, типичная инфраструктура включает такие компоненты, как источники данных, промежуточная область, само хранилище, киоски данных, песочницы и различные инструменты интеграции.

    Советы по созданию хранилища данных

  • Многие крупные компании-разработчики программного обеспечения теперь предлагают широкий ассортимент хранилищ данных.

    Обзор инструментов, программного обеспечения и ресурсов для хранилищ данных

  • Эти возможности теперь реализованы в функции Azure Synapse Analytics под названием "выделенный пул SQL". Существующие клиенты хранилища данных SQL Azure могут продолжать работу без каких-либо изменений.

    Подробнее о хранилище данных SQL Azure

Начало работы с бесплатной учетной записью Azure

Получите доступ к популярным службам аналитики бесплатно на 12 месяцев, а также более 25 бесплатных служб и кредит на сумму в $200 на ваш счет для использования в течение первых 30 дней.

Свяжитесь со специалистом Azure по продажам

Получите рекомендации о том, как приступить к работе с аналитикой в Azure. Задавайте вопросы, узнавайте о ценах и рекомендациях, а также получайте помощь с разработкой решения, соответствующего вашим потребностям.