Trace Id is missing
Перейти к основному контенту
Azure

Что такое озеро данных?

Сведения о различиях между озерами данных и хранилищами данных. Узнайте, как создать масштабируемую основу для всей своей аналитики с помощью Azure.

Определение озера данных

В этом вводном руководстве рассматриваются многочисленные преимущества и варианты использования озера данных. Узнайте, что такое озеро данных, почему оно важно, а также разницу между озерами данных и хранилищами данных. Но сначала давайте дадим определение термину "Озеро данных".

Озеро данных — это централизованное хранилище, которое принимает и хранит большие объемы данных в исходной форме. Затем данные можно обрабатывать и использовать в качестве основы для различных аналитических задач. Благодаря своей открытой, масштабируемой архитектуре озеро данных может вмещать все типы данных из любого источника: от структурированных (таблицы базы данных, листы Excel) до полуструктурированных (файлы XML, веб-страницы) и неструктурированных (изображения, аудиофайлы, твиты), и все это без ущерба для точности. Файлы данных обычно хранятся в поэтапных зонах — необработанных, очищенных и курируемых — так, чтобы разные типы пользователей могли использовать данные в различных формах для удовлетворения своих потребностей. Озера данных обеспечивают согласованность основных данных в различных приложениях, обеспечивая поддержку анализа больших данных машинного обучения, прогнозной аналитики и других форм интеллектуальных действий.

Почему озера данных важны для бизнеса?

Сегодняшний тесно связанный и основанный на аналитических данных мир был бы невозможен без появления решений для озер данных. Это связано с тем, что организации полагаются на комплексные платформы озер данных, такие как Azure Data Lake, для обеспечения консолидации, интеграции, безопасности и доступности необработанных данных. Масштабируемые средства хранения, такие как Azure Data Lake Storage, могут хранить и защищать данные в одном центральном месте, устраняя разрозненность при оптимальных затратах. Это лежит в основе выполнения пользователями широкого спектра категорий рабочих нагрузок, таких как обработка больших данных, SQL-запросы, анализ текста, потоковая аналитика и машинное обучение. Затем эти данные можно использовать для визуализации исходных данных и создания специальных отчетов. Современная комплексная платформа данных, такая как Azure Synapse Analytics, полностью удовлетворяет потребности архитектуры больших данных, сосредоточенной вокруг озера данных.

Варианты использования озера данных

Благодаря хорошо спроектированному решению потенциал для инноваций безграничен. Вот лишь несколько примеров того, как организации в различных отраслях используют платформы озера данных для оптимизации своего роста:

  • Потоковая передача мультимедиа. Компании, работающие с потоковой передачей по подписке, собирают и обрабатывают сведения о поведении клиентов, которые они могут использовать для улучшения своего алгоритма рекомендаций.

  • Финансы. Инвестиционные компании используют самые актуальные рыночные данные, которые собираются и хранятся в реальном времени, для эффективного управления портфельными рисками.

  • Здраво­охранение. Организации здравоохранения полагаются на большие данные для улучшения качества ухода за пациентами. Больницы используют огромные объемы исторических данных для оптимизации маршрутов лечения пациентов, что приводит к улучшению результатов и снижению стоимости лечения.

  • Многоканальный розничный продавец. Розничные продавцы используют озера данных для сбора и консолидации данных, поступающих из различных точек взаимодействия, включая мобильные устройства, социальные сети, чаты, из уст в уста и лично.

  • IoT. Аппаратные датчики создают огромные объемы полуструктурированных и неструктурированных данных об окружающем физическом мире. Озера данных предоставляют централизованный репозиторий для хранения этих сведений для дальнейшего анализа.

  • Цифровая цепочка поставок. Озера данных помогают производителям консолидировать разрозненные складские данные, включая системы EDI, XML и JSON.

  • Продажи. Специалисты по данным и инженеры по продажам часто создают прогнозные модели, которые помогают определить поведение клиентов и снизить общий отток.

Озеро данных и хранилище данных

Теперь вы знаете, что такое озеро данных, почему оно важно и как оно используется в различных организациях. Но в чем разница между озером данных и хранилищем данных? И когда уместно использовать одно вместо другого?

В то время как озера данных и хранилища данных схожи в том, что они хранят и обрабатывают данные, каждое из них имеет свои особенности и, следовательно, свои варианты использования. Вот почему организации корпоративного уровня обычно включают озеро данных и хранилище данных в свою аналитическую экосистему. Оба репозитория работают вместе, образуя безопасную комплексную систему хранения, обработки и ускорения анализа.

Озеро данных собирает как реляционные, так и нереляционные данные из различных источников — бизнес-приложений, мобильных приложений, устройств Интернета вещей, социальных сетей или потоковой передачи — без необходимости определять структуру или схему данных до тех пор, пока они не будут прочитаны. Схема при чтении гарантирует, что любой тип данных может быть сохранен в необработанном виде. В результате озера данных могут содержать самые разные типы данных: от структурированных до полуструктурированных и неструктурированных в любом масштабе. Их гибкий и масштабируемый характер делает их незаменимыми для выполнения сложных форм анализа данных с использованием различных типов инструментов вычислительной обработки, таких как Apache Spark или машинное обучение Azure.

В свою очередь, хранилище данных является реляционным по своей природе. Структура или схема моделируется или предопределена бизнес-требованиями и требованиями к продукту, которые управляются, согласовываются и оптимизируются для операций SQL-запросов. В то время как озеро данных содержит данные всех типов структур, включая необработанные и необработанные данные, хранилище данных хранит данные, которые были обработаны и преобразованы с конкретной целью, которые затем могут быть использованы для получения аналитических или операционных отчетов. Это делает хранилища данных идеальными для создания более стандартизированных форм BI-анализа или для обслуживания уже определенных вариантов использования в бизнесе.

Озеро данных Хранилище данных
Тип Структурированные, полуструктурированные и неструктурированные Структурированные
  Реляционные, нереляционные Реляционная
Схема Схема при чтении Схема при записи
Формат Необработанные, без фильтрации Обработанные, с проверкой
Источники Большие данные, Интернет вещей, социальные сети, потоковые данные Приложение, бизнес, транзакционные данные, пакетная отчетность
Масштабируемость Простота масштабирования с низкими затратами Сложно и дорого масштабировать
Пользователи Специалисты по обработке и анализу данных, инженеры данных Специалисты по работе с хранилищами данных, бизнес-аналитики
Варианты использования Машинное обучение, прогнозная аналитика, аналитика в реальном времени Основные отчеты, бизнес-аналитика

Озеро данных и гибридное решение "хранилище и озеро данных"

Теперь вы знаете разницу между озером данных и хранилищем данных. Но в чем разница между озером данных и гибридным решением "хранилище и озеро данных"? И необходимы ли оба?

Несмотря на многочисленные преимущества, традиционное озеро данных не лишено недостатков. Поскольку озера данных могут вмещать все типы данных из всех источников, могут возникнуть проблемы, связанные с контролем качества, повреждением данных и неправильным секционированием. Плохо управляемое озеро данных не только отрицательно сказывается на целостности данных, но также может привести к узким местам, снижению производительности и рискам безопасности.

Вот тут-то и вступает в игру гибридное решение "хранилище и озеро данных". Гибридное решение "хранилище и озеро данных" — это многогранное по своей природе решение для хранения данных на основе открытых стандартов. Оно может удовлетворить потребности специалистов по данным и инженеров, которые проводят глубокий анализ и обработку данных, а также потребности традиционных специалистов по хранилищам данных, которые курируют и публикуют данные для целей бизнес-аналитики и отчетности. Прелесть гибридного решения "хранилище и озеро данных" в том, что каждая рабочая нагрузка может беспрепятственно работать поверх озера данных без необходимости дублировать данные в другую структурно предопределенную базу данных. Это гарантирует, что каждый работает с самыми актуальными данными, а также снижает избыточность.

Озера данных решают проблемы традиционных озер данных, добавляя слой хранения Delta Lake непосредственно поверх облачного озера данных. Уровень хранилища обеспечивает гибкую аналитическую архитектуру, которая может обрабатывать транзакции ACID (атомарность, согласованность, изоляция и долговечность) для обеспечения надежности данных, потоковой интеграции и расширенных функций, таких как управление версиями данных и принудительное применение схемы. Это позволяет осуществлять широкий спектр аналитической деятельности над озером без ущерба для целостности основных данных. Хотя необходимость озера данных зависит от сложности ваших потребностей, его гибкость и диапазон делают его оптимальным решением для многих корпоративных организаций.

Озеро данных Гибридное решение "хранилище и озеро данных"
Тип Структурированные, полуструктурированные и неструктурированные Структурированные, полуструктурированные и неструктурированные
  Реляционные, нереляционные Реляционные, нереляционные
Схема Схема при чтении Схема при чтении, схема при записи
Формат Необработанные, неотфильтрованные, обработанные, тщательно отобранные Необработанные, неотфильтрованные, обработанные, курируемые файлы в дельта-формате
Источники Большие данные, Интернет вещей, социальные сети, потоковые данные Большие данные, Интернет вещей, социальные сети, потоковые данные, приложения, бизнес, транзакционные данные, пакетные отчеты
Масштабируемость Простота масштабирования с низкими затратами Простота масштабирования с низкими затратами
Пользователи Для специалистов по обработке и анализу данных Бизнес-аналитики, инженеры данных, ученые данных
Варианты использования Машинное обучение, прогнозная аналитика Основная отчетность, бизнес-аналитика, машинное обучение, прогнозная аналитика

Что такое архитектура озера данных?

По своей сути озеро данных представляет собой репозиторий службы хранилища без собственной установленной архитектуры. Чтобы максимально эффективно использовать свои возможности, ему требуется широкий спектр инструментов, технологий и вычислительных механизмов, которые помогают оптимизировать интеграцию, хранение и обработку данных. Работая вместе, эти инструменты обеспечивают целостную многоуровневую архитектуру, основанную на больших данных и работающую поверх озера данных. Эта архитектура также может формировать операционную структуру озера данных. У каждой организации своя уникальная конфигурация, но большинство архитектур озер данных имеют следующие особенности:

  • Управление ресурсами и оркестрация. Диспетчер ресурсов позволяет озеру данных последовательно выполнять задачи, распределяя нужный объем данных, ресурсов и вычислительной мощности в нужных местах.

  • Соединители для удобного доступа. Разнообразие рабочих процессов позволяет пользователям легко получать доступ к нужным им данным и делиться ими в той форме, в которой они им нужны.

  • Надежная аналитика. Хороший служба аналитики должна быть быстрой, масштабируемой и распределенной. Она также должна поддерживать широкий спектр категорий рабочей нагрузки на нескольких языках.

  • Классификация данных. Профилирование, каталогизация и архивирование данных помогают организациям отслеживать содержание, качество, расположение и журнал данных.

  • Процессы извлечения, загрузки и преобразования (ELT). ELT относится к процессам, с помощью которых данные извлекаются из нескольких источников и загружаются в необработанную зону озера данных, а затем очищаются и преобразуются после извлечения, чтобы приложения могли легко их использовать.

  • Безопасность и поддержка. Инструменты защиты данных, такие как маскирование, аудит, шифрование и мониторинг доступа, гарантируют, что ваши данные останутся в безопасности и конфиденциальности.

  • Система управления и руководство. Чтобы платформа озера данных работала максимально бесперебойно, пользователи должны быть ознакомлены с ее архитектурной конфигурацией, а также с передовыми практиками управления данными и операциями.

Вопросы и ответы

  • Озеро данных — это централизованное хранилище, которое принимает, хранит и позволяет обрабатывать большие объемы данных в исходной форме. Она может обрабатывать все типы данных, которые затем используются для анализа больших данных, машинного обучения и других форм интеллектуальных действий.

    Подробнее об озерах данных

  • Организации из различных отраслей, включая розничную торговлю, финансы и развлечения, используют платформы озера данных для хранения данных, сбора аналитических сведений и повышения общего качества своих служб. Например, инвестиционные компании используют озера данных для сбора и обработки актуальных на рынке данных, что позволяет им более эффективно управлять портфельными рисками.

  • Озера данных хранят все типы необработанных данных, которые специалисты по данным затем могут использовать для различных проектов. В хранилищах данных хранятся очищенные и обработанные данные, которые затем можно использовать для получения аналитических или операционных отчетов, а также для конкретных случаев использования бизнес-аналитики.

    Сравнительный обзор озера данных и хранилища данных

  • Гибридное решение "хранилище и озеро данных" объединяет элементы озера данных и хранилища данных, образуя гибкое комплексное решение для целей обработки и анализа данных и бизнес-аналитики.

    Подробнее об озерах данных

  • Именно. Крупные организации во всех отраслях полагаются на огромные объемы данных, хранящихся в озерах данных, для обеспечения интеллектуальных действий, получения аналитических сведений и роста.

    знакомство с преимуществами озер данных

  • Большими объемами данных, включая необработанные и неструктурированные данные, может быть сложно управлять, что приводит к узким местам, повреждению данных, проблемам контроля качества и проблемам с производительностью. Вот почему важно поддерживать надлежащие методы управления и управления, чтобы обеспечить бесперебойную работу платформы озера данных.

  • Архитектура озера данных — это конкретная конфигурация инструментов и технологий, помогающая поддерживать целостность, доступность, организованность и безопасность данных из озера данных.

    Обзор лучших методик для архитектуры озера данных

Бесплатная учетная запись

Попробуйте облачные вычисления от Azure бесплатно в течение 30 дней.

Оплата по мере использования

Начните работу с оплатой по мере использования. Никаких предварительных обязательств — подписку можно отменить в любое время.