Озеро данных

Озеро данных без ограничений и безграничные интеллектуальные возможности

В Azure Data Lake представлены все возможности, упрощающие хранение данных любых объема, формата и скорости передачи, а также выполнение любых видов обработки и анализа на разных платформах и языках для разработчиков, специалистов по обработке и анализу данных и аналитиков. Озеро данных Azure устраняет сложности получения и хранения всех ваших данных, одновременно ускоряя работу пакетной, потоковой и интерактивной аналитики. Озеро данных Azure работает с существующими инвестициями в ИТ в отношении учетных записей, управления и безопасности, обеспечивая простое управление данными. Система легко интегрируется с хранилищами рабочих данных и долговременными хранилищами, позволяя расширить текущие приложения для обработки данных. Мы опирались на опыт работы с корпоративными клиентами, а также обработку и анализ больших данных для таких продуктов Майкрософт, как Office 365, Xbox Live, Azure, Windows, Bing и Skype. Озеро данных Azure решает многие проблемы производительности и масштабируемости и позволяет извлечь максимальную пользу из накопленных данных, предоставляя службу, способную удовлетворить все текущие и будущие потребности бизнеса.

Посмотрите небольшое обзорное видео

Data Lake Analytics — служба заданий аналитики без ограничений, расширяющая возможности для интеллектуальных действий

Это первая облачная служба аналитики, в которой можно с легкостью разрабатывать и выполнять программы обработки и программы массовых параллельных операций преобразования на U-SQL, R, Python и .NET с петабайтами данных. Благодаря отсутствию инфраструктуры для управления можно обрабатывать данные по требованию, мгновенно выполнять масштабирование, а плату вносить только за выполненные задания. Подробнее

HDInsight — облачная служба Apache Spark и Hadoop® для предприятий

HDInsight — это единственное полностью управляемое облачное предложение Hadoop, предоставляющее оптимизированные аналитические кластеры с открытым кодом для Spark, Hive, MapReduce, HBase, Storm, Kafka и R Server и поддерживающее соглашение об уровне обслуживания на 99,9 %. Каждую из этих технологий работы с большими данными и каждое из этих приложений от независимых поставщиков программного обеспечения можно с легкостью развернуть в качестве управляемого кластера, обеспечивая при этом безопасность и мониторинг корпоративного класса. Подробнее

Data Lake Store: безграничные возможности для анализа больших данных

Это первое защищенное высокомасштабируемое облачное озеро данных создано в соответствии с открытыми стандартами HDFS. При отсутствии ограничений на размер данных и возможности выполнять огромное количество параллельных аналитических задач вы можете получить все преимущества неструктурированных, полуструктурированных и структурированных данных. Подробнее

Простая разработка, отладка и оптимизация программ для работы с большими данными

Поиск необходимых средств для разработки и настройки запросов для больших данных может быть сложной задачей. Data Lake упрощает эту задачу за счет глубокой интеграции с Visual Studio, Eclipse и IntelliJ, предоставляя возможность использовать знакомые средства для запуска, отладки и оптимизации кода. Визуализация заданий U-SQL, Apache Spark, Apache Hive и Apache Storm позволяет визуально контролировать выполнение кода, выявлять узкие места производительности и оптимизировать затраты, упрощая настройку запросов. Наша среда выполнения активно анализирует программы во время их работы и предусматривает рекомендации по повышению производительности и сокращению затрат. Специалисты по работе с данными, а также администраторы и архитекторы баз данных могут использовать имеющиеся навыки по работе с SQL, Apache Hadoop, Apache Spark, R, Python, Java и .NET и сражу же начать продуктивно работать.

Простая интеграция с существующими инвестициями в ИТ

Одна из самых сложных задач обработки больших данных — интеграция с существующими инвестициями в ИТ. Data Lake — это важная часть Cortana Intelligence Suite. Она работает с хранилищем данных SQL Azure, Power BI и фабрикой данных, предоставляя полноценную платформу для расширенной аналитики больших данных в облаке. Эта платформа решает все задачи — от подготовки данных до интерактивного анализа крупных наборов данных. Data Lake Analytics позволяет использовать все данные благодаря оптимизированной виртуализации данных из реляционных источников, таких как Azure SQL Server на виртуальных машинах, База данных SQL Azure и хранилище данных SQL Azure. Оптимизация запросов осуществляется автоматически за счет перемещения обработки ближе к данным источника, но без их перемещения. Таким образом производительность повышается, а задержка сводится к минимуму. Наконец, озеро данных входит в Azure, поэтому можно подключаться к любым данным, создаваемым приложениями или получаемым устройствами в сценариях Интернета вещей (IoT).

Хранение и анализ петабайтовых файлов и миллиардов объектов

Озеро данных с самого начала разрабатывалась для масштабирования и производительности облачных технологий. С помощью Azure Data Lake Store ваша организация может анализировать все данные в централизованном расположении без искусственных ограничений. В хранилище Data Lake Store могут храниться миллиарды файлов, размер каждого из которых превышает один петабайт. Это в 200 раз больше, чем в остальных облачных хранилищах. Это означает, что не нужно переписывать код при увеличении или уменьшении объема хранимых данных или используемых вычислительных ресурсов. Можно полностью сосредоточиться на бизнес-логике, а не на обработке и хранении больших наборов данных. Больше не нужно беспокоиться о сложностях, обычно связанных с большими данными в облаке. Озеро данных сможет удовлетворить все текущие и будущие бизнес-потребности.

Доступное и экономичное решение

Озеро данных — это экономичное решение для выполнения рабочих нагрузок с большими данными. При обработке данных можно выбрать между выделением кластеров по запросу и оплатой за каждое задание. В обоих случаях не требуется какого-либо оборудования, лицензий или соглашений об уровне поддержки. Система масштабируется в соответствии с потребностями бизнеса, и вам никогда не придется платить больше, чем необходимо. Система также позволяет независимо масштабировать хранилище и вычислительные ресурсы, обеспечивая большую экономическую гибкость, чем традиционные решения для работы с большими данными. Наконец, озеро данных минимизирует необходимость нанимать специалистов, которые обычно требуются для обслуживания инфраструктуры для работы с большими данными. Озеро данных минимизирует затраты, одновременно максимизируя отдачу от инвестиций. По результатам недавнего исследования совокупная стоимость владения HDInsight на 63 % ниже (за пять лет), чем при развертывании Hadoop локально.

Безопасность, аудит и поддержка корпоративного уровня

Корпорация Майкрософт осуществляет управление Data Lake, а также предоставляет соглашение об уровне обслуживания корпоративного класса и поддержку. К нам можно обращаться 24 часа в сутки 7 дней в неделю по любому вопросу, связанному с решением по обработке больших данных. Наша команда контролирует состояние системы клиента, освобождая его от этой работы, и гарантирует непрерывность всех операций. Data Lake обеспечивает легкую защиту ресурсов данных и расширяет локальные средства обеспечения безопасности и контроля до уровня облака. Данные всегда зашифрованы: перемещаемые данные — с использованием SSL, а неактивные данные — с использованием ключей из аппаратного модуля безопасности в хранилище ключей Azure, которыми управляет пользователь или служба. Azure Active Directory обеспечивает такие встроенные возможности, как единый вход, многофакторная проверка подлинности и простое управление миллионами удостоверений. Вы можете проверять подлинность пользователей и групп, используя списки управления доступом на базе стандартов POSIX для всех типов данных в Store, что позволяет применять средства управления доступом на основе ролей. Наконец, аудит каждого события доступа или изменения конфигурации в системе позволяет выполнить все требования к безопасности и нормам.

Создание решений озера данных с помощью этих мощных решений

Apache Hadoop® и связанные названия проектов с открытым кодом являются товарными знаками Apache Software Foundation.