Apache Spark для Azure HDInsight

Apache Spark в облаке для критически важных развертываний

Что такое Apache Spark?

Apache Spark — платформа обработки с открытым исходным кодом, которая выполняет крупномасштабные приложения анализа данных. Spark основывается на подсистеме, выполняющей вычисления в памяти, и обеспечивает высокопроизводительную обработку запросов для больших данных. При этом используется платформа параллельной обработки данных, которая сохраняет данные в памяти и при необходимости на диске. Это позволяет Spark ускорить обработку запросов в 100 раз и предоставить общую модель выполнения для различных задач, таких как извлечение, преобразование, нагрузка (ETL), пакетная обработка, интерактивные запросы и т. д., для данных в распределенной файловой системе Hadoop (HDFS). Azure упрощает развертывание Apache Spark и сокращает связанные с ним затраты, поскольку не нужно приобретать аппаратное обеспечение и выполнять настройку программного обеспечения, а также за счет наличия полной записной книжки для создания привлекательных описаний и интеграции с партнерскими средствами бизнес-аналитики.

Посмотрите обзорный видеоролик

Ядро Apache Spark предоставляет платформу обработки, в которой могут сочетаться различные типы обработки, включая Spark SQL, Spark Streaming, MLlib (машинное обучение) и GraphX (графовые вычисления).

Одна модель выполнения для нескольких задач

Apache Spark использует общую модель выполнения для нескольких задач, таких как ETL, пакетные запросы, интерактивные запросы, потоковая передача в реальном времени, машинное обучение и графовая обработка данных из хранилища озера данных Azure. Это позволяет использовать Spark для Azure HDInsight в целях решения задач, связанных с обработкой больших данных, практически в реальном времени. К таким задачам относятся, например, обнаружение мошенничества, анализ посещаемости сайта, финансовые оповещения, телеметрия от подключенных датчиков и устройств (Интернет вещей, IoT), социальная аналитика, постоянно подключенные конвейеры ETL и мониторинг сети.

Обработка в памяти для интерактивных сценариев

Современные пользователи хотят быстро получать ответы на свои вопросы, а не ждать по несколько минут, часов или даже дней. Apache Spark предоставляет такую возможность благодаря хранению данных в памяти для ускорения обработки запросов в 100 раз при обработке больших наборов данных в Hadoop. Spark для Azure HDInsight идеально подходит для ускорения интенсивных приложений обработки больших данных.

Разработка приложений для определенной платформы и удаленная отладка с использованием IntelliJ IDEA

Чтобы упростить развертывание на платформе Spark, мы реализовали глубокую интеграцию с IntelliJ IDEA, что позволяет разработчикам создавать код для Scala и Java без дополнительных компонентов. Вы можете выполнять удаленную отладку, что придаст гибкости жизненному циклу разработки и даст возможность отправлять приложения в Azure по мере готовности. В кластеры Spark для HDInsight также предварительно загружаются наиболее популярные библиотеки Python (Anaconda) для машинного обучения.

Использование средств бизнес-аналитики для интерактивного анализа больших данных

Для бизнес-аналитиков мы предлагаем интеграцию с Power BI наряду с другими средствами бизнес-аналитики, такими как Tableau, SAP Lumira и QlikView. Благодаря этому вы сможете создавать интерактивные визуализации для любого объема данных. Помимо традиционных панелей мониторинга, Power BI предлагает соединитель для потоковой передачи, интегрируемый с платформой Spark, с помощью которого вы сможете публиковать события в реальном времени из Spark Streaming непосредственно в Power BI.

Готовые к использованию записные книжки

В отличие от других предложений Spark, которые требуют установки собственных записных книжек или использования других записных книжек, защищенных законодательством об интеллектуальной собственности, Spark для HDInsight включает готовую интеграцию с Jupyter (iPython) — наиболее популярными на рынке записными книжками с открытым исходным кодом. Благодаря этому вы можете создавать описания, которые сочетают в себе код, статистические уравнения и визуализации для объяснения данных. Чтобы упростить процесс интеграции для наших клиентов, мы совместно с сообществом Jupyter провели ряд работ по усовершенствованию ядра, что позволило выполнять платформу Spark через конечную точку REST и открыло привлекательные возможности для специалистов по обработке данных.

Интеграция с R Server — наибольшая система параллельного анализа данных с поддержкой языка R и библиотекой машинного обучения

Spark для Azure HDInsight можно использовать в качестве подсистемы для R Server. Такое решение обладает наибольшими возможностями для параллельного анализа данных и имеет встроенную библиотеку машинного обучения, которая позволяет работать с открытым языком R. Таким образом, вы можете использовать свои навыки программирования на языке R для работы с системой R Server корпоративного уровня в среде Spark. Обрабатывайте данные в 1000 раз большего объема в 50 раз быстрее, чем при использовании только языка R с открытым кодом. Это возможно благодаря многопоточным математическим библиотекам и прозрачному параллелизму R Server и среды Spark. Вы сможете создавать более качественные модели и строить более точные прогнозы.

Гарантия максимально высокой доступности для непрерывности бизнес-процессов

Для работы Spark в максимальном масштабе корпорация Майкрософт гарантирует наивысшую в отрасли доступность на уровне 99,9 % в соответствии с соглашением об уровне обслуживания, чтобы обеспечить непрерывность ваших бизнес-процессов и защиту в чрезвычайных ситуациях. Мы сделали это совместно с компанией Cloudera в процессе работы над проектом Livy, направленным на создание веб-службы REST с лицензией Apache и открытым кодом для управления долгосрочными контекстами Spark и отправки заданий Spark. Эта новая возможность предназначена для того, чтобы сделать платформу Spark более надежным сервером для запуска интерактивных записных книжек и позволить другим приложениям использовать Spark для своих интерактивных рабочих нагрузок.

Анализ любого объема любых данных без изменений по мере увеличения объема данных

Чтобы убедиться, что Spark будет работать в требуемом масштабе, мы интегрировали Spark с хранилищем озера данных Azure. Такую интегрированную среду предлагает только Майкрософт, что позволяет платформе Spark сохранять и обрабатывать данные с возможностью масштабирования до любых размеров без принудительного внесения изменений в ваше приложение по мере увеличения объема данных. Благодаря этой интеграции вы также сможете внедрить на уровне хранилища элементы управления доступом на основе ролей.

Оперативная обработка для сценариев в реальном времени

На сегодняшний день сетевой мир определяется большими данными, поступающими в реальном времени. Потоковая передача Spark для HDInsight отлично подходит для сложных сценариев в реальном времени Она открывает целый ряд возможностей, в том числе варианты контроля оборудования через IoT, такие как дистанционное управление и мониторинг в реальном времени или получение данных от различных устройств, например мобильных телефонов или подключенных к сети автомобилей.

Простая настройка, быстрые результаты

Spark для HDInsight не требует длительной установки или настройки В Azure подготовка к началу работы происходит быстро и без каких-либо усилий с вашей стороны. Через несколько минут вы сможете приступить к работе и развернуть Spark без необходимости приобретения нового оборудования и без каких-либо других первоначальных затрат.

Эластичность для больших данных

Spark для HDInsight использует возможности облака Azure, упрощая создание кластеров любого размера для обработки любого объема данных по запросу. Плата взимается только за те вычислительные ресурсы и хранилища, которые реально используются.

Попробуйте HDInsight бесплатно