Apache Spark для Azure HDInsight

Apache Spark в облаке для критически важных развертываний

Что такое Apache Spark?

Apache Spark — это платформа для обработки данных, в основе которой лежит открытый исходный код и на которой работают приложения для анализа больших объемов данных. Spark основывается на подсистеме, выполняющей вычисления в памяти, и обеспечивает высокопроизводительную обработку запросов для больших данных. При этом используется платформа параллельной обработки данных, которая хранит данные в памяти и при необходимости на диске. Благодаря этому Spark обрабатывает запросы в 100 раз быстрее и предоставляет общую модель выполнения для различных задач с данными в распределенной файловой системе Apache Hadoop (HDFS). Примерами таких задач могут быть извлечение, преобразование и загрузка, пакетная обработка, интерактивные запросы и др. Azure упрощает развертывание Apache Spark и сокращает связанные с ним затраты, поскольку не нужно приобретать аппаратное обеспечение и выполнять настройку программного обеспечения, а также за счет наличия полной записной книжки для создания привлекательных описаний и интеграции с партнерскими средствами бизнес-аналитики.

Видео с обзором Apache Spark

Ядро Apache Spark предоставляет платформу обработки, в которой могут сочетаться различные типы обработки, включая Spark SQL, Spark Streaming, MLlib (машинное обучение) и GraphX (графовые вычисления).

Одна модель выполнения для нескольких задач

Apache Spark использует общую модель выполнения для нескольких задач, в частности для извлечения, преобразования и загрузки, пакетных запросов, интерактивных запросов, потоковой передачи в реальном времени, машинного обучения и графовой обработки данных из Azure Data Lake Store. Это позволяет использовать Spark для Azure HDInsight в целях решения задач, связанных с обработкой больших данных практически в реальном времени. К таким задачам относятся, например, обнаружение мошенничества, анализ посещаемости сайта, финансовые оповещения, обработка телеметрии с подключенных датчиков и устройств Интернета вещей, социальная аналитика, постоянно подключенные конвейеры извлечения, преобразования и загрузки, а также мониторинг сети.

Обработка в памяти для интерактивных сценариев

Современные пользователи хотят быстро получать ответы на свои вопросы, а не ждать по несколько минут, часов или даже дней. Apache Spark предоставляет такую возможность, так как хранит данные в памяти, что ускоряет обработку запросов в 100 раз, и обрабатывает большие наборы данных в Hadoop. Spark для Azure HDInsight идеально подходит для ускорения интенсивных приложений обработки больших данных.

Разработка приложений для требуемых платформ и удаленная отладка с использованием IntelliJ IDEA

Чтобы упростить разработку для Spark, мы реализовали глубокую интеграцию с IntelliJ IDEA, что позволяет вам писать код, используя встроенную поддержку Scala и Java. Вы можете выполнять удаленную отладку, что придаст гибкости жизненному циклу разработки и даст возможность отправлять приложения в Azure по мере готовности. Кроме того, в кластеры Spark для HDInsight изначально включены наиболее популярные библиотеки Python (Anaconda) для машинного обучения.

Средства бизнес-аналитики для интерактивного анализа больших данных

Для бизнес-аналитиков мы предлагаем интеграцию с Power BI и другими средствами бизнес-аналитики, в частности Tableau, SAP BusinessObjects Lumira и QlikView. Благодаря этому вы сможете создавать интерактивные визуализации для любого объема данных. Помимо традиционных панелей мониторинга, Power BI предлагает соединитель для потоковой передачи, который интегрируется с платформой Spark и позволяет публиковать события в реальном времени из Spark Streaming непосредственно в Power BI.

Готовые к использованию записные книжки

В отличие от других решений Spark, для которых требуется установка собственных или проприетарных веб-приложений типа "записная книжка", Spark для HDInsight предлагает полнофункциональную встроенную интеграцию с Jupyter (iPython), самым популярным на рынке веб-приложением такого типа с открытым исходным кодом. Благодаря этому вы можете создавать описания, которые сочетают в себе код, статистические уравнения и визуализации для объяснения данных. Чтобы упростить для вас процесс интеграции, мы совместно с сообществом Jupyter провели ряд работ по усовершенствованию ядра. В результате Spark может выполняться через конечную точку REST, что открывает новые возможности для специалистов по обработке данных.

Интеграция с R Server, наибольшей подсистемой параллельного анализа данных с поддержкой языка R и библиотекой машинного обучения

Spark для Azure HDInsight можно использовать в качестве подсистемы для R Server. Такое решение обладает наибольшими возможностями для параллельного анализа данных и имеет встроенную библиотеку машинного обучения, которая позволяет работать с открытым языком R. Таким образом, вы можете использовать свои навыки программирования на языке R для работы с системой R Server корпоративного уровня в среде Spark. Использование многопоточных математических библиотек, прозрачного параллелизма R Server и среды Spark позволит вам обрабатывать данные в 1000 раз большего объема и в 50 раз быстрее, чем при использовании только языка R. В свою очередь, это означает, что вы сможете обучать более точные модели и строить более точные прогнозы.

Высочайшая доступность службы для непрерывности бизнес-процессов

Чтобы вы могли использовать Spark в максимальном масштабе, Майкрософт предлагает соглашение об уровне обслуживания с наивысшим в отрасли показателем доступности службы — 99,9 % времени. Такой показатель позволяет обеспечить непрерывность бизнес-процессов и защиту от аварий. Совместно с компанией Cloudera и участниками проекта Livy мы создали веб-службу REST с лицензией Apache и открытым исходным кодом, которая позволяет отправлять задания Spark и управлять долгосрочными контекстами Spark. Эта новая возможность предназначена для того, чтобы сделать платформу Spark более надежным сервером для запуска интерактивных веб-приложений типа "записная книжка" и позволить другим приложениям использовать Spark для своих интерактивных рабочих нагрузок.

Анализ любого объема любых данных без изменений по мере увеличения объема данных

Чтобы обеспечить для Spark поддержку крупномасштабной работы, мы интегрировали эту платформу со службой Azure Data Lake Store. Такую интегрированную среду предлагает только Майкрософт, что позволяет платформе Spark хранить и обрабатывать данные любого объема без принудительного внесения изменений в ваше приложение по мере увеличения объема данных. Кроме того, благодаря этой интеграции вы можете внедрить управление доступом на основе ролей непосредственно на уровне хранилища.

Оперативная обработка для сценариев в реальном времени

На сегодняшний день сетевой мир определяется большими данными, поступающими в реальном времени. Потоковая передача Spark для HDInsight отлично подходит для сложных сценариев в реальном времени. Она открывает целый ряд возможностей, в частности контроль оборудования через Интернет (Интернет вещей), удаленное управление и мониторинг в реальном времени, а также получение данных с различных устройств, включая мобильные телефоны и подключенные к Интернету автомобили.

Простая настройка, быстрые результаты

Spark для HDInsight не требует длительной установки или настройки. В Azure подготовка к началу работы происходит быстро и без каких-либо усилий с вашей стороны. Вы сможете приступить к работе уже через несколько минут. Кроме того, развертывание Spark не предполагает покупку нового оборудования или любые другие первоначальные затраты.

Эластичность для больших данных

Spark для HDInsight использует возможности облака Azure, благодаря чему вы можете легко создавать кластеры любого размера для обработки любого объема данных по запросу. Плата взимается только за используемые вычислительные ресурсы и хранилище.

Попробуйте HDInsight бесплатно