Пропустить навигацию

Azure Databricks

Быстрая и простая служба аналитики на основе Apache Spark для совместной работы

14-дневная пробная версия включает бесплатные единицы Databricks

Обзор

Azure Databricks — это быстрая и удобная служба аналитики на основе Apache Spark. Она предназначена для совместной работы и позволяет ускорить анализ больших данных и создание решений для искусственного интеллекта (ИИ).

Вы за считаные минуты можете создать среду Spark и в автоматическом режиме изменять размер кластера. Специалисты по обработке и анализу данных, специалисты по инженерии данных и бизнес-аналитики могут совместно работать над общими проектами в интерактивной рабочей области. Поддержка Python, Scala, R и SQL, а также таких платформ и библиотек глубокого машинного обучения, как TensorFlow, Pytorch и Scikit-learn, позволяет применять уже имеющиеся навыки и умения. Интеграция платформенной функциональности с Azure Active Directory (Azure AD) и другими службами Azure дает возможность создавать современные хранилища данных, системы машинного обучения и решения для аналитики в реальном времени.

В чем преимущества Azure Databricks?

Продуктивность

Создайте среду Apache Spark за считаные минуты и без каких-либо сложностей интегрируйте интерактивную рабочую область с другими службами Azure.

Масштабируемость

Глобально масштабируйте свои проекты аналитики и машинного обучения. Снижайте затраты и уровень сложности за счет использования управляемой платформы, которая автоматически масштабируется в соответствии с текущими потребностями.

Надежность

Дополнительно защитите свои данные и бизнес с помощью интеграции Azure AD, средств управления на основе ролей и соглашений об уровне обслуживания для корпоративного сектора.

Гибкость

Создавайте решения для ИИ и машинного обучения, используя предпочитаемые языки программирования и платформы для глубокого обучения.

Что предлагает служба Azure Databricks?

Оптимизированная среда Apache Spark

Быстро развертывайте кластеры и создавайте собственные решения в управляемой среде Apache Spark. Для обеспечения высокой надежности и производительности все кластеры поддерживают возможности настройки, конфигурации и оптимизации.

Автомасштабирование и автозавершение работы

Возможность автоматического масштабирования кластера в соответствии с вашими потребностями позволяет сократить количество задействованных ресурсов и затраты на них, ведь при масштабировании вручную используется больше ресурсов, что приводит к повышению расходов. Кроме того, возможность автоматического завершения работы кластера позволяет дополнительно экономить ресурсы.

Рабочая область для совместной работы

В интерактивной рабочей области специалисты по обработке и анализу данных, специалисты по инженерии данных и бизнес-пользователи могут совместно работать над общими проектами и оставлять комментарии для остальных участников команды.

Оптимизация для глубокого обучения

Легко создавайте, обучайте и развертывайте модели ИИ в любых масштабах, используя кластеры с GPU. Используйте для машинного обучения среду выполнения, в которую уже включены готовые платформы и библиотеки для глубокого обучения, в частности TensorFlow, Keras и XGBoost.

Интеграция со службами Azure

Получите возможность быстрой интеграции с различными хранилищами и службами данных, например с Хранилищем данных SQL Azure, Центрами событий Azure, Фабрикой данных Azure, Azure Cosmos DB и Azure Data Lake Storage. Кроме того, активировав единый вход, вы получите в свое распоряжения средства управления на основе ролей.

Поддержка различных языков и библиотек

Azure Databricks поддерживает языки Python, Scala, R и SQL, поэтому для создания новых решений вы можете использовать уже имеющиеся у вас навыки. Полный набор технологий для аналитики, включая SQL, Streaming, MLlib и GraphX, позволяет обрабатывать любые объемы данных и проекты любых размеров.

Аналитика и машинное обучение с помощью Azure Databricks

Этап 1 из 6

Создание рабочей области

Перейдите в службу Azure Databricks на портале Azure. Затем войдите в систему, используя единый вход Azure AD.

Этап 2 из 6

Развертывание кластеров

Быстро создайте кластер, настройте его в соответствии со своими требованиями и разверните. Функция автомасштабирования существенно упрощает и ускоряет процесс масштабирования кластеров. Она также помогает сократить использование ресурсов и затраты, которые возникают при масштабировании вручную.

Этап 3 из 6

Совместная работа с использованием приложений Notebook

Создайте настраиваемые разрешения для специалистов по обработке и анализу данных, специалистов по инженерии данных и бизнес-пользователей, чтобы каждый участник мог работать в интерактивной среде и создавать комментарии для общих проектов согласно своему уровню доступа.

Этап 4 из 6

Изучение данных

Приложения Notebook поддерживают большинство языков программирования, в частности SQL, Python, Scala и R. Специалисты по инженерии, обработке и анализу данных могут легко подключить хранилище и с помощью полученных данных создавать модели машинного обучения. Бизнес-пользователи, в свою очередь, могут просматривать данные в удобных интерактивных представлениях.

Этап 5 из 6

Создание моделей обработки и анализа данных

Создавайте, обучайте и развертывайте модели ИИ в любых масштабах, используя предпочитаемый язык программирования.

Этап 6 из 6

Планирование заданий

Быстро и легко запускайте приложения Notebook как задания. Используйте подходящие вам библиотеки потоковой передачи или машинного обучения. Заблаговременно планируйте задания, настраивайте их автоматический запуск и отслеживайте производительность.

Что можно делать с помощью Azure Databricks?

Современное хранилище данных

Современное хранилище данных позволяет легко объединять все данные в любых масштабах. Используя эти данные в аналитических панелях мониторинга, оперативных отчетах и средствах расширенной аналитики, все ваши пользователи смогут получать ценные сведения.

Расширенная аналитика с использованием больших данных

Преобразуйте свои данные в ценные практические сведения, используя лучшие в своем классе средства машинного обучения. Эта архитектура позволяет комбинировать любые данные в любых масштабах, а также создавать и развертывать пользовательские модели машинного обучения.

Проведение анализа в режиме реального времени

Легко получайте ценные сведения с помощью потоковой передачи данных. Непрерывно собирайте данные из любых источников потоковой передачи или журналов посещений веб-сайтов и обрабатывайте эти данные практически в реальном времени.

Связанные продукты и услуги

Хранилище данных SQL

Хранилище эластичных данных как служба с возможностями корпоративного класса

Студия машинного обучения

Простая разработка, развертывание и администрирование решений прогнозной аналитики

Azure Cosmos DB

Глобально распределенная мультимодельная база данных для использования в любом масштабе

Ускорение внедрения инноваций на основе данных с помощью Azure Databricks