跳过导航

Azure Databricks

基于 Apache Spark 的快速、简单、协作分析服务

14 天试用 - 包括免费 Databricks 单位

概述

通过 Azure Databricks(一种基于 Apache Spark 的快速、简单、协作分析服务)加快大数据分析和人工智能 (AI) 解决方案。

设置 Spark 环境只需几分钟并可快速轻松自动缩放。数据科学家、数据工程师和商业分析师可在交互式工作区协作处理共享的项目。借助对 Python、Scala、R 和 SQL 的支持以及深度学习框架和库(TensorFlow、 Pytorch 和 Scikit-learn)运用现有的技能。通过与 Azure Active Directory (Azure AD) 和其他 Azure 服务的本机集成,可构建新式数据仓库、机器学习和实时分析解决方案。

为何选择 Azure Databricks?

高效

启动新的 Apache Spark 环境只需几分钟。可在交互式工作区与其他 Azure 服务无缝集成。

规模可变

全局缩放你的分析和机器学习项目。使用可自动缩放的托管平台降低成本和复杂性。

可信赖

通过 Azure AD 集成、基于角色的控制和企业级 SLA 帮助保护你的数据和业务。

灵活

使用所选的语言和深度学习框架构建机器学习和 AI 解决方案。

Azure Databricks 包含哪些内容?

经过优化的 Apache Spark 环境

在托管 Apache Spark 环境中快速构建群集。设置、配置并调试群集,确保提供高可靠性和性能。

自动缩放和自动释放

通过按需自动缩放,还有助于减少手动缩放群集所需的资源和成本。自动释放非活动群集以保存资源。

交互式工作区

数据工程师、数据科学家以及商业用户可通过交互式工作区以团队形式协作处理共享的项目并对其进行注释。

经过优化,以便进行深度学习

使用启用了 GPU 的群集轻松大规模构建、定型和部署 AI 模型。使用通过深度学习框架和库(例如 TensorFlow、Keras 和 XGBoost)预安装和预配置的机器学习运行时。

与 Azure 服务集成

轻松集成多种数据存储和服务,例如 Azure SQL 数据仓库、Azure Cosmos DB、Azure Data Lake Store、Azure 事件中心和 Azure 数据工厂。启用 Azure AD 单一登录以解锁基于角色的控制。

支持多种语言和库

Azure Databricks 支持 Python、Scala、R 和 SQL 语言,因此可使用你的现有技能开始构建。使用一套完整的分析技术(包括 SQL、流式处理、MLlib 和 GraphX)处理任何大小的数据或项目。

Azure Databricks 的分析和机器学习

步骤 1(共 6 步)

启动工作区

在 Azure 门户中,导航到 Azure Databricks。然后使用 Azure AD 进行单一登录。

步骤 2(共 6 步)

快速构建群集

创建新的群集并按需进行配置,通过一次点击即可快速构建。通过自动缩放功能可轻松快速缩放群集。还有助于减少手动缩放相关的资源和成本。

步骤 3(共 6 步)

使用笔记本进行协作

为数据工程师、数据科学家和商业用户创建自定义权限设置,使每个参与者都可基于各自的访问级别实时协作处理共享的项目并对其进行注释。

步骤 4(共 6 步)

浏览数据

笔记本支持大多数数据语言,例如 SQL、 Python、Scala 和 R。数据工程师和数据科学家可轻松安装存储并使用结果构建机器学习模型。商业用户可查看以易于读取的实时数据形式显示的数据。

步骤 5(共 6 步)

构建数据科学模型

使用所选的语言大规模构建、定型和部署 AI 模型。

步骤 6(共 6 步)

计划作业

迅速将笔记本作为作业运行。从现有流或机器学习库中选择。提前安排作业,自动运行并监控其性能。

Azure Databricks 可执行的操作

新式数据仓库

通过新式数据仓库可轻松将任何规模的所有数据汇集到一起,并通过分析仪表板、操作报告以及所有用户的高级分析获取见解。

大数据高级分析

使用领先机器学习工具将数据转化为可行见解。通过这种架构,可将任何规模的数据进行组合,且可构建和部署自定义机器学习模型。

实时分析

轻松从流式传输数据中获取见解。持续从任何流式传输源或网站点击流日志捕获数据,并准实时地处理数据。

相关产品和服务

SQL 数据仓库

弹性数据仓库即服务,具有企业级功能

Machine Learning Studio

轻松生成、部署和管理预测分析解决方案

Azure Cosmos DB

任何规模的全球分布式多模型数据库服务

通过 Azure Databricks 加快数据驱动的创新