Azure Databricks

基于 Apache SparkTM 的简便快捷的协作式分析服务

借助优化的 Apache Spark 实现大数据分析和 AI

使用 Azure Databricks,即可解锁所有数据的见解并构建人工智能 (AI) 解决方案,在数分钟内设置 Apache Spark™ 环境,自动缩放以及在交互式工作区中协作共享项目。Azure Databricks 支持 Python、Scala、R、Java 和 SQL,以及数据科学框架和库(包括 TensorFlow、PyTorch 和 scikit-learn)。

Apache Spark™ 是 Apache Software Foundation 的商标。

可靠的数据工程

用于批处理和流式处理工作负载的大规模数据处理

用于所有数据的分析

支持对最完整和最新数据的分析

协作式数据科学

在大型数据集上简化和加速数据科学

植根于开放源代码

速度快且经过优化的 Apache Spark 环境

经过优化的 Apache Spark 环境快速入门

Azure Databricks 提供最新版本的 Apache Spark,使你可以与开放源代码库无缝集成。利用 Azure 的全球规模和可用性,在完全托管的 Apache Spark 环境中快速启动群集和构建群集。设置、配置并调试群集,以确保提供可靠性和性能,而无需监视。利用自动缩放和自动终止来提高总拥有成本 (TCO)。

阅读 Azure Databricks 文档

通过共享工作区和常用语言大幅提高工作效率

无论你是数据科学家、数据工程师还是业务分析师,都可以在开放且统一的平台上有效地协作,以运行所有类型的分析工作负载。使用所选语言(包括 Python、Scala、R 和 SQL)进行构建。通过 GitHub 和 Azure DevOps,轻松实现笔记本的版本控制。

了解如何创建 Azure Databricks 工作区

增强机器学习对大数据的处理能力

使用集成的 Azure 机器学习访问高级自动化机器学习功能,以快速识别合适的算法和超参数。简化从云端部署到边缘的机器学习模型的管理、监视和更新。Azure 机器学习还为试验、机器学习管道和模型提供中央注册表。

观看 Azure Databricks 和 Azure 机器学习的网络研讨会

获得高性能的现代数据仓库

通过分析仪表板和操作报表,合并任意规模的数据并获取见解。使用 Azure 数据工厂自动执行数据移动,然后将数据加载到 Azure Data Lake Storage,使用 Azure Databricks 转换和清理数据,并使用 Azure Synapse Analytics 对数据进行分析。在云中实现数据仓库的现代化,实现无与伦比的性能和可扩展性。

了解 Azure 上的云规模分析

主要服务功能

优化的 spark 引擎

在自动缩放基础结构上进行简单的数据处理,该基础结构由高度优化的 Apache Spark™ 支持,性能提升高达 50 倍。

机器学习运行时

单击一下即可访问预配置的机器学习环境,以使用最先进和最热门的框架(如 PyTorch、TensorFlow 和 scikit-learn)进行增强机器学习。

MLflow

跟踪和共享试验、重现运行,并从中央存储库协作管理模型。

语言选项

无论使用无服务器计算资源还是预配的计算资源,都可使用你偏好的语言,包括 Python、Scala、R、Spark SQL 和 .Net。

协作式笔记本

快速访问和浏览数据、查找并共享新见解,并使用所选的语言和工具协同构建模型。

Delta Lake

使用专为完整数据生命周期设计的开源事务存储层,将数据可靠性和可伸缩性引入现有的数据湖。

与 Azure 服务的本机集成

利用与 Azure 服务(如 Azure 数据工厂、Azure Data Lake Storage、Azure 机器学习和 Power BI)的深度集成,完成端到端分析和机器学习解决方案。

交互式工作区

支持数据科学家、数据工程师和商业分析师之间的无缝协作。

企业级安全

毫不费力的原生安全性可以在数据驻留位置保护数据,并跨数千个用户和数据集创建合规、专用且隔离的分析工作区。

生产就绪

使用用于 CI/CD 和监视的生态系统集成,在受信任的数据平台上自信地运行和缩放任务关键型数据工作负载。

通过解决方案体系结构示例了解详细信息

大数据体系结构实时分析

轻松从实时流数据中获取见解。持续从所有 IoT 设备或网站点击流日志捕获数据,并准实时地处理数据。

高级分析体系结构

使用领先机器学习工具将数据转化为可行见解。通过这种架构,可将任何规模的数据进行组合,且可大规模构建和部署自定义机器学习模型。

机器学习生命周期管理

利用 Azure Databricks、MLflow 和 Azure 机器学习加速和管理端到端机器学习生命周期,以生成、共享、部署和管理机器学习应用程序。

数据安全和隐私是不可协商的

  • 通过一系列业界领先的安全性和合规性功能,保护、监视和管理数据和分析解决方案。

  • 使用单一登录和 Azure Active Directory 集成,使数据专业人员能够有更多的时间来发现见解。

  • Azure 拥有比任何其他云提供商都多的认证。查看综合列表

详细了解 Azure Databricks 产品和服务

Azure Databricks 定价

赢得全行业公司的信任

使用基于云的深度学习识别安全隐患

Shell 使用 Azure、AI 和机器视觉来更好地保护客户和员工。

Shell

加快性能速度并增加成本节约

数据服务可续订 AI 利用 Azure 和 Apache Spark 来帮助打造一个稳定且盈利的太阳能市场。

Renewables AI

在 Azure 中启用端到端分析解决方案

物流提供商 LINX Cargo Care Group 使用 Azure Databricks 促使全公司进行创新。

LINX Cargo Care Group

Azure Databricks 入门

注册 Azure 免费帐户即可获得即时访问权限。

要了解如何使用 Azure Databricks,请参阅文档

要创建群集、笔记本、表等,请浏览快速入门

社区和 Azure 支持

MSDN 论坛和 Stack Overflow 上向 Microsoft 工程师和 Azure 社区专家提问并获取支持,或者与 Azure 支持联系。

热门的实验室和模板

发现由 Microsoft 和社区提供的自定进度实验室和热门的常用配置快速入门模板

获取最新的 Azure Databricks 新闻和资源

Databricks 更新、博客和公告

有关 Azure Databricks 的常见问题解答

  • Azure Databricks SLA 保证 99.95% 的可用性。
  • Databricks 单位(或 DBU)是每小时处理能力的单位,按每秒使用量计费。
  • 数据工程工作负载是指在其运行的群集上自动启动和终止群集的作业。例如,Azure Databricks 作业计划程序可能会触发工作负载,该计划程序仅为该作业启动新的 Apache Spark 群集,并在作业完成后自动终止群集。
    数据分析工作负载不会自动执行。例如,Azure Databricks 笔记本中的命令在 Apache Spark 群集上运行,直到手动将其终止。多个用户可以共享一个群集以协作进行分析。

你随时可以开始设置 Azure 免费帐户