跳过导航
预览中

利用 Azure Databricks 上 Photon 驱动的 Delta Engine 加速分析和 AI 工作负载

发布日期:九月 22, 2020

今天,我们宣布在 Azure Databricks 上推出 Photon 驱动的 Delta Engine 预览版,这是一个快速、简单的协作式分析和 AI 服务。Photon 是使用 C++ 从零开始打造出来的一种矢量化查询引擎,与 Spark API 完全兼容,利用新式 CPU 体系结构和 Delta Lake 将 Apache Spark 3.0 的性能提高了多达 20 倍。随着世界各地的组织都采用数据驱动的决策,投资一个能够快速分析海量不同类型数据的平台已经成为这些组织的当务之急。但是,这一直是一项挑战。虽然存储和网络性能提高了 10 倍,但 CPU 处理速度仅略有提高。这就引出了一个问题,如果 CPU 已成为瓶颈,我们如何才能达到更高的性能水平?  Photon 的答案在于,CPU 处理在数据级别和指令级别都具有更高的并行度。Photon 驱动的 Delta Engine 是一个矢量化查询引擎,与 Apache Spark 完全兼容,旨在利用新式 CPU 体系结构实现极快的数据并行处理。该引擎是使用 C++ 从零开始编写的,可利用新式硬件以及数据级别和 CPU 指令级别的并行度,该引擎还优化了文本处理和正则表达式,可快速处理实际数据和应用程序。该引擎与 Apache Spark™ API 完全兼容,无需更改任何代码即可确保工作负载无缝运行。与 Apache Spark 相比,Azure Databricks 的速度已经非常快了,现在,Photon 驱动的 Delta Engine 可以为 Azure 上的新式分析和 AI 工作负载提供更快的性能。我们运行了行业标准基准测试 30TB TPC Benchmark DS (TPC-DS) 来测量处理速度,发现 Photon 驱动的 Delta Engine 比 Spark 2.4 快 20 倍。

阅读博客了解详细信息。

  • Azure Databricks
  • Features
  • Services

相关产品