メイン コンテンツにスキップ
プレビュー

Azure Databricks 上 の Photon を利用した Delta Engine で分析と AI のワークロードを高速化

公開日: 9月 22, 2020

本日は、Azure Databricks での Photon を利用した Delta Engine のプレビューを発表します。これは高速で簡単、そしてコラボレーションに対応した分析および AI サービスです。Photon は C++ で一から構築され、Spark API と完全に互換性のあるベクトル化されたクエリ エンジンで、最新の CPU アーキテクチャと Delta Lake を活用することで、Apache Spark 3.0 のパフォーマンスを最大 20 倍向上させます。世界中の企業がデータドリブンな意思決定の採用を続ける中で、膨大な量と種類のデータを迅速に分析できるプラットフォームへの投資が不可欠となっています。しかし、このことが課題となっています。ストレージやネットワークのパフォーマンスは 10 倍に向上しましたが、CPU の処理速度はわずかに向上したに過ぎないためです。これは、CPU がボトルネックになっているとすれば、次のレベルのパフォーマンスを実現するにはどうすればいいのか、という疑問につながります。  答えは Photon にあります。データレベルと命令レベルの両方で CPU の並列処理が飛躍的に向上します。Photon を利用した Delta Engine は、100% Apache Spark と互換性のあるベクトル化されたクエリ エンジンで、最新の CPU アーキテクチャを利用するように設計されており、データを非常に高速に並列処理することができます。C++ で一から作成され、最新のハードウェアを活用し、データレベルと CPU 命令レベルの並列処理を利用するこのエンジンは、テキスト処理と正規表現を最適化することで、実世界のデータとアプリケーションでの高速なパフォーマンスを実現します。Apache Spark™ API と完全に互換性があるため、コードを変更しなくてもワークロードをシームレスに実行できます。Azure Databricks は、Apache Spark と比較しても既に非常に高速でしたが、Photon を利用した Delta Engine は、Azure 上の最新の分析や AI ワークロードのパフォーマンスをさらに高速化します。Microsoft は業界標準のベンチマーク テストである 30TB TPC Benchmark DS (TPC-DS) を実施し、処理速度を測定したところ、Photon を利用した Delta Engine は、Spark 2.4 の 20 倍高速であることがわかりました。

詳細については、こちらのブログをご覧ください。

  • Azure Databricks
  • Features
  • Services

関連製品