Azure Databricks Delta (プレビュー)

2018年9月24日 に投稿済み

デルタ機能は、Azure Databricks のプレミアム SKU で、追加コストを伴わずにプレビューで利用できるようになりました。デルタを利用すると、顧客はデータ信頼性の向上、ジョブとクエリのパフォーマンスの改善、およびデータ パイプラインを簡素化する機会が得られます。

分析対象のデータ量が飛躍的に増大していること、さまざまなデータ種類が増えていること、また、リアルタイム分析のニーズが生じていることから、データ パイプラインは極めて複雑になっています。顧客の多くが、ステップごとに回復性を必要とする複数ステージから成るパイプラインを構築して、スキーマの不規則性や書き込みの競合などの問題に対処しています。このソリューションの複雑さは、大規模なパフォーマンスの問題を引き起こします。Azure Databricks のデルタを使用すれば、顧客はパイプラインを大幅に簡略化できます。

デルタは Azure Databricks のトランザクション ストレージ レイヤーです。Spark の最適化されたテーブル バージョンであるデルタ テーブルに対してデータの読み取りおよび書き込みを行うことで、デルタを操作します。デルタは Parquet 形式でデータを保存し、Spark テーブルに対して追加機能を提供するメタデータを追加します。Azure Databricks の Spark ジョブとクエリに対して、より高い信頼性とパフォーマンスを提供します。また、デルタは、バッチ処理とストリーミングの両方のジョブで同じテーブルを使用可能にすることで、データの一貫性を保持しながらデータ パイプラインを簡素化し、顧客が高パフォーマンスの大規模な分析ソリューションを簡単に構築することを可能にしています。

最小限のコード変更で、Azure Databricks 上でデルタの活用を始めてください。デルタは、顧客が Spark テーブルに対して使用する Spark 内のすべての既存の API と共に動作します。

Azure Databricks でデルタの使用を開始するには、Databricks Delta Quickstart (Databricks Delta クイックスタート) ノートブックを確認し、デルタ ドキュメントの Azure Databricks のデルタとその機能に関する記述に目を通してください。 

  • Azure Databricks
  • Services
  • Microsoft Ignite