Azure Data Lake Storage のクエリ アクセラレーションでコストとパフォーマンスを最適化

2020年4月23日 に投稿済み

Program Manager, Azure Storage

データドリブンでの意思決定の急増により、企業では顧客エクスペリエンスを向上させ、運用効率を向上し、データに基づいてリアルタイムの意思決定を行うためのデータ戦略をたてることに駆られています。企業がデータドリブンになるにつれ、ますます多くのお客様が Azure でデータ レイクを構築しています。また、コストの最適化とパフォーマンスの向上は、Azure 上のデータ レイク アーキテクチャの 2 つの重要な機能です。通常、これら 2 つの品質は相互のトレードオフになります。つまり、パフォーマンスを向上させるには、さらに料金を支払う必要があり、コストを節約すると、パフォーマンスの曲線が下がります。

そのため、本日、Azure Data Lake Storage のクエリ アクセラレーションのプレビューを発表いたします。これは Azure Data Lake Storage の新機能で、パフォーマンスとコストの両方が改善されています。お客様はこれらの特典を利用して、Azure でのデータ レイクのデプロイを向上させることができるようになりました。

Azure Data Lake のクエリ アクセラレーションによるパフォーマンスとコストの向上方法

Spark、Hive、大規模なデータ処理アプリケーションなどのビッグ データ分析フレームワークは、水平方向にスケーラブルな分散コンピューティング プラットフォームを使用して、MapReduceなどの手法ですべてのデータを読み取ることで機能します。ただし通常、特定のクエリまたは変換では、目標を達成するためにすべてのデータが必要になるわけではありません。そのため、アプリケーションは通常、読み取り、ネットワーク経由の転送、メモリへの解析、そして最終的には不要なデータの大部分をフィルタリングするというコストが発生します。このようなデータ レイク デプロイの規模を考えると、これらのコストは、設計に影響を与える大きな要因となると共に、お客様が積極的に取り組む度合いにも左右されます。コストとパフォーマンスを同時に改善させることにより、データから抽出できる貴重な分析情報の量が向上します。

Azure Data Lake Storage のクエリアクセラレーションを使用すると、アプリケーションとフレームワークでプッシュダウン述語列のプロジェクションができるようになるため、最初の読み込み時に適用することができます。つまり、すべてのダウンストリームのデータ処理で、不要なデータのフィルタリングと処理のコストを節約できます。

次の図は、一般的なアプリケーションがクエリ アクセラレーションを使用してデータを処理する方法を示しています。

一般的なアプリケーションがクエリ アクセラレーションを使用してデータを処理する方法

  1. クライアント アプリケーションは、述語と列のプロジェクションを指定してファイル データを要求します。
  2. クエリ アクセラレーションでは、指定されたクエリを解析し、データを解析してフィルタリングするための作業を分散します。
  3. プロセッサはディスクからデータを読み取り、適切な形式を使用してデータを解析した後、指定された述語と列のプロジェクションを適用してデータをフィルタリングします。
  4. クエリ アクセラレーションにより応答シャードが結合し、クライアント アプリケーションにストリーミング バックされます。
  5. クライアント アプリケーションは、ストリーミングされた応答を受信して解析します。アプリケーションは追加のデータをフィルタリングする必要がなく、必要な計算または変換を直接適用できます。

Azure で強力な分析サービスを提供

Azure Data Lake Storage のクエリ アクセラレーションは、すべてのデータからの変革的な分析情報を引き出し、Azure を組織にとって最高の場所にするために取り組んでいることを示す一例です。お客様は、他の Azure サービスと緊密に統合することで、強力なクラウド スケールのエンドツーエンド分析ソリューションを構築できます。これらのソリューションにより、最新のデータ ウェアハウス、高度な分析、リアルタイムの分析シナリオが簡単に経済的にサポートされます。

また、プラットフォーム内のすべてのポイントで発生するイノベーションから、最高品質のオープンソースソリューションが等しく恩恵を受けられるようなオープン プラットフォームを維持することにも取り組んでいます。強力な分析サービスのエコシステム全体を支える Azure Data Lake Storage により、お客様はすべてのデータ資産から革新的な分析情報を抽出できます。

詳細情報

Azure Data Lake Storage のクエリ アクセラレーションについて詳しくは、以下をご覧ください。