Azure Data Lake Storage のクエリ アクセラレーションでコストとパフォーマンスを最適化
データドリブンでの意思決定の急増により、企業では顧客エクスペリエンスを向上させ、運用効率を向上し、データに基づいてリアルタイムの意思決定を行うためのデータ戦略をたてることに駆られています。企業がデータドリブンになるにつれ、ますます多くのお客様が Azure でデータ レイクを構築しています。また、コストの最適化とパフォーマンスの向上は、Azure 上のデータ レイク アーキテクチャの 2 つの重要な機能です。通常、これら 2 つの品質は相互のトレードオフになります。つまり、パフォーマンスを向上させるには、さらに料金を支払う必要があり、コストを節約すると、パフォーマンスの曲線が下がります。 そのため、本日、Azure Data Lake Storage のクエリ アクセラレーションのプレビューを発表いたします。これは Azure Data Lake Storage の新機能で、パフォーマンスとコストの両方が改善されています。お客様はこれらの特典を利用して、Azure でのデータ レイクのデプロイを向上させることができるようになりました。 Azure Data Lake のクエリ アクセラレーションによるパフォーマンスとコストの向上方法 Spark、Hive、大規模なデータ処理アプリケーションなどのビッグ データ分析フレームワークは、水平方向にスケーラブルな分散コンピューティング プラットフォームを使用して、MapReduceなどの手法ですべてのデータを読み取ることで機能します。ただし通常、特定のクエリまたは変換では、目標を達成するためにすべてのデータが必要になるわけではありません。そのため、アプリケーションは通常、読み取り、ネットワーク経由の転送、メモリへの解析、そして最終的には不要なデータの大部分をフィルタリングするというコストが発生します。このようなデータ レイク デプロイの規模を考えると、これらのコストは、設計に影響を与える大きな要因となると共に、お客様が積極的に取り組む度合いにも左右されます。コストとパフォーマンスを同時に改善させることにより、データから抽出できる貴重な分析情報の量が向上します。 Azure Data Lake Storage のクエリアクセラレーションを使用すると、アプリケーションとフレームワークでプッシュダウン述語と列のプロジェクションができるようになるため、最初の読み込み時に適用することができます。つまり、すべてのダウンストリームのデータ処理で、不要なデータのフィルタリングと処理のコストを節約できます。 次の図は、一般的なアプリケーションがクエリ アクセラレーションを使用してデータを処理する方法を示しています。 クライアント アプリケーションは、述語と列のプロジェクションを指定してファイル データを要求します。 クエリ