• 3 min read

Azure Data Lake Storage Gen2 を使用したイベント駆動型の分析

最新のビジネスでは、リアルタイム処理とバッチ処理に分析パイプラインが採用されています。これらのパイプラインに共通するのは、データが多様なソースから不規則な間隔で到達するという特性です。このため、タイムリーにデータを処理できるようにパイプラインを調整する必要があるという点で複雑さが増します。
2019 年 11 月 4 日に、Azure Data Lake Storage Gen2 と Azure Event Grid との統合の一般提供が開始されました。 

最新のビジネスでは、リアルタイム処理とバッチ処理に分析パイプラインが採用されています。これらのパイプラインに共通するのは、データが多様なソースから不規則な間隔で到達するという特性です。このため、タイムリーにデータを処理できるようにパイプラインを調整する必要があるという点で複雑さが増します。

これらの課題に対する回答は、データの変更が発生した時点で応答するサーバーレス コンポーネントを使用した、分離されたイベント駆動型パイプラインというアイデアにあります。

データ レイクは分析パイプラインにおいて不可欠な部分です。Azure Data Lake Storage Gen2 では、さまざまなソースから到達する構造化データ、半構造化データ、および非構造化データのための、安全でコスト効率の高いスケーラブルなストレージを提供します。Azure Data Lake Storage Gen2 は、そのパフォーマンス、グローバルな提供状況、およびパートナー エコシステムが優れているため、分析を利用する世界中のユーザーやパートナーから選ばれるプラットフォームになっています。次の課題はイベント処理の側面です。Azure Event Grid (フル マネージド イベント ルーティング サービス)、Azure Functions (サーバーレス コンピューティング エンジン)、および Azure Logic Apps (サーバーレス ワークフロー オーケストレーション エンジン) を使用すると、リアルタイムでイベントに応答してイベントベースの処理とワークフローを容易に実行できます。

このたび、Azure Data Lake Storage Gen2 と Azure Event Grid の統合がプレビューとして提供されました。これは、Azure Data Lake Storage Gen2 では、Event Grid によって使用され、Azure Event Hubs、Azure Functions、Logic Apps といった Webhook をエンドポイントとして使用してサブスクライバーにルーティングできるイベントを生成できるということを意味します。この機能を使用すると、Azure Data Lake Storage Gen2 のファイルやディレクトリへの個々の変更を自動的にキャプチャし、データ エンジニアがこの変更を使用して、イベント駆動型アーキテクチャを使用した多彩なビッグ データ分析プラットフォームを作成できるようになります。

最新のデータ ウェアハウス

上の図は、Azure Data Lake Storage Gen2 と Azure のサーバーレス コンポーネントを基盤とする最新のデータ ウェアハウス パイプラインの参照アーキテクチャを示しています。さまざまなソースからのデータが Azure Data Factory やその他のデータ移動ツールを介して Azure Data Lake Storage Gen2 に格納されます。Azure Data Lake Storage Gen2 では、新規ファイルの作成、更新、名前変更、削除に対してイベントが生成され、Event Grid や Azure Function を介して Azure Databricks にルーティングされます。Databricks ジョブはファイルを処理し、出力を Azure Data Lake Storage Gen2 に書き戻します。このときに、Azure Data Lake Storage Gen2 は Event Grid に通知を発行します。この通知によって呼び出された Azure Function がデータを Azure SQL Data Warehouse にコピーします。最終的に、Azure Analysis ServicesPowerBI を介してデータが提供されます。

Azure Data Lake Storage Gen2 で利用可能になったイベントは、BlobCreated、BlobDeleted、BlobRenamed、DirectoryCreated、DirectoryDeleted、および DirectoryRenamed です。これらのイベントの詳細については、「Azure Event Grid の Blob Storage 用のイベント スキーマ」というドキュメントを参照してください。

主な利点は以下のとおりです。

  • ワークフローを自動化するシームレスな統合により、お客様はイベント駆動型のパイプラインを数分で構築できます。
  • ファイルとディレクトリの作成、削除、名前変更に迅速に反応するアラートが有効になります。無数のシナリオ、特に、データのガバナンスと監査に関連するシナリオで、このメリットを利用できます。たとえば、ビジネスに大きな影響を与えるデータへの変更すべてに対してアラートを発して通知する、ファイルが予期せず削除された場合のメール通知を設定する、アカウントでの疑わしいアクティビティを検出して対処する、などです。
  • ポーリング サービスの複雑さとコストを排除し、課金システムやチケット発行システムなどの Webhook を使用して、データ レイクから受信したイベントをサード パーティー製アプリケーションと統合します。

次のステップ

Azure Data Lake Storage Gen2 と Azure Event Grid の統合が、米国中西部米国西部 2 で提供されました。Azure Data Lake Storage Gen2 イベントへのサブスクライブは、Azure ストレージ アカウントの場合と同様に動作します。詳細については、「Blob Storage イベントへの対応」というドキュメントを参照してください。 プレビューに関する皆様のご感想やフィードバックをお待ちしております。ADLSGen2QA@microsoft.com 宛てにお送りください。