ビッグ データ アーキテクチャにおけるリアルタイム分析

Azure Analysis Services
Azure Event Hubs
Azure Synapse Analytics

ソリューションのアイデア

このアーティクルはソリューションのアイデアです。 このコンテンツにさらに多くの情報 (想定されるユース ケース、代替サービス、実装に関する考慮事項、価格ガイダンスなど) の掲載をご希望の方は、GitHub のフィードバックでお知らせください。

このソリューションのアイデアでは、ライブ ストリーミング データから分析情報を取得する方法について説明します。 任意の IoT デバイスから継続的にデータをキャプチャするか、Web サイトのクリックストリームからログをキャプチャして、凖リアルタイムで処理します。

Architecture

Azure Data Lake Storage Gen2、Event Hub、Azure Analysis Services、Azure Cosmos DB、Power BI と共に Azure Synapse Analytics を使用するビッグ データ アーキテクチャでのリアルタイム分析ソリューションの図。

このアーキテクチャの Visio ファイルをダウンロードします。

データフロー

  1. Azure Event Hubs を使用して、アプリケーションのライブ ストリーミング データを簡単に取り込みます。
  2. Synapse パイプラインを使用して、Azure Blob Storage にすべての構造化データをまとめます。
  3. Apache Spark プールを利用してストリーミング データのクリーニング、変換、分析を行い、運用データベースまたはデータ ウェアハウスの構造化データと結合します。
  4. スケーラブルな機械学習/ディープ ラーニング手法を使用して、Apache Spark プールのノートブック エクスペリエンスで、Python、Scala、または .NET を使用してこのデータから詳細な分析情報を導き出します。
  5. Azure Synapse Analytics の Apache Spark プールと Synapse パイプラインを活用すると、大規模なデータにアクセスし、それらを移動できます。
  6. 専用 SQL プールで分析ダッシュボードと埋め込みレポートを構築して、組織内で分析情報を共有し、Azure Analysis Services を使用してこのデータを数千人のユーザーに提供します。
  7. Apache Spark プールから Azure Cosmos DB に分析情報を取り込み、リアルタイム アプリからアクセスできるようにします。

Components

  • Azure Synapse Analytics は、高速で柔軟性のある、信頼性の高いクラウド データ ウェアハウスです。これにより、超並列処理アーキテクチャを使用して、弾力的かつ個別にスケーリング、計算、格納を行うことができます。
  • Synapse パイプラインのドキュメントを使用すると、ETL/ELT ワークフローを作成、スケジュール、調整できます。
  • Azure Data Lake Storage:Azure Blob Storage 上に構築された、非常にスケーラブルで安全なデータ レイク機能です。
  • Azure Synapse Analytics Spark プールは、高速で使いやすい、コラボレーション対応の Apache Spark ベースの分析プラットフォームです。
  • Azure Azure Event Hubs のドキュメントは、ビッグ データのストリーミング プラットフォームとなるイベント インジェスト サービスです。
  • Azure Cosmos DB は、グローバル分散型のマルチモデル データベース サービスです。 任意の数の Azure リージョンにデータをレプリケートし、ストレージから独立してスループットをスケーリングする方法について確認してください。
  • Azure Synapse Link for Azure Cosmos DB を使用すると、Azure Synapse ワークスペースから利用できる SQL Serverless および Spark Pools の 2 つの分析エンジンを使用して、トランザクション ワークロードにパフォーマンスまたはコストの影響を与えることなく、Azure Cosmos DB のオペレーショナル データに対して凖リアルタイムの分析を実行できます。
  • Azure Analysis Services は、サービスとしてのエンタープライズ グレードの分析です。これにより、BI ソリューションを自信を持って管理、デプロイ、テスト、配信できます。
  • Power BI は、組織全体に分析情報を提供できるビジネス分析ツール スイートです。 数百のデータ ソースに接続でき、データの準備が簡素化され、計画外の分析が促進されます。 優れたレポートを生成し、組織に公開して、Web やモバイル デバイスで使用できます。

代替

  • Synapse Link は、Azure Cosmos DB データに対して分析を行うための Microsoft の推奨ソリューションです。
  • Azure Event Hubs の代わりに、Azure IoT Hub を使用できます。 IoT Hub は、クラウドでホストされる管理サービスです。IoT アプリケーションとそこに接続されたデバイスとの間における通信において、中央のメッセージ ハブとしての役割を担います。 何百万ものデバイスとそのバックエンド ソリューションとを、高い信頼性で安全に接続することができます。 IoT ハブには、ほぼすべてのデバイスを接続することができます。

シナリオの詳細

このシナリオでは、ライブ ストリーミング データから分析情報を取得する方法を示します。 任意の IoT デバイスから継続的にデータをキャプチャするか、Web サイトのクリックストリームからログをキャプチャして、ほぼリアルタイムで処理できます。

考えられるユース ケース

このソリューションは、メディアやエンターテイメント業界に最適です。 このシナリオは、ライブ ストリーミング データから分析を構築します。

考慮事項

以降の考慮事項には、ワークロードの品質向上に使用できる一連の基本原則である Azure "Well-Architected Framework" の要素が組み込まれています。 詳細については、「Microsoft Azure Well-Architected Framework」を参照してください。

コスト最適化

コストの最適化とは、不要な費用を削減し、運用効率を向上させる方法を検討することです。 詳しくは、コスト最適化の柱の概要に関する記事をご覧ください。

Azure 料金計算ツールを使用することで、価格の見積りをカスタマイズできます。

次のステップ