Stream Analytics の新機能 - ビッグ データ アプリケーションの開発時間を短縮

2019年7月16日 に投稿済み

Principal Program Manager, Azure Stream Analytics

Azure Stream Analytics は、次々と流れ込むデータ ストリームに対しリアルタイム分析と複合イベント処理を実行できるフル マネージド PaaS サービスです。他の 15 種類以上の Azure サービスとコーディングなしで連携可能なため、開発者やデータ エンジニアはホットパス分析の複雑なパイプラインをわずか数分で簡単に構築できます。本日 Microsoft Inspire において、Stream Analytics のさまざまな新機能を発表します。これらの機能により、リアルタイム分析情報に基づく各種ソリューションをこれまでよりも迅速に業務で活用できるようになるでしょう。新機能について説明します。

Azure Event Hubs のユーザーにパワフルなリアルタイム分析機能を提供

まず、Event Hubs とのワンクリック統合機能についてです。これはパブリック プレビューとして追加された機能で、Event Hubs のユーザーが Event Hub ポータルで受信データを可視化しつつ、クリック 1 回で Stream Analytics に接続し、クエリを入力できるようになります。入力したクエリは数クリックでデータに適用し、すぐにリアルタイム分析情報の入手を開始できます。この機能により、リアルタイム分析ソリューションの開発にかかる手間とコストが大幅に抑えられます。

Event Hubs と Azure Stream Analytics とのワンクリック統合のようす (GIF)

Event Hubs と Azure Stream Analytics とのワンクリック統合

SQL 参照データのサポートによるストリーミング データの拡張

参照データとは、リアルタイムのデータ ストリームを拡張するための静的または緩やかに変化するデータセットで、より詳細なコンテキストを分析情報に反映するために使用されます。シナリオの例としては、市場トレンドに合わせて定期的に更新される為替換算レートを使用し、さまざまな通貨建ての課金データ ストリームを、選択した共通の通貨に変換する場合などが挙げられます。

正式リリースされたこの機能では、Azure SQL Database が参照データの入力ソースとして既定でサポートされます。機能の一環として、参照データセットの定期更新を自動で実行することも可能です。また、Stream Analytics のジョブのパフォーマンスを維持するため、デルタ クエリを記述して Azure SQL Database から増分変更データのみを取得するオプションを提供します。さらに、Stream Analytics に参照データのバージョン管理機能が導入され、対象となるイベントの発生時点に応じて有効な参照データを適用し、ストリーミング データを拡張できるようになります。これにより、分析結果の再現性が強化されます。

ストリーム処理のための分析関数の追加

  • パターン マッチング

    新たに追加される MATCH_RECOGNIZE (英語) 関数を使用すると、正規表現と集計メソッドを使用して簡単にイベントのパターンを定義し、適合性の検証と一致した値の抽出を行うことができます。この関数により、データ ストリームに対する複合イベント処理 (CEP) も手軽に記述して実行できます。たとえば、株取引の強力な売買シグナルとされる "ヘッド アンド ショルダー" パターンを検出するため、ユーザーが簡単にクエリを記述し、株式市場のデータ フィードに適用できます。

  • 集計機能としての分析関数の利用

    SUM、COUNT、AVG、MIN、MAX といった集計機能を、対象領域を細かく指定することなく、直接 OVER 句と一緒に使用できるようになります。分析関数を集計機能として利用すると、「最新の気温は過去 24 時間に報告された気温の最高値を上回っているか?」といった内容について、ユーザーが簡単にクエリを記述することができます。

Azure Data Lake Storage Gen2 へのエグレス

Azure Stream Analytics は、Azure ユーザーによるビッグ データ分析パイプラインの中心となるコンポーネントです。Stream Analytics がホットパス (リアルタイム) 分析に焦点を当てたサービスであるのに対し、Azure Data Lake のようなサービスは、バッチ処理や高度な機械学習において威力を発揮します。Azure Data Lake Storage Gen2 は、Azure Data Lake Storage Gen1 の主要機能 (Hadoop 互換のファイル システム、Azure Active Directory、POSIX ベースの ACL など) と Azure Blob Storage を統合したサービスです。この組み合わせによって、最高レベルの分析パフォーマンスを実現すると同時に、Azure Storage が備えるストレージの階層化やデータのライフサイクル管理機能を活用し、基本的な可用性、セキュリティ、持続性も確保されます。

Azure Stream Analytics では新たに、Azure Data Lake Storage Gen2 の出力データの統合が、コーディング不要かつネイティブにサポートされるようになります (プレビュー)。

BLOB 出力の拡張

  • Apache Parquet フォーマットのネイティブ サポート

    Azure Blob Storage への Apache Parquet フォーマットでのエグレスがネイティブにサポートされ、正式リリースとなります。Parquet は列をベースとしたデータ形式で、ビッグ データを効率的に処理するのに効果的です。BLOB ストアやデータ レイクに Parquet フォーマットでデータを出力することにより、Azure Stream Analytics を活用してストリーミング データの大規模な ETL (抽出、変換、読み込み) 処理を促進すると共に、バッチ処理の実行、機械学習アルゴリズムのトレーニング、過去のデータに対するインタラクティブなクエリの実行を行うことができます。今回、Azure Blob Storage への Parquet フォーマットでのエグレス機能が正式リリースとなります。

  • マネージド ID (旧 MSI) による認証

    Azure Stream Analytics で、出力側に Azure Blob Storage を使用する場合のマネージド ID ベースの認証 (英語) がフル サポートされるようになります。従来の接続文字列ベースの認証モデルも、引き続きご利用いただけます。この機能はパブリック プレビューとして提供されます。

ここでご紹介した機能の多くは、全世界へのロールアウトを開始したばかりで、すべてのリージョンで利用可能となるまでには数週間かかる見込みです。

フィードバックをお寄せください

Azure Stream Analytics チームでは皆様からのフィードバックを真摯に受け止め、今後の開発に活かしたいと考えています。ぜひ、Stream Analytics のフォーラム (英語) でディスカッションに参加し、皆様の率直なご意見をお聞かせください。