プレビュー: Azure Media Services によるライブ文字起こし

2019年11月27日 に投稿済み

Principal Program Manager, Azure Media Services

Azure Media Services の提供するプラットフォームは、ライブ イベントの配信に利用できます。マイクロソフトの API を使って、ライブ ビデオのフィードの取り込みや変換、動的なパッケージング、暗号化を行い、HLS (HTTP Live Streaming) (英語)MPEG-DASH (英語) のような業界標準のプロトコルを介して提供することもできます。さらに API を使って、CDN との統合を行い、数百万人の同時視聴者に向けた配信を実施することもできます。ユーザーはこのプラットフォームを数日間のスポーツ イベントからプロ スポーツのシーズン全体まで、あるいはウェビナーからタウンミーティングまで、さまざまなシナリオに向けて利用しています。

ライブ文字起こしは、v3 API に追加されたプレビュー版の新機能です。この機能を使うと、オーディオ フィード内の音声から書き起こされた機械生成テキストによって、視聴者に配信するストリーミングを強化できます。この機能は、Azure Media Services を使って実施するあらゆる種類のライブ イベントでオプションとして適用できます。そのうちの一種であるパススルー型のライブ イベントでは、ライブ エンコーダーを上流で構成し、マルチ ビットレートのライブ フィードを生成してから、それを Azure Media Services へ送り込みます (以下の図では、その流れが示されています)。
    pass-through_PRE

図 1.ライブ文字起こしの概略図

ライブ コントリビューション フィードを受け取ると、Azure Media Services はそこから音声信号を抽出し、デコーディングを行い、Azure Cognitive Services の音声テキスト変換 API を呼び出して、音声の書き起こしを受け取ります。得られたテキストは、続いてストリーミング プロトコルでの配信に適した形式にパッケージングされます。HLS (HTTP Live Streaming) プロトコルを利用し、メディアを MPEG TS (Transport Stream) フラグメントとしてパッケージングする場合、書き起こされたテキストは WebVTT フラグメントにパッケージングされます。配信用プロトコルとして MPEG-DASH や、CMAF を使った HLS (英語) を採用する場合、テキストは IMSC1.1 準拠の TTML 形式にラッピングされ、MPEG-4 Part 30 (ISO/IEC 14496-30) フラグメントとしてパッケージングされます。

ユーザーは Azure Media Player (バージョン 2.3.3 以降) を使ってビデオを再生したり、さまざまなブラウザーやデバイスでテキストを表示させたりできます。iOS ネイティブのプレーヤーでストリーミングを再生することもできます。Android デバイス向けのアプリを開発する場合に向け、文字起こしの再生は NexPlayer によって検証されています。NexPlayer にお問い合わせ (英語) いただければ、デモを入手できます。

Azure Media Player におけるライブ文字起こしの表示

図 2.Azure Media Player におけるライブ文字起こしの表示

HLS (HTTP Live Streaming) プロトコルを利用し、メディアを MPEG TS (Transport Stream) フラグメントの集まりとしてパッケージングする場合、書き起こされたテキストは WebVTT フラグメントとしてパッケージングされます。配信用プロトコルとして MPEG-DASH や、CMAF を使った HLS (英語) を採用する場合、テキストは IMSC1.1 準拠の TTML 形式にラッピングされ、MPEG-4 Part 30 (ISO/IEC 14496-30) フラグメントとしてパッケージングされます。

このライブ文字起こし機能は米国西部 2 リージョンでは、すでにプレビュー版が入手可能です。使い方の詳細はこちらの記事をご覧いただき、ぜひこのプレビュー版の新機能をご体験ください。