Azure Media Services の AI を活用した新たなイノベーション

2019年9月13日 に投稿済み

General Manager, Azure Media

アニメーション キャラクターの認識、多言語の文字起こしなど、新機能の提供を開始

マイクロソフトのミッションは、地球上のすべての個人とすべての組織が、より多くのことを達成できるように支援することです。このミッションを実現している良い例がメディア業界です。現代は、これまでにないほど多くのコンテンツがさまざまな方法で制作、利用され、デバイスの種類も増加しています。国際放送機器展の IBC 2019 では、マイクロソフトが取り組みを進めてきた最新のイノベーションと、それによってメディアのワークフローをどのように変革できるかをご説明します。詳細はこの記事でもお伝えしますが、9 月 13 日~ 17 日にアムステルダムの RAI で開催される IBC 2009 にお越しいただければ、直接ご説明いたします。ホール 1 のブース C27 でマイクロソフトの製品チームがパートナー様と共にお待ちしています。

Video Indexer が新たにアニメーションと多言語コンテンツをサポート

昨年の IBC では、数々の受賞歴を誇る Azure Media Services Video Indexer (英語) の一般提供開始を発表しましたが、今年はさらに良いお知らせがあります。Video Indexer はメディア ファイルから音声、顔、感情、トピック、ブランドなどの情報やメタ データを自動的に抽出するサービスです。機械学習のエキスパートである必要はありません。マイクロソフトが新たに発表するのは、ご要望が特に多く、かつ差別化が図れる 2 つの機能 (アニメーション キャラクターの認識、多言語の音声の文字起こし) のプレビュー、Video Indexer で現在提供している既存のモデルの拡充などです。

アニメーション キャラクターの認識

アニメーション コンテンツは非常に人気の高いコンテンツ種別の 1 つですが、標準的な AI ビジョン モデルは人間の顔の認識用として構築されているため、人間と類似した特徴を持たないキャラクターの場合は認識することができません。Video Indexer とマイクロソフトの Azure Custom Vision サービスを連携したこの新しいソリューションのプレビューでは、アニメーション キャラクターを自動検出してグループ化し、統合カスタム ビジョン モデルを通じて簡単にタグ付けして認識できる新しいモデルのセットを提供します。これらのモデルは単一のパイプラインに統合されているので、機械学習のスキルがない方でもサービスを利用できます。成果物はコード不要の Video Indexer ポータルで提供されます。または、REST API で自社のアプリケーションに簡単に組み込むこともできます。

AMS Video Indexer によるアニメーション キャラクターの認識

これらのアニメーション キャラクター モデルは、特定のお客様にトレーニング用・テスト用に実際のアニメーション コンテンツを提供していただき、それを基に構築しました。データ提供元の 1 社である Viacom International Media Networks のスタジオおよびポストプロダクション テクノロジ部門のシニア ディレクターを務める Andy Gutteridge 氏が、この新機能の価値を明言しています。「信頼できる AI ベースのアニメーション検出機能が追加されたことで、コンテンツ ライブラリからキャラクターのメタデータを迅速かつ効率的に見つけてカタログを作成できるようになります。何よりも重要なのは、クリエイティブ チームが必要なコンテンツをすぐに見つけられるので、メディア管理の時間が最小限に抑えられ、本来の業務に集中できることです」

アニメーション キャラクターの認識機能を使用するには、こちらのドキュメントをご覧ください。

多言語の識別と文字起こし

ニュースや時事問題、インタビューなどのメディア アセットには多言語の音声が含まれることがあります。既存の音声テキスト変換機能のほとんどは、音声認識を行う言語を事前に指定しなければならず、多言語ビデオの文字起こしを行ううえで障害となっています。複数のコンテンツの音声言語を自動的に識別する新機能は、機械学習テクノロジを活用してメディア アセット内の異なる言語を識別します。検出された言語セグメントに対して識別された言語での自動文字起こし処理が行われ、すべてのセグメントが複数の言語で構成される 1 つの文字起こしファイルにまとめられます。

Video Indexer による多言語の文字起こし
文字起こしの成果物は Video Indexer JSON 出力の一部として、または字幕ファイルとして提供されます。出力されたトランスクリプトは Azure Search とも統合されるので、複数のビデオからさまざまな言語のセグメントをすぐに検索できます。さらに、多言語の文字起こしは Video Indexer ポータルで利用可能なので、時間を指定してトランスクリプトと識別された言語を確認したり、各言語が出てくるビデオ内の特定の位置にジャンプしたり、ビデオを再生しながら多言語の字幕を表示させたりすることができます。またポータルや API を使用して 54 種類の言語に翻訳できます。

Video Indexer の新しい多言語機能とその使い方については、こちらのドキュメントをご覧ください。

新しいモデルと機能を強化したモデルを追加

Video Indexer に新モデルを追加すると共に、既存モデルの機能強化を行っています。

人や場所のエンティティの抽出

現在のブランド検出機能を拡張し、パリのエッフェル塔やロンドンのビッグ ベンといった有名な名称と場所を追加しました。これらの情報が、生成されたトランスクリプト内や光学式文字認識 (OCR) の画面上に現れると、それに対応する情報が作成されます。この新機能によってビデオに登場するすべての人、場所、ブランドを確認、検索できるようになり、その時間帯や説明、詳細を確認するための Bing 検索エンジンへのリンクも提供されます。

 Insights ウィンドウでの Azure Video Indexer エンティティの抽出


編集ショット検出モデル

この新機能では、insights.json の各ショットに添付されたメタデータに、映像編集のタイプ (ワイド ショット、ミディアム ショット、クローズアップ、エクストリーム クローズアップ、2 ショット、複数の人、屋外、室内など) を表す「タグ」のセットを追加します。こうした特性は、ビデオをクリップや予告編に編集したり、芸術性を高めるために特定の種類のショットを探したりする際に便利です。

Azure Video Indexer の編集ショット タイプの例
Video Indexer のショット タイプ検出機能の詳細については、こちらをご覧ください。

IPTC のマッピングの粒度を拡大

マイクロソフトのトピック推論モデルは、そのビデオのトピックが明示されていなくても、文字起こし、光学式文字認識 (OCR)、検出した著名人に基づいてトピックを特定します。マイクロソフトでは、このトピック推論をWikipedia、Bing、IPTC、IAB の 4 つにマッピングしています。今回の機能強化では、レベル 2 IPTC を追加しています。

これらの機能強化は、現在の Video Indexer ライブラリのインデックスを再作成するのと同じくらい簡単に活用できます。

新しいライブ ストリーミング機能

Azure Media Services で 2 つの新しいライブストリーミング機能のプレビューを開始します。

AI を活用したリアルタイムの文字起こしでライブ イベントをパワーアップ

Azure Media Services を使用してライブ イベントをストリーミングすると、ビデオやオーディオのコンテンツに加えて、自動生成されたテキスト トラックも出力できます。このテキスト トラックは、投稿フィードの音声から AI によるリアルタイムでの文字起こしを使用して生成されます。エンド ユーザー エクスペリエンスを向上させるために、カスタム手法を音声テキスト化の前後に適用します。テキスト トラックは DASH、HLS CMAF、HLS TS のどれで配信するかに応じて IMSC1、TTML または WebVTT にパッケージ化されます。

24 時間配信の OTT (Over-The-Top) チャンネル向けのリアルタイム リニア エンコード

マイクロソフトの v3 API を使用すれば、OTT サービス向けのライブ チャンネルの制作、管理、ストリーミングや、Azure Media Services のライブ ビデオやビデオ オン デマンド (VOD)、パッケージ化、デジタル著作権管理 (DRM) などのすべての機能を活用することができます。

このプレビュー機能をお試しになるには、Azure Media Services コミュニティ ページにアクセスしてください。

ライブ トランスクリプション シグナル通知のフロー図

新しいパッケージ化機能

オーディオ説明トラックをサポート

放送コンテンツには一般に、番組の通常音声に加えて画面上の動きを口頭で説明するオーディオ トラックがあります。このオーディオ トラックがあることで、コンテンツの視覚情報が多い場合にも目の不自由な視聴者が内容を理解しやすくなります。新しいオーディオ説明機能は、オーディオ トラックの 1 つに注釈を付けてオーディオ説明 (AD) トラックに変換できます。このトラックをプレイヤーが使用することで、視聴者が検索可能な AD トラックにすることができます。

ID3 メタデータの挿入

クライアント プレイヤーで広告やカスタム メタデータ イベントの挿入をシグナル通知するには、放送局はビデオに埋め込まれている時間指定メタデータを使用するのが一般的です。SCTE-35 シグナル通知モードに加えて ID3v2 やアプリケーション開発者がクライアント アプリケーションで使用するために定義したその他のカスタム スキーマもサポートします。

Microsoft Azure のパートナーがエンドツーエンドのソリューション デモを実施

Bitmovin (英語) は Microsoft Azure 向けの Bitmovin Video Encoding と Bitmovin Video Player をリリースします。Azure でこれらのエンコード ソリューションやプレイヤー ソリューションを使用して、3 パス エンコード、AV1/VVC コーデックのサポート、多言語の字幕、QoS、広告、ビデオ トラッキングの統合済みビデオ分析といった高度な機能を活用できます。

Evergent (英語) は Azure 向けのユーザー ライフサイクル管理プラットフォームを発表します。収益および顧客ライフサイクル管理ソリューションの先進的プロバイダーである Evergent は、Azure AI を活用してターゲットを絞ったパッケージを生成し、顧客ライフサイクルの重要な節目に提供することで、大手エンターテイメント サービス プロバイダーによる顧客の獲得と維持を強化できるようにします。

Haivision (英語) はインテリジェント メディア ルーティング クラウド サービスの SRT Hub を発表します。お客様による Azure Data Box Edge を使用した取り込みから始まるエンドツーエンド ワークフローの変革や、Avid、Telestream、Wowza、Cinegy、Make.TV のハブレットを使用したメディア ワークフローの変革を支援します。

SES (英語) は衛星通信サービスやマネージド メディア サービスをご利用のお客様向けに、Azure でのブロードキャスト レベルの一連のメディア サービスを開発しました。同社はマスター プレイアウト、ローカライズ版のプレイアウトと広告の検出および入れ替え、Azure での年中無休の高品質マルチチャンネル ライブ エンコードが揃った完全マネージド プレイアウト サービスのソリューションを発表します。

SyncWords (英語) は Azure で利用できる、字幕の自動作成テクノロジとユーザー フレンドリなクラウド ベースのツールをリリースします。これらのサービスにより、Azure でのリアルタイムやオフラインでのビデオ処理ワークフローに、字幕の自動作成機能や外国語の字幕作成機能を簡単に追加できるようになります。
 
グローバルに展開している設計事務所およびテクノロジ サービス企業の Tata Elxsi (英語) は自社の OTT プラットフォーム SaaS である TEPlay を Azure Media Services と統合し、クラウドから OTT コンテンツを配信しています。また、実践的な指標と分析に重点を置いた Quality of Experience (QoE) モニタリング ソリューションの FalconEye も Microsoft Azure で提供します。

Verizon Media (英語) は Azure でストリーミング プラットフォームのベータ版を提供します。Verizon Media Platform はエンタープライズ クラスのマネージド OTT ソリューションで、DRM、広告の挿入、1 対 1 のパーソナライズ セッション、動的なコンテンツ交換、ビデオ配信に対応しています。この統合によってワークフローの簡素化、グローバルなサポートとスケール、Azure で提供されるユニークな各種機能の利用が可能になります。

多くのパートナー様がマイクロソフトのブースで発表を行いますので、ぜひお越しください!

"Short distance. Big impact." を掲げたチャリティ イベント

マイクロソフトは 4K 4Charity Fun Run (英語) イベントをゴールド スポンサーとしてサポートします。これは 2014 年から各種メディア業界のイベントで開催されているランニング兼ウォーキング イベントで、ダイバーシティとインクルージョンの推進に取り組む非営利団体の認知度の向上と経済的な支援を目的としています。ぜひ登録 (英語) してご参加ください。9 月 14 日 (土) 午前 7 時 30 分にアムステルダムのアムステル公園で開催されます。

この機会をお見逃しなく

今年の IBC のマイクロソフト ブースでは、さらにたくさんの製品やサービスをチェックしていただけます。詳細については、メディア業界やエンターテイメント業界のお客様やパートナー様のコミュニティが Azure で取り組んでいるイノベーションに関する記事をお読みください。ご都合が合えば、ホール 1 ブース C27 にお越しいただけると幸いです。ご都合が合わない場合には、残念ですがこちらのリンクから Video IndexerAzure Media Services をお試しください。