Video Indexer と Computer Vision を組み合わせて活用

2019年12月11日 に投稿済み

Program Manager, Azure Media Services, Video Indexer

Azure Media Service の Video Indexer で、高解像度のキーフレームをエクスポートできるようになりました。これまでは、元画像よりも解像度の低いキーフレームがエクスポートされていましたが、このたび高解像度のキーフレーム抽出機能が加わったことで、ユーザーは元画像と同じ画質の画像を得られるようになりました。さらに、マイクロソフトの Computer Vision サービスや Custom Vision サービスが提供する画像ベースの人工知能モデルを利用して、画像からさらなる洞察を引き出せるようにもなりました。これによって、トレーニング済みのモデルやカスタム モデルを使ったさまざまな機能が利用可能となります。Video Indexer で抽出したキーフレームを使うことで、例えば、収益化やブランド保護のためにロゴを発見したり、アクセシビリティを確保するためにシーンの説明文を追加したりできます。また、特定の車や場所など、自社に関係するものが画像に写っていないか探すこともできます。

それでは、今回の新機能で実現可能なユース ケースをいくつか見てみましょう。

キーフレームで画像の説明を自動取得

目の不自由なユーザーでも画像にアクセスしやすくなるよう、各カットに "キャプション" を付ける作業は、Computer Vision の画像説明モデルで自動化できます。このモデルは、画像に対する説明を何通りか提示し、それぞれの説明に対する信頼度も合わせて提供します。ユーザーは、高解像度の各キーフレームに対する説明を取得し、それらをつなぎ合わせることで、画像の説明を音声で行うオーディオ トラックを作成できます。

Computer Vision の画像説明機能

キーフレームによるロゴ検出

Video Indexer は、画像内の音声や視覚テキストからブランド (製品名や企業名) を検出できますが、ロゴからのブランド検出にはまだ対応していません。代わりに、ユーザーはキーフレームを Computer Vision のロゴベースのブランド検出モデルに適用して、画像内にロゴが登場していないか調べることができます。

ユーザーは、画像に映し出されるブランドをこのように確認し、管理することで、ブランドを保護することもできます。例えば、自社と直接競合する企業のロゴを画像に表示させたくない場合です。また、スポンサー契約やコンテキスト広告を通じて、画像に表示されるブランドから収益を得ることもできます。

さらに、キーフレームをこのモデルに適用した結果と、キーフレームのタイムスタンプとを見比べることにより、ロゴが画像にいつ表示され、どれだけの時間表示されるのかを調べることもできます。こうすることで、例えば画像制作者とスポンサー契約を結び、画像内に自社のロゴを一定時間表示してもらう旨を約束している場合などに、契約事項がきちんと守られているかを確認することができます。

Computer Vision のロゴ検出モデルは、はじめから数千種類のブランドを検出および認識できるようになっています。しかし、特定のユース ケースでしか登場しないロゴや、データベースにあらかじめ登録されていないロゴを検出したいときは、どうすればよいのでしょうか。そのような場合、ユーザーは Custom Vision を使って、カスタマイズしたオブジェクト検出器を構築することができます。自社に関係するロゴの画像をアップロードし、それに正確なラベルを付けることで、言わば独自のロゴ記録データベースのトレーニングを行えるのです。

Computer Vision のロゴ検出器による、Microsoft のロゴの検出

Computer Vision と Custom Vision のその他の機能でもキーフレームが利用可能

Computer Vision の API は、画像の説明やロゴの検出以外の機能も提供しています。その中には物体検出画像分類その他が含まれます。これらの機能と高解像度のキーフレームとを組み合わせることで、無限の可能性が生まれます。

例えば、現在の Video Indexer ではすでに、あらかじめ登録されているタイプの一般的な物体を検出できるようになっていますが、Computer Vision の物体検出モデルは、それらの物体を境界ボックス (四角い領域) で囲んで表示することができます。この境界ボックスは、自社の基準にそぐわない特定の物体にぼかしを入れるなどの用途に使えます。

物体検出モデル

高解像度のキーフレームと Custom Vision を組み合わせれば、ユーザーごとの多種多様なユース ケースを達成できます。例えば、モデルをトレーニングして、あるカットに写っている車の種類や猫の品種を判別できるようにすることも可能です。あるいは、シーンに使われているロケ地やセットを特定して、編集作業に役立てることもできるでしょう。検出したい物体が自身のユース ケース特有のものである場合は、Custom Vision を使って、画像にタグを付けられるカスタム分類子を作成するか、画像内の物体にタグや境界ボックスを付けられるカスタム物体検出器を構築しましょう。

ぜひご体験ください

Video Indexer から高解像度のキーフレームを取得できるようになったことで、このほかにも新しいユース ケースが多数生まれるでしょう。使い方は皆さん次第です。Video Indexer でキーフレームを抽出し、Computer Vision や Custom Vision のモデルによる画像処理を施すことで、画像から独自の洞察を得られます。まずは Video Indexer に画像をアップロードし、インデックス化処理が完了したら、高解像度のキーフレームを取得してください。続いてアカウントを作成し、Computer VisionCustom Vision の API を利用してみましょう。

ご質問やフィードバックをお送りください。皆さんのご意見をお待ちしています。UserVoice のページ (英語) に寄せていただいたご意見は、今後の開発の参考といたします。また、下のフォームからもコメントをいただければ幸いです。ご質問は、VISupport@Microsoft.com までメールでお問い合わせください。