Video Indexer の多言語識別と文字起こし
先日の IBC (International Broadcasters Conference) で発表されたように、Microsoft Video Indexer へ多言語の文字起こし機能が導入されます。この機能はプレビュー版として提供されており、すでにマイクロソフトのポータルから体験できるようになっています。IBC2019 で発表された強化点の詳細については、こちらをご覧ください。 グローバル化が進む中で、多言語ビデオはメディア資産として広く使われるようになっています。各国の代表が集まる首脳会議や経済フォーラム、スポーツ選手の記者会見などでは、それぞれの発言者が母国語を使って、自身のメッセージを伝えています。その種のビデオの膨大なアーカイブから、トランスクリプションを自動的に提供しなければならない場合、企業はそういったケース特有の課題に直面することとなります。自動トランスクリプション テクノロジのユーザーは、音声をテキストへ変換する前に、ビデオの言語を明示的に指定することを求められるのです。このマニュアル作業は、複数言語のコンテンツからトランスクリプションを作成していくうえで、スケーラビリティの障害となります。担当者が手作業で、音声セグメントに適切な言語をタグ付けしなければならないからです。 Microsoft Video Indexer は、多言語コンテンツで使われている音声言語を自動的に認識するという、独自の機能を提供しています。このソリューションを利用すれば、実施前のわずらわしい準備工程を手作業ですることなく、多言語コンテンツを容易に文字起こしできるようになります。これによって、大規模なビデオ アーカイブを所有しているユーザーは誰でも、時間と費用の両方を節約でき、さらにコンテンツの見つけられやすさやアクセシビリティに関するシナリオも実現できます。 Video Indexer の多言語音声文字起こし 多言語音声文字起こし機能は Video Indexer ポータルの一部として利用できます。現在、この機能は英語、フランス語、ドイツ語、およびスペイン語に対応しており、入力されるメディア資産で最大 3 種類の言語が使われている場合を想定しています。新しいメディア資産をアップロードする際、ユーザーは下図のように、[Auto-detect multi-language (多言語を自動検出)] というオプションを選択できます。 この機能は API (アプリケーション プログラミング インターフェイス) でもサポートされており、ユーザーはアップロード用 API において、言語として 'multi' を指定することができます。インデックス作成処理が完了すると、ビデオで使われている言語を含んだ JSON (JavaScript Object Notation) 形式のインデックスが生成されます。詳細については、マイクロソフトによるこちらのドキュメントを参照してください。 また、トランスクリプション