• 2 min read

Video Indexer の多言語識別と文字起こし

先日の IBC (International Broadcasters Conference) で発表されたように、Microsoft Video Indexer へ多言語の文字起こし機能が導入されます。この機能はプレビュー版として提供されており、すでにマイクロソフトのポータルから体験できるようになっています。

先日の IBC (International Broadcasters Conference) で発表されたように、Microsoft Video Indexer へ多言語の文字起こし機能が導入されます。この機能はプレビュー版として提供されており、すでにマイクロソフトのポータルから体験できるようになっています。IBC2019 で発表された強化点の詳細については、こちらをご覧ください。

グローバル化が進む中で、多言語ビデオはメディア資産として広く使われるようになっています。各国の代表が集まる首脳会議や経済フォーラム、スポーツ選手の記者会見などでは、それぞれの発言者が母国語を使って、自身のメッセージを伝えています。その種のビデオの膨大なアーカイブから、トランスクリプションを自動的に提供しなければならない場合、企業はそういったケース特有の課題に直面することとなります。自動トランスクリプション テクノロジのユーザーは、音声をテキストへ変換する前に、ビデオの言語を明示的に指定することを求められるのです。このマニュアル作業は、複数言語のコンテンツからトランスクリプションを作成していくうえで、スケーラビリティの障害となります。担当者が手作業で、音声セグメントに適切な言語をタグ付けしなければならないからです。

Microsoft Video Indexer は、多言語コンテンツで使われている音声言語を自動的に認識するという、独自の機能を提供しています。このソリューションを利用すれば、実施前のわずらわしい準備工程を手作業ですることなく、多言語コンテンツを容易に文字起こしできるようになります。これによって、大規模なビデオ アーカイブを所有しているユーザーは誰でも、時間と費用の両方を節約でき、さらにコンテンツの見つけられやすさやアクセシビリティに関するシナリオも実現できます。

Video Indexer の多言語音声文字起こし

多言語音声文字起こし機能は Video Indexer ポータルの一部として利用できます。現在、この機能は英語、フランス語、ドイツ語、およびスペイン語に対応しており、入力されるメディア資産で最大 3 種類の言語が使われている場合を想定しています。新しいメディア資産をアップロードする際、ユーザーは下図のように、[Auto-detect multi-language (多言語を自動検出)] というオプションを選択できます。

Video Indexer ポータルで新たに利用可能となった多言語オプション

この機能は API (アプリケーション プログラミング インターフェイス) でもサポートされており、ユーザーはアップロード用 API において、言語として 'multi' を指定することができます。インデックス作成処理が完了すると、ビデオで使われている言語を含んだ JSON (JavaScript Object Notation) 形式のインデックスが生成されます。詳細については、マイクロソフトによるこちらのドキュメントを参照してください。

また、トランスクリプション セクションの各インスタンスには、書き起こしに使われた言語が記載されます。

2.Video Indexer のタイムラインに表示されたトランスクリプション内の各言語のセグメント

ユーザーは、書き起こされたテキストと特定された言語を時系列で確認したり、ビデオ内の指定位置にジャンプしたり、さらには多言語の文字起こしをビデオ キャプションとして表示させたりすることができます。また生成されたトランスクリプションは、クローズド キャプション ファイル (VTT や TTML、SRT、TXT、CSV) として利用することもできます。

2 種類の言語

手法

音声信号から言語を認識するというのは、複雑なタスクです。音響環境や話し手の性別、年齢といったさまざまな要素が、この特定プロセスに関係してきます。Video Indexer では、スペクトログラムなどの視覚的な形式を使って、音声信号を表現しています。そこで前提となっているのは、それぞれの言語は独自の視覚的パターンを示し、そのパターンはディープ ニューラル ネットワークで学習できるというアイデアです。

このソリューションでは、主に 2 つのステージを通して、多言語メディア コンテンツで使われている言語を特定しています。まずこのソリューションはディープ ニューラル ネットワークを使って、非常に細かい粒度で、すなわちごく短時間ごとに、音声セグメントを分類します。モデルが良いものであれば、使われている言語を正しく認識できますが、それでもやはり言語間の類似性が原因となって、一部のセグメントを誤って分類してしまうことがあります。そこで、マイクロソフトは 2 番目のステージでこれらの誤りを検証し、それに従って出力を改善しています。

3.検出された使用言語とそのタイムライン上での正確な位置を表示している新しいインサイト ウィンドウ

次のステップ

マイクロソフトは、多言語音声の文字起こしに向けた比類のない機能を発表いたしました。Video Indexer が有するこの独自機能によって、ユーザーは多くのビデオにまたがった各言語セグメントの検索をすぐに開始できるようになり、ビデオの内容をより有効に活用できるようになります。今後数か月にかけて、マイクロソフトはサポート言語を増やしたり、モデルの精度を高めたりすることで、この機能をさらに改良していく予定です。

詳細につきましては、Video Indexer のポータルもしくは Video Indexer の開発者ポータル (英語) をご覧いただき、この新機能をご体験ください。この新しい多言語オプションと、使用方法についての詳細はマイクロソフトのドキュメントをご覧ください。

UserVoice (英語) を使ってフィードバックを共有していただれれば幸いです。いただいたフィードバックは、優先的に開発する機能を決める際に参考とさせていただきます。質問等は visupport@microsoft.com 宛ての電子メールでも受け付けています。