Speech API サービスの種類

Azure Cognitive Services Speech サービスを使用して、音声テキスト変換、テキスト読み上げ、音声翻訳、話者認識などの音声言語変換を実行できます。

Note

用語やフレーズに関する分析情報を収集したり、話された言語や書かれた言語の詳細なコンテキスト分析を取得したい場合は、Azure Cognitive Service for Language を使用します。

サービス

  • 音声テキスト変換では、オーディオ ストリームをリアルタイムまたはバッチ処理でテキストに変換できます。
  • テキスト読み上げを使用すると、アプリケーションはテキストを人間のような音声に変換できます。
  • 音声翻訳では、オーディオ ストリームの複数言語での音声間翻訳や音声テキスト変換が提供されます。

音声サービスを選択する方法

このフロー チャートは、ニーズに合った音声サービスを選択するのに役立ちます。

音声サービスを選択する方法を示す図。

図の左側には、オーディオ間プロセスとオーディオ テキスト変換プロセスが示されています。

  • 音声テキスト変換は音声ソースからテキスト形式に音声を変換するために使用されます。
  • 音声間変換は、ある言語の音声を別の言語の音声に翻訳するために使用されます。

図の右側には、テキスト オーディオ変換プロセスが示されています。

  • テキスト読み上げはテキスト ソースから音声オーディオを生成するために使用されます。

一般的なユース ケース

次の表では、いくつかの一般的なユース ケース向けの推奨サービスが示されています。

使用事例 使用するサービス
録画動画またはライブ動画のクローズド キャプションを提供する 音声テキスト変換
電話または会議の音声テキストを作成する 音声テキスト変換
自動メモ ディクテーションを実装する 音声テキスト変換
続く処理のために意図されたユーザー入力を特定する 音声テキスト変換
ユーザー入力に対する音声応答を生成する テキスト読み上げ
電話システムの音声メニューを作成する テキスト読み上げ
ハンズフリーのシナリオで、メールまたはテキスト メッセージを読み上げる テキスト読み上げ
鉄道駅や空港などの公共の場所でアナウンスを放送する テキスト読み上げ
音声のリアルタイム字幕や、音声会話の同時双方向翻訳を生成する 音声テキスト変換

共同作成者

この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。

プリンシパルの作成者:

  • Kruti Mehta | Azure シニア Fast-Track エンジニア
  • Oscar Shimabukuro | シニア クラウド ソリューション アーキテクト

その他の共同作成者:

公開されていない LinkedIn プロフィールを見るには、LinkedIn にサインインしてください。

次の手順