Speech API サービスの種類

Azure Cognitive Services Speech サービスを使用して、音声テキスト変換、テキスト読み上げ、音声翻訳、話者認識などの音声言語変換を実行できます。

Note

用語やフレーズに関する分析情報を収集したり、話された言語や書かれた言語の詳細なコンテキスト分析を取得したい場合は、Azure Cognitive Service for Language を使用します。

サービス

このフローチャートは、ニーズに合った音声サービスを選択するのに役立ちます。

音声サービスを選択する方法を示す図。

図の左側には、オーディオ間プロセスとオーディオテキスト変換プロセスが示されています。

図の右側には、テキストオーディオ変換プロセスが示されています。

次の表では、いくつかの一般的なユースケース向けの推奨サービスが示されています。

使用事例	使用するサービス
録画動画またはライブ動画のクローズドキャプションを提供する	音声テキスト変換
電話または会議の音声テキストを作成する	音声テキスト変換
自動メモディクテーションを実装する	音声テキスト変換
続く処理のために意図されたユーザー入力を特定する	音声テキスト変換
ユーザー入力に対する音声応答を生成する	テキスト読み上げ
電話システムの音声メニューを作成する	テキスト読み上げ
ハンズフリーのシナリオで、メールまたはテキストメッセージを読み上げる	テキスト読み上げ
鉄道駅や空港などの公共の場所でアナウンスを放送する	テキスト読み上げ
音声のリアルタイム字幕や、音声会話の同時双方向翻訳を生成する	音声テキスト変換

この記事は、Microsoft によって保守されています。当初の寄稿者は以下のとおりです。

プリンシパルの作成者:

その他の共同作成者:

公開されていない LinkedIn プロフィールを見るには、LinkedIn にサインインしてください。