你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

语音 API 服务类型

可以使用 Azure 认知服务语音服务执行口语转换,包括语音转文本、文本转语音、语音翻译和说话人辨识。

注意

要收集有关字词或短语的见解或获取口语或书面语言的详细上下文分析,请使用适用于语言的 Azure 认知服务

服务

  • 语音转文本可以实时或批量地将音频流转换为文本。
  • 文本转语音使应用程序能够将文本转换为类似人类的语音。
  • 语音翻译提供实时多语言语音转语音和语音转文本翻译。

如何选择语音服务

此流程图有助于选择适合需求的语音服务:

显示如何选择语音服务的关系图。

图的左侧演示了音频到音频或音频到文本的过程。

  • 语音转文本用于将语音从音频源转换为文本格式。
  • 语音转语音用于将一种语言的语音翻译为另一种语言的语音。

图的右侧演示了文本到音频的过程。

  • 文本转语音用于从文本源生成语言音频。

常见用例

下表为一些常见用例推荐了服务。

使用案例 要使用的服务
为录制的视频或实时视频提供隐藏式字幕 语音转文本
为电话呼叫或会议创建脚本 语音转文本
实现自动笔记听写 语音转文本
确定要进一步处理的目标用户输入 语音转文本
生成对用户输入的语音响应 文本转语音
为电话系统创建语音菜单 文本转语音
在免动手的情形下朗读电子邮件或短信 文本转语音
在火车站或机场等公共场所广播公告 文本转语音
生成语音的实时隐藏式字幕,或口语对话的同时双向翻译等 语音转文本

作者

本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。

主要作者:

其他参与者:

若要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。

后续步骤