语音转文本

将口述音频转换为文本,以实现更自然的交互

用声音进行输入

使用语音服务中的语音转文本功能,快速地将各种来源的音频转换为文本。使用自定义模型来克服常见的语音识别障碍,例如独特的词汇、说话风格或背景噪音。通过帮助所有人实时跟踪和参与对话,使音频内容更便于获取。

突破性创新

得益于由深度神经网络模型提供的领先的语音识别准确性。

实时参与

将音频实时听录为文本,以便对话中的所有参与者都能充分参与。

自定义的语音识别

根据说话风格和特定领域的术语量身定制语音识别。

灵活的部署

在任何地方(在云中、本地或容器边缘)运行语音转文本。

使用突破性语音技术

Enhance your apps with speech capabilities powered by decades of breakthrough research. Microsoft was the first to reach human parity on the Switchboard conversational speech recognition task, and continues to drive cutting-edge research in speech recognition.

了解有关语音识别中人类奇偶校验的详细信息

若要通过麦克风使用自己的声音尝试演示,请改用支持 WebRTC 的其他浏览器,例如,最新版本的 Microsoft Edge、Firefox 或 Chrome。

想要生成它?

使用量身定制的模型优化语音识别

自定义语音识别模型,以克服常见的语音识别障碍。量身定制语言模型,以适应用户的说话风格、口音或独特的词汇,例如地名、产品和特定于行业的表达方式。使用 Office 365 数据自动生成自定义模型,以优化特定于组织的术语的语音识别准确性。

开始使用自定义语音

例句

基线

自定义语音

想要生成它?

从对话中获取见解

实时听录多用户对话,使参与者可以专注于讨论。确定说话者、说话内容、说话时间,并迅速跟进后续步骤。优化多麦克风设备的体验。对听录的文本进行分析,以从对话中提取更多见解。

了解有关对话听录功能的详细信息

随时随地部署,从云到边缘

对于数据安全性和低延迟至关重要的场景,在云中或带有容器的本地运行语音转文本。

了解有关容器中语音的详细信息

面向企业的安全性

  • Microsoft 每年在网络安全研发方面的投资超过  10 亿美元

  • 我们雇佣了3,500 多名安全专家,专门负责数据安全和隐私方面的工作。

  • Azure 拥有的符合性认证超过任何其他云提供商。查看综合列表

通过灵活的定价获取所需的功能、控制和自定义

仅为你使用的资源付费(无前期成本)。使用语音转文本功能,你可以根据听录的音频小时数进行即用即付。

查看语音转文本定价

通过三个步骤开始使用语音转文本

通过注册 Azure 免费帐户获得即时访问权限和 200 美元额度。
登录到 Azure 门户,并添加语音。
通过教程文档了解如何嵌入语音转文本。

语音转文本的开发人员资源

文档和教程

开始使用语音转文本。

课程

参加 Pluralsight 课程,了解使用语音转文本功能的步骤。

用例

了解有关语音转文本场景的详细信息,例如对话和呼叫中心听录。

语音转文本常见问题解答

  • 有关语音转文本支持的语言的完整列表,请参阅我们的文档
  • 使用语音 SDK 和 REST API 轻松捕获来自麦克风的音频、读取流或访问存储中的音频文件。语音 SDK 支持 WAV/PCM 16 位 16 kHz/8 kHz 的单通道音频以进行语音识别。使用语音转文本 REST 终结点听录服务来支持其他音频格式。
  • 请查看区域可用性

语音转文本入门