语音转文本

一种语音服务功能,可准确地将口述语音转换为文本

使口述音频可操作

快速准确地将音频听录为超过 85 种语言和变体的文本。自定义模型以提高特定于域的术语的准确性。通过对听录的文本启用搜索或分析或方便操作来从口述音频中获得更多价值(全都使用首选编程语言)。

高质量听录

使用最先进的语音识别获取准确的听录。

可自定义模型

将特定单词添加到基本词汇或生成自己的模型。

灵活的部署

在任意位置(在云中或容器边缘)运行语音转文本。

生产就绪

访问跨 Microsoft 产品支持语音识别的同一可靠技术。

使用此演示应用(基于 JavaScript SDK 构建)尝试语音转文本

若要通过麦克风使用自己的声音尝试演示,请改用支持 WebRTC 的其他浏览器,例如,最新版本的 Microsoft Edge、Firefox 或 Chrome。

不会存储你的语音数据

从各种源中准确地听录语音

从一系列源(包括麦克风音频文件Blob 存储)中将音频转换为文本。使用说话人分割聚类来确定说话者、说话内容和说话时间。通过自动设置格式和标点获取可读的脚本。

根据需求自定义语音模型

定制语音模型,以了解组织和行业特定的术语。克服语音识别障碍,如背景噪音、口音或唯一词汇。通过上传音频数据和脚本自定义模型使用 Office 365 数据自动生成自定义模型,以优化组织的语音识别准确性。

随时随地部署,从云到边缘

在数据所在的任何位置运行语音转文本。使用容器和语言检测(预览版)生成更适合强大的云功能和边缘区域的语音应用程序。语音容器支持标准语音和自定义语音。

全面的隐私和安全

  • 语音服务是 Azure 认知服务的一部分,通过 SOC、FedRAMP、PCI DSS、HIPAA、HITECH 和 ISO 认证
  • 你的数据总会是你的。在音频处理期间,不会记录音频输入和听录数据。
  • 随时查看和删除自定义语音数据和模型。数据在存储中时已加密。
  • 语音服务由 Azure 基础结构提供支持,提供了企业级的安全性、可用性、合规性及可管理性。

灵活的定价为你提供所需的功能和控制

仅为你使用的资源付费(无前期成本)。使用语音转文本功能,你可以根据听录的音频小时数进行即用即付。

文档和资源

开始使用

阅读文档

参加 Microsoft Learn 课程

探索代码示例

查看示例代码

查看自定义资源

通过 Speech Studio 自定义语音解决方案。不需要代码。

使用语音转文本生成

KPMG 简化呼叫听录

KPMG 使用语音转文本来转录和编录数千个小时的呼叫,可为其客户减少高达 80% 的合规性成本。

KPMG

Motorola 使用语音帮助第一反应员访问重要数据

Motorola Solutions 正在使用支持语音的虚拟助手来帮助警察和其他紧急第一反应员更快地获取重要的信息。

Motorola Solutions

Universal Electronics 提供支持语音的智能家居体验

Universal Electronics 正在帮助制造商提供适合智能家居设备且支持语音的导航和控制功能 - 提供真正独特的消费者体验。

Universal Electronics

Hochtief 使用语音记录构造缺陷

Hochtief 使用启用了语音的虚拟助手帮助项目经理在项目站点上识别并记录构造缺陷。

Cheetah Mobile

NTT DATA 通过会议见解快速做出决策

NTT DATA 通过实时会议听录从语音数据中获取见解。借助自定义语音识别,他们能够自定义语音识别模型,以了解特定于组织的术语。

NTTDATA

见解支持对话式银行体验

Insight Enterprises 使用支持对话式 AI 的银行解决方案帮助银行为其分支机构提供数字速度和便利性。语音转文本可将用户所说的内容转换为可以处理和分析的数据,使客户能够及时获得相关响应。

Insight Enterprise, Inc.

开始使用语音