跳到主内容

语音服务定价

针对语音转文本、文本转语音和语音翻译的统一语音服务

标准的语音服务提供范围广泛的语音识别和生成功能,包括语音听录、文本转语音和语音翻译。语音服务提供范围广泛的语音识别和生成功能,包括语音听录、文本转语音、语音翻译和说话人辨识。

浏览定价选项

应用筛选器来根据你的需求自定义定价选项。

价格只是估算值,不用作实际报价。实际定价可能因与 Microsoft 签订的协议类型、购买日期以及货币汇率而异。价格根据美元计算,并使用每个日历月第一天刷新的汤森路透基准利率进行换算。请登录 Azure 定价计算器 以查看基于当前 Microsoft 计划/产品/服务的定价。有关定价的详细信息或要请求报价,请联系 Azure 销售专家。有关 Azure 定价的详细信息,请参阅常见问题解答

免费(F0)

类别 功能 价格
语音转文本
(按秒计费)
标准 每月 5 小时免费音频
自定义 每月 5 小时免费音频
终结点托管服务: 每月 1 个模型免费1
对话听录多声道音频 预览版 每月 5 小时免费音频
文本转语音
(按字符计费)
神经网络版 每月 0.5 million 个字符免费
语音翻译
(按秒计费)
标准 每月 5 小时免费音频
说话人识别
(按事务计费)
说话人验证2 每月 10,000 个免费事务
说话人识别2 每月 10,000 个免费事务
语音配置文件存储 每月 10,000 个免费事务

请参阅文档以了解有关配额的信息、限制,以及有关如何增加并发请求的说明

17 天后将自动取消未使用的模型。

2说话人识别是受限的访问功能,需要申请访问权限才能使用。

即用即付: 仅为所用内容付费。

类别 功能 价格
语音转文本
(按秒计费)
标准 每小时音频 $-
自定义 每小时音频 $-
终结点托管服务: $-/模型/小时
增强的加载项功能:
  • 语言识别
  • 对 3 个以上的发言者进行批量日记处理
每个功能每音频小时 $-
对话听录多声道音频 预览版 每小时音频 $-1
文本转语音
(按字符计费)
神经网络版 Real-time & batch synthesis: $-/1M 字符
长音频制作: 每 100 万个字符 $-
自定义神经网络2 培训:每计算小时数 $- - 每次培训 $-
Real-time & batch synthesis: 每 100 万个字符 $-
终结点托管服务: $-/模型/小时
长音频制作: 每 100 万个字符 $-
语音翻译
(按秒计费)
标准 每小时音频 $-
说话人识别
(按事务计费)
说话人验证3 $-/每 1,000 个事务
说话人识别3 $-/每 1,000 个事务
语音配置文件存储 每 1,000 个语音配置文件 $-(每月有 10,000 个免费语音配置文件)

请参阅文档以了解有关配额的信息、限制,以及有关如何增加并发请求的说明

1 这是公共预览版定价。正式发行版价格将在以后正式发行时进行公布。

2 神经网络定制声音(CNV)是具有 Pro 和 Lite 版本的受限访问功能。在申请访问 Pro 之前,客户可以使用 CNV Lite (公共预览版)录制自己的语音并创建模型以进行演示/评估。查看 提供 CNV 的位置。

3 说话人识别是受限的访问功能,需要申请访问权限才能使用。

承诺层级

实例 类别 功能 价格(每月) 超额
Azure - 标准 语音转文本 标准 0 个小时的定价为 $- $- 每小时
2,000 个小时的定价为 $- $- 每小时
10,000 个小时的定价为 $- $- 每小时
50,000 个小时的定价为 $- $- 每小时
自定义 2,000 个小时的定价为 $- $- 每小时
10,000 个小时的定价为 $- $- 每小时
50,000 个小时的定价为 $- $- 每小时
文本转语音  神经网络版1 80 百万个字符的定价为 $- 每 1 百万个字符的定价为 $-
400 百万个字符的定价为 $- 每 1 百万个字符的定价为 $-
2,000 百万个字符的定价为 $- 每 1 百万个字符的定价为 $-
连接的容器 - 标准 语音转文本 标准 0 个小时的定价为 $- $- 每小时
2,000 个小时的定价为 $- $- 每小时
10,000 个小时的定价为 $- $- 每小时
50,000 个小时的定价为 $- $- 每小时
自定义 2,000 个小时的定价为 $- $- 每小时
10,000 个小时的定价为 $- $- 每小时
50,000 个小时的定价为 $- $- 每小时
文本转语音  神经网络版1 0 百万个字符的定价为 $- 每 1 百万个字符的定价为 $-
0 百万个字符的定价为 $- 每 1 百万个字符的定价为 $-
80 百万个字符的定价为 $- 每 1 百万个字符的定价为 $-
400 百万个字符的定价为 $- 每 1 百万个字符的定价为 $-
2,000 百万个字符的定价为 $- 每 1 百万个字符的定价为 $-
已断开连接的容器 语音转文本 标准 注册以获取访问权限
了解详细信息
自定义 注册以获取访问权限
了解详细信息
文本转语音  神经网络版1 注册以获取访问权限
了解详细信息
1 仅包含实时合成,不包括长音频。

这些功能正被弃用,仅供现有客户使用。 检查详细信息并了解如何迁移到新功能

实例 类别 功能 价格
免费 - Web/容器
1 并发请求
文本转语音  标准 每月 5 million 个字符免费
自定义 每月 5 million 个字符免费
终结点托管服务: 每月 1 个模型免费
标准 - Web/容器
基础模型 100 个并发请求
自定义模型 20 个并发请求
文本转语音  标准 每 100 万个字符 $-
自定义 每 100 万个字符 $-
终结点托管服务: $-/模型/小时

Azure 定价和购买选项

直接与我们联系

获取 Azure 定价演练。了解云解决方案的定价、学习成本优化和请求自定义建议。

与销售专家交谈

查看购买方式

通过 Azure 网站、Microsoft 代表或 Azure 合作伙伴购买 Azure 服务。

浏览你的选项

其他资源

语音服务

详细了解 语音服务 特性和功能。

定价计算器

估计每月使用任何 Azure 产品组合应产生的费用。

文档

查看技术教程、视频和更多 语音服务 资源。

    • 对于语音转文本和语音翻译,使用量以一秒为增量计费。
    • 对于文本转语音: 使用量按字符计费。查看定价说明中的字符定义。
    • 对于语音转文本和文本转语音,自定义模型的终结点托管按每秒每个模型计费。
    • 对于自定义命令:按语音转文本、文本转语音和语言理解功能的使用情况跟踪计费。自定义命令不引入新的计费计量。
    • 训练语音转文本模型不收取任何费用。唯一的成本是部署后每个模型的终结点托管,然后是自定义语音转文本每音频小时的成本。
  • 用户借助语音服务可以根据自己的声学和语言数据采用合适的基准模型,形成可同时用于语音转文本和语音翻译的自定义语音识别模型。

  • 语言模型是词语序列的概率分布。语言模型帮助系统根据词语序列本身发生的可能性,从发音类似的单词序列中做出选择。例如,“recognize speech”和“wreck a nice beach”发音类似,但前者的可能性要高得多,因此语言模型会给“recognize speech”分配更高的分值。如果希望应用程序的语音查询包含特定词汇项(例如日常语言中少用的产品名称或专用术语),那么很可能可以通过自定义语言模型获得更好的效果。例如,假如你正在构建通过语音搜索 MSDN 的应用,那么相较于一般语音应用程序,该应用用到“面向对象”、“命名空间”或“.Net”等术语的几率则很可能提升。自定义语言模型能让系统掌握这种差异。

  • 在每种语言中,声学模型是一个分类器,将短小声音片段标识为若干不同音素或声音单位中的一种。这些音素可以结合形成词语。例如,“speech”由四个音素“s p iy ch”组成。这些分类约按每秒 100 次的速度进行。自定义声学模型使系统能够学习更好地识别非典型环境中的语音。例如,如果研制了一款面向仓库或工厂工人的应用,那么相应的自定义声学模型可以在这类嘈杂的环境中更准确地识别语音。

  • 语音服务提供各种文本转语音 (TTS) 语音字体,但自定义神经语音允许你构建适合自己需求和品牌的自定义语音。阅读博客了解详细信息。

  • 在某些情况下,一位或多位说话人可能在同一音频文件或实时演示中使用多种语言。通过连续语言检测,可以识别口述语言的切换,并相应地准确转录语音。此功能将在个人预览版中免费提供,可通过语音 SDK 进行访问。访问文档了解详细信息。

与销售专家交谈,演练 Azure 定价情况。了解你的云解决方案的定价。

获取免费云服务和价值 $200 的赠金来探索 Azure 30 天。

添加到估价。 按“V”在计算器上查看
可以给你提供什么帮助?