针对语音转文本、文本转语音和语音翻译的统一语音服务
标准的语音服务提供范围广泛的语音识别和生成功能,包括语音听录、文本转语音和语音翻译。语音服务提供范围广泛的语音识别和生成功能,包括语音听录、文本转语音、语音翻译和说话人辨识。
浏览定价选项
应用筛选器来根据你的需求自定义定价选项。
价格只是估算值,不用作实际报价。实际定价可能因与 Microsoft 签订的协议类型、购买日期以及货币汇率而异。价格根据美元计算,并使用每个日历月第一天刷新的汤森路透基准利率进行换算。请登录 Azure 定价计算器 以查看基于当前 Microsoft 计划/产品/服务的定价。有关定价的详细信息或要请求报价,请联系 Azure 销售专家。有关 Azure 定价的详细信息,请参阅常见问题解答。
美国政府实体有资格从授权解决方案提供商处购买 Azure 政府服务(无需预付定金),或者可直接通过即用即付在线订阅购买。
重要提示 - 该价格 (R$) 只是一个参考;这是一项国际交易,最终价格受汇率和所含 IOF 税的影响。不会发布 eNF。
美国政府实体有资格从授权解决方案提供商处购买 Azure 政府服务(无需预付定金),或者可直接通过即用即付在线订阅购买。
重要提示 - 该价格 (R$) 只是一个参考;这是一项国际交易,最终价格受汇率和所含 IOF 税的影响。不会发布 eNF。
免费(F0)
类别 | 功能 | 价格 |
---|---|---|
语音转文本 (按秒计费) |
标准 | 每月 5 小时免费音频 |
自定义 |
每月 5 小时免费音频 终结点托管服务: 每月 1 个模型免费1 |
|
对话听录多声道音频 预览版 | 每月 5 小时免费音频 | |
文本转语音 (按字符计费) |
神经网络版 | 每月 0.5 million 个字符免费 |
语音翻译 (按秒计费) |
标准 | 每月 5 小时免费音频 |
说话人识别 (按事务计费) |
说话人验证2 | 每月 10,000 个免费事务 |
说话人识别2 | 每月 10,000 个免费事务 | |
语音配置文件存储 | 每月 10,000 个免费事务 |
即用即付: 仅为所用内容付费。
类别 | 功能 | 价格 |
---|---|---|
语音转文本 (按秒计费) |
标准 | 每小时音频 $- |
自定义 |
每小时音频 $- 终结点托管服务: $-/模型/小时 |
|
增强的加载项功能:
|
每个功能每音频小时 $- | |
对话听录多声道音频 预览版 | 每小时音频 $-1 | |
文本转语音 (按字符计费) |
神经网络版 |
Real-time & batch synthesis: $-/1M
字符 长音频制作: 每 100 万个字符 $- |
自定义神经网络2 |
培训:每计算小时数 $- - 每次培训 $- Real-time & batch synthesis: 每 100 万个字符 $- 终结点托管服务: $-/模型/小时 长音频制作: 每 100 万个字符 $- |
|
语音翻译 (按秒计费) |
标准 | 每小时音频 $- |
说话人识别 (按事务计费) |
说话人验证3 | $-/每 1,000 个事务 |
说话人识别3 | $-/每 1,000 个事务 | |
语音配置文件存储 | 每 1,000 个语音配置文件 $-(每月有 10,000 个免费语音配置文件) |
承诺层级
实例 | 类别 | 功能 | 价格(每月) | 超额 |
---|---|---|---|---|
Azure - 标准 | 语音转文本 | 标准 | 0 个小时的定价为 $- | $- 每小时 |
2,000 个小时的定价为 $- | $- 每小时 | |||
10,000 个小时的定价为 $- | $- 每小时 | |||
50,000 个小时的定价为 $- | $- 每小时 | |||
自定义 | 2,000 个小时的定价为 $- | $- 每小时 | ||
10,000 个小时的定价为 $- | $- 每小时 | |||
50,000 个小时的定价为 $- | $- 每小时 | |||
文本转语音 | 神经网络版1 | 80 百万个字符的定价为 $- | 每 1 百万个字符的定价为 $- | |
400 百万个字符的定价为 $- | 每 1 百万个字符的定价为 $- | |||
2,000 百万个字符的定价为 $- | 每 1 百万个字符的定价为 $- | |||
连接的容器 - 标准 | 语音转文本 | 标准 | 0 个小时的定价为 $- | $- 每小时 |
2,000 个小时的定价为 $- | $- 每小时 | |||
10,000 个小时的定价为 $- | $- 每小时 | |||
50,000 个小时的定价为 $- | $- 每小时 | |||
自定义 | 2,000 个小时的定价为 $- | $- 每小时 | ||
10,000 个小时的定价为 $- | $- 每小时 | |||
50,000 个小时的定价为 $- | $- 每小时 | |||
文本转语音 | 神经网络版1 | 0 百万个字符的定价为 $- | 每 1 百万个字符的定价为 $- | |
0 百万个字符的定价为 $- | 每 1 百万个字符的定价为 $- | |||
80 百万个字符的定价为 $- | 每 1 百万个字符的定价为 $- | |||
400 百万个字符的定价为 $- | 每 1 百万个字符的定价为 $- | |||
2,000 百万个字符的定价为 $- | 每 1 百万个字符的定价为 $- | |||
已断开连接的容器 | 语音转文本 | 标准 |
注册以获取访问权限
了解详细信息 |
|
自定义 |
注册以获取访问权限
了解详细信息 |
|||
文本转语音 | 神经网络版1 |
注册以获取访问权限
了解详细信息 |
这些功能正被弃用,仅供现有客户使用。 检查详细信息并了解如何迁移到新功能。
实例 | 类别 | 功能 | 价格 |
---|---|---|---|
免费 - Web/容器 1 并发请求 |
文本转语音 | 标准 | 每月 5 million 个字符免费 |
自定义 |
每月 5 million 个字符免费 终结点托管服务: 每月 1 个模型免费 |
||
标准 - Web/容器 基础模型 100 个并发请求 自定义模型 20 个并发请求 |
文本转语音 | 标准 | 每 100 万个字符 $- |
自定义 |
每 100 万个字符 $- 终结点托管服务: $-/模型/小时 |
Azure 定价和购买选项
其他资源
常见问题解答
-
- 对于语音转文本和语音翻译,使用量以一秒为增量计费。
- 对于文本转语音: 使用量按字符计费。查看定价说明中的字符定义。
- 对于语音转文本和文本转语音,自定义模型的终结点托管按每秒每个模型计费。
- 对于自定义命令:按语音转文本、文本转语音和语言理解功能的使用情况跟踪计费。自定义命令不引入新的计费计量。
- 训练语音转文本模型不收取任何费用。唯一的成本是部署后每个模型的终结点托管,然后是自定义语音转文本每音频小时的成本。
-
用户借助语音服务可以根据自己的声学和语言数据采用合适的基准模型,形成可同时用于语音转文本和语音翻译的自定义语音识别模型。
-
语言模型是词语序列的概率分布。语言模型帮助系统根据词语序列本身发生的可能性,从发音类似的单词序列中做出选择。例如,“recognize speech”和“wreck a nice beach”发音类似,但前者的可能性要高得多,因此语言模型会给“recognize speech”分配更高的分值。如果希望应用程序的语音查询包含特定词汇项(例如日常语言中少用的产品名称或专用术语),那么很可能可以通过自定义语言模型获得更好的效果。例如,假如你正在构建通过语音搜索 MSDN 的应用,那么相较于一般语音应用程序,该应用用到“面向对象”、“命名空间”或“.Net”等术语的几率则很可能提升。自定义语言模型能让系统掌握这种差异。
-
在每种语言中,声学模型是一个分类器,将短小声音片段标识为若干不同音素或声音单位中的一种。这些音素可以结合形成词语。例如,“speech”由四个音素“s p iy ch”组成。这些分类约按每秒 100 次的速度进行。自定义声学模型使系统能够学习更好地识别非典型环境中的语音。例如,如果研制了一款面向仓库或工厂工人的应用,那么相应的自定义声学模型可以在这类嘈杂的环境中更准确地识别语音。
-
语音服务提供各种文本转语音 (TTS) 语音字体,但自定义神经语音允许你构建适合自己需求和品牌的自定义语音。阅读博客了解详细信息。
-
在某些情况下,一位或多位说话人可能在同一音频文件或实时演示中使用多种语言。通过连续语言检测,可以识别口述语言的切换,并相应地准确转录语音。此功能将在个人预览版中免费提供,可通过语音 SDK 进行访问。访问文档了解详细信息。
与销售专家交谈,演练 Azure 定价情况。了解你的云解决方案的定价。
获取免费云服务和价值 $200 的赠金来探索 Azure 30 天。