针对语音转文本、文本转语音和语音翻译的统一语音服务
标准的语音服务提供范围广泛的语音识别和生成功能,包括语音听录、文本转语音和语音翻译。语音服务提供范围广泛的语音识别和生成功能,包括语音听录、文本转语音、语音翻译和说话人辨识。
浏览定价选项
应用筛选器来根据你的需求自定义定价选项。
价格仅是估算值,不应用作实际报价单。实际定价可能因与 Microsoft 签订的协议类型、购买日期和货币汇率而异。价格基于美元计算,并使用在上一个月末最后一个工作日之前的两个工作日内捕获的伦敦收盘即期汇率进行转换。如果本月底之前的两个工作日在主要市场中属于银行假日,则汇率确定日通常是紧接在此两个工作日之后的一天。此汇率适用于下个月的所有交易。登录到 Azure 定价计算器查看基于你与 Microsoft 的当前计划/产品/服务的定价。有关定价或请求报价的详细信息,请联系 Azure 销售专家。请参阅经常询问有关 Azure 定价的问题。
美国政府实体有资格从授权解决方案提供商处购买 Azure 政府服务(无需预付定金),或者可直接通过即用即付在线订阅购买。
重要提示 - 该价格 (R$) 只是一个参考;这是一项国际交易,最终价格受汇率和所含 IOF 税的影响。不会发布 eNF。
美国政府实体有资格从授权解决方案提供商处购买 Azure 政府服务(无需预付定金),或者可直接通过即用即付在线订阅购买。
重要提示 - 该价格 (R$) 只是一个参考;这是一项国际交易,最终价格受汇率和所含 IOF 税的影响。不会发布 eNF。
免费(F0)
类别 | 功能 | 价格 |
---|---|---|
语音转文本 (按秒计费) |
标准 | 每月 5 小时免费音频3 |
自定义 |
每月 5 小时免费音频3 终结点托管服务: 每月 1 个模型免费1 |
|
对话听录多声道音频 预览版 | 每月 5 小时免费音频 | |
文本转语音 (按字符计费) |
神经网络版 | 每月 0.5 million 个字符免费 |
语音翻译 (按秒计费) |
标准 | 每月 5 小时免费音频 |
说话人识别 (按事务计费) |
说话人验证2 | 每月 10,000 个免费事务 |
说话人识别2 | 每月 10,000 个免费事务 | |
语音配置文件存储 | 每月 10,000 个免费事务 |
即用即付: 仅为所用内容付费。
类别 | 价格 | |
---|---|---|
语音转文本 (按秒计费) |
标准 |
实时听录: 每小时 $- 快速听录预览: 每小时 $-9 批量听录: 每小时 $-1 |
自定义 |
实时听录: 每小时 $- 批量听录: 每小时 $-1 终结点托管服务: $-/模型/小时 自定义语音识别训练5: 每计算小时数 $- |
|
增强的加载项功能:
|
real_time: $- /小时/功能 批处理(连续语言标识、说话人分割):包含在标准/自定义中(不收取额外费用) |
|
对话听录多声道音频 预览版 | 每小时 $-2 | |
语音翻译 (按秒计费) |
实时语音翻译 | 每小时音频 $-3 |
视频翻译预览 |
批处理: 每输出视频分钟 $- 内容编辑: 每输出视频分钟 $- 个人声音: 每输出视频分钟 $- |
|
文本转语音 8 | 标准语音 |
神经网络版: 每 100 万个字符 $- 神经网络 HD4: 每 100 万个字符 $- |
自定义语音 |
专业声音:
合成:每 100 万个字符 $-
语音模型训练: 每计算小时数 $-,最高为 每次培训 $- 终结点托管服务: $-/模型/小时 |
|
个人声音6:
合成:每 100 万个字符 $-
语音创建: 免费 语音配置文件存储:每月每 1000 个语音配置文件 $- |
||
增强的加载项功能: 虚拟形象 | 标准: $-/分钟 | |
自定义:
实时合成: 每分钟 $-
批量合成: 每分钟 $- 终结点托管: 每小时每个模型 $- |
||
说话人识别 (按事务计费) |
说话人验证7 | $-/每 1,000 个事务 |
说话人识别7 | $-/每 1,000 个事务 | |
语音配置文件存储 | 每 1,000 个语音配置文件 $-(每月有 10,000 个免费语音配置文件) |
承诺层级 - Azure - 标准
类别 | 功能 | 价格(每月) | 超额 |
---|---|---|---|
语音转文本 | 标准 | 2,000 个小时的定价为 $- | $- 每小时 |
10,000 个小时的定价为 $- | $- 每小时 | ||
50,000 个小时的定价为 $- | $- 每小时 | ||
自定义 | 2,000 个小时的定价为 $- | $- 每小时 | |
10,000 个小时的定价为 $- | $- 每小时 | ||
50,000 个小时的定价为 $- | $- 每小时 | ||
增强的加载项功能:2
|
2,000 个小时的定价为 $- | $- 每小时 | |
10,000 个小时的定价为 $- | $- 每小时 | ||
50,000 个小时的定价为 $- | $- 每小时 | ||
文本转语音 | 神经网络版1 | 80 百万个字符的定价为 $- | 每 1 百万个字符的定价为 $- |
400 百万个字符的定价为 $- | 每 1 百万个字符的定价为 $- | ||
2,000 百万个字符的定价为 $- | 每 1 百万个字符的定价为 $- |
1仅包含实时合成,不包括长音频。
2仅实时语音转文本、批量语音转文本中附带的连续语言标识和说话人识别加载项功能。
承诺层级 - 已连接的容器
类别 | 功能 | 价格(每月) | 超额 |
---|---|---|---|
语音转文本2 | 标准 | 2,000 个小时的定价为 $- | $- 每小时 |
10,000 个小时的定价为 $- | $- 每小时 | ||
50,000 个小时的定价为 $- | $- 每小时 | ||
自定义 | 2,000 个小时的定价为 $- | $- 每小时 | |
10,000 个小时的定价为 $- | $- 每小时 | ||
50,000 个小时的定价为 $- | $- 每小时 | ||
增强的加载项功能:2
|
2,000 个小时的定价为 $- | $- 每小时 | |
10,000 个小时的定价为 $- | $- 每小时 | ||
50,000 个小时的定价为 $- | $- 每小时 | ||
文本转语音 | 神经网络版1 | 80 百万个字符的定价为 $- | 每 1 百万个字符的定价为 $- |
400 百万个字符的定价为 $- | 每 1 百万个字符的定价为 $- | ||
2,000 百万个字符的定价为 $- | 每 1 百万个字符的定价为 $- |
类别 | 功能 | 价格(每年) | 最大使用量(每年) | 预计使用量(每月) |
---|---|---|---|---|
语音转文本2 | 标准 |
$-
$- 注册以获取访问权限 了解详细信息 |
12 万小时
60 万小时 |
1 万小时
5 万小时 |
自定义 |
$-
$- 注册以获取访问权限 了解详细信息 |
12 万小时
60 万小时 |
1 万小时
5 万小时 |
|
增强的加载项功能:
|
$-
$- |
12 万小时
60 万小时 |
1 万小时
5 万小时 |
|
文本转语音 | 神经网络版1 |
$-
$- 注册以获取访问权限 了解详细信息 |
4.8B 字符
24B 字符 |
4 亿字符
2000M 字符 |
1仅包含实时合成,不包括长音频。
2定价适用于实时和批处理用例。容器没有单独的批处理定价。
这些功能正被弃用,仅供现有客户使用。 检查详细信息并了解如何迁移到新功能。
实例 | 类别 | 功能 | 价格 |
---|---|---|---|
免费 - Web/容器 1 并发请求 |
文本转语音 | 标准 | 每月 5 million 个字符免费 |
自定义 |
每月 5 million 个字符免费 终结点托管服务: 每月 1 个模型免费 |
||
标准 - Web/容器 基础模型 100 个并发请求 自定义模型 20 个并发请求 |
文本转语音 | 标准 | 每 100 万个字符 $- |
自定义 |
每 100 万个字符 $- 终结点托管服务: $-/模型/小时 |
Azure 定价和购买选项
其他资源
Azure AI 语音
详细了解 Azure AI 语音 特性和功能。
定价计算器
估计每月使用任何 Azure 产品组合应产生的费用。
文档
查看技术教程、视频和更多 Azure AI 语音 资源。
常见问题解答
-
用户借助语音服务可以根据自己的声学和语言数据采用合适的基准模型,形成可同时用于语音转文本和语音翻译的自定义语音识别模型。
-
语言模型是词语序列的概率分布。语言模型帮助系统根据词语序列本身发生的可能性,从发音类似的单词序列中做出选择。例如,“recognize speech”和“wreck a nice beach”发音类似,但前者的可能性要高得多,因此语言模型会给“recognize speech”分配更高的分值。如果希望应用程序的语音查询包含特定词汇项(例如日常语言中少用的产品名称或专用术语),那么很可能可以通过自定义语言模型获得更好的效果。例如,假如你正在构建通过语音搜索 MSDN 的应用,那么相较于一般语音应用程序,该应用用到“面向对象”、“命名空间”或“.Net”等术语的几率则很可能提升。自定义语言模型能让系统掌握这种差异。
-
在每种语言中,声学模型是一个分类器,将短小声音片段标识为若干不同音素或声音单位中的一种。这些音素可以结合形成词语。例如,“speech”由四个音素“s p iy ch”组成。这些分类约按每秒 100 次的速度进行。自定义声学模型使系统能够学习更好地识别非典型环境中的语音。例如,如果研制了一款面向仓库或工厂工人的应用,那么相应的自定义声学模型可以在这类嘈杂的环境中更准确地识别语音。
-
语音服务提供各种文本转语音 (TTS) 语音字体,但自定义神经语音允许你构建适合自己需求和品牌的自定义语音。阅读博客了解详细信息。
-
语言识别可以帮助识别口语中的语言切换并相应地转录语音。这可应用于音频语言未知或发言者可能会讲多种语言的情况下。单一语言识别不需要额外费用。连续性语言识别是一个增强型附加功能。请访问文档以了解更多信息。
-
- 发音评估评估语音发音,并向演讲者提供关于语音音频准确性和流畅性的反馈。通过发音评估,语言学习者可以练习、获取即时反馈,并改进发音,以便他们能够自信地说话和演示。教师可以使用此功能实时评估多个扬声器的发音。请访问文档了解详细信息。
- 按标准语音转文本收费,例如:
对于 8 秒语音评估,将向你收取大约 $-
与销售专家交谈,演练 Azure 定价情况。了解你的云解决方案的定价。
获取免费云服务和价值 $200 的赠金来探索 Azure 30 天。