主页
Azure 定价
Azure AI 语音定价

Azure AI 语音定价

针对语音转文本、文本转语音和语音翻译的统一语音服务

标准的语音服务提供范围广泛的语音识别和生成功能，包括语音听录、文本转语音和语音翻译。语音服务提供范围广泛的语音识别和生成功能，包括语音听录、文本转语音、语音翻译和说话人辨识。

浏览定价选项

应用筛选器来根据你的需求自定义定价选项。

价格仅是估算值，不应用作实际报价单。实际定价可能因与 Microsoft 签订的协议类型、购买日期和货币汇率而异。价格基于美元计算，并使用在上一个月末最后一个工作日之前的两个工作日内捕获的伦敦收盘即期汇率进行转换。如果本月底之前的两个工作日在主要市场中属于银行假日，则汇率确定日通常是紧接在此两个工作日之后的一天。此汇率适用于下个月的所有交易。登录到 Azure 定价计算器查看基于你与 Microsoft 的当前计划/产品/服务的定价。有关定价或请求报价的详细信息，请联系 Azure 销售专家。请参阅经常询问有关 Azure 定价的问题。

区域:

货币:

美国政府实体有资格从授权解决方案提供商处购买 Azure 政府服务（无需预付定金），或者可直接通过即用即付在线订阅购买。

了解更多

重要提示 - 该价格 (R$) 只是一个参考；这是一项国际交易，最终价格受汇率和所含 IOF 税的影响。不会发布 eNF。

美国政府实体有资格从授权解决方案提供商处购买 Azure 政府服务（无需预付定金），或者可直接通过即用即付在线订阅购买。

了解更多

重要提示 - 该价格 (R$) 只是一个参考；这是一项国际交易，最终价格受汇率和所含 IOF 税的影响。不会发布 eNF。

免费(F0)

请参阅文档以了解有关配额的信息、限制，以及有关如何增加并发请求的说明。

¹7 天后将自动取消未使用的模型。

²说话人识别是受限的访问功能，需要申请访问权限才能使用。

³标准和自定义之间共享语音转文本的免费音频小时数，不支持批处理。
类别	功能	价格
语音转文本 (按秒计费)	标准	每月 5 小时免费音频³
	自定义	每月 5 小时免费音频³ 终结点托管服务：每月 1 个模型免费¹
	对话听录多声道音频 ^预览版	每月 5 小时免费音频
文本转语音 (按字符计费)	神经网络版	每月 0.5 million 个字符免费
语音翻译 (按秒计费)	标准	每月 5 小时免费音频
说话人识别 (按事务计费)	说话人验证²	每月 10,000 个免费事务
	说话人识别²	每月 10,000 个免费事务
	语音配置文件存储	每月 10,000 个免费事务

即用即付: 仅为所用内容付费。

请参阅文档以了解有关配额的信息、限制，以及有关如何增加并发请求的说明。

语音转文本小时数以发送到服务的音频小时数来度量，以秒为增量计费。

¹ 这是公共预览版定价。正式发行版价格将在以后正式发行时进行公布。

² 神经网络定制声音(CNV)是具有 Pro 和 Lite 版本的受限访问功能。在申请访问 Pro 之前，客户可以使用 CNV Lite (公共预览版)录制自己的语音并创建模型以进行演示/评估。查看提供 CNV 的位置。

³ 说话人识别是受限的访问功能，需要申请访问权限才能使用。

⁴ 若要利用此新定价，需要使用新的语音转文本 REST API V3.2 预览版。请参阅创建批量听录 - 语音服务 - Azure AI 服务 | Microsoft Learn，了解有关使用新的 v3.2 预览版 API 的信息。

⁵ 所有 Batch API 版本的批处理价格中都包含了增强的加载项功能。

⁶ 自定义 2023 年 10 月 1 日或之后发布的任何基础模型时，可以使用自定义语音识别培训。

⁷ 此价格包括 1 个音频输入和输出，最多 2 种使用标准或自定义语音转文本和标准翻译的文本翻译语言。对于自定义翻译或 3 种以上的翻译语言，请参考 Azure AI 翻译文本翻译定价页。

⁸ 这反映了公共预览版定价。GA 价格稍后将在 GA 上公布。个人声音是受限访问功能，仅限特定预先批准的用例，需要申请访问权限。若要了解有关服务的详细信息，请检查文档。

⁹ 自定义虚拟形象是受限的访问功能，需要申请访问权限才能使用。
类别	功能	价格
语音转文本 (按秒计费)		实时	Batch v3.2 API 或更高版本⁴
	标准	每小时 $-	每小时 $-
	自定义	每小时 $- 终结点托管服务： $-/模型/小时	每小时 $- 终结点托管: 不适用
	自定义语音识别训练⁶	每计算小时数 $-
	增强的加载项功能: 连续语言标识说话人分离发音评估(韵律、语法、词汇、主题)	$- /小时/功能	包括的连续语言标识和说话人识别⁵
	对话听录多声道音频 ^预览版	每小时 $-¹	N/A
文本转语音 (按字符计费)	神经网络版	实时和批处理合成: 每 100 万个字符 $-
	神经网络 HD	实时和批量合成: 每 100 万个字符 $-
	自定义神经网络²	训练: 每计算小时数 $-，最多每次培训 $- 实时和批处理合成: 每 100 万个字符 $- 终结点托管服务： $-/模型/小时
	个人声音⁸	声音创建：免费语音配置文件存储：每月每 1000 个语音配置文件 $- 合成：每 100 万个字符 $-
文本转语音虚拟形象（每秒计费）	头像	实时和批量合成: 每分钟 $-
文本转语音虚拟形象（每秒计费）	自定义虚拟形象⁹	实时合成: 每分钟 $- 批量合成: 每分钟 $- 终结点托管: 每小时每个模型 $-
语音翻译 (按秒计费)	标准	每小时音频 $-⁷
说话人识别 (按事务计费)	说话人验证³	$-/每 1,000 个事务
	说话人识别³	$-/每 1,000 个事务
	语音配置文件存储	每 1,000 个语音配置文件 $-（每月有 10,000 个免费语音配置文件）

承诺层级 - Azure - 标准

类别	功能	价格（每月）	超额
语音转文本	标准	2,000 个小时的定价为 $-	$- 每小时
		10,000 个小时的定价为 $-	$- 每小时
		50,000 个小时的定价为 $-	$- 每小时
	自定义	2,000 个小时的定价为 $-	$- 每小时
		10,000 个小时的定价为 $-	$- 每小时
		50,000 个小时的定价为 $-	$- 每小时
	增强的加载项功能:² 连续语言标识说话人分离发音评估(韵律、语法、词汇、主题)	2,000 个小时的定价为 $-	$- 每小时
		10,000 个小时的定价为 $-	$- 每小时
		50,000 个小时的定价为 $-	$- 每小时
文本转语音	神经网络版¹	80 百万个字符的定价为 $-	每 1 百万个字符的定价为 $-
		400 百万个字符的定价为 $-	每 1 百万个字符的定价为 $-
		2,000 百万个字符的定价为 $-	每 1 百万个字符的定价为 $-

¹仅包含实时合成，不包括长音频。

²仅实时语音转文本、批量语音转文本中附带的连续语言标识和说话人识别加载项功能。

承诺层级 - 已连接的容器

类别	功能	价格（每月）	超额
语音转文本²	标准	2,000 个小时的定价为 $-	$- 每小时
		10,000 个小时的定价为 $-	$- 每小时
		50,000 个小时的定价为 $-	$- 每小时
	自定义	2,000 个小时的定价为 $-	$- 每小时
		10,000 个小时的定价为 $-	$- 每小时
		50,000 个小时的定价为 $-	$- 每小时
	增强的加载项功能:² 语言识别说话人分离	2,000 个小时的定价为 $-	$- 每小时
		10,000 个小时的定价为 $-	$- 每小时
		50,000 个小时的定价为 $-	$- 每小时
文本转语音	神经网络版¹	80 百万个字符的定价为 $-	每 1 百万个字符的定价为 $-
		400 百万个字符的定价为 $-	每 1 百万个字符的定价为 $-
		2,000 百万个字符的定价为 $-	每 1 百万个字符的定价为 $-

¹仅包含实时合成，不包括长音频。

²定价适用于实时和批处理用例。容器没有单独的批处理定价。

有关承诺层级的信息，请参阅文档。

承诺层级 - 断开连接的容器

注册以访问断开连接的容器中的语音，或了解详细信息

类别	功能	价格(每年)	最大使用量(每年)	预计使用量(每月)
语音转文本²	标准	$- $- 注册以获取访问权限了解详细信息	12 万小时 60 万小时	1 万小时 5 万小时
	自定义	$- $- 注册以获取访问权限了解详细信息	12 万小时 60 万小时	1 万小时 5 万小时
	增强的加载项功能: 语言识别说话人分离	$- $-	12 万小时 60 万小时	1 万小时 5 万小时
文本转语音	神经网络版¹	$- $- 注册以获取访问权限了解详细信息	4.8B 字符 24B 字符	4 亿字符 2000M 字符

¹仅包含实时合成，不包括长音频。

²定价适用于实时和批处理用例。容器没有单独的批处理定价。

这些功能正被弃用，仅供现有客户使用。检查详细信息并了解如何迁移到新功能。

实例	类别	功能	价格
免费 - Web/容器 1 并发请求	文本转语音	标准	每月 5 million 个字符免费
免费 - Web/容器 1 并发请求	文本转语音	自定义	每月 5 million 个字符免费终结点托管服务：每月 1 个模型免费
标准 - Web/容器基础模型 100 个并发请求自定义模型 20 个并发请求	文本转语音	标准	每 100 万个字符 $-
标准 - Web/容器基础模型 100 个并发请求自定义模型 20 个并发请求	文本转语音	自定义	每 100 万个字符 $- 终结点托管服务： $-/模型/小时

Azure 定价和购买选项

直接与我们联系

获取 Azure 定价演练。了解云解决方案的定价、学习成本优化和请求自定义建议。

与销售专家交谈

查看购买方式

通过 Azure 网站、Microsoft 代表或 Azure 合作伙伴购买 Azure 服务。

浏览你的选项

其他资源

常见问题解答

关于 Azure 定价的常见问题解答

- 对于语音转文本和语音翻译，使用量以一秒为增量计费。
- 对于文本转语音: 使用量按字符计费。查看定价说明中的字符定义。
- 对于神经网络定制声音托管：使用量按每秒每个终结点计费。查看定价说明中的详细信息。
- 对于个人声音配置文件存储：使用量按每天每个语音配置文件计费。查看定价说明中的详细信息。
- 对于文本转语音虚拟形象，用量按秒计费。
- 对于语音转文本和文本转语音（包括虚拟形象），自定义模型的终结点托管按每个模型每秒计费。
用户借助语音服务可以根据自己的声学和语言数据采用合适的基准模型，形成可同时用于语音转文本和语音翻译的自定义语音识别模型。
语言模型是词语序列的概率分布。语言模型帮助系统根据词语序列本身发生的可能性，从发音类似的单词序列中做出选择。例如，“recognize speech”和“wreck a nice beach”发音类似，但前者的可能性要高得多，因此语言模型会给“recognize speech”分配更高的分值。如果希望应用程序的语音查询包含特定词汇项（例如日常语言中少用的产品名称或专用术语），那么很可能可以通过自定义语言模型获得更好的效果。例如，假如你正在构建通过语音搜索 MSDN 的应用，那么相较于一般语音应用程序，该应用用到“面向对象”、“命名空间”或“.Net”等术语的几率则很可能提升。自定义语言模型能让系统掌握这种差异。
在每种语言中，声学模型是一个分类器，将短小声音片段标识为若干不同音素或声音单位中的一种。这些音素可以结合形成词语。例如，“speech”由四个音素“s p iy ch”组成。这些分类约按每秒 100 次的速度进行。自定义声学模型使系统能够学习更好地识别非典型环境中的语音。例如，如果研制了一款面向仓库或工厂工人的应用，那么相应的自定义声学模型可以在这类嘈杂的环境中更准确地识别语音。
语音服务提供各种文本转语音 (TTS) 语音字体，但自定义神经语音允许你构建适合自己需求和品牌的自定义语音。阅读博客了解详细信息。
语言识别可以帮助识别口语中的语言切换并相应地转录语音。这可应用于音频语言未知或发言者可能会讲多种语言的情况下。单一语言识别不需要额外费用。连续性语言识别是一个增强型附加功能。请访问文档以了解更多信息。
- 发音评估评估语音发音，并向演讲者提供关于语音音频准确性和流畅性的反馈。通过发音评估，语言学习者可以练习、获取即时反馈，并改进发音，以便他们能够自信地说话和演示。教师可以使用此功能实时评估多个扬声器的发音。请访问文档了解详细信息。
- 按标准语音转文本收费，例如:
  对于 8 秒语音评估，将向你收取大约 $-

与销售专家交谈，演练 Azure 定价情况。了解你的云解决方案的定价。

请求报价

获取免费云服务和价值 $200 的赠金来探索 Azure 30 天。

免费试用 Azure

添加到估价。按“V”在计算器上查看

精选

AI + 机器学习

分析

计算

容器

数据库

DevOps

开发人员工具

混合 + 多云

身份标识

集成

物联网

管理和监管

媒体

迁移

混合现实

移动

联网

安全性

存储

网站

Windows 虚拟桌面

用例

应用程序开发

AI

云迁移和现代化

数据和分析

混合云和基础结构

物联网

安全性和治理

组织类型

资源

Azure AI 语音定价

针对语音转文本、文本转语音和语音翻译的统一语音服务

浏览定价选项

免费(F0)

即用即付: 仅为所用内容付费。

承诺层级 - Azure - 标准

承诺层级 - 已连接的容器

承诺层级 - 断开连接的容器

已弃用

Azure 定价和购买选项

直接与我们联系

查看购买方式

其他资源

Azure AI 语音

定价计算器

文档

常见问题解答