针对语音转文本、文本转语音和语音翻译的统一语音服务
标准的语音服务提供范围广泛的语音识别和生成功能,包括语音听录、文本转语音和语音翻译。语音服务提供范围广泛的语音识别和生成功能,包括语音听录、文本转语音、语音翻译和说话人辨识。
浏览定价选项
应用筛选器来根据你的需求自定义定价选项。
价格仅是估算值,不应用作实际报价单。实际定价可能因与 Microsoft 签订的协议类型、购买日期和货币汇率而异。价格基于美元计算,并使用在上一个月末最后一个工作日之前的两个工作日内捕获的伦敦收盘即期汇率进行转换。如果本月底之前的两个工作日在主要市场中属于银行假日,则汇率确定日通常是紧接在此两个工作日之后的一天。此汇率适用于下个月的所有交易。登录到 Azure 定价计算器查看基于你与 Microsoft 的当前计划/产品/服务的定价。有关定价或请求报价的详细信息,请联系 Azure 销售专家。请参阅经常询问有关 Azure 定价的问题。
美国政府实体有资格从授权解决方案提供商处购买 Azure 政府服务(无需预付定金),或者可直接通过即用即付在线订阅购买。
重要提示 - 该价格 (R$) 只是一个参考;这是一项国际交易,最终价格受汇率和所含 IOF 税的影响。不会发布 eNF。
美国政府实体有资格从授权解决方案提供商处购买 Azure 政府服务(无需预付定金),或者可直接通过即用即付在线订阅购买。
重要提示 - 该价格 (R$) 只是一个参考;这是一项国际交易,最终价格受汇率和所含 IOF 税的影响。不会发布 eNF。
免费(F0)
类别 | 功能 | 价格 |
---|---|---|
语音转文本 (按秒计费) |
标准 | 每月 5 小时免费音频3 |
自定义 |
每月 5 小时免费音频3 终结点托管服务: 每月 1 个模型免费1 |
|
对话听录多声道音频 预览版 | 每月 5 小时免费音频 | |
文本转语音 (按字符计费) |
神经网络版 | 每月 0.5 million 个字符免费 |
语音翻译 (按秒计费) |
标准 | 每月 5 小时免费音频 |
说话人识别 (按事务计费) |
说话人验证2 | 每月 10,000 个免费事务 |
说话人识别2 | 每月 10,000 个免费事务 | |
语音配置文件存储 | 每月 10,000 个免费事务 |
即用即付: 仅为所用内容付费。
类别 | 价格 | |
---|---|---|
Voice Live Pro (按百万令牌计费)VL1 | 文本 |
输入: $- 缓存输入: $- 输出: $- |
使用 Azure AI 语音的音频 - 标准 |
输入: $- 缓存输入: $- 输出: $- |
|
使用 Azure AI 语音的音频 - 自定义VL2 |
输出: $- |
|
使用 GPT-4o-Realtime 的本机音频 |
输入: $- 缓存输入: $- 输出: $- |
|
Voice Live Basic (按百万令牌计费)VL1 | 文本 |
输入: $- 缓存输入: $- 输出: $- |
使用 Azure AI 语音的音频 - 标准 |
输入: $- 缓存输入: $- 输出: $- |
|
使用 Azure AI 语音的音频 - 自定义VL2 |
输出: $- |
|
使用 GPT-4o Mini-Realtime 的本机音频 |
输入: $- 缓存输入: $- 输出: $- |
|
Voice Live Lite (按百万令牌计费)VL1 | 文本 |
输入: $- 缓存输入: $- 输出: $- |
使用 Azure AI 语音的音频 - 标准 |
输入: $- 缓存输入: $- 输出: $- |
|
使用 Azure AI 语音的音频 - 自定义VL2 |
输出: $- |
|
带 Phi-MM 的本机音频 |
输入: $- 缓存输入: $- |
|
语音转文本 (按秒计费) |
标准听录 |
实时听录: 每小时 $- 快速听录: 每小时 $-9 批量听录: 每小时 $-1 |
自定义听录 |
实时听录: 每小时 $- 批量听录: 每小时 $-1 终结点托管服务: $-/模型/小时 自定义语音识别训练5: 每计算小时数 $- |
|
增强的加载项功能:
|
real_time: $- /小时/功能 批处理(连续语言标识、说话人分割):包含在标准/自定义中(不收取额外费用) |
|
对话听录多声道音频 预览版 | 每小时 $-2 | |
语音翻译 (按秒计费) |
实时语音翻译 | 每小时音频 $-3 |
Live Interpreter |
Input audio: 每小时音频 $- Output text: 每 100 万个字符 $- Output audio (Standard voice): $- per audio hourLI Output audio (Custom voice): $- per audio hourLI |
|
视频翻译 |
输入视频: 每小时 $- 输出视频(标准语音): 每小时 $- 输出视频(个人语音): 每小时 $- |
|
文本转语音 8 | 标准语音 |
神经网络(实时和批处理): 每 100 万个字符 $- 神经网络 HD (实时和批处理)4: 每 100 万个字符 $- |
自定义语音 |
专业声音:
合成(实时和批处理): 每 100 万个字符 $-
合成(神经网络 HD 实时和批处理): 每 100 万个字符 $- 语音模型训练: 每计算小时数 $-,最高为 每次培训 $- 终结点托管服务: $-/模型/小时 |
|
个人声音6:
合成(实时和批处理): 每 100 万个字符 $-
语音创建: 免费 语音配置文件存储:每月每 1000 个语音配置文件 $- |
||
增强的加载项功能: 虚拟形象 |
标准:
交互式虚拟形象(实时): 每分钟 $-
交互式 4K 虚拟形象(实时): 每分钟 $- 虚拟形象视频(批处理): 每分钟 $- 4K 虚拟形象视频(批处理): 每分钟 $- |
|
自定义:
虚拟形象模型训练: 每计算小时数 $-
交互式虚拟形象(实时): 每分钟 $- 交互式 4K 虚拟形象(实时): 每分钟 $- 虚拟形象视频(批处理): 每分钟 $- 4K 虚拟形象视频(批处理): 每分钟 $- 终结点托管: 每小时每个模型 $- |
||
说话人识别 (按事务计费) |
说话人验证7 | $-/每 1,000 个事务 |
说话人识别7 | $-/每 1,000 个事务 | |
语音配置文件存储 | 每 1,000 个语音配置文件 $-(每月有 10,000 个免费语音配置文件) |
承诺层级 - Azure - 标准
类别 | 功能 | 价格(每月) | 超额 |
---|---|---|---|
语音转文本 | 标准 | 2,000 个小时的定价为 $- | $- 每小时 |
10,000 个小时的定价为 $- | $- 每小时 | ||
50,000 个小时的定价为 $- | $- 每小时 | ||
自定义 | 2,000 个小时的定价为 $- | $- 每小时 | |
10,000 个小时的定价为 $- | $- 每小时 | ||
50,000 个小时的定价为 $- | $- 每小时 | ||
增强的加载项功能:2
|
2,000 个小时的定价为 $- | $- 每小时 | |
10,000 个小时的定价为 $- | $- 每小时 | ||
50,000 个小时的定价为 $- | $- 每小时 | ||
文本转语音 | 神经网络版1 | 80 百万个字符的定价为 $- | 每 1 百万个字符的定价为 $- |
400 百万个字符的定价为 $- | 每 1 百万个字符的定价为 $- | ||
2,000 百万个字符的定价为 $- | 每 1 百万个字符的定价为 $- |
1这包括使用预生成的非 HD 和非 AOAI 神经网络语音的实时合成和批量合成。不包括 HD 语音、AOAI 语音、神经网络定制声音和个人声音。
2仅实时语音转文本、批量语音转文本中附带的连续语言标识和说话人识别加载项功能。
承诺层级 - 已连接的容器
类别 | 功能 | 价格(每月) | 超额 |
---|---|---|---|
语音转文本2 | 标准 | 2,000 个小时的定价为 $- | $- 每小时 |
10,000 个小时的定价为 $- | $- 每小时 | ||
50,000 个小时的定价为 $- | $- 每小时 | ||
自定义 | 2,000 个小时的定价为 $- | $- 每小时 | |
10,000 个小时的定价为 $- | $- 每小时 | ||
50,000 个小时的定价为 $- | $- 每小时 | ||
增强的加载项功能:2
|
2,000 个小时的定价为 $- | $- 每小时 | |
10,000 个小时的定价为 $- | $- 每小时 | ||
50,000 个小时的定价为 $- | $- 每小时 | ||
文本转语音 | 神经网络版1 | 80 百万个字符的定价为 $- | 每 1 百万个字符的定价为 $- |
400 百万个字符的定价为 $- | 每 1 百万个字符的定价为 $- | ||
2,000 百万个字符的定价为 $- | 每 1 百万个字符的定价为 $- |
1这包括使用预生成的非 HD 和非 AOAI 神经网络语音的实时合成。不包括 HD 语音、AOAI 语音和自定义声音(专业声音和个人声音)。不包括批处理合成。
2定价适用于实时和批处理用例。容器没有单独的批处理定价。
有关承诺层级的信息,请参阅文档。
类别 | 功能 | 价格(每年) | 最大使用量(每年) | 预计使用量(每月) |
---|---|---|---|---|
语音转文本2 | 标准 |
$-
$- 注册以获取访问权限 了解详细信息 |
12 万小时
60 万小时 |
1 万小时
5 万小时 |
自定义 |
$-
$- 注册以获取访问权限 了解详细信息 |
12 万小时
60 万小时 |
1 万小时
5 万小时 |
|
增强的加载项功能:
|
$-
$- |
12 万小时
60 万小时 |
1 万小时
5 万小时 |
|
文本转语音 | 神经网络版1 |
$-
$- 注册以获取访问权限 了解详细信息 |
4.8B 字符
24B 字符 |
4 亿字符
2000M 字符 |
1这包括使用预生成的非 HD 和非 AOAI 神经网络语音的实时合成。不包括 HD 语音、AOAI 语音和自定义声音(专业声音和个人声音)。不包括批处理合成。
2定价适用于实时和批处理用例。容器没有单独的批处理定价。
这些功能正被弃用,仅供现有客户使用。 检查详细信息并了解如何迁移到新功能。
实例 | 类别 | 功能 | 价格 |
---|---|---|---|
免费 - Web/容器 1 并发请求 |
文本转语音 | 标准 | 每月 5 million 个字符免费 |
自定义 |
每月 5 million 个字符免费 终结点托管服务: 每月 1 个模型免费 |
||
标准 - Web/容器 基础模型 100 个并发请求 自定义模型 20 个并发请求 |
文本转语音 | 标准 | 每 100 万个字符 $- |
自定义 |
每 100 万个字符 $- 终结点托管服务: $-/模型/小时 |
Azure 定价和购买选项
其他资源
Azure AI 语音
详细了解 Azure AI 语音 特性和功能。
定价计算器
估计每月使用任何 Azure 产品组合应产生的费用。
文档
查看技术教程、视频和更多 Azure AI 语音 资源。
常见问题解答
-
用户借助语音服务可以根据自己的声学和语言数据采用合适的基准模型,形成可同时用于语音转文本和语音翻译的自定义语音识别模型。
-
语言模型是词语序列的概率分布。语言模型帮助系统根据词语序列本身发生的可能性,从发音类似的单词序列中做出选择。例如,“recognize speech”和“wreck a nice beach”发音类似,但前者的可能性要高得多,因此语言模型会给“recognize speech”分配更高的分值。如果希望应用程序的语音查询包含特定词汇项(例如日常语言中少用的产品名称或专用术语),那么很可能可以通过自定义语言模型获得更好的效果。例如,假如你正在构建通过语音搜索 MSDN 的应用,那么相较于一般语音应用程序,该应用用到“面向对象”、“命名空间”或“.Net”等术语的几率则很可能提升。自定义语言模型能让系统掌握这种差异。
-
在每种语言中,声学模型是一个分类器,将短小声音片段标识为若干不同音素或声音单位中的一种。这些音素可以结合形成词语。例如,“speech”由四个音素“s p iy ch”组成。这些分类约按每秒 100 次的速度进行。自定义声学模型使系统能够学习更好地识别非典型环境中的语音。例如,如果研制了一款面向仓库或工厂工人的应用,那么相应的自定义声学模型可以在这类嘈杂的环境中更准确地识别语音。
-
语音服务提供各种文本转语音 (TTS) 语音字体,但自定义神经语音允许你构建适合自己需求和品牌的自定义语音。阅读博客了解详细信息。
-
Language identification allows you to identify a switch in spoken language and transcribe speech accordingly. This can be applied in scenarios where the audio language is unknown, or when speaker(s) may speak multiple languages. Single Language Identification is available at no additional cost. Continuous Language Identification is an enhanced add-on feature. Visit docs to learn more.
-
- Pronunciation assessment evaluates speech pronunciation and gives speakers feedback on the accuracy and fluency of spoken audio. With pronunciation assessment, language learners can practice, get instant feedback, and improve their pronunciation so that they can speak and present with confidence. Educators can use the capability to evaluate pronunciation of multiple speakers in real time. Visit docs to learn more.
- It is charged as standard Speech to Text, example:
For evaluation of 8 seconds of speech, you will be charged around $-
与销售专家交谈,演练 Azure 定价情况。了解你的云解决方案的定价。
获取免费云服务和价值 $200 的赠金来探索 Azure 30 天。