跳过导航

认知服务定价 - 自定义语音服务 预览

使用智能 API 以启用影像、语音、语言和知识功能

自定义语音服务让用户能够创建自定义语音识别模型并将其部署到适用于用户应用程序的语音到文本终结点。借助自定义语音服务,可以自定义语音识别器的语言模型,使其掌握应用程序的词汇和用户的说话风格。还可以自定义语音识别器的声学模型,使其更好地匹配应用程序的预期环境和用户群体。

定价详细信息

模型适应免费。

实例 功能 价格预览版
免费 模型部署 每月 1 个模型免费
模型适应 每月 3 小时免费
精确度测试 每月 2 小时免费
横向扩展 不适用
无跟踪 不适用
请求定价 每月 2 小时免费
S2 模型部署 $-/模型/月
模型适应 无限制
精确度测试 前 2 小时免费,之后每小时 $-
横向扩展 $-/单位/天,其中每个单位可以发送 5 个并发请求
无跟踪 $-/模型/月
请求定价 前 2 小时免费,之后每小时 $-

支持和 SLA

  • 包含计费及订阅管理的免费支持。
  • 需要针对预览服务的技术支持?使用我们的论坛
  • 我们保证在标准级别运行的认知服务将在至少 99.9% 的时间可用。没有为免费试用版提供任何 SLA。阅读 SLA
  • 预览期间无 SLA。了解更多

常见问题

自定义语音服务

  • 第 1 层可以同时处理多达 4 个音频(即 4 个转录),并能实时响应。如果用户发送 4 个以上并发音频,则每个后续音频都会被拒绝,同时返回一个错误代码,指示并发识别过多。对于可同时处理 12 个转录的第 2 层也是如此。免费层提供 1 个并发转录。它假定音频会实时上传。如果音频上传速度较快,出于并发性目的,在此音频持续时间结束之前仍会假定继续进行请求(即使可能早已返回识别结果)。

    注意:如果需要更高级别的并发,请联系我们

  • 语言模型是词语序列的概率分布。语言模型帮助系统根据词语序列本身发生的可能性,从发音类似的单词序列中做出选择。例如,“recognize speech”和“wreck a nice beach”发音类似,但前者的可能性要高得多,因此语言模型会给“recognize speech”分配更高的分值。如果希望应用程序的语音查询包含特定词汇项(例如日常语言中少用的产品名称或专用术语),那么很可能可以通过自定义语言模型获得更好的效果。例如,假如你正在构建通过语音搜索 MSDN 的应用,那么相较于一般语音应用程序,该应用用到“面向对象”、“命名空间”或“.Net”等术语的几率则很可能提升。自定义语言模型能让系统掌握这种差异。

  • 在每种语言中,声学模型是一个分类器,将短小声音片段标识为若干不同音素或声音单位中的一种。这些音素可以结合形成词语。例如,“speech”由四个音素“s p iy ch”组成。这些分类约按每秒 100 次的速度进行。自定义声学模型使系统能够学习更好地识别非典型环境中的语音。例如,如果研制了一款面向仓库或工厂工人的应用,那么相应的自定义声学模型可以在这类嘈杂的环境中更准确地识别语音。

  • 短语识别支持最多 15 秒钟的谈话。与语音客户端库一起使用时,当数据被发送到服务器时,客户端会接收到多个部分结果和一个从多个结果中选出的最佳最终结果。

  • 长时听写识别技术支持长达两分钟的语音。与语音客户端库一起使用时,当数据被发送到服务器时,基于服务器指示的语句停顿位置,客户端会接收到多个部分结果和多个最终结果。

  • 例如,如果客户使用 S1 层处理一百万个转录,将对其收取层次价 ($-),前 100,000 个转录按 $-/1,000 个收费,剩余 900,000 个转录按 $-/1,000 个收费。因此,实际上客户需付费 $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500

  • 请在 Microsoft 认知服务网页和自定义语音服务网站 www.cris.ai 处参阅自定义语音服务相关信息。

  • 自定义模型部署是包装自定义模型,然后将其作为服务公开的过程。生成的部署自定义模型会公开终结点,通过该终结点可以访问该自定义模型。用户可以根据需要选择部署的模型数量。

  • 通过自定义语音服务,用户可以根据自己的声学和语言数据来调整基准模型。我们称此过程为模型自定义。

  • 创建自定义模型后,用户可以上传测试数据以评估新创建的模型。用户可以根据需要使用大量数据测试新的自定义模型,即执行不限次数的精确度测试。

  • 部署自定义模型后,该模型的 URI 一次可以处理一个音频请求。在遇到同时向该 URI 发送多个音频请求的情况时,用户可以选择增加到一次处理五个并发请求。通过购买缩放单位可以实现这点。每个缩放单元最多可以保证五个并发音频请求,每个缩放单元的费用为 $200。例如,如果用户有 23 个音频请求,想要同时命中终结点,则需要购买五个缩放单位以保证最多 25 个并发请求。

  • 通过日志管理,用户可以关闭记录其部署模型。注重隐私的用户可以选择每月 $20 关闭记录部署模型。

  • 请求定价是指按部署的自定义模型的终结点处理音频请求的费用。

常规

  • 必应搜索 API 的发票基于事务数(也称为 API 调用数)开具。这些计划即用即付,复杂查询和超过 10 个结果(大多数情况下最多 50 个结果)不会产生额外费用。

  • 如果无意中超出了提及的每秒事务 (TPS) 数,系统会将使用量限制在提及的限制内。如果应用程序所需的 TPS 数比本页面中提及的限制高,请联系 Azure 支持团队

  • 为方便计费,一个事务是指一次成功的必应 API 调用请求(虽然存在 DoS 攻击警告)。为便于记录和报告(例如对于必应统计信息加载项),一个事务是指任意一次必应 API 调用,而无论是否成功。

  • 可以随时更改服务层级。请确保在 API 调用中使用适当的密钥。如果你与 Microsoft 签订了企业协议,请联系帐户主管。

资源

估计每月的 Azure 服务费用

查看 Azure 定价常见问题

了解有关 认知服务 的更多信息

查看技术教程、视频和更多资源

添加到估价。 按“V”在计算器上查看 在计算器上查看

了解并使用 $200 信用额度构建,继续免费使用