跳过导航

语音转文本

迅速将音频转换为文本,让回复流畅自然。语音转文本 API 是语音服务的一部分。

语音听录

将口述音频转换为文本。调用 API 来识别源自麦克风、其他实时流式处理音频源或录制的音频文件中的音频。音频发送到服务器时,将返回部分识别结果(如果请求)。

你可以使用 API 来生成语音触发式智能应用。尝试播放样带,了解其工作原理。选择目标语言,然后单击麦克风并开始说话。或者只需点击其中一个语音例句。*

在实际操作中查看

若要通过麦克风使用自己的声音尝试演示,请改用支持 WebRTC 的其他浏览器,例如,最新版本的 Microsoft Edge、Firefox 或 Chrome。

想要生成它?

自定义语音服务:使用自定义模型的语音听录

克服语音识别障碍,如说话风格、词汇和背景噪音。我们的语音识别技术结合多个 API 来生成文本输出。客户可以根据自己的需求和可用数据自定义 API。

在实际操作中查看

例句

基线

自定义语音

根据用户的说话风格创建自定义语言模型

不要让各种词汇和说话风格妨碍理解。你可以自定义应用语音识别的语言模型,根据行业的表达、技术、地理或市场术语,甚至扬声器风格进行定制。

借助自定义声学模型来适应用户环境

确保应用的语音识别功能可以在所有环境中使用。通过自定义声学模型,你可以消除背景噪音,匹配用户的预期环境。

使用 Microsoft 的可靠语音模型

在 Microsoft 现有的顶尖模型基础上,构建自己的自定义语音识别模型,实现强大的个性化语音识别。

想要生成它?

浏览语音方案

智能展台

通过将语音服务与语言理解智能服务相结合,使应用和用户能够自然交互。使用“语音转文本”功能捕获用户问题,使用语言理解智能服务分析意向并组织适当的答复,使用“文本转语音”功能将文本合成为语音回复。创建适用于各种场景(如银行、旅游和娱乐)的对话界面。

商务聊天机器人

Commerce chatbotTogether, the Azure Bot Service and Language Understanding service enable developers to create conversational interfaces for various scenarios like banking, travel and entertainment. For example, a hotel’s concierge can use a bot to enhance traditional e-mail and phone call interactions by validating a customer via Azure Active Directory and using Cognitive Services to better contextually process customer requests using text and voice. The Speech recognition service can be added to support voice commands.1237456
  1. 概述
  2. Flow

Azure 机器人服务和语言理解服务结合可使开发人员能够创建针对各种场景的对话接口,如银行、旅游和娱乐。例如,酒店礼宾员可以使用机器人增强传统的电子邮件和电话呼叫交互,方法是通过 Azure Active Directory 验证客户,并使用认知服务更好地根据实际情景利用文字和语音处理客户请求。可以添加语音识别服务来支持语音命令。

  1. 1 客户使用你的移动应用
  2. 2 用户使用 Azure AD B2C 进行身份验证
  3. 3 用户使用自定义应用程序机器人请求信息
  4. 4 认知服务可帮助处理自然语言请求
  5. 5 答复由可使用自然对话精简问题的客户进行审阅
  6. 6 用户对结果感到满意之后,应用程序机器人将更新客户的预订
  7. 7 Application Insights 收集运行时遥测来帮助提高机器人性能和使用率

了解认知服务 API

计算机影像

从图像中提取可操作信息

人脸

检测、识别、分析、组织和标记照片中的人脸

视频索引器

解锁视频见解

内容审查器

自动化图像、文本和视频审查

自定义视觉 预览版

为你独一无二的用例轻松自定义最先进的计算机影像模型

文本分析

轻松评估观点和主题以理解用户的需求

文本翻译

通过简单的 REST API 调用即可轻松进行机器翻译

必应拼写检查

检测并更正应用中的拼写错误

内容审查器

自动化图像、文本和视频审查

语言理解

教会应用理解用户发出的命令

说话人识别 预览版

使用语音辨识和验证各个说话人的身份

语音服务

针对语音转文本、文本转语音和语音翻译的统一语音服务

QnA Maker

提取信息,并将其转化为一目了然的对话式答案

使用语音设备 SDK 构建环境设备并创建自定义唤醒文字

了解更多