语音转文本

迅速将音频转换为文本,让回复流畅自然。

认知服务语音转文本提供一系列可嵌入应用的功能,从而支持各种听录方案,包括对话听录语音听录自定义语音听录

对话听录

启用面对面会议听录。对话听录可实时捕获语音,以便所有会议参与者都可以充分参与讨论、识别发言人及发言内容和发言时间并快速跟进后续步骤。

对话听录可用于:

  • 捕获整个会议室内的语音。
  • 使用行业领先的安全性和合规性认证帮助保护数据。
  • 通过与语音服务 SDK 配对,支持使用麦克风和摄影机的会议室。

在实际操作中查看

加载此演示时发生错误,请稍后重试

说话人 脚本

此演示与你的浏览器不兼容。要获得最佳体验,请使用其他浏览器。

想要生成它?

语音听录

将口述音频转换为文本。调用 API 来识别源自麦克风、其他实时流式处理音频源或录制的音频文件中的音频。音频发送到服务器时,将返回部分识别结果(如果请求)。

你可以使用 API 来生成语音触发式智能应用。尝试播放样带,了解其工作原理。选择目标语言,然后单击麦克风并开始说话。或者只需点击其中一个语音例句。*

在实际操作中查看

若要通过麦克风使用自己的声音尝试演示,请改用支持 WebRTC 的其他浏览器,例如,最新版本的 Microsoft Edge、Firefox 或 Chrome。

想要生成它?

自定义语音服务:使用自定义模型进行语音听录

克服语音识别障碍,如说话风格、词汇和背景噪音。我们的语音识别技术结合多个 API 来生成文本输出。客户可以根据自己的需求和可用数据自定义 API。

在实际操作中查看

例句

基线

自定义语音

根据用户的说话风格创建自定义语言模型

不要让各种词汇和说话风格妨碍理解。你可以自定义应用语音识别的语言模型,根据行业的表达、技术、地理或市场术语,甚至扬声器风格进行定制。

借助自定义声学模型来适应用户环境

确保应用的语音识别功能可以在所有环境中使用。通过自定义声学模型,你可以消除背景噪音,匹配用户的预期环境。

使用 Microsoft 的可靠语音模型

在 Microsoft 现有的顶尖模型基础上,构建自己的自定义语音识别模型,实现强大的个性化语音识别。

想要生成它?

浏览语音方案

呼叫中心

Serviços de VozCom os Serviços de Voz, é fácil transcrever todas as chamadas. Indexe a transcrição para pesquisa em texto completo ou aplique a Análise de Texto para detetar o sentimento, o idioma e expressões-chave. Se as suas gravações de centro de atendimento telefónico envolverem terminologia especializada (por exemplo, nomes de produtos ou gíria informática), crie um modelo de linguagem personalizado para ensinar aos Serviços de Voz esse vocabulário. Um modelo acústico personalizado ajuda os Serviços de Voz a compreender os oradores mesmo com ruído de fundo ou ligações telefónicas fracas. Para mais informações, leia sobre como funciona a transcrição em lote com os Serviços de Voz.
  1. 概述

语音服务

概述

利用语音服务,可轻松听录所有通话。为获得见解,可为听录编制索引以执行全文搜索,或应用文本分析来检测情绪、语言和关键短语。如果呼叫中心录制内容使用了专业术语(例如产品名称或 IT 行话),则创建自定义语言模型来向语音服务传授这些词汇。自定义声学模型可帮助语音服务理解说话人的所说内容,甚至在背景嘈杂或电话连接不畅时也可实现。

有关详细信息,请阅读如何结合使用批处理听录和语音服务的相关内容。

  1. 1 针对域调整模型并部署该模型
  2. 2 将录制内容上传到 blob 容器
  3. 3 创建 POST 请求以便进行批处理听录
  4. 4 语音服务将计划听录作业
  5. 5 立体声文件将拆分到两个通道中
  6. 6 将对单声道文件执行说话人分类以区分两个说话人
  7. 7 使用听录 ID 下载听录

了解认知服务 API

计算机影像

从图像中提取可操作信息

人脸

检测、识别、分析、组织和标记照片中的人脸

墨迹识别器 预览版

一种可识别数字墨迹内容(例如手写内容、形状和墨迹文档布局)的 AI 服务

视频索引器

解锁视频见解

自定义视觉

为你独一无二的用例轻松自定义最先进的计算机影像模型

表单识别器 预览版

AI 驱动的文档提取服务,可理解表单

文本分析

轻松评估观点和主题以理解用户的需求

文本翻译

通过简单的 REST API 调用即可轻松进行机器翻译

QnA Maker

提取信息,并将其转化为一目了然的对话式答案

语言理解

教会应用理解用户发出的命令

沉浸式阅读器 预览版

使各年龄层和各种能力水平的用户都能阅读并理解文本

语音服务

针对语音转文本、文本转语音和语音翻译的统一语音服务

说话人识别 预览版

使用语音辨识和验证各个说话人的身份

内容审查器

自动化图像、文本和视频审查

异常检测器 预览版

将异常检测功能轻松嵌入到应用中。

个性化体验创建服务 预览版

提供个性化用户体验的 AI 服务

使用语音设备 SDK 构建环境设备并创建自定义唤醒文字

了解更多