说话人识别

使用说话人辨识辨别各个说话人或将语音用作验证手段

说话人识别

识别谁正在说话。该 API 可用于确定某个未知说话人的身份。未知说话人的输入音频与选中的说话人组配对,如果发现存在匹配,即返回说话人的身份。

我们选择了 5 位美国总统,并使用他们各自发表的一篇演讲注册这项服务。若要了解该演示的工作原理,请单击下面的示例音频选择一位总统的演讲,或上传自己的语音,测试如何自动识别正在说话的是哪位总统。

在实际操作中查看

巴拉克·奥巴马总统
乔治·沃克·布什总统
比尔·克林顿总统
乔治·赫伯特·沃克·布什总统
罗纳德·里根总统
吉米·卡特总统

想要生成它?

了解认知服务 API

计算机影像

从图像中提取可操作信息

人脸

检测、识别、分析、组织和标记照片中的人脸

墨迹识别器

一种可识别数字墨迹内容(例如手写内容、形状和墨迹文档布局)的 AI 服务

视频索引器

解锁视频见解

自定义视觉

为你独一无二的用例轻松自定义最先进的计算机影像模型

表单识别器

AI 驱动的文档提取服务,可理解表单

文本分析

轻松评估观点和主题以理解用户的需求

文本翻译

通过简单的 REST API 调用即可轻松进行机器翻译

QnA Maker

提取信息,并将其转化为一目了然的对话式答案

语言理解

教会应用理解用户发出的命令

沉浸式阅读器

使各年龄层和各种能力水平的用户都能阅读并理解文本

语音服务

针对语音转文本、文本转语音和语音翻译的统一语音服务

说话人识别

使用语音辨识和验证各个说话人的身份

语音翻译

在应用中轻松集成实时语音翻译

语音转文本

将口述音频转换为文本,以实现更自然的交互

文本转语音 

将文本转换为语音,以创建更加自然、无障碍的交互界面

内容审查器

自动化图像、文本和视频审查

异常检测器

将异常检测功能轻松嵌入到应用中。

个性化体验创建服务

提供个性化用户体验的 AI 服务

准备好让你的应用如虎添翼了吗?