什么是计算机视觉?

了解什么是计算机视觉、计算机视觉工作原理以及计算机视觉用途。

计算机视觉

计算机视觉对象是一种计算机科学领域,重点介绍如何使计算机能够识别并了解图像和视频中的人和物。与其他类型的 AI 类似,计算机视觉试图执行和自动化复制人类能力的任务。在这种情况下,计算机视觉试图复制人类眼观事物的方式,以及人类对所见事物的理解方式。

计算机视觉技术的实用应用程序范围使其成为许多新式创新和解决方案的中心组成部分。计算机视觉可以在云中或本地运行。

计算机视觉工作原理

计算机视觉应用程序使用来自传感设备、人工智能、机器学习和深度学习等的输入来模拟人类视觉系统的工作原理。计算机视觉应用程序在使用云中大量视觉数据或图像进行训练的算法上运行。它们可识别此视觉对象中的模式,并使用这些模式来确定其他图像的内容。

如何通过计算机视觉分析图像

  • 传感设备捕获图像。传感设备通常就是一个照相机,但可能是摄像机、医学成像设备或任何其他类型的设备,可捕获图像进行分析。
  • 然后,图像会发送至解释设备。解释设备使用模式识别功能将图像细分,将图像中的模式与已知模式库进行比较,并确定图像中是否有任何内容是匹配项。模式可具有一般性,如特定类型物体的外观,也可以基于位于标识符(如面部特征)。
  • 用户请求有关图像的特定信息,解释设备则根据对图像的分析提供所请求的信息。

深度学习和计算机视觉

新式计算机视觉应用程序正从用于分析图像的统计方法发生转变,并逐渐依赖于所谓的深度学习。通过深度学习,计算机视觉应用程序在一种名为神经网络的算法上运行,这使其可以提供更准确的图像分析。此外,深度学习还使计算机视觉程序可保留其分析的每张图像中的信息,这样一来,使用得越多,深度学习就越来越准确。

计算机视觉功能

计算机视觉程序在处理图像和返回信息时可通过三种主要功能来完成:

系统根据定义的类别来对图像中的物体进行分类。例如,通过物体分类,计算机可以将照片中的人与物区分开来,并确定照片中出现的人数。

系统会识别照片、视频或图像中的特定物体。例如,对于物体识别,系统不仅可以区分照片中的人,还可以分析其外貌,以确定这些用户的身份和特征。

系统将分析视频,以便处理一段时间内运动物体的位置。例如,对于物体跟踪,停车场监视摄像机可以识别停车场的汽车,并提供有关这些汽车在一段时间内的位置和运动信息。

系统识别图像中的字母和数字,并将该文本转换为计算机编码的文本,以便其他计算机应用程序或用户可以对其进行编辑。

计算机视觉用途

计算机视觉是一项强大的功能,可与许多类型的应用程序和传感设备结合使用,以支持多种实际用例。下面只是几种不同类型的计算机视觉应用程序:

内容组织

计算机视觉可用于识别照片中的人或物,并根据该识别情况对其进行整理。此类照片识别应用程序通常用于照片存储和社交媒体应用程序。

文本提取

光学字符识别可用于提升大量文本中所含信息的内容可发现性,并为机器人处理自动化场景启用文档处理。

增强现实

可以利用计算机视觉实时检测和跟踪实体物体。然后,此信息用于将虚拟物体实际放置在物理环境中。

农业

可对通过卫星、无人机或飞机拍摄的农作物图像进行分析,以监测收成、检测杂草出苗或确定农作物营养缺乏的情况。

自动驾驶车辆

自动驾驶汽车利用实时物体识别和跟踪来收集有关汽车发生何种情况的信息,并相应地确定汽车路线。

医疗保健业

可以分析其他医疗设备捕获的照片或图像,帮助医生识别问题,并更快速、准确地进行诊断。

体育运动

物体检测和跟踪用于执行和策略分析。

制造

计算机视觉可监视制造机器以进行维护,还可以用于监视生产线上的产品质量和包装。

空间分析

系统在空间中识别人或物(如汽车),并在该空间中跟踪其运动情况。

人脸识别

计算机视觉可应用在识别个人等方面。

浏览 Azure 计算机视觉解决方案

发现 Azure 认知服务,这是一系列综合性 AI 服务和认知 API,使你能够更轻松地生成具有计算机视觉功能的智能应用。

探索 Azure 中的计算机视觉

通过将视觉功能嵌入你的应用,可提高内容可发现性、加速文本提取和创建更多用户可使用的产品。

了解详细信息