存根 什么是计算机视觉? - 联合人工智能
关注我们.

AI 101

什么是计算机视觉?

mm
更新 on

什么是计算机视觉?

计算机视觉算法是目前世界上最具变革性和最强大的人工智能系统之一。 计算机视觉系统 了解其在自动驾驶汽车、机器人导航、面部识别系统等领域的应用。 然而,计算机视觉算法到底是什么? 它们如何工作? 为了回答这些问题,我们将深入研究计算机视觉背后的理论、计算机视觉算法和计算机视觉系统的应用。

计算机视觉系统如何工作?

为了充分理解计算机视觉系统的工作原理,我们首先花点时间讨论人类如何识别物体。 神经心理学对我们如何识别物体的最好解释是一个描述物体初始阶段的模型。 对象识别 物体的基本组成部分,如形状、颜色和深度,首先由大脑解释。来自眼睛的信号进入大脑进行分析,首先提取物体的边缘,然后将这些边缘连接在一起形成更复杂的表示,从而完成物体的形状。

计算机视觉系统的运行方式与人类视觉系统非常相似,首先识别物体的边缘,然后将这些边缘连接在一起形成物体的形状。 最大的区别在于,由于计算机将图像解释为数字,因此计算机视觉系统需要某种方法来解释构成图像的各个像素。 计算机视觉系统将为图像中的像素分配值,并通过检查一个像素区域和另一像素区域之间的值差异,计算机可以辨别边缘。 例如,如果所讨论的图像是灰度图像,则值的范围将从黑色(用 0 表示)到白色(用 255 表示)。 彼此附近的像素值范围的突然变化将指示边缘。

这种比较像素值的基本原理也可以用彩色图像来实现,通过计算机比较不同 RGB 颜色通道之间的差异。 既然我们知道计算机视觉系统如何检查像素值来解释图像,那么让我们看一下计算机视觉系统的架构。

卷积神经网络 (CNN)

计算机视觉任务中使用的主要人工智能类型是 基于卷积神经网络。 到底什么是卷积?

卷积是网络用来确定像素之间值差异的数学过程。 如果您设想一个像素值网格,请想象在该主网格上移动一个较小的网格。 网络正在分析第二个网格下方的值,因此网络一次仅检查少数像素。 这通常称为“滑动窗口”技术。 滑动窗口分析的值由网络进行汇总,这有助于降低图像的复杂性,并使网络更容易提取模式。

卷积神经网络是 分为两个不同的部分、卷积部分和全连接部分。 网络的卷积层是特征提取器,其工作是分析图像中的像素并形成它们的表示,神经网络的密集连接层可以从中学习模式。 卷积层首先检查像素并提取图像的低级特征(例如边缘)。 随后的卷积层将边缘连接在一起形成更复杂的形状。 最后,网络有望获得图像边缘和细节的表示,并将其传递到完全连接的层。

图像注释

虽然卷积神经网络本身可以从图像中提取模式,但通过对图像进行注释可以大大提高计算机视觉系统的准确性。 图片标注 是将元数据添加到图像中的过程,帮助分类器检测图像中的重要对象。 当计算机视觉系统需要高度精确时,例如在控制自动驾驶车辆或机器人时,图像注释的使用就非常重要。

可以通过多种方式对图像进行注释以提高计算机视觉分类器的性能。 图像注释通常使用边界框来完成,边界框包围目标对象的边缘并告诉计算机将注意力集中在该框内。 语义分割是另一种类型的图像注释,它通过为图像中的每个像素分配图像类别来进行操作。 换句话说,每个可以被视为“草”或“树”的像素都将被标记为属于这些类别。 该技术提供像素级精度,但创建语义分割注释比创建简单的边界框更加复杂和耗时。 还存在其他注释方法,例如线和点。

博主和程序员,擅长 机器学习 深度学习 主题。 丹尼尔希望帮助其他人利用人工智能的力量造福社会。