AI 入门 101

什么是计算机视觉?

mm

什么是计算机视觉?

计算机视觉算法是世界上最具变革性和强大的AI系统之一。 计算机视觉系统被应用于自动驾驶汽车、机器人导航、面部识别系统等。然而,什么是计算机视觉算法?它们是如何工作的?为了回答这些问题,我们将深入探讨计算机视觉的理论、计算机视觉算法和计算机视觉系统的应用。

计算机视觉系统如何工作?

为了充分理解计算机视觉系统的工作原理,让我们首先讨论一下人类如何识别物体。神经心理学对物体识别的最佳解释是一个模型,描述了物体识别的初始阶段,即对象的基本组成部分,如形状、颜色和深度首先被大脑解释。从眼睛进入大脑的信号被分析以提取对象的边缘,然后这些边缘被连接成一个更复杂的表示,完成对象的形状。

计算机视觉系统的工作原理与人类视觉系统非常相似,首先是确定对象的边缘,然后将这些边缘连接成对象的形状。计算机视觉系统需要一种方法来解释组成图像的个别像素。计算机视觉系统将为图像中的像素分配值,并通过比较一个区域的像素值与另一个区域的像素值的差异,计算机可以确定边缘。例如,如果图像是灰度图像,则值将从黑色(表示为0)到白色(表示为255)。相邻像素区域之间的值范围的突然变化将指示边缘。

这个基本原理也可以应用于彩色图像,计算机比较不同RGB颜色通道之间的差异。现在我们知道计算机视觉系统如何通过比较像素值来解释图像,让我们来看看计算机视觉系统的架构。

卷积神经网络(CNNs)

计算机视觉任务中使用的主要类型的AI是基于 卷积神经网络 的。什么是卷积?

卷积是网络使用的数学过程,用于确定像素之间的值差异。如果你想象一个像素值的网格,想象一个较小的网格移动在这个主网格上。网络正在分析第二个网格下的值,因此网络只分析一小部分像素。这通常被称为“滑动窗口”技术。网络分析的值被网络总结,这有助于减少图像的复杂性,使网络更容易提取模式。

卷积神经网络分为两个不同的部分,卷积部分和全连接部分。网络的卷积层是特征提取器,其任务是分析图像中的像素并形成表示,这些表示可以被神经网络的密集连接层学习模式。卷积层首先通过分析像素并提取图像的低级特征(如边缘)开始工作。后续的卷积层将边缘连接成更复杂的形状。到最后,网络应该已经有了图像的边缘和细节的表示,可以传递给全连接层。

图像注释

虽然卷积神经网络可以从图像中提取模式,但图像注释可以大大提高计算机视觉系统的准确性。 图像注释 是向图像添加元数据的过程,以帮助分类器检测图像中的重要对象。图像注释在计算机视觉系统需要高度准确的情况下非常重要,例如控制自动驾驶汽车或机器人。

有多种方法可以注释图像以提高计算机视觉分类器的性能。图像注释通常使用边界框完成,边界框围绕目标对象的边缘,并告诉计算机将其注意力集中在框内。语义分割是另一种类型的图像注释,它通过将图像类别分配给图像中的每个像素来工作。换句话说,所有可以被认为是“草”或“树”的像素都将被标记为属于这些类别。这种技术提供了像素级精度,但创建语义分割注释比创建简单的边界框更复杂、更耗时。其他注释方法,如线和点,也存在。

博客作者和程序员,专攻 Machine Learning Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。