AI 入门 101
什么是计算机视觉?

什么是计算机视觉?
计算机视觉算法是目前世界上最具变革性和强大的AI系统之一。 计算机视觉系统 被应用于自动驾驶汽车、机器人导航、面部识别系统等。然而,计算机视觉算法到底是什么?它们是如何工作的?为了回答这些问题,我们将深入探讨计算机视觉的理论、计算机视觉算法和计算机视觉系统的应用。
计算机视觉系统如何工作?
为了充分理解计算机视觉系统的工作原理,让我们先讨论一下人类如何识别物体。神经心理学对我们识别物体的解释是,物体识别的初始阶段是一个描述大脑首先解释物体的基本组成部分(如形状、颜色和深度)的模型。从眼睛进入大脑的信号被分析以提取物体的边缘,然后这些边缘被连接成一个更复杂的表示来完成物体的形状。
计算机视觉系统的工作原理与人类视觉系统非常相似,首先是确定物体的边缘,然后将这些边缘连接成物体的形状。主要的区别在于,由于计算机将图像解释为数字,因此计算机视觉系统需要某种方式来解释组成图像的个别像素。计算机视觉系统将为图像中的像素分配值,并通过检查一个区域的像素值与另一个区域的像素值之间的差异,计算机可以确定边缘。例如,如果图像是灰度图,则值将从黑色(表示为0)到白色(表示为255)。相邻像素值范围的突然变化将指示边缘。
这个比较像素值的基本原理也可以应用于彩色图像,计算机比较不同RGB颜色通道之间的差异。现在我们知道计算机视觉系统如何通过检查像素值来解释图像,让我们来看看计算机视觉系统的架构。
卷积神经网络(CNNs)
计算机视觉任务中使用的主要AI类型是基于 卷积神经网络 的。什么是卷积?
卷积是网络用来确定像素值之间差异的数学过程。如果你想象一个像素值的网格,想象一个较小的网格在这个主网格上移动。网络正在分析第二个网格下的值,因此网络一次只分析少数几个像素。这通常被称为“滑动窗口”技术。网络总结了滑动窗口分析的值,这有助于减少图像的复杂性,使网络更容易提取模式。
卷积神经网络分为两个不同的部分,卷积部分和全连接部分。网络的卷积层是特征提取器,其任务是分析图像中的像素并形成表示,这些表示可以让神经网络的密集连接层学习模式。卷积层首先检查像素并提取图像的低级特征,例如边缘。后续卷积层将边缘连接成更复杂的形状。到最后,网络应该已经对图像的边缘和细节有了表示,可以将其传递给全连接层。
图像注释
虽然卷积神经网络可以从图像中提取模式,但通过注释图像可以大大提高计算机视觉系统的准确性。 图像注释 是将元数据添加到图像中,以帮助分类器检测图像中的重要对象的过程。图像注释在计算机视觉系统需要高度准确的情况下非常重要,例如控制自动驾驶汽车或机器人。
有多种方法可以注释图像以提高计算机视觉分类器的性能。图像注释通常使用边界框进行,边界框是包围目标对象边缘的框,告诉计算机将注意力集中在框内。语义分割是另一种类型的图像注释,它通过将图像类别分配给图像中的每个像素来工作。换句话说,所有可以被认为是“草”或“树”的像素都将被标记为属于这些类别。该技术提供了像素级精度,但创建语义分割注释比创建简单的边界框更复杂、更耗时。其他注释方法,如线和点,也存在。
