AI 入门 101

什么是计算机视觉？

Published December 6, 2019

Updated May 25, 2026

Daniel Nelson

什么是计算机视觉?

计算机视觉算法是世界上最具变革性和强大的AI系统之一。计算机视觉系统被应用于自动驾驶汽车、机器人导航、面部识别系统等。然而，什么是计算机视觉算法？它们是如何工作的？为了回答这些问题，我们将深入探讨计算机视觉的理论、计算机视觉算法和计算机视觉系统的应用。

计算机视觉系统如何工作?

为了充分理解计算机视觉系统的工作原理，让我们首先讨论一下人类如何识别物体。神经心理学对物体识别的最佳解释是一个模型，描述了物体识别的初始阶段，即对象的基本组成部分，如形状、颜色和深度首先被大脑解释。从眼睛进入大脑的信号被分析以提取对象的边缘，然后这些边缘被连接成一个更复杂的表示，完成对象的形状。

计算机视觉系统的工作原理与人类视觉系统非常相似，首先是确定对象的边缘，然后将这些边缘连接成对象的形状。计算机视觉系统需要一种方法来解释组成图像的个别像素。计算机视觉系统将为图像中的像素分配值，并通过比较一个区域的像素值与另一个区域的像素值的差异，计算机可以确定边缘。例如，如果图像是灰度图像，则值将从黑色（表示为0）到白色（表示为255）。相邻像素区域之间的值范围的突然变化将指示边缘。

这个基本原理也可以应用于彩色图像，计算机比较不同RGB颜色通道之间的差异。现在我们知道计算机视觉系统如何通过比较像素值来解释图像，让我们来看看计算机视觉系统的架构。

卷积神经网络（CNNs）

计算机视觉任务中使用的主要类型的AI是基于卷积神经网络的。什么是卷积？

卷积是网络使用的数学过程，用于确定像素之间的值差异。如果你想象一个像素值的网格，想象一个较小的网格移动在这个主网格上。网络正在分析第二个网格下的值，因此网络只分析一小部分像素。这通常被称为“滑动窗口”技术。网络分析的值被网络总结，这有助于减少图像的复杂性，使网络更容易提取模式。

卷积神经网络分为两个不同的部分，卷积部分和全连接部分。网络的卷积层是特征提取器，其任务是分析图像中的像素并形成表示，这些表示可以被神经网络的密集连接层学习模式。卷积层首先通过分析像素并提取图像的低级特征（如边缘）开始工作。后续的卷积层将边缘连接成更复杂的形状。到最后，网络应该已经有了图像的边缘和细节的表示，可以传递给全连接层。

图像注释

虽然卷积神经网络可以从图像中提取模式，但图像注释可以大大提高计算机视觉系统的准确性。图像注释是向图像添加元数据的过程，以帮助分类器检测图像中的重要对象。图像注释在计算机视觉系统需要高度准确的情况下非常重要，例如控制自动驾驶汽车或机器人。

有多种方法可以注释图像以提高计算机视觉分类器的性能。图像注释通常使用边界框完成，边界框围绕目标对象的边缘，并告诉计算机将其注意力集中在框内。语义分割是另一种类型的图像注释，它通过将图像类别分配给图像中的每个像素来工作。换句话说，所有可以被认为是“草”或“树”的像素都将被标记为属于这些类别。这种技术提供了像素级精度，但创建语义分割注释比创建简单的边界框更复杂、更耗时。其他注释方法，如线和点，也存在。