AI 入门 101

什么是计算机视觉？

Published December 6, 2019

Updated April 5, 2026

Daniel Nelson

什么是计算机视觉?

计算机视觉算法是目前世界上最具变革性和强大的AI系统之一。计算机视觉系统被应用于自动驾驶汽车、机器人导航、面部识别系统等。然而，计算机视觉算法到底是什么？它们是如何工作的？为了回答这些问题，我们将深入探讨计算机视觉的理论、计算机视觉算法和计算机视觉系统的应用。

计算机视觉系统如何工作?

为了充分理解计算机视觉系统的工作原理，让我们先讨论一下人类如何识别物体。神经心理学对我们识别物体的解释是，物体识别的初始阶段是一个描述大脑首先解释物体的基本组成部分（如形状、颜色和深度）的模型。从眼睛进入大脑的信号被分析以提取物体的边缘，然后这些边缘被连接成一个更复杂的表示来完成物体的形状。
计算机视觉系统的工作原理与人类视觉系统非常相似，首先是确定物体的边缘，然后将这些边缘连接成物体的形状。主要的区别在于，由于计算机将图像解释为数字，因此计算机视觉系统需要某种方式来解释组成图像的个别像素。计算机视觉系统将为图像中的像素分配值，并通过检查一个区域的像素值与另一个区域的像素值之间的差异，计算机可以确定边缘。例如，如果图像是灰度图，则值将从黑色（表示为0）到白色（表示为255）。相邻像素值范围的突然变化将指示边缘。
这个比较像素值的基本原理也可以应用于彩色图像，计算机比较不同RGB颜色通道之间的差异。现在我们知道计算机视觉系统如何通过检查像素值来解释图像，让我们来看看计算机视觉系统的架构。

卷积神经网络（CNNs）

计算机视觉任务中使用的主要AI类型是基于卷积神经网络的。什么是卷积？
卷积是网络用来确定像素值之间差异的数学过程。如果你想象一个像素值的网格，想象一个较小的网格在这个主网格上移动。网络正在分析第二个网格下的值，因此网络一次只分析少数几个像素。这通常被称为“滑动窗口”技术。网络总结了滑动窗口分析的值，这有助于减少图像的复杂性，使网络更容易提取模式。
卷积神经网络分为两个不同的部分，卷积部分和全连接部分。网络的卷积层是特征提取器，其任务是分析图像中的像素并形成表示，这些表示可以让神经网络的密集连接层学习模式。卷积层首先检查像素并提取图像的低级特征，例如边缘。后续卷积层将边缘连接成更复杂的形状。到最后，网络应该已经对图像的边缘和细节有了表示，可以将其传递给全连接层。

图像注释

虽然卷积神经网络可以从图像中提取模式，但通过注释图像可以大大提高计算机视觉系统的准确性。图像注释是将元数据添加到图像中，以帮助分类器检测图像中的重要对象的过程。图像注释在计算机视觉系统需要高度准确的情况下非常重要，例如控制自动驾驶汽车或机器人。
有多种方法可以注释图像以提高计算机视觉分类器的性能。图像注释通常使用边界框进行，边界框是包围目标对象边缘的框，告诉计算机将注意力集中在框内。语义分割是另一种类型的图像注释，它通过将图像类别分配给图像中的每个像素来工作。换句话说，所有可以被认为是“草”或“树”的像素都将被标记为属于这些类别。该技术提供了像素级精度，但创建语义分割注释比创建简单的边界框更复杂、更耗时。其他注释方法，如线和点，也存在。

Daniel Nelson

博客作者和程序员，专攻 Machine Learning 和 Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。

Unite.AI

什么是计算机视觉？

什么是计算机视觉?

计算机视觉系统如何工作?

卷积神经网络（CNNs）

图像注释

You may like