人工智能

视觉变换器通过新的“补丁到集群注意力”方法克服挑战

发布于 2023年6月5日

更新于 2026年5月23日

作者

Alex McFarland

人工智能（AI）技术，特别是视觉变换器（ViTs），已经在识别和分类图像中的对象方面显示出巨大的潜力。然而，它们的实际应用受到两个重大挑战的限制：高计算能力要求和决策过程的缺乏透明度。现在，一组研究人员已经开发出了一种突破性的解决方案：一种新的方法，称为“补丁到集群注意力”（PaCa）。PaCa旨在增强ViTs在图像对象识别、分类和分割方面的能力，同时解决长期存在的计算需求和决策清晰度问题。

解决ViTs的挑战：新解决方案的概述

变换器由于其卓越的能力，是AI世界中最具影响力的模型之一。这些模型的力量已经扩展到视觉数据，通过ViTs，一类接受视觉输入的变换器。尽管ViTs在解释和理解图像方面具有巨大的潜力，但它们被两个主要问题所阻碍。

首先，由于图像包含大量数据，ViTs需要大量的计算能力和内存。这一复杂性可能会让许多系统感到不知所措，特别是在处理高分辨率图像时。其次，ViTs中的决策过程往往是混乱和不透明的。用户难以理解ViTs如何区分图像中的各种对象或特征，这对于许多应用程序至关重要。

然而，创新性的PaCa方法提供了对这两个挑战的解决方案。“我们通过使用聚类技术来解决计算和内存需求的挑战，这使得变换器架构能够更好地识别和关注图像中的对象，”北卡罗来纳州立大学电气和计算机工程系副教授、论文的通讯作者田福武（Tianfu Wu）解释道。

PaCa中使用的聚类技术大大降低了计算要求，将问题从二次过程转变为可管理的线性过程。吴进一步解释了该过程，“通过聚类，我们可以使其成为一个线性过程，每个较小的单元只需要与预先确定的集群数量进行比较。”

聚类还可以阐明ViTs中的决策过程。形成集群的过程揭示了ViT如何决定哪些特征在将图像数据分组时是重要的。由于AI只创建有限数量的集群，用户可以轻松理解和检查决策过程，从而显著提高模型的可解释性。

PaCa方法在多个方面优于其他最先进的ViTs

通过全面测试，研究人员发现PaCa方法在多个方面优于其他ViTs。吴解释说，“我们发现PaCa在所有方面都优于Swin和PVT。”测试过程显示，PaCa在图像中的对象分类和识别以及分割方面表现出色，高效地勾勒出图像中的对象边界。此外，它被证明比其他ViTs更节省时间，执行任务更快。

受PaCa成功的鼓舞，研究团队旨在通过在更大的基础数据集上训练它来进一步发展PaCa。通过这样做，他们希望能够推动当前基于图像的AI的边界。

研究论文《PaCa-ViT：在视觉变换器中学习补丁到集群注意力》将在即将举行的IEEE/CVF计算机视觉和模式识别会议上发表。这是一个重要的里程碑，它可能为更高效、更透明、更易访问的AI系统铺平道路。

Alex McFarland

Alex McFarland 是一名人工智能记者和作家，探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。

Unite.AI

视觉变换器通过新的“补丁到集群注意力”方法克服挑战

解决ViTs的挑战：新解决方案的概述

PaCa方法在多个方面优于其他最先进的ViTs

发现更多