人工智能
视觉变换器通过新的“补丁到集群注意力”方法克服挑战

人工智能(AI)技术,特别是视觉变换器(ViTs),已经在识别和分类图像中的对象方面显示出巨大的潜力。然而,它们的实际应用受到两个重大挑战的限制:高计算能力要求和决策过程的缺乏透明度。现在,一组研究人员已经开发出了一种突破性的解决方案:一种新的方法,称为“补丁到集群注意力”(PaCa)。PaCa旨在增强ViTs在图像对象识别、分类和分割方面的能力,同时解决长期存在的计算需求和决策清晰度问题。
解决ViTs的挑战:新解决方案的概述
变换器由于其卓越的能力,是AI世界中最具影响力的模型之一。这些模型的力量已经扩展到视觉数据,通过ViTs,一类接受视觉输入的变换器。尽管ViTs在解释和理解图像方面具有巨大的潜力,但它们被两个主要问题所阻碍。
首先,由于图像包含大量数据,ViTs需要大量的计算能力和内存。这一复杂性可能会让许多系统感到不知所措,特别是在处理高分辨率图像时。其次,ViTs中的决策过程往往是混乱和不透明的。用户难以理解ViTs如何区分图像中的各种对象或特征,这对于许多应用程序至关重要。
然而,创新性的PaCa方法提供了对这两个挑战的解决方案。“我们通过使用聚类技术来解决计算和内存需求的挑战,这使得变换器架构能够更好地识别和关注图像中的对象,”北卡罗来纳州立大学电气和计算机工程系副教授、论文的通讯作者田福武(Tianfu Wu)解释道。
PaCa中使用的聚类技术大大降低了计算要求,将问题从二次过程转变为可管理的线性过程。吴进一步解释了该过程,“通过聚类,我们可以使其成为一个线性过程,每个较小的单元只需要与预先确定的集群数量进行比较。”
聚类还可以阐明ViTs中的决策过程。形成集群的过程揭示了ViT如何决定哪些特征在将图像数据分组时是重要的。由于AI只创建有限数量的集群,用户可以轻松理解和检查决策过程,从而显著提高模型的可解释性。
PaCa方法在多个方面优于其他最先进的ViTs
通过全面测试,研究人员发现PaCa方法在多个方面优于其他ViTs。吴解释说,“我们发现PaCa在所有方面都优于Swin和PVT。”测试过程显示,PaCa在图像中的对象分类和识别以及分割方面表现出色,高效地勾勒出图像中的对象边界。此外,它被证明比其他ViTs更节省时间,执行任务更快。
受PaCa成功的鼓舞,研究团队旨在通过在更大的基础数据集上训练它来进一步发展PaCa。通过这样做,他们希望能够推动当前基于图像的AI的边界。
研究论文《PaCa-ViT:在视觉变换器中学习补丁到集群注意力》将在即将举行的IEEE/CVF计算机视觉和模式识别会议上发表。这是一个重要的里程碑,它可能为更高效、更透明、更易访问的AI系统铺平道路。












