人工智能
视觉变压器通过新的“补丁到集群注意”方法克服了挑战

人工智能 (AI) 技术,尤其是视觉变换器 (ViT),在识别和分类图像中的物体方面展现出巨大的潜力。然而,其实际应用受到两大挑战的限制:高计算能力要求和决策缺乏透明度。如今,一组研究人员开发出了一种突破性的解决方案:一种名为“块到簇注意力机制”(PaCa) 的全新方法。PaCa 旨在增强 ViT 在图像对象识别、分类和分割方面的能力,同时解决长期存在的计算需求和决策清晰度问题。
应对 ViT 的挑战:新解决方案概览
Transformer 凭借其卓越的能力,成为人工智能领域最具影响力的模型之一。这些模型的强大功能已通过 ViT(一种使用视觉输入进行训练的 Transformer)扩展到视觉数据。尽管 ViT 在解释和理解图像方面拥有巨大的潜力,但它们的发展仍受到一些重大问题的阻碍。
首先,由于图像包含大量数据的性质,ViT 需要大量的计算能力和内存。 这种复杂性对于许多系统来说可能是难以承受的,尤其是在处理高分辨率图像时。 其次,ViT 内部的决策过程通常是复杂且不透明的。 用户发现很难理解 ViT 如何区分图像中的各种对象或特征,这对于许多应用程序至关重要。
然而,创新的 PaCa 方法为这两个挑战提供了解决方案。 “我们通过使用聚类技术来解决与计算和内存需求相关的挑战,这使得 Transformer 架构能够更好地识别和关注图像中的对象,”该工作论文的通讯作者、该研究的副教授 Tianfu Wu 解释道。北卡罗来纳州立大学电气与计算机工程专业。
PaCa 中聚类技术的使用大大降低了计算需求,将问题从二次过程转化为易于管理的线性过程。吴进一步解释了这个过程:“通过聚类,我们可以将其变成一个线性过程,其中每个较小的单元只需与预定数量的聚类进行比较。”
聚类还能阐明 ViT 中的决策过程。聚类的形成过程揭示了 ViT 如何确定哪些特征在对图像数据各部分进行分组时至关重要。由于 AI 仅创建有限数量的聚类,用户可以轻松理解和检查决策过程,从而显著提高模型的可解释性。
PaCa 方法优于其他最先进的 ViT
通过全面测试,研究人员发现 PaCa 方法在多个方面优于其他 ViT。 Wu 解释道:“我们发现 PaCa 在各个方面都优于 SWin 和 PVT。” 测试过程表明,PaCa 在对图像中的对象进行分类和识别以及分割方面表现出色,能够有效勾勒出图像中对象的边界。 此外,人们发现它比其他 ViT 更省时、更快地执行任务。
受到 PaCa 成功的鼓舞,研究团队旨在通过在更大的基础数据集上对其进行培训来进一步发展。 通过这样做,他们希望突破基于图像的人工智能目前可能实现的界限。
研究论文“PaCa-ViT:在视觉 Transformer 中学习补丁到集群的注意力,”将在即将举行的 IEEE/CVF 计算机视觉和模式识别会议。 这是一个重要的里程碑,可以为更高效、透明和可访问的人工智能系统铺平道路。










