将视觉类比引入人工智能
当前的人工智能模型无法识别“关系”图像相似性,例如地球的层次与桃子相似,缺失了人类感知图像的一个关键方面。 尽管有许多计算机视觉模型能够比较图像并找到它们之间的相似性,但当前一代的比较系统几乎没有或根本没有想象力。考虑一下1960年代经典歌曲Windmills of Your Mind中的一些歌词:像旋转木马在转动,绕着月亮转圈 像时钟的指针扫过表盘的分钟 而世界就像一个在太空中静静旋转的苹果这种比较代表了一种诗意的暗示领域,对人类来说意义远超艺术表达;相反,它与我们如何发展感知系统密切相关;当我们创造我们的“对象”领域时,我们发展了一种视觉相似性能力,因此——例如——描绘桃子和地球的横截面,或如咖啡螺旋和星系分支的分形递归,在我们看来是类比的。通过这种方式,我们可以推断出表面上不相关的对象和对象类型之间的联系,并推断出系统(如重力、动量和表面粘合)可以适用于各种领域和各种尺度。看见事物即使是最新一代的图像比较AI系统,如学习感知图像补丁相似性(LPIPS)和DINO,这些系统通过人类反馈获得信息,也仅进行字面上的表面比较。它们的能力在不存在面孔的地方找到面孔——即空想性错觉——并不代表人类发展出的那种视觉相似性机制,而是因为寻找面孔的算法利用低级面部结构特征,这些特征有时与随机对象一致:为了确定机器是否真的可以发展我们的想象力来跨领域识别视觉相似性,美国的研究人员进行了研究,围绕关系视觉相似性,策划并训练了一个新数据集,旨在迫使不同对象之间形成抽象关系,这些对象尽管如此仍由抽象关系连接:为数据集开发的字幕系统促进了异常抽象的注释,旨在迫使AI系统关注基本特征而不是特定的局部细节:策划的集合及其不寻常的字幕风格推动了作者的新提议指标relsim,作者已将其微调为视觉语言模型(VLM)。新方法借鉴了认知科学的方法,特别是Dedre Gentner的结构映射理论(类比研究)和Amos Tversky的关系相似性和属性相似性定义。作者声明:‘[人类]通过感知处理属性相似性,但关系相似性需要概念抽象,通常由语言或先验知识支持。这表明识别关系相似性首先需要理解图像,利用知识,并抽象其基本结构。’新论文题为关系视觉相似性,并附有项目网站(请参阅本文末尾嵌入的视频)。方法研究人员使用了最著名的超大规模数据集之一作为其集合的起点——LAION-2B:从LAION-2B中提取了可能包含弹性关系结构的114,000张图像,涉及过滤大量存在于最小策划数据集中的低质量图像。为了创建此选择过程的管道,作者利用了Qwen2.5-VL-7B,利用了1,300个正面和11,000个负面的人类标记示例:论文指出:‘注释者被指示:“您能在此图像中看到任何关系模式、逻辑或结构,这可能对创建或链接到另一个图像有用吗?”微调模型与人类判断达成93%的一致性,当应用于LAION-2B时,识别出N = 114k张图像为关系上有趣的。’为了生成关系标签,研究人员提示Qwen模型描述图像集背后的共享逻辑,而不命名特定对象。当模型仅看到一张图像时,这种抽象很难获得,但当多个示例展示基本模式时,这变得可行。生成的组级字幕用占位符如‘{Subject}’或‘{Type of Motion}’替换特定术语,使其具有广泛的适用性。在人工验证后,每个字幕与其组中的所有图像配对。使用了500多个这样的组来训练模型,然后将其应用于114,000张过滤后的图像,以生成一大批抽象的、关系上注释的样本。数据和测试在使用Qwen2.5-VL-7B提取关系特征后,模型在数据上使用LoRA进行了15,000步的微调,通过八个A100 GPU*。在文本方面,使用all-MiniLM-L6-v2从Sentence-Transformers库嵌入关系字幕。114,000张带字幕的图像数据集被分为100,000用于训练和14,000用于评估。为了测试系统,使用了检索设置:给定一个查询图像,模型必须从一个28,000项的池中找到表达相同关系思想的不同图像。检索池包括14,000个评估图像和14,000个来自LAION-2B的额外样本,从评估集中随机选择1,000个查询进行基准测试。为了评估检索质量,使用GPT-4o对每个查询和检索图像之间的关系相似性进行0到10的评分。还进行了单独的人类研究以评估用户偏好(见下文)。每个参与者被展示一个匿名的查询图像和两个候选图像,一个由提议的方法检索,另一个由基线检索。参与者被问及哪个图像与查询更具关系相似性,或者如果两者都同样接近。对于每个基线,创建了300个三元组,每个三元组由至少三个人评分,产生了大约900个响应。relsim方法与几种已建立的图像到图像相似性方法进行了比较,包括前述的LPIPS和DINO,以及dreamsim和CLIP-I。除了直接计算图像对之间相似性分数的基线,如LPIPS、DINO、dreamsim和CLIP-I,作者还测试了基于字幕的方法,其中Qwen用于为每个图像生成匿名或抽象字幕;然后这作为检索查询。评估了两种检索变体,使用CLIP基于文本到图像检索(CLIP-T)进行文本到图像检索,Qwen-T使用文本到文本检索。两个基于字幕的基线使用了原始的预训练Qwen模型,而不是在关系逻辑上微调的版本。这使作者能够隔离基于组的训练的效果,因为微调模型已暴露于图像集,而不是孤立的示例。现有指标和关系相似性作者最初测试了现有指标是否能够捕捉关系相似性:关于这些结果,作者指出**:‘[LPIPS],仅专注于感知相似性,得分最低(4.56)。[DINO]表现仅略好(5.14),可能是因为它仅在图像数据上以自监督方式训练。[CLIP-I]在基线中表现最强(5.91),可能是因为图像字幕中有时存在一些抽象。’‘然而,CLIP-I仍然表现不如我们的方法,因为获得更好的分数可能需要达到更高层次的抽象,例如那些在匿名字幕中的抽象。’在人类研究中,人类在所有基线中始终更喜欢relsim方法:作者指出:‘这非常令人鼓舞,因为它不仅表明我们的模型,relsim,能够成功检索关系相似的图像,而且再次确认人类确实感知到关系相似性——不仅仅是属性相似性!’为了探索关系和属性相似性如何互补,研究人员使用了一种联合可视化方法。一个单一的查询图像(‘一只狗拿着相机’)与3,000张随机图像进行了比较,并使用关系和属性模型计算相似性:结果揭示了不同类型相似性的聚类:一些图像在关系和视觉上都相似,如其他处于人类姿势的狗;其他图像共享关系逻辑但不共享外观,如不同动物模仿人类动作;其余则都不显示。这种分析表明,两种相似性类型具有不同的作用,并在结合时产生更丰富的结构。用例论文还探讨了一些关系相似性的可能最终用例,包括关系图像检索,这使得图像搜索更符合人类自身创造性看待世界的方式:另一个可能性是类比图像生成,这将允许使用关系结构而不是直接描述进行查询的合成。在当前一代最先进的文本到图像模型中获得的结果比较中,我们可以看到这种方法的结果可能更为多样化: 给定一个输入图像和一个关系提示,模型被要求生成一个表达相同基本概念的新图像。专有模型产生了更忠实的类比,保留了结构逻辑跨越形式的大变化,而开源模型倾向于回归为字面或风格匹配,未能转移更深层次的想法。输出与人类策划的类比进行了比较,后者体现了预期的转变。[/caption>结论生成AI系统似乎会通过将抽象表示纳入其概念化中而显著增强。就目前而言,要求基于概念的图像如“愤怒”或“快乐”往往返回以数据集中这些关联最流行或最多的图像为风格的图像;这是一种记忆而不是抽象。可以推测,如果这一原则可以应用于生成写作——特别是分析性、推测性或虚构性输出,可能会更有益。按下播放。 来源 * A100可以有40GB或80GB的VRAM;论文中未指定。** 作者的引用冗余且被排除。首次发表于2025年12月16日星期二