Anderson 视角

将视觉类比引入人工智能

发布于 2025年12月16日

更新于 2026年5月17日

作者

Martin Anderson

AI-generated image: comparative cross-sections of a peach and the planet Earth. GPT-image-1, Firefly 3.

当前的人工智能模型无法识别“关系”图像相似性，例如地球的层次结构与桃子的相似性，缺乏人类感知图像的关键方面。

尽管有许多计算机视觉模型能够比较图像并找到图像之间的相似性，但当前的比较系统几乎没有 想象力。考虑一些经典的 1960 年代歌曲的歌词，风车的旋转:

像一个旋转的旋转木马，围绕月亮运转
像一个钟表，其指针飞速掠过其表面的分钟
而世界像一个苹果，在太空中无声地旋转

这种比较代表了一个对人类有意义的诗意暗示领域；它与我们如何发展我们的感知系统有关；当我们创建我们的“对象”领域时，我们发展出视觉相似性的能力，因此 – 例如 – 切面图像显示桃子和地球，或分形递归，如咖啡螺旋和星系分支，在我们看来是类似的。

在这种方式下，我们可以推断出看似无关的对象和对象类型之间的联系，并推断系统（例如重力、动量和表面凝聚力），这些系统可以应用于各种领域和尺度。

看到事物

甚至最新一代的图像比较人工智能系统，例如 LPIPS 和 DINO，这些系统受到人类反馈的影响，但它们只进行字面上的表面比较。

它们能够在不存在的地方找到面孔 – 即妄想 – 并不代表人类发展的视觉相似性机制，而是因为面部识别算法利用低级面部结构特征，有时与随机对象相符:

在“面孔与事物”数据集中，面部识别的假阳性示例。 来源

为了确定机器是否真的可以发展出我们识别视觉相似性的想象力，美国的研究人员进行了一项关于 关系视觉相似性 的研究，策划和训练了一个新的数据集，旨在在不同对象之间形成抽象关系，这些对象尽管不同，但却通过抽象关系联系在一起:

大多数人工智能模型仅在图像共享表面特征（如形状或颜色）时才会识别相似性，这就是为什么它们只将组 B（上图）与参考图像链接起来的原因。相比之下，人类不仅可以看到组 B 的相似性，还可以看到组 A 的相似性 – 不是因为图像看起来相似，而是因为它们遵循相同的潜在逻辑，例如显示随时间的变化。新的工作试图复制这种结构或关系相似性，旨在使机器感知更接近人类推理。来源

该数据集的字幕系统旨在强制人工智能系统关注基本特征，而不是具体的局部细节:

为作者的“relsim”度量贡献的预测“匿名”字幕。

该数据集和其独特的字幕风格促成了作者提出的新的度量标准 relsim，该度量标准已被微调到一个视觉语言模型（VLM）中。

典型数据集的字幕风格与 relsim 方法（底行）对比，后者强调关系相似性。

该新方法借鉴了认知科学的方法，特别是 Dedre Gentner 的结构映射理论（一种关于类比的研究）和 Amos Tversky 的关系相似性和属性相似性的定义。

来自相关项目网站的关系相似性示例。 来源

作者们指出:

‘[人类]感知性地处理属性相似性，但关系相似性需要概念抽象，通常由语言或先前的知识支持。因此，识别关系相似性首先需要理解图像，利用知识，并抽象出其潜在结构。’

该新论文的标题为 关系视觉相似性，并附有一个项目网站（请参阅文章末尾的视频）。

方法

研究人员使用最著名的超大规模数据集之一作为他们自己的集合的起点 – LAION-2B:

LAION-2B 集合中的一个条目的元数据。 来源

从 LAION-2B 中提取了 114,000 张可能包含弹性关系结构的图像，包括对数据集中许多低质量图像的过滤。

为了创建此选择过程的管道，作者们使用了 Qwen2.5-VL-7B，利用 1,300 个正面和 11,000 个负面的人工标记示例:

relsim 系统的训练分三个阶段:从 LAION-2B 中过滤图像以获取关系内容；为每个组分配一个共享的匿名字幕，捕获其潜在逻辑；并使用对比损失学习将图像与字幕匹配。

论文指出:

‘注释器被指示:“您能在此图像中看到任何关系模式、逻辑或结构，可以用于创建或链接到另一个图像吗？”微调模型在人类判断中达到 93% 的一致性，当应用于 LAION-2B 时，产生了 N = 114k 个被识别为关系感兴趣的图像。’

为了生成关系标签，研究人员提示 Qwen 模型描述图像集的共享逻辑，而不命名特定对象。这种抽象在模型仅看到一个图像时很难获得，但当多个示例展示潜在模式时变得可行。

生成的组级字幕用占位符（如 ‘{主题}’ 或 ‘{类型的运动}’）替换具体术语，使它们具有广泛的适用性。

在人工验证后，每个字幕都与其组中的所有图像配对。使用超过 500 个这样的组来训练模型，然后将其应用于 114,000 个过滤图像，以生成大量抽象的、关系注释的样本。

数据和测试

在使用 Qwen2.5-VL-7B 提取关系特征后，模型使用 LoRA 进行了 15,000 步的微调，使用八个 A100 GPU*。对于文本方面，关系字幕使用 all-MiniLM-L6-v2 从 Sentence-Transformers 库中嵌入。

包含 114,000 个字幕图像的数据集被分割为 100,000 个用于训练和 14,000 个用于评估。为了测试系统，使用了检索设置:给定一个查询图像，模型必须从 28,000 个项目池中找到一个表达相同关系想法的不同图像。检索池包括 14,000 个评估图像和 14,000 个来自 LAION-2B 的其他样本，其中 1,000 个查询从评估集中随机选择用于基准测试。

为了评估检索质量，使用 GPT-4o 根据与查询图像的关系相似性对每个检索图像进行评分，评分范围从 0 到 10。还进行了一个单独的人类研究，以衡量用户偏好（见下文）。

每个参与者都会看到一个匿名查询图像，伴随着两个候选项，其中一个由提出的方法检索，另一个由基线检索。参与者被要求指出哪个图像在关系上更类似于查询图像，或者如果两个图像同样接近。对于每个基线，创建了 300 个三元组，并且至少有三个人对每个三元组进行了评分，产生了大约 900 个响应。

relsim 方法与几种成熟的图像到图像相似性方法进行了比较，包括上述 LPIPS 和 DINO，以及 dreamsim 和 CLIP-I。除了直接计算图像对之间相似性得分的基线（如 LPIPS、DINO、dreamsim 和 CLIP-I）外，作者还测试了基于字幕的方法，其中 Qwen 用于为每个图像生成匿名或抽象字幕；然后将其用作检索查询。

评估了两种检索变体，使用 CLIP-T 进行基于文本的图像检索，使用 Qwen-T 进行基于文本的文本检索。两种基于字幕的基线都使用原始预训练 Qwen 模型，而不是在关系逻辑上微调的版本。这使得作者能够分离出基于组的训练的影响，因为微调模型已经暴露在图像集上，而不是单独的示例上。

现有指标和关系相似性

作者最初测试了现有指标是否能够捕获关系相似性:

根据 GPT-4o 判断的每种方法的平均关系相似性评分比较。传统相似性指标（如 LPIPS、DINO 和 CLIP-I）得分较低，即使经过调整也如此。基于字幕的基线 Qwen-T 和 CLIP-T 的表现也较差。最高得分（6.77）由 relsim 实现（最右边的蓝色列），表明在基于组的关系模式上进行微调可以提高与 GPT-4o 评估的对齐度。

关于这些结果，作者们指出**:

‘[LPIPS]，它仅关注感知相似性，获得了最低的评分（4.56）。[DINO] 的性能略好（5.14），可能是因为它仅在自监督方式下训练。[CLIP-I] 在基线中产生了最强的结果（5.91），可能是因为图像字幕中有时存在一些抽象。 ‘

‘然而，CLIP-I 仍然低于我们的方法，可能是因为实现更好的评分需要更高层次的抽象，例如匿名字幕中的抽象。’

在人类研究中，人类一致地更喜欢 relsim 方法，超过所有基线:

每种方法的关系相似性评分，根据 GPT-4o 判断。标准相似性指标（如 LPIPS、DINO 和 CLIP-I）得分较低，基于字幕的变体 Qwen-T 和 CLIP-T 的表现略好。即使 DINO 和 CLIP 的调优版本也无法弥补差距。最高评分（6.77）由 relsim 方法实现，该方法使用基于组的监督进行训练。

作者们指出:

‘这非常令人鼓舞，因为它不仅表明我们的模型（relsim）可以成功检索关系相似图像，还再次确认人类确实感知关系相似性——而不仅仅是属性相似性！’

为了探索关系和属性相似性如何互补，研究人员使用了一种联合可视化方法。一个单一的查询图像（‘一只狗拿着相机’）被与 3,000 个随机图像进行比较，使用关系和属性模型计算相似性:

使用关系和属性轴的视觉相似性空间的联合可视化。一个单一的查询图像（显示一只狗使用相机）被与 3,000 个其他图像进行比较。结果根据关系相似性（垂直）和属性相似性（水平）组织。顶部右侧区域包含在逻辑和外观上都与查询图像相似的图像，例如其他狗使用工具。顶部左侧区域包含语义相关但视觉上不同的情况，例如不同动物执行相机相关操作。其余示例在空间中聚类较低，反映出较弱的相似性。布局展示了关系和属性模型如何突出视觉数据的互补方面。请参阅原始论文以获得更好的分辨率。

结果显示了对应不同类型相似性的集群:一些图像在关系和视觉上都相似，例如其他狗在人类般的姿势中；其他图像共享关系逻辑但不相似，例如不同动物模仿人类动作；其余图像既不相似也不共享逻辑。

这种分析表明，两种相似性类型发挥着不同的作用，当结合在一起时会产生更丰富的结构。