Anderson 视角
拼图提升人工智能视觉推理能力

最新研究表明,人工智能模型可以通过解决拼图来提高其视觉推理能力。重新排列乱序的图像、视频和3D场景可以帮助它们提高视觉技能,而无需额外的数据、标签或工具。
在当前的多模态大型语言模型(MLLMs)竞争中,想要领先于其他模型是很困难的。虽然2025年发布的许多令人印象深刻的开源模型据报道具有较低的开发和运行成本,但西方模型往往需要更多的数据、更多的计算资源和更多的电力(尽管,如我们最近注意到的,不需要更多的人类标注员,因为这对于即使是 trillion+ 规模的通用人工智能革命来说也是太昂贵了)。
在研究文献中,大多数所谓的“免费”方法来提高人工智能架构的发展速度往往只提供了微小的增量改进;或者在不是最关键的追求领域取得了改进。然而,寻找可能加速发展步伐的尚未发现的“基本原理”太诱人了,无法放弃。
拾起碎片
虽然还不算是这种情况,但一项新的学术合作 giữa中国机构声称已经确定,让多模态大型语言模型(VLMs)解决拼图可以显著提高它们的性能,即使这种强化学习方法以前在这个领域的表现并不理想,而且不需要额外的系统、附加模型或其他“外接”过程:

视觉拼图是一个自监督的后训练框架,用于提高多模态大型语言模型的视觉中心技能。通过在图像、视频和3D数据上进行拼图任务的训练,模型在图像中获得了更锐利的细粒度、空间和组合感知,在视频中获得了更强的时间推理能力,在3D场景中获得了增强的几何感知。图像中的雷达图显示了与基线Qwen2.5-VL相比的一致性改进,值尺度已调整以提高清晰度。来源:https://arxiv.org/pdf/2509.25190
研究人员设计的系统称为视觉拼图,涉及训练现有的MLLMs使用碎片化和随机分散的材料,如拼图。作者为此方法开发了三个模式:图像、视频和3D(即CGI风格的网格),并发现对同一过程的适度改编可以惠及所有三个领域:

视觉拼图任务的表示。图像拼图中,图像被分成块,打乱,然后模型预测正确的布局;视频拼图中,剪辑被打乱,然后模型恢复它们的原始时间顺序;3D拼图中,具有不同深度的点被打乱,然后模型根据它们的深度对它们进行排序。模型的输出根据基准真相进行评分,部分正确的解决方案会获得部分信用。
视觉拼图的训练方法有助于人工智能模型通过重新组装这些混乱的图像、视频剪辑或3D数据点来提高其理解视觉信息的能力。
该过程基于文字而不是图像,因此不需要模型生成图像或使用任何额外的视觉组件。该方法属于强化学习可验证奖励(RLVR)系统,模型根据明确的自动规则获得奖励;因此,不需要人类标注。
这个关键事实实际上很难从新论文中看出来:系统正在通过描述语义地组装拼图,而不是以人类学习解决此类拼图的形状表示方式进行:

从新论文的补充材料中,一个示例RL任务,展示了此次学习过程的基于文本的性质。图像中没有显示将要显示给MLLM的图像。
虽然MLLMs广泛处理视觉中心任务,但它们是基于语言的架构,不设计用于生成图像、视频或形状表示,如3D网格。

图像拼图任务的示例。每行显示了被打乱的图像块,模型必须将它们重新排列成原始布局,正确的排列方式显示在右侧。
无论如何,这种训练是在主要学习阶段之后完成的,当模型已经具备了一定的理解图像的能力。
之前的方法,例如2017年的瑞士论文《通过解决拼图来学习视觉表示的无监督学习》,使用了这种强化方法,但在卷积神经网络(CNNs)上效果不佳,CNNs与现代MLLMs相比是一种截然不同的架构。

来自2017年发布的“通过解决拼图来学习视觉表示的无监督学习”论文的早期示例,展示了使用碎片化作为神经系统的奖励挑战。来源:https://arxiv.org/pdf/1603.09246
在测试中,视觉拼图导致作者声称的一致且可衡量的改进,跨越了广泛的基准:图像拼图任务提高了细粒度感知、空间布局理解和组合推理;视频拼图任务增强了模型跟踪时间序列和推理事件顺序的能力;3D拼图任务加强了基于深度的理解和仅使用RGB-D输入的空间推理。
在所有三个模式中,该论文重申,这种新方法在不需要架构更改、额外视觉模块或额外监督数据的情况下,优于了几种竞争基准:
‘广泛的实验表明,在细粒度感知、时间推理和3D空间理解方面取得了显著改进。我们的发现强调了自监督视觉中心任务在后训练MLLMs中的潜力,并旨在激发进一步的视觉中心预训练设计研究。’
新论文题为《视觉拼图后训练提高MLLMs》,由六位研究人员来自南洋理工大学、林雪平大学和商汤研究院。该论文附有一个带有实时演示的项目网站(您甚至可以将自己的图像加载到基于图像的拼图演示中)。该项目的代码和权重已公开可用,
方法
虽然我们将研究信息的分割以适应三个测试模式,但我们应该首先考虑新系统的奖励设计。
视觉拼图方法使用分级奖励来评分模型的响应,而不是简单的通过或失败。如果模型预测拼图碎片的确切正确顺序,它将获得全额奖励;如果答案大部分正确但不完美,模型将获得部分信用,按折扣因子缩放,以避免过度重视近似值(这可以防止模型通过重复部分正确的猜测来欺骗系统)。
无效答案,例如使用相同数字重复的“作弊”行为,将获得零分。为了鼓励一致的格式,模型必须将其推理放在<think>标签内,并将其最终答案放在<answer>标签内。如果格式正确,模型将获得小奖励。
图像
要为图像模式创建拼图,首先将图像分成网格块,通过将其切成相等大小的块来实现:

系统要解决的基于图像的块示例。
块以从左上到右下的固定顺序排列,类似于页面上的阅读顺序,然后使用随机洗牌算法打乱。模型然后被暴露在这个打乱的块集上,并必须通过预测恢复原始布局的正确排列来找出原始顺序。
在训练中,使用COCO数据集中的118,000张图像,每张图像产生九个块(即“拼图碎片”)。系统提供的提示在本文的前面显示(带有以“从新论文的补充材料”开头的图像标题)。
视频
对于视频拼图任务,视频被均匀地切割成时间序列的剪辑,然后打乱剪辑段。模型然后被显示这个打乱的序列,并必须找出它们的正确原始时间顺序。

视频拼图挑战的示例,来自论文的补充材料。
该模式的训练使用了LLaVA-Video数据集中的100,000个视频,每个视频被分成六个剪辑。为了防止模型在剪辑边界处利用明显的帧匹配提示,剪辑的开始和结束处的5%帧被剪掉。
每个剪辑最多包含12帧,每帧的最大分辨率为128x28x28像素。视频长度少于24秒的被排除在外。
任务的提示如下所示:

MLLMs的视频任务的强化学习提示,剪辑未显示。
3D数据
一个完整的3D拼图任务通常涉及将3D空间(例如体素块或点云碎片)分解成较小的块,并训练模型来重建它们的原始空间布局。
然而,平均而言,MLLMs无法直接处理原始3D数据,而是依赖于语义解释的图像或视频输入。因此,为了创建一个仍然利用3D推理的任务,同时与当前MLLMs兼容,作者引入了一种更易处理的变体,使用RGB-D图像(即包含每个像素深度信息的2D图像)。

用于评估相对视点和相机运动推理的3D空间理解基准的示例问题。3D拼图模型正确推断了场景中两个视图之间的空间关系和相机旋转的可能方向,优于Qwen2.5-VL-7B基线。
从每个RGB-D图像中,模型被给予一个打乱的具有不同深度的点列表,范围从近到远,目标是使用仅2D图像作为参考来恢复它们的正确深度顺序:

3D拼图的RL提示。
每个点在图像上被标记(该图像被显示给模型,但在上面的提示示例图像中未可视化),并且模型必须预测哪个点最近,哪个点次近,依此类推,有效地在没有原始深度值的情况下重建原始深度序列。
3D拼图任务在ScanNet数据集的RGB-D图像上进行训练,使用每个图像中选择的六个深度点创建了30万个样本。

用于3D拼图的ScanNet数据集的点云示例。来源:https://arxiv.org/pdf/1702.04405
每个点必须位于0.1到10米的深度范围内,并且为了促进多样性,同一组中的任何两个点不得在图像平面上相距不到40像素,或深度上相距不到0.2米。
测试
对于初始测试,系统使用Qwen2.5-VL-7B-Instruct作为基准多模态模型。训练使用了Group Relative Policy Optimization(GRPO)算法,移除了KL正则化和熵损失。
对于部分预测,应用了0.2的折扣因子。图像拼图训练使用了全局批次大小256,而视频和3D拼图使用了128。学习率设置为1×10⁻⁶。
对于每个提示,模型在解码温度1.0下生成了16个响应。图像和视频拼图任务都训练了1,000步,而3D拼图任务训练了800步。
图像拼图
图像拼图模型在三个类别的视觉中心基准上进行了测试:细粒度感知和理解,MMVP,MMStar的细粒度感知子集;MMBench;HR-Bench;V*;MME-RealWorld(lite);LISA-Grounding;和OVD-Eval。
对于单眼空间理解,基准是VSR;OmniSpatial;和Depth Anything V2(DA-2K)。对于组合视觉理解,测试使用了Winoground和SugerCrepe++。
测试了三个基线,所有基线都源自Qwen2.5-VL-7B:ThinkLite-VL用于多模态推理;VL-Cogito用于一般视觉和科学任务;和LLaVA-Critic-R1用于图像感知。
所有基线都使用简短答案进行评估,因为链式推理(CoT)有时会降低性能。

图像基准的评估结果。图像拼图在所有任务类别中(即细粒度感知和理解;单眼空间理解;和组合视觉推理)都优于Qwen2.5-VL-7B基线,并且优于之前的后训练基线。
关于图像拼图的结果,如上所示,作者指出:
“[上面的图像]显示我们的方法在三个基准类别中一致地提高了视觉中心能力。这些结果确认,将图像拼图后训练纳入MLLMs显著增强了它们的感知基础和细粒度视觉理解,超出了基于推理的后训练策略。”
“我们将这些改进归因于解决图像拼图需要模型关注局部块细节,推断全局空间布局,并推理块间关系,这直接有利于细粒度、空间和组合理解。”
视频拼图
对于视频拼图,评估是在AoTBench;Vinoground;TOMATO;FAVOR-Bench;TUNA-Bench;Video-MME;TempCompass;TVBench;MotionBench;LVBench;VSI-Bench;Video-TT;和CVBench上进行的。
Video-R1被用作基线,该基线经过冷启动监督微调,然后使用强化学习进行视频理解和推理。这种情况下的评估包括完整的推理过程,因为这始终产生比直接答案更好的结果。
所有模型都限制在256x28x28像素,测试了三个帧设置:16、32和64:

视频基准的评估结果,视频拼图在所有任务和帧设置中一致地优于基线。
视频拼图在所有视频理解基准和帧设置中产生了一致的改进,尤其是在需要时间推理和方向性的任务中表现出色,例如AoTBench和CVBench中的任务,以及跨视频推理基准,如CVBench:
“这些结果确认,解决视频拼图任务鼓励模型更好地捕捉时间连续性,理解视频之间的关系,推理方向一致性,并推广到整体和普遍的视频理解场景。”
3D数据
对于3D模式,模型在SAT-Real;3DSRBench;ViewSpatial;All-Angles;OmniSpatial;VSI-Bench;SPARBench(tiny);和DA-2K上进行了评估。

3D基准的评估结果:3D拼图在深度比较任务(如DA-2K)和涵盖单视图、多视图和自主视频输入的更广泛的3D感知基准上均有改进。
作者指出:
“[3D]拼图在所有基准上都取得了显著的改进。毫无疑问,最大收益出现在DA-2K上,这是一个直接与我们预训练任务相关的深度估计基准。更重要的是,我们在一系列其他任务上也观察到了改进,包括那些具有单视图(例如3DSRBench,[OmniSpatial])、多视图(例如ViewSpatial,All-Angles)和自主视频输入(例如VSI-Bench)的任务。”
“这些结果表明,我们的方法不仅教会了特定的深度排序技能,还有效地增强了模型对3D空间结构的感知和推理的整体能力。”
结论
该论文中不太明显的是,图像和描述之间的确切关系如何驱动MLLMs性能的改进。
乍一看,通过拼图学习的过程似乎与我们自己的早期发展非常相似。然而,仔细观察后发现,语言在MLLMs中作为视觉和语义现实之间的桥梁发挥着重要作用。
* 请注意,论文作者更喜欢使用“多模态大型语言模型”这个较少使用的术语,缩写为MLLMs。这是一个新兴或不常用的术语,适用于可以广泛地空间推理和分析图像但不生成图像的模型。随着新范式和模型的出现,该词汇表正在不断修订。
首次发布于2025年10月2日












