Anderson 视角
AI 模型难以读懂模拟钟表,可能具有更深层次的意义

中国和西班牙的研究人员发表了一篇新论文,发现即使是像 GPT-4.1 这样的先进多模态 AI 模型,也很难从模拟钟表的图像中读取时间。钟表上的小视觉变化可能会导致重大解释错误,仅靠微调也只能在熟悉的例子中起作用。这些结果引发了人们对这些模型在面对现实世界任务中不熟悉图像的可靠性担忧。
当人类对一个领域有了足够深入的理解,例如重力或其他基本物理原理时,我们可以超越具体的例子,掌握底层的抽象概念。这使我们能够在不同情境中创造性地应用这种知识,并且可以识别新的实例,即使我们以前从未见过,也可以通过识别原理来识别它。
当一个领域具有足够的重要性时,我们甚至可能开始在不存在的地方感知到它,就像 pareidolia 一样,由于未能识别真实实例的高成本而驱动。这种模式识别的生存机制如此强大,以至于它甚至使我们倾向于 找到更广泛的模式,即使那里没有模式。
我们越早、越反复地接受一个领域的教育,它就越深入人心,终身保持下去;而我们作为儿童接触到的最早的视觉数据集之一,就是教学钟表的形式,即印刷材料或交互式模拟钟表用于教我们如何看时间:

帮助儿童学习看时间的教学工具。 来源:https://www.youtube.com/watch?v=IBBQXBhSNUs
尽管 手表设计的变化 有时可能会挑战我们,但这种早期领域掌握的坚韧性却令人印象深刻,允许我们即使在复杂或“古怪”的设计选择面前也能辨认出模拟钟表的面板:

一些具有挑战性的手表 面板。 来源:https://www.ablogtowatch.com/wait-a-minute-legibility-is-the-most-important-part-of-watch-design/
人类 不需要成千上万的例子 来学习钟表的工作原理;一旦基本概念被掌握,我们就可以在几乎任何形式中识别它,即使它被扭曲或抽象化。
相比之下,AI 模型在这个任务中面临的困难凸显了一个更深层次的问题:它们的明显优势可能更多地取决于大量的接触,而不是对理解的掌握。
超越模拟游戏?
表面层次的性能和真正的“理解”之间的紧张关系在最近对大型模型的调查中反复出现。上个月,浙江大学和西湖大学重新构建了这个问题,题为 论文,名为 高级语言模型是否真正理解基本的加法? (这不是本文的重点),得出结论:
‘尽管基准测试结果令人印象深刻,但模型显示出对模式匹配的关键依赖,而不是真正的理解,这体现在对符号表示和基本属性的失败中。 ‘
‘显式规则提供会损害性能,表明存在固有的架构约束。这些见解揭示了评估差距,并强调了需要能够进行真正的数学推理的架构,而不是仅仅依赖模式识别。 ‘
本周,这个问题再次出现,现在是在中国南京航空航天大学和西班牙马德里理工大学之间的合作中。题为 多模态大型语言模型(MLLMs)是否真正学会了读模拟钟表? 的 新论文 探讨了多模态模型对时间读取的理解程度。
虽然研究的进展在论文中仅以大致的细节为主,但研究人员的初始测试确立了 OpenAI 的 GPT-4.1 多模态语言模型难以从各种钟表图像中正确读取时间,甚至在简单的情况下也会给出错误答案。
这表明模型的训练数据中可能存在缺口,需要一个更平衡的数据集来测试模型是否真正能够学习底层概念。因此,作者策划了一个涵盖每个可能时间的综合模拟钟表数据集,避免了互联网图像中通常存在的偏见:

研究人员的综合模拟钟表数据集的一个例子,用于对 GPT 模型进行微调。 来源:https://huggingface.co/datasets/migonsa/analog_watches_finetune
在微调之前,GPT-4.1 一致性地无法读取这些钟表。然而,在接触到新数据集之后,其性能有所改善——但仅限于新图像看起来像它已经见过的那些。
当钟表的形状或指针的样式发生变化时,准确率会大幅下降;甚至小的调整,例如更薄的指针或箭头(最右边的图像),足以使其失误;GPT-4.1 还难以解释达利风格的 ‘熔化的钟表’:

具有标准设计(左)、变形的钟表(中)和修改的手(右)的钟表图像,以及 GPT-4.1 在微调前后的返回时间。 来源:https://arxiv.org/pdf/2505.10862
作者得出结论,当前的模型(如 GPT-4.1)可能主要通过 视觉模式匹配 来学习钟表读取,而不是更深层次的时间概念,断言:
‘[GPT 4.1] 当钟表变形或手被改变为更薄且带有箭头时会失败。150 个随机时间的时间估计的平均绝对误差(MAE)为初始钟表的 232.48 秒,当形状变形时为 1380.69 秒,当手被改变时为 3726.93 秒。 ‘
‘这些结果表明 MLLM 没有学会看时间,而是记住了模式。 ‘
足够的时间
大多数训练数据集依赖于网络抓取的图像,这些图像往往重复某些时间——尤其是 10:10,这是 手表广告中的一种流行设置:

新论文中“十点十分”的时间在模拟钟表图像中的普遍性示例。
由于这些时间的范围有限,模型可能只看到狭窄的钟表配置,从而限制了它超越这些重复模式的能力。
关于模型为什么无法正确解释变形的钟表,论文指出:
‘尽管 GPT-4.1 在标准钟表图像上表现出色,但令人惊讶的是,修改钟表指针以使其更薄并添加箭头会导致其准确率大幅下降。 ‘
‘直观上,人们可能会期望更复杂的视觉变化——变形的表盘——会对性能产生更大的影响,但这种修改似乎对性能的影响相对较小。 ‘
‘这引发了一个问题:MLLMs 如何解释钟表,为什么它们会失败?一种可能是,较薄的指针会损害模型感知方向的能力,削弱其对空间方向的理解。 ‘
‘或者,也可能有其他因素导致模型尝试将小时、分钟和秒钟指针组合成准确的时间读数时产生混淆。 ‘
作者认为,找出这些失败的根本原因对于推进多模态模型至关重要:如果问题在于模型如何感知空间方向,微调可能提供一个简单的解决方案;但如果问题源于更广泛的难以整合多个视觉线索的困难,则表明这些系统处理信息的基本弱点更为严重。
微调测试
为了测试模型的失败是否可以通过接触来克服,GPT-4.1 被微调到上述综合数据集上。在微调之前,其预测结果分散且在所有类型的钟表上都存在显著错误。在微调后,标准钟表的准确率显著提高,在变形钟表上也有一定程度的提高。
然而,具有修改手的钟表,例如更薄的形状或箭头,继续产生大量错误。
出现了两种不同的故障模式:在正常和变形的钟表上,模型通常会误判指针的方向;但在具有改变的手的钟表上,它经常会混淆每个手的功能,误将小时手当作分钟手或将分钟手当作秒手。

对比模型的初始弱点和通过在平衡的综合数据集上进行微调所获得的部分收益,显示了 150 个随机选择的钟表的预测时间与实际时间(以秒为单位)。在左侧,在微调之前,GPT-4.1 的预测结果分散且通常远离正确的值,如红色对角线所示。在右侧,在微调后,预测结果更紧密地与基准事实对齐,尽管仍然存在一些错误。
这表明模型已经学会将视觉特征(如手的厚度)与特定的角色相关联,并且在这些线索发生变化时会苦苦挣扎。
有限的改进在不熟悉的设计上引发了进一步的怀疑,即这种模型是否真正学习了抽象的时间读取概念,还是仅仅改进了模式匹配。
手势
因此,尽管微调提高了 GPT-4.1 在传统模拟钟表上的性能,但它对具有更薄手或箭头形状的钟表的影响却很小,这引发了人们对模型失败的原因的疑问:是抽象推理还是手势混淆。
为了测试准确率是否会在移除手的混淆的情况下提高,模型的预测结果被分为两组:GPT-4.1 正确识别小时、分钟和秒钟指针的案例,以及它没有做到的案例。
在微调前后,预测结果的平均绝对误差(MAE)得到了评估,并与标准钟表的结果进行了比较;每个手的角度误差也使用表盘位置作为基准进行了测量:

带有手角色混淆的修改手数据集的错误比较,在微调前后。
手的角色混淆导致了最大的错误。当 GPT-4.1 将小时手误认为是分钟手或反之亦然时,所得的时间估计通常非常不准确。相比之下,错误由正确识别的手的方向判断引起的错误较小。在三个手中,小时手在微调前显示出最高的角度误差,而秒手显示出最低的角度误差。

带有手角色混淆的修改手数据集中每种手的角度误差,在微调前后。
为了仅关注方向错误,分析仅限于模型正确识别每个手的功能的案例。如果模型已经内化了时间读取的一般概念,那么它在这些示例上的性能应该与其在标准钟表上的准确率相匹配。它没有,而且准确率仍然明显较差。
为了检查手的 形状 是否干扰了模型对方向的感知,进行了第二个实验:创建了两个新的数据集,每个数据集包含 60 个合成钟表,仅有一个小时指针,指向不同的分钟标记。一个数据集使用原始手设计,另一个数据集使用修改后的版本。模型被要求命名指针指向的标记。
结果显示,修改后的手的准确率略有下降,但不足以解释模型的整体失败。一个单一的不熟悉的视觉特征似乎能够破坏模型的整体解释,即使在它以前表现良好的任务中也是如此。

GPT-4.1 在标准、变形和修改手钟表上的性能概述,在微调前后,突出了不均匀的收益和持续的弱点。
结论
虽然这篇论文的重点乍一看似乎很微不足道,但它并不特别重要,是否有视觉语言模型能够以 100% 的准确率读取模拟钟表。赋予这项工作意义的是它关注的一个更深层次的反复出现的问题:是否通过向模型提供更多(和更多样化)的数据就能带来人类通过抽象和概括获得的领域理解;或者是否只有通过用足够多的例子来填充领域,以至于在推理时可以预测每个可能的变化,才是唯一可行的途径。
无论哪种方式,都会引发人们对当前架构真正能学习什么的怀疑。
首次发表于 2025 年 5 月 19 日












