Connect with us

Anderson 视角

AI 尝试读取模拟钟表的挣扎可能具有更深层次的意义

mm
ChatGPT-4o and Adobe Firefly.

中国和西班牙的研究人员的一篇新论文发现,甚至像 GPT-4.1 这样的高级多模态 AI 模型也难以从模拟钟表的图像中读取时间。钟表上的小视觉变化会导致重大解释错误,微调只对熟悉的示例有帮助。结果引发了人们对这些模型在面对现实世界任务中不熟悉的图像时的可靠性的担忧。

 

当人类对一个领域(如重力或其他基本物理原理)有足够深入的理解时,我们会超越具体的例子,掌握底层的抽象概念。这使我们能够创造性地将这种知识应用于不同的背景,并识别新的实例,即使我们以前从未见过,也能通过识别其中的原理来实现。

当一个领域足够重要时,我们甚至可能开始在不存在的地方感知它,例如 pareidolia,这由未能识别真实实例的高成本驱动。这种模式识别的生存机制如此强大,以至于它甚至使我们 发现更广泛的模式,即使没有模式。

我们越早、越反复地接受一个领域的教育,它的基础就越深,终身保持的时间就越长;我们在儿童时期接触到的最早的视觉数据集之一就是教学钟表的形式,即使用印刷材料或交互式模拟钟表来教我们如何读取时间:

帮助儿童学习读取时间的教学工具。来源:https://www.youtube.com/watch?v=IBBQXBhSNUs

帮助儿童学习读取时间的教学工具。 来源:https://www.youtube.com/watch?v=IBBQXBhSNUs

尽管 手表设计的变化风格 有时会挑战我们,但这种早期领域掌握的坚韧性却非常令人印象深刻,允许我们即使在面对复杂或“古怪”的设计选择时,也能辨认出模拟钟表面:

一些具有挑战性的手表面。来源:https://www.ablogtowatch.com/wait-a-minute-legibility-is-the-most-important-part-of-watch-design/

一些具有挑战性的手表面。 来源:https://www.ablogtowatch.com/wait-a-minute-legibility-is-the-most-important-part-of-watch-design/

人类 不需要成千上万的例子 来学习钟表的工作原理;一旦基本概念被掌握,我们就可以在几乎任何形式中识别它,即使它被扭曲或抽象化。

相比之下,AI 模型在此任务中面临的困难凸显了一个更深层次的问题:它们的明显优势可能更多地取决于大量的接触,而不是理解。

超越模拟游戏?

大型模型的表面性能和真正的“理解”之间的紧张关系在最近的调查中反复出现。上个月,浙江大学和西湖大学重新构建了这个问题,在一篇题为 论文 中,题目为 具有博士水平的LLM是否真正掌握了基本的加法? (这不是本文的重点),得出结论:

‘尽管基准测试令人印象深刻,但模型显示出对模式匹配的关键依赖,而不是真正的理解,这是由符号表示和基本属性的违反所证明的。 ‘

‘显式规则的提供会损害性能,表明存在固有的架构约束。这些见解揭示了评估差距,并强调了需要能够进行真正的数学推理的架构,而不是仅仅是模式识别。’

这周这个问题再次出现,现在是在南京航空航天大学和西班牙马德里理工大学之间的合作中。题目为 多模态大型语言模型(MLLM)是否真正学会了读取模拟钟表的时间?,这篇 新论文 探讨了多模态模型如何理解时间的概念。

虽然研究的进展在论文中仅以大致的细节为主,但研究人员的初始测试确立了 OpenAI 的 GPT-4.1 多模态语言模型难以从多样化的钟表图像中正确读取时间,通常即使在简单的情况下也会给出错误的答案。

这指出了模型训练数据中可能存在的差距,提出了需要一个更平衡的数据集来测试模型是否实际上可以学习底层概念。因此,作者策划了一个合成的模拟钟表数据集,均匀地覆盖了每个可能的时间,并避免了互联网图像中通常存在的偏见:

研究人员的合成模拟钟表数据集的一个示例,用于在新工作中微调 GPT 模型。来源:https://huggingface.co/datasets/migonsa/analog_watches_finetune

研究人员的合成模拟钟表数据集的一个示例,用于在新工作中微调 GPT 模型。 来源:https://huggingface.co/datasets/migonsa/analog_watches_finetune

在微调新数据集之前,GPT-4.1 一致性地无法读取这些钟表。然而,在接触到新集合后,其性能有所改善 – 但仅限于看起来像它已经见过的图像。

当钟表的形状或指针的样式发生变化时,准确率会大幅下降;甚至小的调整,例如更薄的指针或箭头(最右边的图像),足以将其扰乱;GPT-4.1 还难以解释达利风格的 ‘熔化钟表’

具有标准设计(左)、形状失真(中)和修改指针(右)的钟表图像,以及 GPT-4.1 在微调前后的返回时间。来源:https://arxiv.org/pdf/2505.10862

具有标准设计(左)、形状失真(中)和修改指针(右)的钟表图像,以及 GPT-4.1 在微调前后的返回时间。 来源:https://arxiv.org/pdf/2505.10862

作者得出结论,当前的模型(如 GPT-4.1)可能主要是通过 视觉模式匹配 来学习钟表读取,而不是任何更深层次的时间概念,断言:

‘[GPT 4.1] 当钟表变形或指针改变为更薄且带有箭头时会失败。时间估计的平均绝对误差(MAE)在 150 个随机时间内为 232.48 秒,对于初始钟表,1380.69 秒,当形状变形时,3726.93 秒,当指针改变时。 ‘

‘这些结果表明 MLLM 没有学会读取时间,而是记住了模式。’

足够的时间

大多数训练数据集依赖于网页抓取的图像,这些图像往往重复某些时间 – 特别是 10:10,这是 手表广告 中的流行设置:

来自新论文的示例,展示了模拟钟表图像中“十分钟过十”的时间的普遍性。

来自新论文的示例,展示了模拟钟表图像中“十分钟过十”的时间的普遍性。

由于所描绘的时间范围有限,模型可能只能看到狭窄的钟表配置范围,从而限制了它推广到这些重复模式之外的能力。

关于为什么模型无法正确解释失真的钟表,论文指出:

‘尽管 GPT-4.1 在标准钟表图像上表现出色,但令人惊讶的是,修改钟表指针以使其变薄并添加箭头会导致其准确率大幅下降。 ‘

‘直观地,人们可能会期望更视觉上复杂的变化 – 扭曲的表盘 – 会对性能产生更大的影响,但这种修改似乎对性能的影响相对较小。 ‘

‘这引发了一个问题:MLLM 如何解释钟表,为什么它们会失败?一种可能的解释是,较薄的指针会损害模型感知方向的能力,削弱其对空间方向的理解。 ‘

‘或者,也可能有其他因素导致模型尝试将小时、分钟和秒钟指针组合成准确的时间读取时出现混淆。 ‘

作者认为,找出这些失败的根本原因对于推进多模态模型至关重要:如果问题在于模型如何感知空间方向,微调可能会提供一个简单的解决方案;但如果问题源于处理多个视觉线索的更广泛困难,则表明这些系统处理信息的方式存在根本性弱点。

微调测试

为了测试模型的失败是否可以通过接触来克服,GPT-4.1 在前面提到的综合合成数据集上进行了微调。在微调之前,其预测是广泛散布的,具有显著的错误,涵盖了所有类型的钟表。在微调集合上进行微调后,标准钟表面的准确率显著提高,至于失真的钟表面,准确率也有一定程度的提高。

然而,具有修改指针的钟表(例如更薄的形状或箭头形状)继续产生大量错误。

出现了两种不同的故障模式:在正常和失真的钟表上,模型通常会误判指针的方向;但在具有修改指针 样式 的钟表上,它经常会混淆每个指针的功能,错误地将 小时 指针与 分钟 指针或 分钟 指针与 指针混淆。

一个比较,展示了模型的初始弱点,以及通过微调在平衡的合成数据集上获得的部分收益,显示了 150 个随机选择的钟表的预测时间与实际时间(以秒为单位)。在左边,在微调之前,GPT-4.1 的预测是分散的,往往远离正确的值,如红色对角线所示。在右边,在微调后,预测与实际值更加接近,尽管仍然存在一些错误。

一个比较,展示了模型的初始弱点,以及通过微调在平衡的合成数据集上获得的部分收益,显示了 150 个随机选择的钟表的预测时间与实际时间(以秒为单位)。在左边,在微调之前,GPT-4.1 的预测是分散的,往往远离正确的值,如红色对角线所示。在右边,在微调后,预测与实际值更加接近,尽管仍然存在一些错误。

这表明模型已经学会将视觉特征(如指针厚度)与特定的角色相关联,并在这些线索发生变化时苦苦挣扎。

在不熟悉的设计上改进有限,进一步引发了人们对模型是否真正学习抽象的时间概念的怀疑。

手势

因此,尽管微调提高了 GPT-4.1 在传统模拟钟表上的性能,但它对具有更薄指针或箭头形状的钟表的影响却很小,这引发了人们对模型失败的原因的疑问:是由于抽象推理还是由于对手的混淆。

为了测试准确率是否会在混淆被消除时提高,针对“修改指针”数据集的模型预测进行了新的分析。输出被分为两个组:GPT-4.1 正确识别小时、分钟和秒钟指针的案例;以及它没有做到的案例。

预测在微调前后进行了 平均绝对误差(MAE) 的评估,并将结果与标准钟表进行比较;每个手的角度误差也使用表盘位置作为基准进行了测量:

具有手角色混淆的修改指针数据集的错误比较,在微调前后。

具有手角色混淆的修改指针数据集的错误比较,在微调前后。

指针角色混淆导致了最大的错误。当 GPT-4.1 将小时指针误认为是分钟指针或反之亦然时,产生的时间估计通常非常不准确。相比之下,由于误判指针方向而导致的错误要小得多。

在三个指针中,小时指针在微调前显示出最高的角度误差,而秒指针显示出最低的角度误差。

具有手角色混淆的修改指针数据集的角度误差,按手类型分类,在微调前后。

具有手角色混淆的修改指针数据集的角度误差,按手类型分类,在微调前后。

为了仅关注方向错误,分析仅限于模型正确识别每个手的功能的案例。如果模型已经内化了一个一般的时间概念,那么它在这些示例上的性能应该与其在标准钟表上的准确率相匹配。然而,它并没有这样做,准确率仍然明显较差。

为了检查手 形状 是否干扰了模型的方向感,进行了第二个实验:创建了两个新的数据集,每个数据集包含 60 个合成钟表,只有一个小时指针,指向不同的分钟标记。一个数据集使用原始手设计,另一个数据集使用修改后的版本。模型被要求命名指针所指向的标记。

结果显示,使用修改后的指针时准确率略有下降,但不足以解释模型更广泛的失败。单个不熟悉的视觉特征似乎能够破坏模型的整体解释,即使在它以前执行良好的任务中也是如此。

GPT-4.1 在标准、失真和修改指针钟表上的性能概述,在微调前后,突出了不均匀的收益和持续的弱点。

GPT-4.1 在标准、失真和修改指针钟表上的性能概述,在微调前后,突出了不均匀的收益和持续的弱点。

结论

虽然这篇论文的重点乍一看似乎很微不足道,但它并不是专门关于视觉语言模型是否能够以 100% 的准确率读取模拟钟表。赋予这项工作重量的是它关注的一个更深层次的反复出现的问题:是否通过用更多(和更多样化)的数据来饱和模型,可以带来人类通过抽象和概括获得的领域理解;或者是否只有通过用足够多的例子来填充该领域,以便在推理时预测每个可能的变化,才是可行的路径。

无论哪种方式,都会引发人们对当前架构的真正能力的怀疑。

 

首次发布于 2025 年 5 月 19 日

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai