人工智能

人工智能模型在基本钟表读取方面遇到困难,而人类却轻松掌握

mm

一项关于全面研究测试了11个领先的人工智能模型与人类在读取模拟钟表方面的能力,揭示了当前人工智能系统的一个令人惊讶的弱点。虽然人类在告诉时间方面取得了89.1%的准确率,但谷歌最好的模型仅在同一项测试中取得了13.3%的准确率。

ClockBench研究由研究人员Alek Safar进行,表明即使是最先进的人工智能系统也难以完成大多数人在儿童时期就能掌握的视觉任务。该基准测试使用180个自定义设计的模拟钟表来测试来自谷歌、OpenAIAnthropic和其他主要人工智能实验室的系统。

这不仅仅是关于钟表的问题。结果突出了人工智能系统处理和推理视觉信息的基本局限性。“读取模拟钟表为在视觉空间内进行推理设定了一个很高的标准,”Safar在研究论文中指出。该任务需要模型识别钟表指针,理解它们之间的关系,并将视觉位置转换为数字时间。

性能差距在检查错误模式时变得更加明显。人类犯错时,中位错误仅为三分钟。相比之下,人工智能模型的误差在一到三个小时之间,大致相当于在12小时钟表上进行随机猜测。

揭示的特定弱点

人工智能系统特别难以应对:

  • 罗马数字(3.2%的准确率)
  • 镜像或倒置的钟表面
  • 彩色背景或复杂设计
  • 需要精确读取的带秒针的钟表

有趣的是,当人工智能模型成功读取钟表时,它们在后续任务(如添加时间或转换时区)中表现良好。这表明核心挑战在于初始视觉识别,而不是数学推理。

行业性能分析

谷歌的模型领先于其他模型,Gemini 2.5 Pro实现了13.3%的准确率,而Gemini 2.5 Flash达到10.5%。OpenAI的GPT-5得分为8.4%,而Anthropic的Claude模型表现较差,Claude 4 Sonnet为4.2%,Claude 4.1 Opus为5.6%。

xAI的Grok 4模型以0.7%的准确率取得了令人惊讶的糟糕结果,尽管这主要是因为该模型错误地将63%的所有钟表标记为显示不可能的时间,而实际上只有20.6%的钟表显示了不可能的时间。

来源:Alek Safar

人工智能开发的更广泛影响

该研究建立在“对人类来说容易,对人工智能来说困难”的基准测试方法之上,类似于ARC-AGI和SimpleBench测试。虽然人工智能系统已经迅速完成了知识密集型任务,甚至在许多标准化测试中超越了人类的表现,但基本的视觉推理仍然存在问题。

研究表明,当前的扩展方法可能无法解决视觉推理挑战。Safar假设模拟钟表可能在训练数据中代表性不足,并且将视觉钟表表示转换为文本以进行推理会带来额外的复杂性。

ClockBench加入了一个日益增长的基准测试集合,旨在识别人工智能的局限性,这些局限性并不是从传统测试中的性能中立即显现出来。完整的数据集保持私密,以防止污染未来的人工智能训练,只有少量样本公开用于测试。

结果引发了人们对现有的人工智能开发范式是否能够解决这些视觉推理差距的疑问,或者是否需要完全新的方法——类似于测试时计算如何在其他领域解锁进步。

目前,简单的模拟钟表成为了人工智能的意外堡垒,几乎任何人都能读懂,但却令世界上最先进的人工智能系统感到困惑。

Alex McFarland 是一名人工智能记者和作家,探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。