人工智能
即使是最先进的语言模型也难以理解时间逻辑

预测未来状态是计算机视觉研究中的一个关键任务,尤其是在机器人领域,需要考虑现实世界的情况。因此,负责关键任务的机器学习系统需要对物理世界有充分的理解。
然而,在某些情况下,时间现实的显著知识可能是具有欺骗性的:阿联酋的一篇新论文发现,包括领先的GPT-4o和Google Gemini在解释图像中时间的表示方面存在不足。
例如,序列图像对(见下图),即使颠倒顺序,对人类来说也不是很难的挑战,但当以意外的上下文或配置呈现时,会难倒先进的多模态大语言模型(MLLMs),例如第二图像先呈现,连接成单个图像,多个图像的顺序可能正确也可能不正确等。

研究中编译的数据集样本,显示顺序事件,以“前后”图像的形式呈现。研究人员已在https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer上提供了这些数据
研究人员要求模型完成基本的时间推理挑战,例如确定事件顺序或估计时间间隔,并发现七个测试的MLLMs的性能明显低于人类的准确率:
‘总体而言,[结果]表明所有当前的MLLMs,包括GPT-4o – 我们评估中最先进的模型 – 都难以应对所提出的基准。尽管GPT-4o相对于其他模型具有更好的性能,但它仍然无法在不同设置中一致地展示准确的时间推理。
‘模型的一致性准确率很低,表明它们在理解和解释来自视觉输入的时间序列方面存在显著的局限性。这些缺陷即使在提供多图像输入或优化提示时也很明显,这表明当前的架构和训练方法对于理解时间顺序的能力是不够的。
机器学习系统的设计目标是优化最准确、最有效和最能满足人们需求的结果*.由于它们不会明确显示其推理过程,因此很难判断它们何时在“作弊”或使用“捷径”。
在这种情况下,MLLM可能通过错误的方法得出正确的答案。这样一个答案的正确性可能会让人对模型产生错误的信心,并可能在以后的任务中产生错误的结果。
更糟糕的是,如果人类被模型的表现所打动,并在试验和注释会话中给予积极的反馈,这可能会使模型的偏差更加深刻地嵌入到开发链中。
在这种情况下,建议MLLMs正在“伪造”对时间和时间现象的真正理解,通过观察和锚定次要指标(例如,在视频数据中,时间戳,在布局中的图像顺序,甚至可能是顺序编号的文件名)。
这进一步表明MLLMs目前尚未满足对时间现象的真正理解的任何定义 – 至少在人类可以做到的程度上。
这篇题为多模态MLLMs能否进行视觉时间理解和推理?答案是否定的!的新论文来自阿联酋的人工智能大学和阿里巴巴国际数字商务的三位研究人员。
数据和测试
作者指出,之前的基准和研究,例如MMMU和TemporalBench,专注于单图像输入,或者为MLLMs制定可能过于简单的问题,这可能无法揭示捷径行为的趋势。
因此,作者提出两种更新的方法:时间顺序理解(TOU)和时间间隔估计(TLE)。TOU方法测试模型确定视频帧序列的能力;TLE方法评估MLLM估计两张图像之间时间差异的能力,范围从几秒到几年。

来自论文的两个主要任务:时间顺序理解和时间间隔估计。来源:https://arxiv.org/pdf/2501.10674
研究人员为TOU基准整理了360对图像,使用来自Pixabay和Pexels的开源视频,以便可以通过GUI提供数据集。
这些视频涵盖了从日常活动的人到非人类内容(如动物和植物)的广泛主题。从这些视频中,选择了图像对来描绘具有足够变化的事件序列,使得起始帧“显而易见”。
人类选择确保帧可以被明确定义。例如,一个整理好的图像对显示了一只部分装满的茶杯,在下一帧中,同一只杯子被完全装满了茶,使得序列逻辑很容易识别。

这两张图片的时间逻辑无法被忽视,因为茶不可能被吸回壶里。
通过这种方式,获得了360对图像。
对于TLE方法,选择了来自Google和Flickr的版权免费图像,以及YouTube上版权免费视频的选定帧。这些视频的主题是场景或物体,其变化间隔从几秒到几天到几个季度不等 – 例如,成熟的水果,或景观中季节的变化。
因此,整理了125对图像用于TLE方法。
并非所有测试的MLLMs都能处理多图像输入;因此,测试会根据每个模型的能力进行调整。
生成了多个版本的整理数据集,其中一些图像对垂直连接,其他的水平连接。进一步的变化交换了图像对的真实和正确的时间顺序。
开发了两种提示类型。第一种遵循以下模板:
第一个图像(左/上/第一)中的事件是否发生在第二个图像(右/下/第二)中的事件之前?用真或假回答,并给出理由。
第二种遵循以下模式:
这两张图像中,哪一张显示了最先发生的事件?用(左或右/上或下/第一或第二)回答,并给出理由。
对于TLE,问题是多选题,要求模型评估两张图像之间的时间间隔,选项包括秒、小时、分钟、天、月和年。在这种配置中,最右边的图像是最新的图像。
使用的提示是:
估计给定图像(左)和第二个图像(右)之间的时间间隔。
选择以下选项之一:
-
少于15秒
B. 2分钟至15分钟之间
C. 1小时至12小时之间
D. 2天至30天之间
E. 4个月至12个月之间
F. 超过3年
测试的MLLMs包括ChatGPT-4o;Gemini1.5-Pro;LlaVa-NeXT;InternVL;Qwen-VL;Llama-3-vision;和LLaVA-CoT。
时间顺序理解:结果

不同模型和输入布局的时间顺序理解结果,显示准确率和一致性。
关于上述结果,作者发现所有测试的MLLMs,包括GPT-4o(表现最佳),都在时间顺序理解基准中遇到了显著困难 – 即使GPT-4o也无法在不同配置中一致地展示可靠的时间推理。
作者认为,MLLMs在理解和解释来自视觉输入的时间序列方面存在显著的局限性,这些挑战即使在使用多图像输入和优化提示时也存在。研究人员指出,这些结果表明,当前的模型架构和训练方法对于理解时间顺序的能力是不够的。
测试显示了不同提示策略的性能差异。虽然GPT-4o在使用优化提示时性能有所提高(在单图像设置中达到4%,在多图像设置中达到65.3%),但其性能仍然低于可接受的水平。
像LlaVA-NeXT和Qwen-VL这样的模型对提示更为敏感,当使用替代提示时,其性能会下降,这表明提示工程alone无法克服MLLMs在时间推理方面的根本局限性。
测试还表明,图像布局(即垂直与水平)对模型性能有显著影响。GPT-4o在垂直排列中提高了一致性,从39.2%提高到52.8%;然而,其他模型,包括LlaVA系列,表现出强烈的方向偏差,在一个方向上表现出色,但在另一个方向上表现不佳。
论文表明,这些不一致性表明MLLMs依赖于空间线索,而不是真正的时间推理,并没有真正分析事件序列或理解时间的进展。相反,它们似乎依赖于图像布局相关的模式或视觉特征,例如它们的位置或对齐,以便做出决定。

定性测试突出了GPT-4o在面对不同输入顺序时的预测。正确的分类用绿色标记,纯粹的错误分类用红色标记,幻觉推理用橙色标记,非逻辑或“无效”的推理用棕色标记,显示了模型在不同输入配置中的不一致性。
单图像输入和多图像输入之间的比较测试显示了有限的整体改进,GPT-4o在多图像输入中性能略有提高,从31.0%提高到43.6%(使用P1)和46.0%提高到65.3%(使用P2)。
其他模型,如InternVL,表现出稳定但低的准确率,而Qwen-VL则获得了微小的收益。作者得出结论,这些结果表明,额外的视觉上下文并没有显著提高时间推理能力,因为模型难以有效地整合时间信息。
人类研究
在人类研究中,进行了三次调查,以评估最好的多模态MLLM(GPT-4o)与人类估计的差异。
人类实现了90.3%的准确率,超过GPT-4o的65.3% 25%。数据集被证明是可靠的,人类错误很少,正确答案的一致性很高。

人类用户研究的第一轮测试结果。
时间间隔估计:结果

TLE结果:时间间隔估计评估模型在识别图像对之间的时间间隔方面的准确率,跨越从秒到年的时间尺度。
在这些测试中,MLLMs仅在时间间隔估计方面表现出中等水平的准确率:GPT-4o实现了70%的准确率,但其他模型的性能明显较差(见上表),并且性能在不同的时间尺度上也存在显著差异。
作者评论道:
‘时间间隔估计任务测试MLLMs推断图像对之间的时间间隔的能力。[所有]MLLMs,包括GPT-4o和Gemini1.5-Pro,难以完成这一任务,仅达到60-70%的准确率。GPT-4o在秒和年方面表现出色,但在小时方面表现不佳。
同样,LLaVA-CoT在秒和天的时间尺度上表现出色,但在其他时间间隔上表现明显较差。
人类研究
在TLE的人类研究中,平均人类表现优于GPT-4o(也是这一类别中表现最好的模型)12.3%。
作者指出,一些挑战特别具有挑战性,并且在某种情况下,所有人类参与者都返回了错误答案,和所有AI参与者一样。
作者得出结论,GPT-4o表现出“相对稳健的推理能力,尽管图像的顺序不同。
结论
如果MLLMs最终积累和吸收足够的“捷径”数据来覆盖甚至最棘手的挑战,无论它们是否具有人类风格的泛化能力,都可能变得无关紧要。
也不清楚我们如何获得自己的时间推理能力 – 我们是否也通过“作弊”来学习,直到大量的经验揭示出一种模式,这种模式在时间推理方面表现为“直觉”?
* 从模型被优化的损失函数的角度来看,这些函数是由人类反馈贡献的,并通过人类试验和随后的整理过程优化的。
首次发布于2025年1月27日












