Anderson 视角

AI 更愿意读书而不是看电影

Published October 31, 2025

Updated May 17, 2026

Martin Anderson

AI-generated image of an industrial robot seated in an armchair and reading a book, while ignoring a movie playing on TV. ChatGPT-o4, Nano-Banana; Firefly.

令人惊讶的是，很难让 AI 模型观看和评论实际的视频内容，即使它们是为此任务而设计的。它们更感兴趣于书面文字。

如果您曾经尝试将一个小视频片段上传到 ChatGPT 或类似的流行视觉/语言模型，您可能会惊讶地发现它们实际上无法解析视频。虽然像 ChatGPT-4o+ 这样的模型能够分析单个帧 – 以图像的形式，例如 JPEG 和 PNG – 它们更喜欢用户自己提取帧并将其作为图像上传（它们是准备好评论这些图像）。

在 OpenAI GPT 系列中，人们可以通过从视频片段中提取完整的帧运行并将其输入 ChatGPT 来实现某些目的，例如生成 AI 创建的视频音频轨道：

来自 OpenAI 教程的图像和代码，用于解析多个提取的帧，以开发用于视频片段的 AI 生成的评论。来源

但是，用户需要自己将视频转换为帧，或者通过调用更大程序中的函数（如上例所示），或者使用 FFMPEG 或各种免费和付费的视频编辑解决方案来提取帧。

在很大程度上，可能是很大程度上，高级产品（如 ChatGPT）中的视频分析限制取决于 资源使用：为一个 AI 实例配备最流行的视频编解码器，并为提取和处理视频片段分配计算资源，这不是一个小问题，如果数百万用户每天开始使用这些功能。

此外，时间分析可以呈现出不同的图景，而不是单个帧（想象有人进入一栋房子，心情愉快，然后发现一具尸体）；因此，考虑到甚至短视频片段的整个时间“校验和”是一个具有挑战性和资源密集型的任务，以及一个专门的研究领域，例如光流的持续开发 – 本质上“展开”一段视频，以便将其视为静态文档：

光流图显示如何在视频序列中跟踪运动，绿色向量显示运动方向和强度。这些映射提供了 VLM 需要的时间连续性，也可以作为 VFX 工作流中的结构指南。来源

满足于 Cliff 的笔记

尽管如此，由于模型（如 Google 的 Notebook LM 和最近的 ChatGPT 条目）能够读取相关元数据（即以某种方式为视频提供上下文的嵌入式文本内容），它们不禁止视频文件上传；有时，它们甚至会尝试解释没有此类数据的视频。

在下面的情况下，我将一段 6 秒的随机剪辑从意大利电影 上帝之手（2021 年）上传到 NotebookLM，确保剪辑中没有有用的文本，既没有元数据也没有文件名中的文本。

NotebookLM 然后详细地编造了与视频完全无关的内容，包括一个毫无意义且无关的五分钟的头对头播客：

来自意大利电影的六秒钟剪辑中的一个普通瞬间被 NotebookLM 严重误解。来源：Google NotebookLM

虽然 Notebook 和 ChatGPT 都会接受 YouTube 视频作为输入，但前提是视频具有可解释的文本层注释和/或字幕（而不是烧入视频的光栅化字幕）。

这种方式，实际上观看和聆听视频内容并对其进行语义解释的艰苦工作（这是 YouTube 的法律必需条件，考虑到其版权保护措施，以及其即将推出的身份保护系统），已在用户上传后完成，并在视频片段可以分配必要的处理资源时完成。

真正的视频解释是昂贵且耗时的，甚至专门为此任务而设计的模型也宁愿读取文本而不是真正观看视频。

TL;DW

根据英国布里斯托尔大学的一篇新论文，题为 一张图片不值一千个字，两位作者得出结论，当前最先进的视觉语言模型（VLM）- 模型旨在能够以更有努力的方式分析视频，并参与 视频问答（VQA）- 也会在可能的情况下默认为基于文本的信息。

当给出移动图片和书面问题以及多项选择答案时，论文作者发现模型通常会根据文本中的模式而不是屏幕上的内容来做出选择 – 在许多情况下，即使问题被 完全删除，它们也能做出同样好的表现。

这似乎是一种习惯性的捷径或作弊，模型最关心的是在可能的答案中发现模式；只有当任务变得更加困难时，例如添加更多答案选项，AI 才开始更密切地关注视频。

作者对六个具有不同上下文长度的 VLM 进行了 VQA 测试，在四个合适的数据集上；结果表明，模型的决策依赖于文本而不是视频内容。

来自研究的示例，展示视频分析模型如何权衡其看到的内容与其读到的内容。视频片段显示一个人正在编织竹子，但模型更看重书面问题和答案文本，而不是视频帧本身。蓝色突出显示支持所选答案的元素，而红色突出显示那些将其拉向相反方向的元素，说明模型的推理集中在措辞而不是移动图像上。来源

方法

为了了解每个输入如何为模型的决策做出贡献，新的工作使用了一种来自博弈论的方法，称为沙普利值。最初，沙普利值的设计目的是为了在联盟中公平地分配收益给玩家；在这种情况下，玩家要么是视频帧，要么是 VQA 任务的文本组件（注释、字幕、字幕等）；“收益”是模型的最终答案。

通过系统地测试每个部分被添加或删除时会发生什么，技术揭示了每个元素对最终答案的重要性。

在这个项目中，沙普利值被改编为处理混合模式，其中视频和文本组件被视为不同的实体，并且它们对模型输出的影响得到了衡量，揭示了视频内容是否真正被解释，还是使用了书面线索作为捷径。

指标

定义了两个简单的指标来比较每个模式（即视频、问题或答案）对模型决策的贡献：模式贡献衡量每种类型输入的总解释量；所有可用的沙普利值都被加起来，每个模式的份额被计算为总和的百分比。

第二，每个特征的贡献纠正了某些模式（如视频）包含比其他模式更多特征的事实。相反，计算每个特征的平均沙普利值，并比较这些平均值以确定哪个模式的影响占主导地位。

数据和测试

作者在六个具有不同特征的 VLM 上进行了测试，包括不同的上下文长度、年龄（即框架发布时间）和架构配置，以确保测试的原则是普遍适用和一般化的。

参与者包括 FrozenBiLM；InternVideo；VideoLLaMA2；VideoLLaMA3；LLaVa-Video（利用 Qwen2）；以及 LongVA（也使用 Qwen2）。

出于相同的多样化目标，选择了四个目标数据集：EgoSchema，一个 VQA 数据集，设计为无法在不完全观看相关视频的情况下完成；HD-EPIC，一个以厨房为重点的数据集，包含一些异常长的视频；MVBench，一个来自其他数据集的贡献的集合；以及 LVBench，它为非常长的视频提出 VQA 查询。

从这些数据集中，作者设计了 60 个问题 – 每种问题类型各 10 个。

贡献指标清楚地表明，大多数模型更依赖文本而不是视频，尤其是在逐帧判断时。即使视频在整体贡献中表现良好，其每个特征的影响往往很小，表明虽然模型可能在整体上使用视频，但它对个别帧的关注很少：VideoLLaMA3 是主要的异常，它在更长的序列（如 LVBench）中具有更强的视觉依赖性：

在模型和数据集上计算的模态贡献（MC）和每个特征贡献（PFC）得分，显示视频（V）、问题（Q）和答案（A）输入的相对权重。较冷的颜色表示更强的贡献；较暖的颜色表示较弱或微不足道的影响。在大多数情况下，语言明显占主导地位，视频通常被边缘化 – 尤其是在每帧影响方面。”

至于文本，问题往往比答案更重要，尤其是在更强大的模型中。这在 EgoSchema 等数据集中最为明显，因为问题更长、更自然，而答案更短、有时更具模式化。

MVBench 某种程度上颠倒了这种情况，因为其二元答案结构会夸大答案令牌的重要性。

在所有模型和数据集上，视觉始终被边缘化，语言承担了大部分工作。

该论文指出：

‘对于长上下文模型，视频的贡献大大减少，这意味着每帧的沙普利值比其文本特征对应值小得多。 ‘

‘视频作为一个整体模态仍然非常相关，但这表明其个别帧的沙普利值更接近零，而且模型对它们的关注也较少。 ‘

为了测试每个输入部分如何为模型的准确性做出贡献，研究人员进行了额外的测试，使用了屏蔽 – 故意隐藏输入的一部分或多个部分，并观察模型的准确性如何随着每个部分的移除而变化。

如果性能在移除特定输入时显著下降，则该输入很可能很重要；如果模型的性能保持不变，则表明缺失的部分没有被严重依赖。在这种意义上，屏蔽测试是一种迭代的消融研究。

在四个 VQA 基准测试中，屏蔽视频、问题或答案输入的性能影响。分数显示与未屏蔽基准的变化。红色表示较低的准确性，绿色表示更高的准确性。模型通常在没有视频的情况下保持高分，但在移除答案（文本）时会失去更多。屏蔽问题通常会产生最小的影响。

结果（如上所示）表明，答案（多项选择数据中的文本答案）在所有情况下都具有最大的权重。屏蔽答案通常会导致准确率下降，通常会将模型降级为接近随机的性能。

然而，屏蔽问题通常会产生很小的影响，这支持了之前的发现，即模型通常低估问题的重要性。

在某些情况下，准确率甚至会在 移除问题 时提高，这意味着模型有时只是将答案与视觉或文本提示进行匹配，而不是正确评估问题。

模型在对视频的依赖方面也各不相同：有些模型即使没有视频也能保持合理的准确率，这进一步证实了在许多当前设置中视频特征的贡献有限。

作者随后测试了是否可以通过向多项选择选项中添加更多 错误答案 来强制模型依赖视频。

当干扰项很容易且来自其他问题时，性能会提高，因为模型会匹配文本模式而不是进行真正的推理。但是，当有十个或更多无关答案时，模型开始更多地依赖视频和问题：

随着向每个 VQA 测试中添加更多错误答案，视频、问题和答案输入的每个特征贡献和准确率，表明增加干扰项会降低文本的主导地位并增加视觉和问题特征的相对影响。

对于 VideoLLaMA3，屏蔽视频会使 EgoSchema 的准确率下降 40%，LVBench 下降 15%，表明简单地增加答案数量就可以将模型从文本捷径转向真正的多模态推理。

研究人员还探讨了如何在输入中分配归因，以及下面我们看到每个模型输入的沙普利值热图：

四个数据集的沙普利值热图，其中每行显示一个 VQA 元组，每列显示一个特征。视频特征出现在左侧，其后是文本。文本区域（红色）中的更强值确认模型更依赖语言而不是视频。

对上述结果的评论，作者指出：

‘热图中每个列的沙普利值的幅度远远大于左侧，代表视频帧的部分，表明视频模态的贡献远远小于问题/答案。 ‘

总之，在所有数据集上，值远远偏向文本端，表明模型依赖语言而不是视觉线索。即使视频 被使用，其贡献也分散在许多帧中，通常没有一致的模式。

下面我们看到来自 EgoSchema 的一个带注释的示例，其中使用沙普利值选择了 16 个最“重要”的帧，并根据其影响力对其进行了着色，蓝色表示正面影响，红色表示负面影响：

来自 EgoSchema 的一个示例的沙普利归因，显示 16 个最具影响力的帧和所有文本输入。视频贡献与文本相比微不足道，文本主导模型的推理。蓝色和红色表示对所选答案的正面和负面影响。

结果是几乎每个帧的影响力都比问题和答案中的单词微不足道。视觉线索很少且不一致，而像“椅子”和“围栏”这样的名词会根据上下文引导模型朝正确的选择或远离它。

结论

任何曾经涉足视频编辑或视频分析的人都知道这些过程有多么耗费资源，并且会理解为什么像处理数百万个基于 AI 的请求的公司每天无法随意允许用户运行临时编辑和解释性视频过程。

需要记住的一件事是，几乎每个 API AI 接口（可能除了支持新科学研究的品牌新演示）都旨在以最低的资源开支来满足用户的愿望。

这意味着，如果可能的话，依赖现有的元数据或 RAG 检索；如果绝对必要，提取元数据以获得更易于解析的格式，例如 PDF、文档和单个图像。

不在考虑范围内的是运行您的上传视频通过 CLIP 或最新的 YOLO 版本，或者通过任何耗费大量资源且耗时的 VLM，它实际上可以识别视频帧中的内容并理解所提供的视频中发生了什么，考虑到时间性。

然而，这并不意味着本文记录的现象是由于节俭的架构方法所致。作者指出，文本在当前的多模态训练范式中占主导地位，这表明“视觉语言”在多模态背景下可能不那么发达、不那么重要或不那么有信息，或者（至少目前）不那么被理解。

* 有趣的是，NotebookLM 制作的材料似乎要么是完全原创的，要么是完全未被 Google 索引的，因为我无法找到任何可能潜入训练数据并提示此输出的结果。

首次发布于 2025 年 10 月 31 日；编辑于 14:20 以进行格式调整

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

AI 更愿意读书而不是看电影

满足于 Cliff 的笔记

TL;DW

方法

指标

数据和测试

结论

You may like