Anderson 视角

搜索能够跟随整个电影的AI

Published February 27, 2026

Updated May 16, 2026

Martin Anderson

AI-generated illustration (GPT-1.5) depicting a POV of a Steenbeck flatbed editing table as robot hands examine celluloid footage of a love scene from an old movie.

AI模型仍然无法跟踪谁是谁以及电影中发生了什么。一个新的系统通过协调面部识别和分阶段的摘要，保持角色一致性和情节连贯性，跨越整个电影。

让人工智能观看和理解好莱坞风格的电影可能看起来像是一个小众或边缘的追求，但一个可以观看完整电影、跟踪所有角色进展和保持情节连贯性的系统，不仅使得许多直接应用成为可能，也使得许多外围或无关的挑战成为可能，跨越不同的领域。

电影观看AI模型的低垂果实是推荐系统，在Netflix、Amazon Prime和HBO Max等流媒体平台上。对情节发展和角色行动的细致理解可以更好地匹配观众的偏好和热情。

进一步，电影的深入理解可以生成关键词和更准确的分类，而不是延续可能是在几十年前写的电影描述。这些见解还可以表明电影中可能不明显的“成人”主题的存在。

此外，目录中的旧电影可能具有过时的评级和概述，例如，1950年代电影中的语言和习语现在可能需要更多的关注。但是，没有对上下文的整体理解，这些事件可能被过度或不足地强调。

更广泛地说，改进的电影分析方法可以为事件识别做出重大贡献，事件识别对于安全监控、自动体育评论和各种媒体的摘要至关重要。

因此，“基于AI的电影观看”是一个在计算机视觉文献中颇受关注的领域。

看到大局

最新的参与者是MovieTeller，这是来自中国的一个学术/工业合作项目，它通过将各种子任务分配给适合这些任务的AI应用程序来取得新的进展，而不是像往常一样尝试在单个潜在空间中训练离散和封闭的模型来执行所有必要的任务。

作者观察到，之前的视觉语言模型（VLMs）面临同样的任务，但尚未超出单帧分析，并且他们缺乏上下文使得这些模型难以持续识别角色，这可能是此类系统最重要的特征之一。

新的系统MovieTeller能够持续识别场景中的角色，感谢专用的面部识别系统，但正是对上下文的更广泛的奉献使得该框架能够跟上情节的发展。 来源

作者指出：

“一般的视觉语言模型通常难以识别和一致地跟踪整个长篇叙事中的特定角色。它们可能在一个场景中将一个关键角色描述为‘一个男人’，而在另一个场景中将其描述为‘一个人’，未能将视觉表示绑定到一致的身份。”

作者注意到，由于Transformer的自注意力机制使用二次复杂度，处理整个电影的每一帧同时变得过于计算密集。因此，依赖于统一帧采样或简单拼接的方法往往会打断故事的流程，产生碎片化的摘要，而不是连贯的叙述。

相反，新的系统由一个训练免费的管道组成，具有专门的工具来解决面部识别和记忆的持续性（当角色离开和重新进入电影的叙事时）。

MovieTeller被测试在60部完整的电影上，相当于10,000分钟的镜头。在定量的消融测试和人体研究中，作者报告说，他们的方法能够显著改进默认环境和先前系统使用的假设。

新论文的标题是MovieTeller：工具增强的电影摘要，具有ID一致的进步抽象，来自五位作者，分别来自浙江大学、中国媒体集团和Watch AI Group（后两者位于北京）。

方法

MovieTeller模式包括三个阶段：场景分割和关键帧提取，通过PySceneDetect项目处理；事实基础的场景描述生成，通过Qwen2.5-VL-7B-Instruct视觉语言模型的定制；以及进步抽象，将详细的场景描述压缩成章节摘要，然后压缩成连贯的电影摘要——这也是由Qwen2.5模型执行的：

MovieTeller框架的概述：完整的电影首先被分割成场景并提取成高质量的关键帧；然后，外部面部识别工具注入事实基础，将角色名称链接到边界框，指导视觉语言模型生成ID一致的场景描述。这些描述然后被进步抽象成章节摘要并集成成连贯的电影摘要。

初始阶段使用PySceneDetect将电影分割成离散的场景，基于明显的视觉变化，每个场景由一个关键帧表示。

但是，并不是每一帧都能成为一个好的总结图像，因为过渡时刻、渐隐和黑帧可能会混淆后续分析。因此，一个简单的质量检查执行一个过滤运行，通过测量亮度和视觉变化，确保只有信息丰富的图像被选中进行描述。

放置面部

从公开的演员信息中建立了一个面部数据库，存储每个主要角色的名字和一个数字面部嵌入。当一个面部出现在关键帧中时，其嵌入被匹配到数据库中，并且如果它清除了一个置信度阈值，则接受最接近的结果。这创建了“事实基础”，将名称链接到特定的边界框。

为了这些目的，InsightFace被使用，利用一个ArcFace损失基于的识别头：

两个熟悉的面孔被Additive Angular Margin Loss（ArcFace）倡议所记住，用于MovieTeller项目的类似方式。 来源

注释的关键帧然后被传递给Qwen模型，带有一个提示，列出了检测到的角色和他们的位置：

由于视觉语言模型无法一次性吸收整个电影，MovieTeller首先将材料分解成场景描述。这些描述被分组成连续的、章节式的块，然后被传递给Qwen2.5，Qwen2.5总结每个章节，压缩情节发展、角色动机和转折点，同时保留之前验证的角色名称。

这些压缩的章节摘要然后被连接并返回给模型，带有一个新的提示，请求一个完整的电影摘要：

用于生成场景描述的示例提示模板，明确地注入了验证的角色名称和边界框，以约束视觉语言模型，并强制执行ID一致的叙述。

类似于请求整个摘要的提示，这个示例用于生成场景描述，明确地注入了验证的角色名称和边界框，以约束视觉语言模型，并强制执行ID一致的叙述。

假设该过程已经成功，最后的输出应该连贯地反映电影的叙事弧。这是一个特别具有挑战性的任务，因为可能的总结数量和呈现方式的多样性，以及这些数据点的必要长度，使得采用通常的基于真实值的方法几乎是不可能的。

数据和测试

为了测试该系统，作者策划了一个定制的（和未指定来源的）100部完整电影的数据集，相当于大约166小时的运行时间。电影包括钢铁侠3、霸王别姬、饮食男女和纳尼亚传奇。研究人员要求所有包含的电影在IMDB上评分超过5.0：

100部电影的数据集组成，显示从1992年到2025年的时间覆盖、非英语标题的微小多数和以戏剧和动作为主的广泛流派，包括科幻、恐怖、喜剧、浪漫和历史的代表。

广泛的流派被处理，以防止对任何一个流派的偏见。

每部电影的面部数据集由两张主要演员的图片组成，一张来自电影的静态图像，另一张来自相关的宣传照片。

使用Python实现的测试在四个NVIDIA A40 GPU上运行，每个GPU具有48GB的VRAM，并使用上述Qwen2.5变体作为中心的视觉语言模型。还进行了消融研究^††，使用了其他最先进的模型InternVL3-8B和WeThink-Qwen2.5VL-7B。

新框架被测试与两个消融^††变体：一个无提示基准，在视觉语言模型仅从关键帧生成场景描述，没有任何关于角色身份的文本提示；和一个仅名称提示设置，模型被给予检测到的角色名称，但没有边界框，允许作者分离空间基础与身份一致性和叙事连贯性的特定贡献

关于指标，考虑到将地面真实值方法应用于长总结的困难，标准的n-gram重叠度量，如ROUGE和BLEU，被放弃，转而使用BERTScore，带有F1得分，来衡量语义相似度与来自“公共百科全书”的参考总结。

此外，Gemini 2.5 Flash被用来评分每个总结的事实忠实度、ID一致性和完整性、叙事连贯性和流畅性以及简洁性，并在各个维度上平均得分。

最后，50个随机采样的总结进行了人体评估，使用成对比较，提供了一个实用的检查自动评估的方法。

下面我们看到三个骨干模型的BERTScore（F1）结果：Qwen2.5-VL、InternVL3和WeThink。每个模型都被测试在三个配置中：无提示、仅名称和完整的MovieTeller系统：

三个基准视觉语言模型和三个实验设置的BERTScore（F1）比较，显示在添加角色名称和进一步包含空间基础时的一致性收益，MovieTeller在所有情况下都取得了最高的分数。

作者指出，模式在所有三个骨干模型中是一致的：仅使用原始关键帧会产生最弱的性能；添加角色名称会产生适度的改进；而将名称与边界框结合起来会产生最强的结果。虽然收益是渐进的而不是戏剧性的，但完全接地的配置在每个设置中都实现了与参考总结最高的语义对齐。

关于LLM基于的叙事质量评估：如我们在下面的结果中所见，无提示基准在身份一致性方面挣扎最多，这拉低了它的总体评分；但提供名称会产生明显的提升，特别是在与身份相关的维度上。然而，完整的MovieTeller配置在所有三个骨干模型中都排名最高：

三个基准模型的LLM-as-a-Judge评估（1-5级），显示添加角色名称会提高身份一致性和总体质量，而完整的MovieTeller框架在所有三个基准模型中都取得了最高的分数，跨越事实忠实度、连贯性、简洁性和最终评分。

最强的收益出现在身份一致性和最终平均评分中，表明空间基础有助于模型在情节展开时保持清晰的角色身份。

在50个随机采样的总结的人体评估中，参与者被展示三个总结，并被要求选择最好的：

三个基准模型的三选一强制评估中的人类偏好率，显示完全接地的MovieTeller总结在所有三个基准模型中都被选中最多，显著优于无提示和仅名称变体。

最后，进行了一个定性的测试，在2012年的电影消失的子弹上：

我们无法在这里重现原始论文中的整个图形，因为它非常高和文本密集。请参阅原始论文。

这里，无提示基准产生了一个模糊的总结，使用通用术语来指代角色，并模糊了他们的角色，使得事件链更难以跟踪。提供名称会提高表面层面的回忆，但叙事仍然会偏离，角色关系和动机被以一种“扁平化”的方式描述。

相反，完全接地的MovieTeller版本在整个总结中保持了身份的稳定，并将行动与正确的角色联系起来，使得调查情节能够以更清晰的因果结构展开。具体的紧张和角色动态被保留，而不是抽象化，结果是一个读起来更像电影中心弧的连贯重述，而不是一个脱节的提纲：

最终比较的部分，无法在这里重现，显示了一个消融和一个完整的MovieTeller总结。请参阅原始论文。

结论

尽管大多数这种项目最终都出现在计算机视觉文献中，但AI生成的电影总结涵盖了机器学习研究中的许多其他学科和领域，并且很难预测哪些将无意中贡献缺失的拼图碎片。虽然MovieTeller朝着正确的方向迈出了一步，通过将任务分配给适合这些任务的模块，而不是希望在潜在空间中离散地解决所有问题，但它仍然保留了“拼凑”感，这通常是更优雅的解决方案的前奏。

* 我无法识别这个机构，即使经过一些搜索。

^†人们会假设类似IMDB或OMDB的东西，但来源没有指定。

^††请参阅原始论文以获取全面消融，因为我们只在特殊情况下涵盖完整消融。我会注意到这里提到的未经处理的消融研究不会削弱论文的总体发现。

首次发表于2026年2月27日，星期五