Anderson 视角

视频字幕挑战：每秒超过1帧

Published March 19, 2025

Updated April 26, 2026

Martin Anderson

Trails in a basketball scene - source: https://www.youtube.com/watch?v=ORfjgE6n2Pc

机器学习系统识别视频内部事件的能力对于AI基于视频生成的未来至关重要，尤其是因为视频数据集需要准确的字幕来产生符合用户请求的模型，并且不会过度幻觉。

来自Google的VidReCap项目的字幕模式示例。 来源：https://sites.google.com/view/vidrecap

手动字幕化所需的视频规模对于有效的训练数据集来说是一个不可思议的前景。虽然可以训练AI系统自动字幕化视频，但仍然需要大量的人工生成示例作为基准，以确保多样性和覆盖范围。

更重要的是，几乎所有当前的AI基于视频字幕模型都以1fps运行</em%，这不是一个足够密集的捕获率，以区分许多场景中的变化：情绪识别系统中的微表情变化；高速度运动中的快速事件，例如篮球；暴力运动；戏剧电影中的快速剪辑，在那里，像PySceneDetect这样的系统可能无法识别它们（或没有使用它们）；以及许多其他场景，其中注意窗口明显需要更强烈。

点击播放。在世界上最慢的运动之一中，快速但改变生活的动作，亚历克斯·希金斯在1982年击败雷·里尔顿赢得世界冠军。 来源：https://www.youtube.com/watch?v=_1PuqKno_Ok

快速移动，打破逻辑

这种低速率是由于各种后勤原因而成为标准的。首先，视频字幕化是一项资源密集的活动，无论系统是逐一研究每一帧，还是使用各种方法来使一系列帧在语义上保持一致。在这两种情况下，上下文窗口最终受到硬件约束的限制。

1fps成为当前标准的另一个原因是，视频通常不充满快速事件；因此，给300帧静态的台球桌与赢得冠军的那一瞬间（见上例）同样的关注是多余的。

可以使用更广泛的次要线索来识别体育视频中的关键时刻，例如篮球比赛中快速扣篮的持续人群反应。然而，这样的线索可能出现在其他原因（例如意外的球员受伤），并且不能依赖它们。这是视频数据集错误标记如何导致生成视频模型幻觉或误解指令的示例，即模型可能显示球员受伤，而不是被要求生成扣篮（因为人群激动的次要线索并非特定于某一类型的事件）。

这是一个“预算”问题，在某些方面也是一个程序问题。到目前为止，框架都是基于这样的原则：稀疏的关键帧可以有效地捕捉基本信息，但这更适合于建立视频的类型和其他方面，因为在这种情况下，证据会持续多个帧。

F-16

来自中国的一篇新论文提供了一种解决方案，即第一个可以以每秒16帧（16fps）而不是标准的1fps分析视频的多模态大型语言模型（MLLM或简称LLM），同时避免了增加分析速率的主要陷阱。

在测试中，作者声称该新系统，称为F-16</em%，在测试中超过了专有的最先进模型，如GPT-4o和Google的Gemini-1.5 Pro。虽然其他当前模型能够在试验中匹配或超过F-16的结果，但竞争模型更大、更笨重。

虽然F-16是在一些严重的硬件（如下所述）上训练的，但推理通常比训练要少得多。因此，我们可以希望代码（承诺在不久的将来发布）将能够在中等或高级的家庭GPU上运行。

对于爱好者场景（包括大多数时候的专业VFX场景）的活力所需的是这种类型的视频字幕模型，可以在消费者系统上运行，也许可以量化，以便整个生成视频场景不会迁移到基于API的商业系统，或迫使消费者将本地框架连接到商业在线GPU服务。

超越扩大规模

作者观察到，这种方法是扩大数据集的实际替代方案。可以推断，如果要将更多数据投入这个问题，这仍然是可以更喜欢的方法，因为新系统以更细粒度的方式区分事件。

他们说：

‘低帧率采样可能会导致关键视觉信息丢失，特别是在视频场景快速变化、细节复杂或运动快速的情况下。另外，如果关键帧丢失，但模型是基于关键帧信息进行训练的，则可能难以使其预测与预期内容保持一致，可能导致幻觉和性能下降…

‘…F-16在7B模型中实现了最先进的性能，在一般视频问答中表现出色，并在高帧率视频理解中显示出明显的优势，超过了商业模型，如GPT-4o。这项工作为多模态LLM研究中的高帧率视频理解开辟了新的方向。’

这篇题为用16帧每秒提高LLM视频理解能力的新论文来自清华大学和字节跳动的八位作者。

方法

由于连续帧通常包含冗余信息，F-16应用高帧率对齐器来压缩和编码关键运动细节，同时保留视觉语义。每一帧首先由预训练的图像编码器处理，提取特征表示，然后传递给基于高斯误差线性单位(GELUs)的对齐器。

F-16的架构以16 FPS处理视频，捕获比传统低帧率模型更多的帧，其高帧率对齐器在不添加额外视觉令牌的情况下保留视觉语义并高效地编码运动动力学。来源：https://arxiv.org/pdf/2503.13956

为了高效处理增加的帧数，F-16将帧分成小的处理窗口，使用三层多层感知器(MLP)合并视觉特征，帮助保留最相关的运动细节，减少不必要的重复，同时保留动作的时间流。空间最大池化层进一步压缩令牌计数，保持计算成本在界限之内。

处理后的视频令牌然后被输入到Qwen2-7B LLM中，根据提取的视觉特征和给定的用户提示生成文本响应。

通过这种方式结构化视频输入，F-16实现了作者声称的，在动态场景中更精确的事件识别，同时保持效率。

简短版本

F-16扩展了预训练的图像LLM，LLaVA-OneVision，以处理视频，通过转换其视觉输入管道。虽然标准的图像LLM处理单个帧，F-16的高帧率对齐器将多个帧重构为模型可以更高效地处理的形式；这避免了用冗余信息淹没系统，同时保留了准确视频理解所需的关键运动线索。

为了确保与其图像基础的兼容性，F-16通过将其对齐器重构为子矩阵来重用预训练参数。这使得它能够从单帧模型中集成知识，同时适应序列视频输入。

对齐器首先将帧序列压缩为针对LLM优化的格式，保留最具信息的特征，同时丢弃不必要的细节。架构设计使系统能够处理高帧率视频，同时保持计算需求在控制之内，作者认为这是扩大视频字幕化的最佳途径的证据。

变化的节奏

由于以16 FPS处理视频提高了运动理解，但增加了计算成本，特别是在推理期间，F-16引入了一种可变帧率解码方法，允许它在不重新训练的情况下动态调整帧率。

F-16可用的单帧和高帧率对齐器。

这种灵活性使模型能够在不修改其架构的情况下高效地在较低的FPS下运行，并降低了计算开销。

在测试时，当选择较低的帧率时，F-16通过重复输入帧来匹配对齐器的预期维度来重用先前训练的对齐器参数。这确保模型即使在较低的帧率下也可以有效地处理视频，而不会修改其架构。

与简单地删除帧（可能会导致准确性损失）不同，这种方法保留了对齐器的学习运动表示，保持了即使在降低帧率下也能保持准确性。对于一般的视频理解，较低的FPS设置可以加快推理速度，而不会明显损失性能，而高速运动分析仍然可以利用完整的16 FPS功能。

数据和测试

F-16建立在Qwen2-7B之上，使用SigLIP作为图像编码器。在以16 FPS采样的视频帧中，每个视频最多可以获得1,760帧。对于较长的视频片段，帧以统一的方式（即更稀疏的方式）进行采样。

用于训练，F-16使用了与LLaVA-Video相同的一般视频数据集，包括LLaVA-Video-178K、NExT-QA、ActivityNet-QA和PerceptionTest。

F-16还在高速度运动数据集FineGym、Diving48和SoccerNet上进行了微调。作者还策划了一组276场NBA比赛，于2024年11月13日至11月25日之间进行，重点是球是否成功投篮（需要高帧率处理的任务）。

模型使用NSVA测试集进行了评估，性能通过F1得分进行了衡量。

体操和跳水模型根据事件识别准确率进行了评估，而足球和篮球模型则跟踪传球和投篮结果。

该模型在1个epoch内使用128个NVIDIA H100 GPU进行了训练（并且在每个GPU的标准80GB VRAM下，这需要使用10.24TB的GPU内存；即使按照最近的标准，这也是我在跟踪计算机视觉研究文献时遇到的最高配备的GPU集群）。在训练期间使用了2×10⁻⁵的学习率。

此外，LoRA在5个epoch内使用64个GPU对体育数据进行了微调。在这里，只训练了LLM，而图像编码器保持冻结状态。

最初用于“一般视频理解”的对比框架包括GPT-4o；Gemini-1.5-Pro；Qwen2-VL-7B；VideoLLaMA2-7B；VideoChat2-HD-7B；LLaVA-OV-7B；MiniCPM-V2.6-8B；LLaVA-Video-7B；以及NVILA-7B。

这些模型在Video-MME；VideoVista；TemporalBench；MotionBench；Next-QA；MLVU；以及LongVideoBench上进行了评估。

跨模型的视频问答结果比较，显示FPS限制和多个基准测试的性能。F-16在7B模型中实现了最先进的性能，在Video-MME、NQA、TPB和MB上超越了专有模型，如GPT-4o和Gemini-1.5-Pro。

作者关于这些结果的陈述是：

‘在Video-MME Short、Medium和NeXT-QA数据集上——每个数据集都针对短视频理解——我们的模型在准确率方面超过了之前的7B SOTA模型3.2％、1.0％和0.9％，突出了其在短视频上的强大性能。 ‘

‘对于评估长视频理解的基准测试，例如Video-MME Long、LongVideoBench和MLVU，挑战更大，因为帧采样更稀疏，导致处理窗口内的帧表现出更显著的变化。 ‘

‘这增加了模态对齐器有效编码处理窗口内时间变化的难度。因此，F-16与在同一视频数据集上训练的LLaVA-Video-7B相比，性能略有下降。 ‘

F-16的高帧率处理还导致了在TemporalBench上13.5％的改进和在MotionBench上2.5％的改进，相比现有的7B模型，并且在与商业模型（如GPT-4o和Gemini-1.5-Pro）相当的水平上运行。

高速运动视频理解

F-16在FineGym、Diving48、SoccerNet和NBA数据集上进行了测试，以评估其理解高速运动的能力。

使用10,000个手动注释的NBA片段，训练重点是球的移动和球员的动作，以及模型是否可以正确确定投篮是否成功，使用NSVA测试集进行评估，评估指标为F1得分。

高速运动视频分析结果。具有高帧率对齐器的F-16在所有体育任务中都优于其低帧率对应物。GPT-4o和Gemini-1.5-Pro也在NBA和SoccerNet QA上进行了评估，在那里不需要领域内训练知识。

在FineGym上，用于体操动作识别，F-16比之前的7B SOTA模型表现好13.8％，展示了对细粒度运动的改进理解。

Diving48需要识别复杂的运动序列，例如起跳、翻转、扭转和飞行阶段，F-16在识别这些过渡时显示出更高的准确率。

对于SoccerNet，模型分析了10秒的片段，识别了球的传递，结果显示了与现有的7B模型相比的改进，表明更高的FPS有助于跟踪小的和快速的运动。

在NBA数据集上，F-16确定投篮结果的能力接近了更大的专有模型（如GPT-4o和Gemini-1.5-Pro）的准确率，进一步表明更高的帧率增强了其处理动态运动的能力。

可变帧率

F-16在不同帧率下进行了测试，以衡量其适应性。与其重新训练，F-16通过重复帧来匹配对齐器的输入结构来处理较低的帧率。这一方法比简单地删除帧（容易导致准确性损失）保留了更多的性能。

结果表明，虽然降低FPS对运动识别有一些影响，但F-16仍然优于低帧率模型，并且即使在16 FPS以下也保持了强大的结果。

左，F-16模块在推理期间的时间消耗，测量在Video-MME Long集的300个视频上的不同测试FPS和序列长度。右，比较Video-MME在不同FPS训练和测试的模型的性能。实线表示在同一FPS下训练和测试的模型，而虚线显示了在16 FPS下训练的模型在较低帧率下的性能。

F-16的高帧率处理增加了计算需求，尽管其对齐器通过压缩冗余的视觉令牌来帮助管理这些成本。

该模型每个视频需要比低FPS模型更多的FLOPs，但也实现了更好的准确率每个令牌，表明其帧选择和令牌压缩策略有助于抵消增加的计算。

结论

很难夸大这种特定研究线索的重要性或挑战——尤其是在这个年份，这将是生成视频的突破性年份，突出了视频数据集策划和字幕质量的缺陷被放大。

也应该强调的是，获取视频内部详细信息的准确描述的挑战不能仅通过向问题投入VRAM、时间或磁盘空间来解决。事件从其他冗长的视频轨迹中分离/提取的方法（例如，高尔夫或台球视频片段）将从当前占主导地位的语义方法和机制的重新思考中受益——因为其中一些限制是在资源匮乏的时代建立的。

(顺便提一下，即使16fps对于2025年来说似乎是一个非常低的帧率，但有趣的是，这也是流行的Wan 2.1生成视频模型中使用的视频片段的原生训练速度，也是它运作时最少问题的速度。希望研究界会注意到这里可能的“标准熵”；有时过时的约束可以延续未来的标准)

首次发布于2025年3月19日星期三