Anderson 视角

填补“之间的空隙”在生成视频中

发布于 2024年12月20日

更新于 2026年5月20日

作者

Martin Anderson

Images taken from the FCVG paper and project site, https://arxiv.org/pdf/2412.11755 and https://fcvg-inbetween.github.io/

中国的新研究提出了一种改进的方法，用于插值两个时间上相距较远的视频帧之间的空隙，这是当前生成视频和视频编码压缩中最关键的挑战之一。

在下面的示例视频中，我们可以看到左边的起始帧和结束帧。竞争系统的任务是推测两个帧之间的内容。在动画中，这个过程称为“补间”（tweening），它可以追溯到电影的无声时代。

点击播放。 在第一列中，我们看到建议的起始帧和结束帧。在中间列和第三列（右边）的顶部，我们看到三种以前的方法。在右下角，我们看到新方法获得了更令人信服的结果，提供了插值帧. 来源：https://fcvg-inbetween.github.io/

中国研究人员提出的新方法称为“帧级条件驱动视频生成”（FCVG），其结果可以在上面的视频的右下角看到，提供了从一帧到另一帧的平滑和逻辑过渡。

相比之下，谷歌的“大运动帧插值”（FILM）项目是视频插值最著名的框架之一，但它在处理大规模和大胆的运动时却很难解释，例如快速的人体姿势变化。

视频中显示的其他两个竞争框架，“时间反转融合”（TRF）和“生成性补间”（GI），提供了一个较少偏差的解释，但它们创建了狂热和甚至滑稽的舞蹈动作，这两个动作都不尊重两个提供的帧的隐含逻辑。

点击播放。 两个不完美的解决方案。左边，FILM 将两个帧视为简单的形态目标。右边，TRF 知道需要插入某种舞蹈，但它得出了一个不切实际的解决方案，表现出解剖学异常。

上面左边，我们可以更仔细地看看 FILM 如何处理这个问题。虽然 FILM 被设计为能够处理大规模运动，但与基于“光流”的以前的方法相比，它仍然缺乏对两个关键帧之间发生了什么的语义理解，并且只是在帧之间执行 1980/90 年代风格的形态变化。FILM 没有语义架构，例如潜在扩散模型，来帮助创建帧之间的合适桥梁。

在上面的视频右边，我们看到 TRF 的尝试，其中使用了“稳定视频扩散”（SVD）来更智能地“猜测”如何为两个用户提供的帧创建适当的舞蹈动作，但它得出了一个大胆且不太可能的近似值。

FCVG，如下所示，做得更好地猜测帧之间的运动和内容：

点击播放。 FCVG 改进了以前的方法，但仍然不完美。

仍然存在一些伪影，例如手和面部身份的不需要的形态变化，但这个版本在表面上是最可信的——任何对现有技术的改进都需要考虑到该任务提出的巨大困难；以及它对 AI 生成视频的未来提出的重大挑战。

为什么插值很重要

正如我们之前所指出的，能够可信地填充两个用户提供的帧之间的视频内容，是维持生成视频中的时间一致性的最佳方法之一，因为两个真实且连续的同一人物的照片自然包含一致的元素，例如衣服、头发和环境。

当只使用一个起始帧时，生成系统的有限注意力窗口通常只考虑附近的帧，这将导致主题的某些方面逐渐“演化”，直到（例如）一个男人变成另一个男人（或一个女人），或者被证明拥有“变形”的衣服——这些都是开放源码 T2V 系统和大多数付费解决方案（如 Kling）中常见的干扰。

点击播放。 向 Kling 提供新论文的两个（真实）源帧，提示为“一个男人在屋顶上跳舞”，并没有得到理想的解决方案。虽然 Kling 1.6 在创建时可用，但 V1.5 是最新支持用户输入起始和结束帧的版本。来源：https://klingai.com/

问题是否已经解决？

相比之下，一些商业、闭源和专有系统似乎在这个问题上做得更好——尤其是 RunwayML，它能够为两个源帧创建非常可信的中间帧：

点击播放。 RunwayML 的扩散式插值非常有效。 来源：https://app.runwayml.com/

重复这个练习，RunwayML 产生了第二个同样可信的结果：

点击播放。 RunwayML 序列的第二次运行。

这里存在一个问题，即我们无法从专有系统中了解所涉及的挑战，也无法推进开源技术的发展。我们无法知道这种更好的渲染是否是通过独特的架构方法、数据（或数据策略，如过滤和注释）实现的，还是通过这两者的组合实现的。

此外，小型公司，例如视觉特效公司，不能长期依赖于可能通过单一价格上涨破坏其后勤规划的 B2B API 驱动服务——尤其是如果一项服务来主导市场，并因此更倾向于提高价格。

当权利是错误的

更重要的是，如果一个表现良好的商业模型是在未经许可的数据上训练的，例如似乎是 RunwayML 的情况，那么使用此类服务的公司可能会面临下游法律风险。

由于法律（和一些诉讼）比总统任期更长，并且由于美国市场是世界上最常起诉的市场之一，人工智能训练数据的立法监督趋势似乎很可能在下一个总统任期内幸存，即使在特朗普的“轻松监管”下。

因此，计算机视觉研究部门将不得不通过艰难的方式来解决这个问题，以便任何出现的解决方案都能在长期内持续下去。

FCVG

中国的新方法在一篇题为“通过帧级条件驱动视频生成进行生成性补间”的论文中提出，该论文来自哈尔滨工业大学和天津大学的五位研究人员。

FCVG 通过利用“帧级条件”和一个框架来解决插值任务中的模糊性，该框架在用户提供的起始和结束帧中确定“边缘”，这有助于该过程更好地跟踪帧之间的过渡，以及整体效果。

帧级条件涉及将创建插值帧的任务分解为子任务，而不是尝试填充两个帧之间的巨大语义空白（并且请求的视频输出越长，语义距离就越大）。

在下面的图中，从论文中，我们可以看到作者将所谓的时间反转（TRF）方法与他们的方法进行比较。TRF 使用预训练的图像到视频模型（SVD）创建两个视频生成路径。一个是“向前”路径，条件是起始帧，另一个是“向后”路径，条件是结束帧。两个路径都从相同的随机噪声开始。这在下面的图像左侧被说明：

FCVG 的先前方法比较。来源：https://arxiv.org/pdf/2412.11755

作者们断言，FCVG 是对时间反转方法的改进，因为它通过为每个帧提供明确的条件来减少视频生成中的模糊性，从而导致输出更稳定和一致。

时间反转方法，例如 TRF，可以导致模糊性，因为向前和向后生成路径可以分歧，导致错位或不一致。FCVG 通过使用从起始和结束帧之间的匹配线中得出的帧级条件来解决这个问题，这些条件指导生成过程。

点击播放。 来自 FCVG 项目页面的另一个比较。

时间反转允许使用预训练的视频生成模型进行补间，但它有一些缺点。I2V 模型生成的运动是多样而不是稳定的。虽然这对于纯图像到视频（I2V）任务很有用，但它会产生模糊性，并导致视频路径不对齐或不一致。

时间反转还需要对超参数（如每个生成视频的帧率）进行繁琐的调整。此外，时间反转中用来减少模糊性的某些技术会显著减慢推理速度，增加处理时间。

方法

作者们观察到，如果第一个问题（多样性与稳定性）可以解决，那么所有其他后续问题可能都会解决。这种方法以前在诸如 GI 和 ViBiDSampler 之类的方法中已经被尝试过。

论文指出：

‘然而，这些方法之间仍然存在相当大的随机性，因此它们在处理涉及大规模运动的场景（例如快速的人体姿势变化）时的有效性受到限制。插值路径中的模糊性主要是由于中间帧的条件不足，因为两个输入图像只为起始和结束帧提供了条件。’

‘因此，我们建议为每个帧提供明确的条件，这大大减轻了插值路径的模糊性。’

我们可以在下面的图表中看到 FCVG 的核心概念。FCVG 生成一系列视频帧，起始和结束帧与两个输入帧一致。这确保了帧是时间上稳定的，通过为视频生成过程提供帧特定的条件来实现。

FCVG 的推理模式。

在对时间反转方法的重新思考中，该方法结合了来自两个方向的信息，将它们混合在一起以创建平滑的过渡。通过迭代过程，该模型逐渐改进了嘈杂的输入，直到生成最终的插值帧集。

下一个阶段涉及使用预训练的 GlueStick 线匹配模型，该模型在两个计算的起始和结束帧之间创建对应关系，使用骨骼姿势来指导模型，通过稳定视频扩散模型来实现。

GlueStick 从解释的形状中推导出线条。这些线条为 FCVG* 中的起始和结束帧提供匹配的锚点。

作者们指出：

‘我们在实践中发现，对于大多数情况来说，线性插值足以保证插值视频的时间稳定性，我们的方法允许用户指定非线性插值路径以生成所需的视频。’

建立帧级条件的工作流程。我们可以看到保持内容一致的匹配颜色，当动画发展时。

为了将获得的帧级条件注入到 SVD 中，FCVG 使用了为 2024 年 ControlNeXt 计划开发的方法。在此过程中，控制条件最初由多个 ResNet 块编码，然后在条件和 SVD 分支之间进行交叉归一化。

一个小的视频集用于对 SVD 模型进行微调，大多数模型参数被冻结。

‘这些限制在 FCVG 中基本上得到了解决：（i）通过为每个帧明确指定条件，向前和向后路径之间的模糊性显著减少；（ii）只引入一个可调参数，同时保持 SVD 中的超参数为默认值，在大多数场景中都能产生良好的结果；（iii）简单的平均融合，不需要重新注入噪声，在 FCVG 中是足够的，推理步骤可以比 GI 减少 50%。’

将帧级条件注入稳定视频扩散的广泛模式，用于 FCVG。

数据和测试

为了测试系统，研究人员策划了一个具有多样场景的数据集，包括户外环境、人体姿势和室内位置，包括摄像机运动、舞蹈动作和面部表情等运动。从 DAVIS 和 RealEstate10k 数据集中选择了 524 个片段，并添加了从 Pexels 获得的高帧率视频。策划集被分成 4:1 用于微调和测试。

使用的指标包括学习到的感知相似性度量（LPIPS）、弗雷切特感知距离（FID）、弗雷切特视频距离（FVD）、VBench 和弗雷切特视频运动距离。

作者指出，这些指标都不适合估计时间稳定性，并将我们引导到 FCVG 项目页面上的视频。

除了使用 GlueStick 进行线匹配外，还使用 DWPose 进行人体姿势估计。

微调工具在 70,000 次迭代下运行，使用 AdamW 优化器，在 NVIDIA A800 GPU 上，以 1×10^-6 的学习率，帧被裁剪为 512×320 的补丁。

测试的先前竞争框架包括 FILM、GI、TRF 和 DynamiCrafter。

对于定量评估，所处理的帧间距范围从 12 到 23。

与先前框架的比较结果。

关于这些结果，论文指出：

‘我们的方法在所有指标中都取得了最好的性能。关于与 FILM 的 LPIPS 比较，我们的 FCVG 略逊一筹，但在其他指标中表现出色。考虑到 LPIPS 中缺乏时间信息，可能更合适地优先考虑其他指标和视觉观察。 ‘

‘此外，通过比较不同帧间距下的结果，我们发现 FILM 在帧间距较小时效果良好，而生成方法更适合大帧间距。在这些生成方法中，我们的 FCVG 由于其明确的帧级条件而表现出显著的优势。’

对于定性测试，作者制作了项目页面（以及本文中嵌入的视频）和论文中的静态和动态结果。

论文中的静态结果样本。请参考源 PDF 以获取更好的分辨率，并注意 PDF 中包含可以在支持此功能的应用程序中播放的动画。

作者们评论道：

‘虽然 FILM 对小运动场景产生平滑的插值结果，但它在处理大规模运动时会遇到困难，这是由于光流的固有局限性，导致背景和手部运动等明显的伪影。 ‘

‘像 TRF 和 GI 这样的生成模型由于融合路径的模糊性而遭受不稳定的中间运动，特别是在涉及人体和物体运动的复杂场景中。 ‘

‘相比之下，我们的方法在各种场景中始终产生令人满意的结果。即使在存在显著遮挡的情况下（在第二个案例和第六个案例中），我们的方法仍然可以捕捉到合理的运动。此外，我们的方法对复杂的人体动作（在最后一个案例中）表现出鲁棒性。’

作者们还发现 FCVG 对动画风格的视频推广得非常好：

点击播放。 FCVG 为卡通风格动画生成非常令人信服的结果。

结论

FCVG 代表了非专有环境中帧插值的最新技术的至少一个增量改进。作者已经在 GitHub 上发布了该工作的代码，尽管相关数据集在撰写本文时尚未发布。

如果专有商业解决方案通过使用网络抓取的未经许可的数据超过开源努力，那么这种方法在商业使用中似乎没有未来；风险太大了。

因此，即使开源场景落后于当前市场领导者的令人印象深刻的展示，但它可能是慢慢前进的乌龟，最终会赢得比赛。

来源：https://openaccess.thecvf.com/content/ICCV2023/papers/Pautrat_GlueStick_Robust_Image_Matching_by_Sticking_Points_and_Lines_Together_ICCV_2023_paper.pdf

^† 需要 Acrobat Reader、Okular 或任何其他支持嵌入式 PDF 动画的 PDF 阅读器。

首次发布于 2024 年 12 月 20 日，星期五