人工智能

仅凭两张图像生成更优的AI视频

Published October 29, 2024

Updated March 19, 2026

Martin Anderson

Images from the accompanying YouTube video for the paper 'Framer: Interactive Frame Interpolation'. Source: https://www.youtube.com/watch?v=4MPGKgn7jRc

视频帧插值（VFI）是生成式视频研究中的一个开放性问题。其挑战在于在视频序列的两个现有帧之间生成中间帧。

点击播放。 FILM框架是谷歌与华盛顿大学的合作成果，提出了一种有效的帧插值方法，至今在爱好者和专业领域仍很流行。左侧，我们可以看到两个独立且不同的帧叠加在一起；中间是’结束帧’；右侧则是帧之间的最终合成结果。来源：https://film-net.github.io/ 和 https://arxiv.org/pdf/2202.04901

广义上说，这项技术可以追溯到一个多世纪以前，并且从那时起就被用于传统动画。在那个背景下，主要的动画艺术家会生成关键的’关键帧’，而’补间’中间帧的工作则由其他工作人员完成，这被视为一项更琐碎的任务。在生成式AI兴起之前，帧插值被用于诸如实时中间流估计（RIFE）、深度感知视频帧插值（DAIN）以及谷歌的大运动帧插值（FILM – 见上文）等项目中，目的是提高现有视频的帧率，或实现人工生成的慢动作效果。这是通过拆分视频片段的现有帧并生成估计的中间帧来实现的。 VFI也用于开发更好的视频编解码器，并且更广泛地应用于基于光流的系统（包括生成式系统），这些系统利用对即将到来的关键帧的预先了解来优化和塑造其前的中间内容。

生成式视频系统中的结束帧

现代生成式系统，如Luma和Kling，允许用户指定起始帧和结束帧，并且可以通过分析两张图像中的关键点并估计两者之间的轨迹来执行此任务。正如我们在下面的示例中所见，提供一个’结束’关键帧能让生成式视频系统（本例中是Kling）更好地保持诸如身份等特征，即使结果并不完美（尤其是在大运动的情况下）。

点击播放。 Kling是越来越多的视频生成器之一，包括Runway和Luma，它们允许用户指定结束帧。在大多数情况下，最小的运动将带来最真实和缺陷最少的结果。 来源：

在上面的例子中，人物身份在两个用户提供的关键帧之间保持一致，从而实现了相对一致的视频生成。当只提供起始帧时，生成式系统的注意力窗口通常不够大，无法’记住’视频开始时人物的样子。相反，身份可能会随着每一帧发生一点变化，直到所有相似性都消失。在下面的例子中，上传了一张起始图像，人物的运动由文本提示引导：

点击播放。在没有结束帧的情况下，Kling只有一小部分紧邻的前序帧来指导生成下一帧。在需要任何显著运动的情况下，这种身份特征的衰减会变得很严重。

我们可以看到，演员的相似性无法抵抗指令的影响，因为生成式系统不知道他微笑时会是什么样子，而他在种子图像（唯一可用的参考）中并没有微笑。大多数病毒式传播的生成式视频片段都经过精心策划，以淡化这些缺点。然而，时间一致的生成式视频系统的进展可能取决于研究领域在帧插值方面的新发展，因为唯一可能的替代方案是依赖传统的CGI作为驱动性的’引导’视频（即使在这种情况下，纹理和光照的一致性目前也难以实现）。此外，从一小部分近期帧迭代推导出新帧的特性，使得实现大而大胆的运动变得非常困难。这是因为一个在帧内快速移动的物体可能会在一帧的空间内从一侧移动到另一侧，这与系统可能训练所基于的更渐进式的运动相悖。同样，一个显著而大胆的姿态变化不仅可能导致身份偏移，还会产生生动的非一致性：

点击播放。 在这个来自Luma的例子中，请求的运动似乎在训练数据中没有得到很好的体现。

Framer

这让我们想到最近一篇来自中国的有趣论文，它声称在实现逼真的帧插值方面达到了新的最先进水平——并且是同类中首个提供基于拖拽的用户交互的系统。

Framer允许用户通过直观的拖拽界面来引导运动，尽管它也有一个’自动’模式。来源：

基于拖拽的应用程序最近在文献中变得频繁出现，因为研究领域正努力为生成式系统提供不依赖于文本提示所获得的相当粗糙结果的工具。这个名为Framer的新系统，不仅可以遵循用户引导的拖拽，还有一个更传统的’自动驾驶’模式。除了传统的补间，该系统还能够生成延时模拟，以及对输入图像进行变形和新视角合成。

Framer中为延时模拟生成的中间帧。来源：https://arxiv.org/pdf/2410.18978

关于新视角的生成，Framer略微涉足了神经辐射场（NeRF）的领域——尽管只需要两张图像，而NeRF通常需要六张或更多的图像输入视图。在测试中，基于Stability.ai的Stable Video Diffusion潜在扩散生成视频模型构建的Framer，在一项用户研究中能够胜过近似的竞争方法。在撰写本文时，代码计划在GitHub上发布。视频样本（上述图像即来源于此）可在项目网站获取，研究人员还发布了一个YouTube视频。这篇新论文题为Framer: Interactive Frame Interpolation，来自浙江大学和阿里巴巴支持的蚂蚁集团的九位研究人员。

方法

Framer在其两种模式中的任一种下都使用基于关键点的插值，其中对输入图像进行基本拓扑评估，并在必要时分配’可移动’点。实际上，这些点相当于基于身份的系统中的面部标志点，但推广到了任何表面。研究人员在OpenVid-1M数据集上微调了Stable Video Diffusion（SVD），增加了额外的最后一帧合成能力。这促进了一个轨迹控制机制（下图架构图的右上角），可以评估朝向结束帧（或从结束帧返回）的路径。

Framer的架构图。

关于添加最后一帧条件，作者指出：

‘为了尽可能保留预训练SVD的视觉先验，我们遵循SVD的条件范式，分别在潜在空间和语义空间中注入结束帧条件。

‘具体来说，我们将第一[帧]的VAE编码潜在特征与第一帧的噪声潜在连接起来，就像在SVD中所做的那样。此外，考虑到条件和相应的噪声潜在在空间上是对齐的，我们将最后一帧的潜在特征zn与结束帧的噪声潜在连接起来。

‘此外，我们分别提取第一帧和最后一帧的CLIP图像嵌入，并将它们连接起来用于交叉注意力特征注入。’

对于基于拖拽的功能，轨迹模块利用了由Meta Ai主导的CoTracker框架，该框架评估了大量可能的未来路径。这些路径被精简到1-10条可能的轨迹。然后，通过受DragNUWA和DragAnything架构启发的方法，对获得的点坐标进行变换。这得到了一个高斯热图，该图标识了运动的目标区域。随后，数据被馈送到ControlNet的条件机制中，ControlNet是一个最初为Stable Diffusion设计的辅助一致性系统，后来被适配到其他架构。对于自动驾驶模式，特征匹配最初通过SIFT完成，SIFT解释出一条可以传递给自动更新机制的轨迹，该机制灵感来源于DragGAN和DragDiffusion。

Framer中点轨迹估计的架构图。

数据与测试

为了微调Framer，空间注意力和残差块被冻结，只有时间注意力层和残差块受到影响。该模型在AdamW优化器下训练了10,000次迭代，学习率为1e-4，批量大小为16。训练在16个NVIDIA A100 GPU上进行。由于先前解决该问题的方法不提供基于拖拽的编辑，研究人员选择将Framer的自动驾驶模式与旧有产品的标准功能进行比较。为当前基于扩散的视频生成系统类别测试的框架有LDMVFI；Dynamic Crafter；和SVDKFI。对于’传统’视频系统，竞争框架是AMT；RIFE；FLAVR；以及前面提到的FILM。除了用户研究外，还在DAVIS和UCF101数据集上进行了测试。定性测试只能通过研究团队的客观判断和用户研究来评估。然而，论文指出，传统的定量指标在很大程度上不适合当前的任务：

‘[重建]指标如PSNR、SSIM和LPIPS无法准确捕捉插值帧的质量，因为它们会惩罚那些与原始视频像素不对齐的其他合理插值结果。

‘虽然生成指标如FID有所改进，但它们仍然不足，因为它们没有考虑时间一致性，并且孤立地评估帧。’

尽管如此，研究人员还是用几种流行指标进行了定性测试：

Framer与竞争系统的定量结果。

作者指出，尽管处于不利条件，Framer在测试的方法中仍然取得了最佳的FVD分数。以下是论文中定性比较的样本结果：

与先前方法的定性比较。请参阅论文以获取更高分辨率，以及视频结果，网址：

作者评论道：

‘[我们的]方法相比现有的插值技术，产生了显著更清晰的纹理和更自然的运动。它在输入帧之间存在显著差异的场景下表现尤其出色，而传统方法往往无法准确插值内容。

‘与LDMVFI和SVDKFI等其他基于扩散的方法相比，Framer在应对挑战性案例方面表现出更优的适应性，并提供更好的控制。’

对于用户研究，研究人员召集了20名参与者，他们评估了来自各种测试方法的100个随机排序的视频结果。因此，获得了1000个评分，用于评估最’真实’的输出：

用户研究的结果。

从上图可以看出，用户压倒性地偏爱Framer的结果。该项目附带的YouTube视频概述了Framer的一些其他潜在用途，包括变形和卡通中间帧生成——这正是整个概念的起源。

结论

对于基于AI的视频生成任务而言，目前很难过分强调这一挑战的重要性。迄今为止，业余和专业社区都使用诸如FILM和（非AI的）EbSynth等较旧的解决方案在帧之间进行补间；但这些解决方案存在明显的局限性。由于新T2V框架官方示例视频的虚假策划，公众普遍存在一种误解，认为机器学习系统可以在不借助3D可变形模型（3DMMs）或其他辅助方法（如LoRAs）等引导机制的情况下，准确推断运动中的几何形状。坦率地说，补间本身，即使能够完美执行，也只是对这个问题的’黑客’或作弊手段。尽管如此，由于生成两张对齐良好的帧图像通常比通过文本提示或当前一系列替代方案进行引导更容易，因此看到这种古老方法的基于AI版本取得迭代进展是件好事。 首次发布于2024年10月29日，星期二

Martin Anderson

Writer on machine learning, domain specialist in human image synthesis. Former head of research content at Metaphysic.ai.
Personal site: martinanderson.ai
Contact: [email protected]
Twitter: @manders_ai

Unite.AI

仅凭两张图像生成更优的AI视频

生成式视频系统中的结束帧

Framer

方法

数据与测试

结论

You may like