Anderson 视角

通过在训练期间重新排列帧来生成更好的生成式 AI 视频

mm
Adobe Firefly, various prompts and edits.

本周在 Arxiv 发表的一篇新论文解决了采用 Hunyuan 视频或 Wan 2.1 AI 视频生成器的用户目前遇到的一个问题:生成过程容易突然加速、混淆、省略或以其他方式破坏视频中的关键时刻。

点击播放。一些新的生成式视频系统中出现的时间异常现象,右侧是新的 FluxFlow 方法的改进效果。来源:https://haroldchen19.github.io/FluxFlow/

上面的视频来自论文的项目网站,展示了几个日益熟悉的问题被作者的方法缓解(视频右侧)。这种方法本质上是一种可应用于任何生成式视频架构的数据预处理技术。

第一个例子中,使用 CogVideoX 生成的“两个孩子玩球”的视频,我们可以看到(视频左侧和下面的具体例子),原生生成快速跳过几个重要的微动作,加快了孩子们的活动速度。相比之下,相同的数据集和方法使用新的预处理技术,称为 FluxFlow,产生了更好的结果:

点击播放

第二个例子(使用 NOVA-0.6B)中,我们看到一个中心运动涉及一只猫,在某种程度上在训练阶段被破坏或显著欠采样,以至于生成系统变得“瘫痪”并无法使对象移动:

点击播放

这种症状,即运动或对象“卡住”,是 Hunyuan 视频和 Wan 2.1 中最常被报告的错误之一,在各种图像和视频合成小组中。

一些问题与源数据集中的视频字幕问题有关,我们本周也讨论过;但论文作者专注于训练数据的时间质量,并提出一个令人信服的论点,即从这个角度解决挑战可以带来有用的结果。

正如我们在关于视频字幕的早期文章中提到的,某些体育项目特别难以提炼成关键时刻,这意味着重要事件(例如扣篮)在训练时没有得到应有的关注:

点击播放

在上面的例子中,生成系统不知道如何转到下一个运动阶段,并且从一个姿势到下一个姿势的转换不合逻辑,改变了球员的态度和几何形状。

这些是大幅度的运动在训练中丢失了,但同样容易受到损害的是更小但至关重要的运动,例如蝴蝶扇动翅膀:

点击播放.

与扣篮不同,翅膀的扇动不是一个“罕见”的事件,而是一个持续且单调的事件。然而,它的连贯性在采样过程中丢失了,因为运动如此之快,以至于很难在时间上确定。

这些问题并非完全新鲜,但现在更强大的生成式视频模型面向爱好者开放,用于本地安装和免费生成,这些问题正在受到更多关注。

Reddit 和 Discord 社区最初将这些问题视为“用户相关”,这是一个可以理解的假设,因为这些系统非常新,几乎没有文档。因此,各个专家建议了各种(并非总是有效的)解决这些故障的方法,例如改变 Hunyuan 视频和 Wan 2.1 的 ComfyUI 工作流的组件设置。

在某些情况下,Hunyuan 视频和 Wan 不会产生快速运动,而是产生缓慢运动。Reddit 和 ChatGPT(主要利用 Reddit)的建议包括改变生成的帧数或大幅降低帧率*。

这些都是绝望的尝试;正在涌现的真相是,我们还不知道这些问题的确切原因或确切的解决方法;很明显,为了解决这些问题而折磨生成设置(特别是当这会降低输出质量时,例如帧率过低)只是权宜之计,看到研究界如此迅速地解决这些新出现的问题真是令人欣慰。

因此,除了本周关于字幕如何影响训练的探讨外,让我们来看看关于时间规则化的新论文,以及它可能为当前的生成式视频场景带来什么改进。

中心思想很简单,但并不因此而不重要;尽管如此,论文由于需要达到规定的八页长度而略显冗长,我们将在必要时跳过这些冗余部分。

VideoCrafter 框架的原生生成中的鱼是静态的,而 FluxFlow 修改后的版本捕捉到了必要的变化。来源:https://arxiv.org/pdf/2503.15417

VideoCrafter 框架的原生生成中的鱼是静态的,而 FluxFlow 修改后的版本捕捉到了必要的变化。来源:https://arxiv.org/pdf/2503.15417

这项新工作的标题是《时间规则化使您的视频生成器更强大》,由来自 Everlyn AI、香港科技大学、中央佛罗里达大学和香港大学的八位研究人员共同完成。

(在撰写本文时,论文的配套项目网站存在一些问题)

FluxFlow

FluxFlow 背后的中心思想是通过在训练过程中对时间帧顺序的块和块组进行洗牌来克服广泛存在的闪烁和时间不一致问题:

FluxFlow 的中心思想是将块和块组移动到意外和非时间位置,作为一种数据增强形式。

FluxFlow 的中心思想是将块和块组移动到意外和非时间位置,作为一种数据增强形式。

论文解释说:

‘[这些问题]源于一个基本限制:尽管利用了大规模数据集,但当前的模型通常依赖于训练数据中的简化时间模式(例如,固定行走方向或重复的帧转换),而不是学习多样和合理的时间动态。 ‘

‘这个问题进一步被训练过程中缺乏显式时间增强所加剧,导致模型容易过拟合到虚假的时间相关性(例如,“帧 #5 必须在 #4 之后”),而不是在多样运动场景中泛化。 ‘

大多数视频生成模型,作者解释说,仍然过多地借鉴了图像合成,专注于空间保真度,而忽略了时间轴。虽然诸如裁剪、翻转和颜色抖动等技术已经帮助提高了静态图像质量,但它们并不是视频的合适解决方案,因为视频中的运动幻觉依赖于帧之间的一致转换。

由此产生的问题包括闪烁的纹理、帧之间的突然剪切以及重复或过于简单的运动模式。

点击播放。

论文认为,尽管一些模型(包括 Stable Video Diffusion 和 LlamaGen)通过越来越复杂的架构或工程约束进行补偿,但这些方法会以计算和灵活性为代价。

由于时间数据增强已经被证明在视频理解任务中是有用的(在 FineCliper、SeFAR 和 SVFormer 等框架中),作者认为在生成式视频中很少应用这种策略是令人惊讶的。

破坏性行为

研究人员认为,在训练期间简单、结构化的时间顺序破坏有助于模型更好地泛化到真实、多样的运动:

‘通过训练无序序列,生成器学会恢复合理的轨迹,有效地规则化时间熵。FLUXFLOW弥合了判别式和生成式时间增强之间的差距,提供了一种即插即用的增强解决方案,用于生成时间上合理的视频,同时提高整体质量。 ‘

‘与现有方法不同,FLUXFLOW直接在数据级别操作,引入受控的时间扰动,而不是引入架构变化或依赖后处理。 ‘

点击播放。

帧级别的扰动,作者指出,在序列内引入了细粒度的破坏。这种破坏与掩蔽增强类似,数据的某些部分被随机屏蔽,以防止系统过拟合数据点,并鼓励更好的泛化。

测试

尽管中心思想并不复杂,但仍然有一个测试部分值得我们关注。

作者测试了四个与改善时间质量同时保持空间保真度相关的查询;学习运动/光流动态的能力;在外部生成中保持时间质量;以及对关键超参数的敏感性。

研究人员将 FluxFlow 应用于三种生成式架构:基于 U-Net 的 VideoCrafter2;基于 DiT 的 CogVideoX-2B;以及基于 AR 的 NOVA-0.6B。

为了公平比较,他们对这些架构的基线模型进行了微调,使用 FluxFlow 作为额外的训练阶段,训练一个 epoch,在 OpenVidHD-0.4M 数据集上。

模型使用两个流行的基准进行评估:UCF-101 和 VBench。

对于 UCF,使用了 Fréchet 视频距离(FVD)和 Inception 得分(IS)指标。对于 VBench,研究人员关注时间质量、帧级质量和整体质量。

FluxFlow-Frame 的量化初始评估。

FluxFlow-Frame 的量化初始评估。"+ 原始" 表示在没有 FLUXFLOW 的情况下训练,而 "+ 数 × 1" 显示了不同的 FluxFlow-Frame 配置。最佳结果以阴影表示,次佳结果在每个模型中下划线。

对这些结果的评论,作者指出:

‘FLUXFLOW-FRAME 和 FLUXFLOW-BLOCK 都显著提高了时间质量,如表 1、2 中的指标(即 FVD、主观、闪烁、运动和动态)和下图中的定性结果所示。 ‘

‘例如,VC2 中漂移汽车的运动、NOVA 中猫追尾的动作以及 CVX 中冲浪者乘浪的动作,都变得更加流畅。重要的是,这些时间改进是没有牺牲空间保真度为代价的,如水花、烟雾痕迹和波纹的清晰细节所示。 ‘

下面我们看到作者提到的定性结果的选取(请参阅原始论文以获取完整结果和更好的分辨率):

定性结果的选取。

定性结果的选取。

论文表明,虽然帧级别和块级别的扰动都能提高时间质量,但帧级别方法往往表现更好。这归因于其更细的粒度,使得更精确的时间调整成为可能。块级别的扰动可能由于块内的空间和时间模式紧密耦合而引入噪音,从而降低其有效性。

结论

这篇论文,以及本周发布的 Bytedance-Tsinghua 合作的字幕工作,已经清楚地表明,新一代生成式视频模型的明显缺陷可能不仅仅是用户错误、机构失误或资金限制的问题,而是研究重点过于关注更紧迫的挑战,如时间连贯性和一致性,而忽略了这些次要问题。

直到最近,自由可用的和可下载的生成式视频系统的结果非常不理想,以至于没有大量的努力从爱好者社区中涌现出来,以解决这些问题(最不重要的是,这些问题是根本性的,不是微不足道的)。

现在我们距离预测的纯 AI 生成的照片级视频时代如此之近,很明显,研究和休闲社区都对解决剩余问题感兴趣;希望这些并不是不可逾越的障碍。

 

* Wan 的原生帧率仅为 16fps,我注意到论坛建议将帧率降低到 12fps,然后使用 FlowFrames 或其他基于 AI 的重新流动系统来插值如此少的帧之间的间隙。

首次发布于 2025 年 3 月 21 日

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai