安德森的角度
通过在训练期间调整帧来生成更好的 AI 视频

本周在 Arxiv 上发表的一篇新论文讨论了一个问题,即任何采用 混元视频 or 莞2.1 AI 视频生成器现在已经遇到过: 时间偏差其中,生成过程往往会突然加速、混淆、省略或以其他方式弄乱生成视频中的关键时刻:
点击播放. 新论文重点介绍了新一波生成视频系统用户越来越熟悉的一些时间故障。右侧是新 FluxFlow 方法的改善效果。 来源:https://haroldchen19.github.io/FluxFlow/
上述视频摘录自示例测试视频(请注意:相当混乱) 项目现场 论文。我们可以看到作者的方法(视频右侧图片)解决了几个越来越常见的问题,这实际上是一种 数据集预处理 适用于任何生成视频架构的技术。
第一个例子中,以“两个孩子在玩球”为例,由 认知视频我们看到(在上方视频合集的左侧以及下方的具体示例中),原生代儿童快速跳过了几个重要的微动作,将孩子们的活动速度提升到了“卡通”的水平。相比之下,使用相同的数据集和方法,使用新的预处理技术(称为 通量流 (下方视频图片右侧):
点击播放.
在第二个例子中(使用 新星0.6B)我们发现,涉及猫的中心运动在训练阶段以某种方式被破坏或严重欠采样,以至于生成系统变得“瘫痪”并且无法使主体移动:
点击播放.
这种运动或主体“卡住”的现象是各种图像和视频合成组中最常见的 HV 和 Wan 问题之一。
其中一些问题与源数据集中的视频字幕问题有关,我们 看了本周;但新论文的作者将精力集中在训练数据的时间质量上,并提出令人信服的论据,即从这个角度应对挑战可以产生有用的结果。
正如之前关于视频字幕的文章中提到的,某些 运动鞋 尤其难以提炼为关键时刻,这意味着关键事件(如扣篮)在训练时得不到应有的关注:
点击播放.
在上面的例子中,生成系统不知道如何进入运动的下一个阶段,并且不合逻辑地从一个姿势过渡到下一个姿势,从而改变了玩家的姿势和几何形状。
这些是训练中容易丢失的大动作,但同样容易丢失的是一些小而关键的动作,比如蝴蝶翅膀的拍打:
点击播放.
与扣篮动作不同,翅膀的拍打并非“罕见”的,而是一种持续且单调的事件。然而,由于拍打动作速度过快,很难在时间上进行确定,因此在采样过程中,其一致性被破坏了。
这些并不是特别新的问题,但是现在它们受到了更多的关注,因为强大的生成视频模型可供爱好者进行本地安装和免费生成。
Reddit 和 Discord 社区最初将这些问题视为“用户相关”。这种假设是可以理解的,因为所涉及的系统非常新,且文档记录很少。因此,许多专家针对本文记录的一些故障提出了各种(但并非总是有效的)补救措施,例如修改混元视频 (HV) 和 Wan 2.1 中不同类型的 ComfyUI 工作流程中各个组件的设置。
在某些情况下,HV 和 Wan 都不会产生快速运动,而是会产生 放慢 动作。Reddit 和 ChatGPT(主要利用 Reddit)的建议包括 改变帧数 在请求的生成中,或者大幅降低帧速率*。
这些都是令人绝望的事情;浮现的事实是,我们还不知道这些问题的确切原因或确切的补救措施;显然,折磨生成设置来解决这些问题(特别是当这会降低输出质量时,例如 fps 率太低)只是一个捷径,很高兴看到研究界正在如此迅速地解决新出现的问题。
因此,除了本周研究字幕如何影响训练之外,我们还来看看有关时间正则化的新论文,以及它可能为当前的生成视频场景提供哪些改进。
中心思想相当简单和细微,但这并没有什么不好;不过,为了达到规定的八页,本文有些内容空白,我们将在必要时跳过这些空白。

VideoCrafter 框架原生一代中的鱼是静态的,而 FluxFlow 修改版本则捕获了必要的变化。 来源:https://arxiv.org/pdf/2503.15417
此 新工作 标题为 时间正则化让你的视频生成器更强大,来自 Everlyn AI、香港科技大学 (HKUST)、中佛罗里达大学 (UCF) 和香港大学 (HKU) 的八位研究人员。
(在撰写本文时,本文的附带内容存在一些问题 项目现场)
通量流
背后的中心思想 通量流作者提出的新预训练方案是为了克服普遍存在的问题 闪烁 以及 时间不一致 当源数据暴露于训练过程时,按照时间帧顺序对块和块组进行打乱:

FluxFlow 背后的核心思想是将块和块组移动到意想不到的和非时间的位置,作为一种数据增强的形式。
本文解释:
“[伪影]源于一个根本的限制:尽管利用了大规模数据集,但当前模型通常依赖于训练数据中的简化时间模式(例如,固定的步行方向或重复的帧转换),而不是学习多样化且合理的时间动态。
“由于训练期间缺乏明确的时间增强,这个问题进一步加剧,导致模型容易过度拟合虚假的时间相关性(例如,“第 5 帧必须跟随第 4 帧”),而不是在不同的运动场景中进行推广。”
作者解释道,大多数视频生成模型仍然过多地借鉴了 图片 合成,专注于空间保真度,而在很大程度上忽略了时间轴。虽然裁剪、翻转和颜色抖动等技术有助于提高静态图像质量,但它们在应用于视频时并不是合适的解决方案,因为视频中的运动错觉取决于帧之间的一致过渡。
由此产生的问题包括纹理闪烁、帧之间不和谐的剪切以及重复或过于简单的运动模式。
点击播放。
本文认为,尽管一些模型——包括 稳定的视频扩散 以及 骆驼基因 – 通过日益复杂的架构或工程约束来进行补偿,但这些是以计算和灵活性为代价的。
由于时间数据增强已被证明在视频中很有用 理解 任务(在框架中,例如 精细剪裁器, 塞法尔 以及 SVFormer) 令人惊讶的是,作者断言,这种策略很少应用于生成语境中。
破坏性行为
研究人员认为,训练过程中简单、结构化的时间顺序中断有助于模型更好地推广到现实、多样化的运动:
“通过对无序序列进行训练,生成器学会恢复合理的轨迹,有效地规范时间熵。FLUXFLOW 弥补了判别性和生成性时间增强之间的差距,为时间上合理的视频生成提供了即插即用的增强解决方案,同时提高了整体[质量]。
“与引入架构变化或依赖后处理的现有方法不同,FLUXFLOW 直接在数据级别运行,在训练期间引入受控的时间扰动。”
点击播放。
作者指出,帧级扰动会在序列中引入细粒度的中断。这种中断与 掩蔽增强,其中数据部分被随机屏蔽,以防止系统 过度拟合 数据点,并鼓励更好的 概括.
检测
虽然由于其简单性,这里的中心思想并不需要写成一篇完整的论文,但仍然有一个测试部分可以供我们查看。
作者测试了四个查询,涉及在保持空间保真度的同时改善时间质量;学习运动/光流动力学的能力;在额外生成中保持时间质量;以及对关键超参数的敏感性。
研究人员将 FluxFlow 应用于三种生成架构:基于 U-Net 的 视频制作者2; DIT以 CogVideoX-2B 的形式;以及 AR以NOVA-0.6B的形式存在。
为了公平比较,他们使用 FluxFlow 对架构的基础模型进行了微调,作为额外的训练阶段。 时代,在 OpenVidHD-0.4M 数据集。
这些模型根据两个流行的基准进行评估: UCF-101;和 工作台.
对于 UCF 来说, Fréchet 视频距离 (FVD)和 初始分数 (IS)指标。对于 VBench,研究人员专注于时间质量、帧级质量和整体质量。

FluxFlow-Frame 的定量初始评估。“+ Original”表示不使用 FLUXFLOW 进行训练,而“+ Num × 1”表示不同的 FluxFlow-Frame 配置。最佳结果用阴影表示;每个模型的第二佳结果用下划线表示。
在评论这些结果时,作者指出:
“FLUXFLOW-FRAME 和 FLUXFLOW-BLOCK 均显著改善了时间质量,表 1、2 中的指标(即 FVD、主题、闪烁、运动和动态)和[下图]中的定性结果证明了这一点。
例如,在 FLUXFLOW 的帮助下,VC2 中漂移汽车的运动、NOVA 中追逐尾巴的猫咪以及 CVX 中冲浪者乘风破浪的动作都变得明显更加流畅。重要的是,这些时间上的改进是在不牺牲空间保真度的情况下实现的,水花、烟雾轨迹和波浪纹理的清晰细节,以及空间和整体保真度指标都证明了这一点。
下面我们看到作者引用的定性结果的选集(请参阅原始论文以获得完整的结果和更好的分辨率):

从定性结果中进行选择。
论文指出,虽然帧级和块级扰动都能提高时间质量,但帧级方法往往表现更好。这归因于它们的粒度更细,从而可以进行更精确的时间调整。相比之下,块级扰动可能会因块内紧密耦合的空间和时间模式而引入噪声,从而降低其有效性。
结语
本文与字节跳动-清华 字幕协作 本周发布的一项新研究让我清楚地认识到,新一代生成视频模型的明显缺陷可能不是由于用户错误、机构失误或资金限制造成的,而是由于研究重点优先考虑了更紧迫的挑战,例如时间连贯性和一致性,而不是这些较小的问题。
直到最近,免费提供和可下载的生成视频系统的结果仍然受到严重损害,以至于爱好者社区并没有做出太大的努力来解决这些问题(尤其是因为这些问题是根本性的,并不是可以轻易解决的)。
现在,我们已经更接近人们长期预测的纯人工智能生成照片级逼真视频输出的时代,很明显,研究界和普通社区都对解决剩余问题表现出更深入和更有成效的兴趣;幸运的是,这些都不是难以解决的障碍。
* Wan 的原生帧率只有区区 16fps,针对我自己的问题,我注意到论坛建议将帧率降低到 12fps,然后使用 流程框架 或其他基于 AI 的重新流动系统来插入如此稀疏的帧之间的间隙。
首次发布于 21 年 2025 月 XNUMX 日星期五












