安德森的角度
AI视频让猫咪自拍更完美

AI视频生成器通常能给出接近但始终无法完全满足文本提示要求的结果。但一项新的高级修复方案彻底改变了这一现状。
生成式视频系统通常难以制作出真正有创意或天马行空的视频,而且往往无法满足用户文本提示的期望。
部分原因是 纠葛 ——视觉/语言模型必须在训练源数据的时长上做出权衡。训练时间过短,概念虽然灵活,但不够成熟;训练时间过长,概念虽然准确,但灵活性不足,无法融入新的组合。
你可以从下方嵌入的视频中了解这一点。左侧是许多人工智能系统在面对苛刻的提示(所有四个示例中的提示都位于视频顶部)时所给出的折衷方案,该提示要求将一些元素并置在一起,而这些元素的组合过于奇幻,不可能是真实的训练示例。右侧是人工智能系统更好地遵循提示的输出结果:
点击播放 (无音频)。右侧视频展示了“因子化”WAN 2.2如何真正实现其预期功能,而左侧视频则展示了“原始”WAN 2.2的模糊诠释。如需更高分辨率和更多示例,请参阅源视频文件。此处展示的精选版本并非来自项目网站,而是为了本文而制作的。 来源
虽然我们不得不原谅拍手鸭的人类双手(!),但很明显,右边的例子比左边的例子更符合原文提示。
有趣的是,所展示的两种架构本质上都是 同 建筑——流行且功能强大的建筑 莞2.2今年,这款中国发布的软件在开源社区和业余爱好者社区获得了显著的进展。
区别在于第二个生成管道是 因式分解在这种情况下,这意味着使用了大型语言模型 (LLM) 来重新解释视频的第一帧(种子帧),以便系统更容易地提供用户所要求的内容。
这种“视觉锚定”是指将根据 LLM 增强提示制作的图像作为“起始帧”注入到生成流程中,并使用 劳拉 解释模型,帮助将“入侵者”帧整合到视频创作过程中。
就即时保真度而言,结果相当出色,尤其考虑到该解决方案看似相当巧妙:
点击播放 (无音频)。以下是更多严格按照脚本生成的“分解式”视频示例。如需更高分辨率和更多示例,请参阅源视频文件,但此处展示的精选版本并非来自项目网站,而是为了本文而收集的。
该解决方案以以下形式呈现: 新文 分解式视频生成:在文本到视频扩散模型中解耦场景构建和时间合成以及其附带的大量视频 项目网站.
虽然许多现有系统试图通过使用语言模型来重写模糊或不明确的文本来提高提示准确率,但这项新研究指出,当模型……时,这种策略仍然会导致失败。 内部场景表示 有缺陷。
即使经过详细的重写,文本转视频模型也常常会错误地组合关键元素,或者生成不兼容的初始状态,从而破坏动画的逻辑。只要第一帧未能反映提示信息,无论运动模型多么出色,最终生成的视频都无法恢复。
论文指出*:
“[文本转视频]模型经常产生分布偏移的帧,但仍然能够获得与I2V模型相当的[评估分数],这表明 即使场景保真度相对较差,它们的运动建模仍然保持相当自然。.
“[图像到视频]模型表现出互补的行为,从准确的初始场景中获得较高的[评估分数],但时间连贯性较弱,而I2V+文本则平衡了这两个方面。
这种对比表明 当前T2V模型中的结构不匹配场景接地和时间合成受益于不同的归纳偏置,然而现有的架构却试图在单个模型中同时学习这两者。
对生成模式的诊断性比较发现,没有显式场景锚定的模型在运动方面表现良好,但在场景布局方面往往有所妥协,而图像条件化的方法则呈现出相反的模式:

对两个数据集上的视频生成模式进行比较,结果表明 I2V+text 实现了最佳的帧质量 (FID) 和时间一致性 (FVD),突显了将场景构建与运动分离的好处。 来源
这些发现指出了一个结构性缺陷,即当前的模型试图一次性学习场景布局和动画,尽管这两项任务需要不同类型的…… 归纳偏见最好分开处理。
或许最令人感兴趣的是,这种“技巧”有可能应用于 Wan 2.1 和 2.2 等型号的本地安装,以及类似的视频扩散型号,例如 混元视频从一些轶事来看,将业余爱好者的作品质量与 Kling 和 Runway 等商业生成式平台进行比较,大多数主流 API 提供商都在利用 LoRa 技术改进 WAN 等开源产品,而且似乎还采用了新论文中提到的一些技巧。因此,这种方法可能代表着开源软件领域的一次追赶。
针对该方法进行的测试表明,这种简单且模块化的方法在以下方面提供了新的先进技术: T2V-CompBench 基准测试显著改进了所有测试模型。作者在结论中指出,虽然他们的系统大幅提高了保真度,但它并未解决(也并非旨在解决)以下问题: 身份漂移目前,这是生成式人工智能研究的一大难题。
这篇新论文来自瑞士洛桑联邦理工学院 (EPFL) 的四名研究人员。
方法与数据
这项新技术的核心在于,文本到视频 (T2V) 扩散模型需要“锚定”到真正符合所需文本提示的起始帧。
为了确保模型遵循起始帧,新方法会扰乱…… 标准扩散过程 通过注入清洁液 潜 从时间步零的锚图像中提取信息,替换掉一个常用的噪声输入。这种不熟悉的输入起初会让模型感到困惑,但通过最小的LoRA(低分辨率自适应回归)即可解决。 微调它学会将注入的帧视为固定的视觉锚点,而不是噪声轨迹的一部分:

一种利用视觉锚点实现文本到视频生成的两阶段方法:左图,使用轻量级 LoRa 对模型进行微调,将注入的干净潜在变量视为固定的场景约束。右图,将提示信息拆分为第一帧的字幕,该字幕用于生成引导视频的锚点图像。
在推理阶段,该方法会重写提示信息以进行描述。 只有第一帧使用 LLM 提取以布局和外观为重点的合理初始场景状态。
重写的提示信息被传递给图像生成器,以生成候选锚帧(用户可以选择性地对其进行优化)。选定的帧被编码成潜在变量,并通过替换第一个时间步注入到扩散过程中,从而使模型能够生成视频的其余部分。 同时仍与初始场景保持联系 ——一种无需更改底层架构即可运行的过程。
该流程通过创建 LoRA 进行测试。 Wan2.2-14B, Wan2.1-1B和 CogVideo1.5-5BLoRA培训是在……进行的。 排名 在从 5000 个随机抽样的片段中,有 256 个片段 超视频 采集。
训练持续了 6000 步,耗时 48 小时 GPU。† Wan-1B 和 CogVideo-5B 的计算耗时分别为 96 小时和 96 小时 GPU 小时,而 Wan-14B 的计算耗时为 96 小时。作者指出,Wan-5B 本身就支持纯文本和文本-图像混合处理(而这些处理方式在本例中是强加给旧框架的),因此无需进行任何微调。
检测
在针对该过程进行的实验中,每个文本提示最初都是使用以下方法进行完善的: Qwen2.5-7B-指导该方法利用结果生成详细的“种子图像”标题,其中包含对整个场景的描述。然后,该标题被传递给 QwenImage其任务是生成“魔法框架”,以便插入到扩散过程中。
用于评估该系统的基准包括前面提到的 T2V-CompBench,它通过评分模型在连贯场景中保留对象、属性和动作的程度来测试其对构图的理解能力; VBench 2.0为了评估更广泛的推理和18项指标的一致性,这些指标被分为以下几类: 创造力, 常识推理, 可控性, 人类忠诚和 物理:

在T2V-CompBench的全部七个评估类别中,对于所有测试模型,分解后的T2V方法均优于标准T2V和上采样T2V基线,性能提升最高可达53.25%。得分最高的变体经常达到或超过专有的PixVerse-V3基准测试结果。
关于这第一轮测试,作者指出*:
在所有模型中,添加锚图像都能持续提升合成性能。所有较小的 Factorized 模型(CogVideo 5B、Wan 5B 和 Wan 1B)的性能都优于较大的 Wan 14B T2V 模型。
“我们改进后的 Wan 5B 也优于商业 PixVerse-V3 基准模型,后者是该基准测试中报告的最佳模型。 这表明,即使在容量较小的模型中,视觉基础也能显著增强对场景和动作的理解。
“在每个模型系列中,分解后的版本都优于原始模型。值得注意的是,我们基于 WAN 14B 的轻量级锚点接地 LoRa 模型,尽管无需完全重新训练,其性能却能与其预训练的 I2V 14B 版本相媲美(0.661 对 0.666)。”
接下来是VBench2.0轮测试:

分解后的 T2V 方法持续改进了 VBench 2.0 在组合、常识推理、可控性和物理性能方面的性能,有些方面的提升超过 60%——尽管人类保真度仍然低于专有的 Veo 3 基准。
在所有架构中,除特定类别外,因子分解方法均提升了 VBench 所有类别的得分。 人类忠诚即使进行了快速上采样,其性能也略有下降。WAN 5B 的性能优于尺寸更大的 WAN 14B,这印证了之前 T2V-CompBench 测试的结果,即视觉基础比规模更重要。
虽然 VBench 的性能提升较为稳定,但与 T2V-CompBench 的性能提升相比,其幅度较小,作者认为这是因为 VBench 采用了更为严格的二元评分机制。
对于定性测试,本文提供了静态图像,但我们建议读者观看本文中嵌入的合成视频,以便更清晰地了解测试结果。需要注意的是,原始视频数量更多、种类更丰富,分辨率和细节也更高。请查找这些视频。 点击这里关于定性结果,该论文指出:
“锚定视频始终展现出更准确的场景构图、更强的对象属性绑定以及更清晰的时间进程。”
即使将扩散步骤数从 50 减少到 15,因子分解方法仍然保持稳定,在 T2V-CompBench 测试中几乎没有性能损失。相比之下,在相同条件下,仅文本基线和上采样基线的性能均急剧下降。
尽管理论上减少步骤可以将速度提高三倍,但由于锚定图像生成的固定成本,实际整个生成流程的速度仅提高了 2.1 倍。不过,结果表明,锚定不仅提高了样本质量,还有助于稳定扩散过程,从而在不损失精度的前提下,实现更快、更高效的生成。
项目网站提供了上采样方法与新方法生成结果的示例,我们在此提供一些(分辨率较低)的编辑示例:
点击播放 (无音频)。上采样初始源与作者的因子分解方法对比。
作者总结:
我们的研究结果表明,提高模型的接地能力,而不仅仅是增加模型容量,可能同样重要。近年来,T2V扩散技术的进步很大程度上依赖于增加模型规模和训练数据,然而即使是大型模型,也常常难以仅凭文本推断出连贯的初始场景。
这与图像扩散形成对比,图像扩散的缩放相对简单;在视频模型中,每次架构改进都必须在额外的时间维度上进行,这使得缩放变得更加耗费资源。
“我们的研究结果表明,改进的接地效果可以通过解决另一个瓶颈来补充规模:在运动合成开始之前建立正确的场景。
“通过将视频生成分解为场景合成和时间建模,我们无需大幅增加模型规模即可缓解几种常见的故障模式。我们认为这是一个互补的设计原则,可以指导未来的架构朝着更可靠、更结构化的视频合成方向发展。”
结语
尽管纠缠问题确实存在,并且可能需要专门的解决方案(例如在训练之前改进管理和分发评估),但令人大开眼界的是,因子分解仅通过适度的 LoRA 条件层和明显改进的起始/种子图像的介入,就将几个顽固的、“卡住的”概念提示编排“解胶”成更准确的渲染。
考虑到几乎所有供应商都在努力将他们大量的 GPU 资源支出合理化,本地业余爱好者推理和商业解决方案之间的资源差距可能并没有想象中那么大。
据传闻,目前大量生成视频提供商似乎都在使用经过品牌化和“强化”的中国开源软件模型。这些“中间商”系统的主要“护城河”在于,它们已经费心训练了LoRa模型,或者——花费更多成本,但回报也略高——对模型权重进行了全面的微调。††.
这类见解或许有助于进一步缩小差距。在当前环境下,中国似乎决心(不一定是出于利他主义或理想主义的原因)普及人工智能,而西方商业利益集团或许更希望不断扩大的模型规模和监管最终将任何真正优秀的模型封闭在 API 和多层内容过滤器之后。
* 作者强调的重点,不是我的。
† 论文没有具体说明选择了哪款GPU,也没有说明使用了多少款GPU。
†† 尽管 LoRa 方案更有可能实现,无论是出于经济易用性,还是因为其权重是完整的,而不是 量化的 重量训练器材并非总是可用。
首次发布于 19 年 2025 月 XNUMX 日星期五












