AI视频完美演绎猫咪自拍
AI视频生成器通常能给出接近用户文本提示要求的结果,但总是差那么一点火候。然而,一项新的高级修复方法带来了天壤之别。 生成式视频系统通常难以制作出真正具有创意或天马行空的视频,并且常常无法满足用户文本提示的期望。造成这种情况的部分原因是纠缠问题——视觉/语言模型必须在源数据的训练时长上做出妥协。训练太少,概念灵活但未完全成型;训练太多,概念准确但灵活性不足,难以融入新颖的组合。您可以从下面嵌入的视频中理解这个观点。左侧是许多AI系统在响应一个要求苛刻的提示(所有四个示例的提示都在视频顶部)时给出的那种折中方案,该提示要求一些过于奇幻、不可能成为真实训练样本的元素并置。右侧则是更贴合提示的AI输出:点击播放(无音频)。右侧我们看到“因子化”的WAN 2.2真正实现了提示要求,相比之下,左侧是“原始”Wan 2.2的模糊解读。请参考源视频文件以获得更好的分辨率和更多示例,尽管此处展示的精选版本在项目网站上不存在,是为本文组装的。来源好吧,尽管我们得原谅那只鼓掌鸭子的手(!),但很明显,右侧的示例比左侧的示例更贴合原始文本提示。有趣的是,所展示的两种架构本质上是相同的架构——流行且能力强大的Wan 2.2,这是一个今年在开源和爱好者社区中取得显著进展的中国发布版本。区别在于第二个生成流程是因子化的,这在此处意味着使用了一个大型语言模型来重新解释视频的第一帧(种子帧),从而使系统更容易交付用户所要求的内容。这种“视觉锚定”涉及将根据这个LLM增强的提示制作的图像作为“起始帧”注入到生成流程中,并使用一个LoRA解释模型来帮助将“闯入”的帧整合到视频创建过程中。就提示保真度而言,结果相当显著,特别是对于一个看起来相当优雅的解决方案:点击播放(无音频)。进一步展示“因子化”视频生成如何真正遵循脚本的示例。请参考源视频文件以获得更好的分辨率和更多示例,尽管此处展示的精选版本在项目网站上不存在,是为本文组装的。这个解决方案以新论文《因子化视频生成:在文本到视频扩散模型中解耦场景构建与时间合成》及其附带大量视频的项目网站的形式呈现。虽然当前许多系统试图通过使用语言模型重写模糊或未充分指定的文本来提高提示准确性,但这项新研究认为,当模型的内部场景表征存在缺陷时,这种策略仍然会导致失败。即使有详细的重写提示,文本到视频模型也常常错误组合关键元素或生成不兼容的初始状态,从而破坏动画的逻辑。只要第一帧未能反映提示所描述的内容,无论运动模型有多好,生成的视频都无法挽回。论文指出*:“(文本到视频)模型经常产生分布偏移的帧,但(评估分数)仍与I2V模型相当,这表明即使场景保真度相对较差,它们的运动建模仍然相当自然。“(图像到视频)模型表现出互补的行为,即从准确的初始场景中获得较强的(评估分数)和较弱的时间连贯性,而I2V+文本则平衡了这两个方面。”“这种对比揭示了当前T2V模型中的结构不匹配:场景基础和时间合成受益于不同的归纳偏置,而现有架构试图在单个模型中同时学习两者。”对不同生成模式的诊断比较发现,没有显式场景锚定的模型在运动方面得分高,但常常在场景布局上妥协;而图像条件化方法则表现出相反的模式:这些发现指向一个结构缺陷:当前模型试图一次性学习场景布局和动画,尽管这两项任务需要不同种类的归纳偏置,并且分开处理效果更好。也许最令人感兴趣的是,这个“技巧”有可能应用于本地安装的模型,如Wan 2.1和2.2,以及类似的视频扩散模型,如Hunyuan Video。据观察,将爱好者输出质量与Kling和Runway等商业生成门户进行比较,大多数主要API提供商都在通过LoRAs以及——似乎——新论文中展示的这类技巧来改进WAN等开源产品。因此,这种特定方法可能代表了FOSS阵营的追赶。为该方法的测试表明,这种简单且模块化的方法在T2V-CompBench基准测试上提供了新的最先进水平,显著改进了所有测试模型。作者在结论中指出,虽然他们的系统极大地提高了保真度,但并未解决(也并非旨在解决)身份漂移问题,这目前是生成式AI研究的痛点。这篇新论文来自瑞士洛桑联邦理工学院的四位研究人员。方法与数据这项新技术的核心主张是,文本到视频扩散模型需要“锚定”到真正符合所需文本提示的起始帧。为确保模型尊重起始帧,新方法通过在第零个时间步注入来自锚点图像的干净潜在表示来干扰标准扩散过程,替换掉通常的噪声输入之一。这种陌生的输入起初会让模型感到困惑,但通过最少的LoRA微调,它会学会将注入的帧视为固定的视觉锚点,而不是噪声轨迹的一部分:在推理时,该方法重写提示以仅描述第一帧,使用LLM提取一个专注于布局和外观的合理初始场景状态。这个重写的提示被传递给图像生成器以产生候选锚点帧(用户可以选择性地优化)。选定的帧被编码成潜在表示,并通过替换第一个时间步注入扩散过程,使模型能够生成视频的其余部分,同时保持锚定在初始场景上——这个过程无需改变底层架构即可工作。该过程通过为Wan2.2-14B、Wan2.1-1B和CogVideo1.5-5B创建LoRA进行了测试。LoRA训练在秩为256的情况下进行,使用了来自UltraVideo集合的5000个随机采样片段。训练持续了6000步,Wan-1B和CogVideo-5B需要48 GPU小时†,Wan-14B需要96 GPU小时。作者指出,Wan-5B原生支持纯文本和文本-图像条件化(在这种情况下被强加到旧框架上),因此不需要任何微调。测试在该过程的实验中,每个文本提示最初都使用Qwen2.5-7B-Instruct进行精炼,该模型使用结果生成包含整个场景描述的详细“种子图像”描述。然后将其传递给QwenImage,其任务是生成要插入扩散过程的“魔法帧”。用于评估系统的基准测试包括前面提到的T2V-CompBench,用于通过评分模型在连贯场景中保留对象、属性和动作的程度来测试组合理解能力;以及VBench 2.0,用于在18个指标上评估更广泛的推理和一致性,这些指标分为创意性、常识推理、可控性、人类保真度和物理性:关于这轮初步测试,作者指出*:“(在所有模型中),添加锚点图像始终能提高组合性能。所有较小的因子化模型(CogVideo 5B、Wan 5B和Wan 1B)都优于较大的Wan 14B T2V模型。“我们的因子化Wan 5B也优于商业的PixVerse-V3基线,后者是该基准测试中报告的最佳模型。这表明,即使在容量较小的模型中,视觉基础化也能显著增强场景和动作理解。“在每个模型系列中,因子化版本都优于原始模型。值得注意的是,我们在WAN 14B上轻量级的锚点基础化LoRA达到了与其预训练的I2V 14B变体相当的性能(0.661 vs. 0.666),尽管不需要完全重新训练。”接下来是VBench2.0轮次:在所有架构中,因子化方法提升了除人类保真度外的每个VBench类别的分数,即使进行了提示上采样,人类保真度也略有下降。WAN 5B的表现优于更大的WAN 14B,这强化了早先T2V-CompBench的结果,即视觉基础化的贡献大于规模。虽然VBench上的提升是持续的,但小于T2V-CompBench上的提升,作者将此归因于VBench更严格的二元评分机制。对于定性测试,论文提供了静态图像,但我们建议读者参考本文中嵌入的合成视频以获得更清晰的概念,但需注意源视频数量更多、种类更丰富,并且具有更高的分辨率和细节。请在此处查找。关于定性结果,论文指出:“锚定视频始终展现出更准确的场景组合、更强的对象-属性绑定以及更清晰的时间进展。”即使将扩散步数从50步减少到15步,因子化方法仍然保持稳定,在T2V-CompBench上几乎没有性能损失。相比之下,纯文本和上采样基线在相同条件下都急剧退化。尽管减少步数理论上可以将速度提高三倍,但由于锚点图像生成的固定成本,完整的生成流程在实际中只变得快了2.1倍。尽管如此,结果表明锚定不仅提高了样本质量,还有助于稳定扩散过程,支持更快、更高效的生成,且不损失准确性。项目网站提供了上采样方法与新方法生成的示例,我们在此提供一些(较低分辨率的)编辑示例:点击播放(无音频)。上采样的起始源与作者的因子化方法对比。作者总结道:“我们的结果表明,改进基础化可能与增加容量同等重要。T2V扩散的最新进展严重依赖于增加模型大小和训练数据,但即使是大型模型也常常难以仅从文本推断出连贯的初始场景。“这与图像扩散形成对比,在图像扩散中,扩展相对直接;在视频模型中,每个架构改进都必须在一个额外的时间维度上运行,使得扩展在资源上更加密集。“我们的发现表明,改进的基础化可以通过解决一个不同的瓶颈来补充规模:在运动合成开始之前建立正确的场景。“通过将视频生成分解为场景组合和时间建模,我们减轻了几种常见的失败模式,而不需要显著更大的模型。我们将其视为一种互补的设计原则,可以指导未来的架构走向更可靠和结构化的视频合成。”结论尽管纠缠问题确实存在,并且可能需要专门的解决方案(例如改进训练前的数据筛选和分布评估),但观察因子化如何仅通过适度的LoRA条件化层和一个显著改进的起始/种子图像的干预,就将几个顽固且“卡住”的概念提示编排“解粘”成更准确的渲染,确实令人大开眼界。考虑到几乎所有提供商都在寻求将其可观的GPU资源支出合理化给消费者,本地爱好者推理与商业解决方案之间的资源鸿沟可能并不像想象的那么巨大。据观察,当前一大批生成式视频提供商似乎都在使用品牌化且普遍“增强”过的中国FOSS模型版本。这些“中间商”系统似乎拥有的主要“护城河”是,它们不厌其烦地训练了LoRAs,或者——以更高的成本和略高的回报——实际对模型权重进行了完整的微调††。这类见解可能有助于进一步缩小差距,尤其是在中国似乎决心(不一定是出于利他或理想主义的原因)民主化生成式AI的发布背景下,而西方的商业利益或许更倾向于通过增加模型规模和法规,最终将任何真正优秀的模型隔离在API和多层内容过滤器之后。 * 作者的强调,非本人所加。† 论文未指定选择了哪种GPU或使用了多少GPU。†† 尽管LoRA路线更有可能,无论是出于经济易用性,还是因为完整权重(而非量化权重)并非总是可用。首次发布于2025年12月19日,星期五