Anderson 视角
为长视频生成完善叙事的一份食谱

最近,Hunyuan Video 生成模型的公开发布加剧了关于大型多模态视觉语言模型可能创造整个电影的潜力的讨论。
然而,正如我们观察到的,这种前景在当前仍然非常遥远,原因有很多。其中一个原因是大多数 AI 视频生成器的注意力窗口非常短,难以维持一段短视频的连贯性,更不用说一系列镜头了。
另一个原因是,视频内容的一致性引用(例如可探索的环境,不应该随机改变,如果你重温它们)只能通过定制技术(如低秩适应(LoRA))在扩散模型中实现,这限制了基础模型的即时能力。
因此,生成视频的演进似乎注定会停滞,除非新的叙事连续性方法被开发出来。
叙事连续性的食谱
考虑到这一点,美国和中国之间的新合作提出了使用教学视频作为未来叙事连续性系统的可能模板。
点击播放。 VideoAuteur 项目系统化地分析了烹饪过程的各个部分,以生成一个精细的字幕数据集和一个用于生成烹饪视频的编排方法。请参阅源站点以获取更好的分辨率。 源:https://videoauteur.github.io/
题为 VideoAuteur 的工作提出了一种两阶段管道,用于生成教学烹饪视频,使用协调状态的关键帧和字幕,实现了最先进的结果——虽然是在一个相对冷门的领域。
VideoAuteur 的项目页面还包括一些更吸引眼球的视频,它们使用相同的技术,例如一个拟议的漫威/DC跨界电影预告片:
点击播放。 两个来自不同宇宙的超级英雄在一个虚假预告片中相遇,来自 VideoAuteur。请参阅源站点以获取更好的分辨率。
页面上还有一些类似的宣传视频,用于一个不存在的 Netflix 动物系列和特斯拉汽车广告。
在开发 VideoAuteur 的过程中,作者尝试了不同的损失函数和其他新方法。为了开发一个食谱生成工作流程,他们还策划了 CookGen,这是最大的专注于烹饪领域的数据集,包含 200,000 个视频片段,平均时长为 9.5 秒。
平均每个视频有 768.3 个字,CookGen 是同类数据集中最详细的。作者使用了多种视觉语言模型,包括其他方法,来确保描述尽可能详细、相关和准确。
烹饪视频被选中,因为烹饪教程有一个结构化和明确的叙事,使得注释和评估变得更容易。除了色情视频(可能会进入这个领域)之外,很难想出其他任何类型的视频,它的视觉和叙事都如此“公式化”。
作者表示:
‘我们提出的两阶段自回归管道,包括一个长叙事导演和视觉条件视频生成,展示了在生成长叙事视频中语义一致性和视觉保真度的改进。’
通过对我们的数据集的实验,我们观察到视频序列中空间和时间一致性的提高。 ‘
‘我们希望我们的工作能够促进长叙事视频生成的进一步研究。’
这项新工作的标题为 VideoAuteur:向长叙事视频生成迈进,由八位作者共同完成,来自约翰霍普金斯大学、字节跳动和字节跳动种子基金。
数据集策划
为了开发 CookGen,这个为生成 AI 烹饪视频提供动力的两阶段生成系统,作者使用了 YouCook 和 HowTo100M 集合的材料。作者将 CookGen 的规模与以前专注于生成视频中叙事发展的数据集进行比较,例如 Flintstones 数据集、Pororo 卡通数据集、StoryGen、腾讯的 StoryStream 和 VIST。

CookGen 和最接近的类似数据集之间的图像和文本长度比较。 源:https://arxiv.org/pdf/2501.06173
CookGen 专注于现实世界的叙事,特别是程序活动,如烹饪,提供了比图像漫画数据集更清晰、更容易注释的故事。它超过了现有的最大数据集 StoryStream,拥有 150 倍的帧和 5 倍密度的文本描述。
研究人员微调了一个字幕模型,使用 LLaVA-NeXT 的方法作为基础。HowTo100M 获得的自动语音识别(ASR)伪标签被用作每个视频的“操作”,然后通过大型语言模型(LLM)进一步完善。
例如,ChatGPT-4o 被用来生成一个字幕数据集,并被要求关注主体-对象交互(例如手处理器具和食物)、对象属性和时间动态。
由于 ASR 脚本可能包含不准确和“噪音”,交并比(IoU) 被用作一个度量标准,来衡量字幕与它们所指的视频部分的吻合程度。作者指出,这对于创建叙事一致性至关重要。
策划的片段使用 Fréchet 视频距离(FVD) 进行评估,FVD 测量了真实世界(真实)示例和生成示例之间的差异,既有也没有真实关键帧,得到了一个性能结果:

使用 FVD 评估使用新字幕生成的视频与采样视频中捕获的关键帧的距离。
此外,片段还被 GPT-4o 和六个人类注释者评估,按照 LLaVA-Hound 的“幻觉”定义进行评估(即模型生成虚假内容的能力)。
研究人员将字幕的质量与 Qwen2-VL-72B 集合进行比较,获得了略微改进的分数。

Qwen2-VL-72B 和作者集合之间的 FVD 和人类评估分数比较。
方法
VideoAuteur 的生成阶段分为两个部分:长叙事导演(LND) 和 视觉条件视频生成模型(VCVGM)。
LND 生成一系列视觉嵌入或关键帧,描述了叙事流程,类似于“基本亮点”。VCVGM 根据这些选择生成视频片段。

VideoAuteur 处理管道的模式。长叙事导演为种子-X驱动的生成模块做出适当的选择。
作者详细讨论了交错图像-文本导演和语言中心关键帧导演的不同优点,并得出结论,前者是一种更有效的方法。
交错图像-文本导演通过交错文本标记和视觉嵌入生成一个序列,使用一个自回归模型来预测下一个标记,基于文本和图像的组合上下文。这确保了视觉和文本之间的紧密对齐。
相比之下,语言中心关键帧导演使用一个仅基于字幕的文本条件扩散模型来合成关键帧,而不将视觉嵌入纳入生成过程中。
研究人员发现,虽然语言中心方法生成视觉上吸引人的关键帧,但它缺乏帧之间的一致性,认为交错方法在真实性和视觉一致性方面得到了更高的评分。他们还发现,这种方法能够通过训练学习一个真实的视觉风格,尽管有时会产生一些重复或噪音元素。
与当前的研究主流不同,作者使用腾讯的 SEED-X 7B 参数多模态 LLM 基础模型作为其生成管道(尽管该模型利用了 Stability.ai 的 SDXL 版本的 Stable Diffusion 作为其架构的一部分)。
作者表示:
‘与经典的图像到视频(I2V)管道不同,我们的方法利用回归视觉潜变量作为整个序列的连续条件。 ‘
‘此外,我们通过使模型适应处理噪声视觉嵌入来提高生成视频的鲁棒性和质量,因为回归视觉潜变量可能不完美,可能由于回归错误。’
虽然典型的视觉条件生成管道通常使用初始关键帧作为模型指导的起点,但 VideoAuteur 通过生成语义上连贯的潜在空间中的多部分视觉状态来扩展这一范式,避免了仅基于“起始帧”进行进一步生成的潜在偏差。

视觉状态嵌入作为一种更好的条件方法的模式。
测试
按照 SeedStory 的方法,研究人员使用 SEED-X 应用 LoRA 微调到他们的叙事数据集上,神秘地将结果描述为“Sora-like 模型”,预训练在大规模视频/文本耦合上,并能够接受视觉和文本提示和条件。
32,000 个叙事视频被用于模型开发,其中 1,000 个被保留为 验证样本。视频被裁剪到短边 448 像素,然后中心裁剪到 448x448px。
在训练中,叙事生成主要在 YouCook2 验证集上进行评估。Howto100M 集合被用于数据质量评估,也用于图像到视频生成。
对于视觉条件损失,作者使用了 DiT 的扩散损失和 2024 年的一项工作,该工作基于 Stable Diffusion。
为了证明他们关于交错方法优越性的说法,作者将 VideoAuteur 与仅依赖文本输入的几种方法进行了比较:EMU-2、SEED-X、SDXL 和 FLUX.1-schnell(FLUX.1-s)。

给定一个全局提示“一步一步的教程,如何制作麻婆豆腐”,交错导演生成动作、字幕和图像嵌入,以序列化地讲述这个过程。前两行显示了从 EMU-2 和 SEED-X 潜在空间解码的关键帧。这些图像是真实且一致的,但不如来自高级模型如 SDXL 和 FLUX 的图像那么精致。
作者表示:
‘语言中心的方法使用文本到图像模型生成视觉上吸引人的关键帧,但由于互信息有限,缺乏帧之间的一致性。相比之下,交错生成方法利用语言对齐的视觉潜变量,通过训练实现了真实的视觉风格。 ‘
‘然而,它有时会生成带有重复或噪音元素的图像,因为自回归模型难以在一次传递中创建准确的嵌入。’
人类评估进一步证实了作者关于交错方法改进性能的说法,交错方法在调查中获得了最高的评分。

对该论文进行的人类研究的方法比较。
然而,我们注意到语言中心的方法获得了最好的美学评分。作者认为,这并不是长叙事视频生成的核心问题。
点击播放。 由 VideoAuteur 生成的用于制作披萨的视频片段。
结论
与长视频生成中叙事一致性挑战相关的最流行的研究线是关于单个图像的。这些项目包括 DreamStory、StoryDiffusion、TheaterGen 和 NVIDIA 的 ConsiStory。
在某种意义上,VideoAuteur 也属于这一“静态”类别,因为它使用种子图像来生成视频片段。然而,视频和语义内容的交错使得这一过程更接近于一个实用的管道。
最初发布于 2025 年 1 月 16 日,星期四












