人工智能
为长视频生成烹制叙事一致性

最近公开发布 的 Hunyuan Video 生成式 AI 模型加剧了关于大型多模态视觉语言模型的潜力讨论,即有一天它们将创建整个电影。
然而,正如我们 所观察到的,这目前是一个非常遥远的前景,有几个原因。其中一个原因是大多数 AI 视频生成器的注意力窗口非常短,难以维持一致性,甚至在一个短的单个镜头中,更不用说一系列镜头。
另一个原因是,视频内容的一致引用(例如可探索的环境,不应该随机改变如果你重温它们)只能通过诸如 低秩适应(LoRA)等定制技术在扩散模型中实现,这限制了基础模型的即开即用功能。
因此,生成式视频的演进似乎注定会停滞,除非开发出新的叙事连续性方法。
连续性配方
考虑到这一点,美国和中国之间的新合作提出了使用 教学烹饪视频 作为未来叙事连续性系统的可能模板。
点击播放。 VideoAuteur 项目系统化分析了烹饪过程的部分,以生成一个细致的字幕数据集和一个用于生成烹饪视频的编排方法。请参阅源站点以获取更好的分辨率。 源:https://videoauteur.github.io/
题为 VideoAuteur 的工作提出了一个两阶段管道,用于生成教学烹饪视频,使用协调状态结合关键帧和字幕,实现了最先进的结果 —— 在一个相对冷门的领域。
VideoAuteur 项目页面还包括使用相同技术的其他一些更吸引人的视频,例如一个拟议的漫威/DC跨界电影预告片:
点击播放。 两个来自不同宇宙的超级英雄在一个假的预告片中相遇,来自 VideoAuteur。请参阅源站点以获取更好的分辨率。
页面还以类似的风格展示了一个不存在的 Netflix 动物系列和特斯拉汽车广告的宣传视频。
在开发 VideoAuteur 的过程中,作者尝试了不同的损失函数和其他新颖的方法。为了开发一个食谱生成工作流程,他们还策划了 CookGen,这是最大的专注于烹饪领域的数据集,包含 200,000 个视频片段,平均时长为 9.5 秒。
平均每个视频 768.3 个字,CookGen 是同类数据集中最详尽的注释数据集。作者使用了多种视觉/语言模型,确保描述尽可能详细、相关和准确。
选择烹饪视频是因为烹饪教学有一个结构化和明确的叙事,使注释和评估变得更容易。除了色情视频(可能会进入这个领域)之外,很难想到其他类型的视频具有如此视觉和叙事上的“公式化”。
作者指出:
‘我们的提出的两阶段自回归管道,包括长叙事导演和视觉条件视频生成,展示了在生成长叙事视频中语义一致性和视觉保真度的有前途的改进。 ‘
‘通过在我们的数据集上的实验,我们观察到空间和时间一致性在视频序列中的提高。 ‘
‘我们希望我们的工作能够促进长叙事视频生成的进一步研究。 ‘
这项 新工作 的标题为 VideoAuteur:朝着长叙事视频生成的方向,来自约翰霍普金斯大学、字节跳动和字节跳动种子公司的八位作者。
数据集策划
为了开发 CookGen,这为生成 AI 烹饪视频提供了动力,作者使用了 YouCook 和 HowTo100M 集合的材料。作者将 CookGen 的规模与以前专注于生成式视频中叙事开发的数据集进行比较,例如 Flintstones 数据集、Pororo 动画数据集、StoryGen、腾讯的 StoryStream 和 VIST。

CookGen 与最接近的类似数据集之间的图像和文本长度比较。 来源:https://arxiv.org/pdf/2501.06173
CookGen 集中于现实世界的叙事,特别是程序活动,如烹饪,提供了比基于图像的漫画数据集更清晰、更容易注释的故事。
研究人员 微调了一个字幕模型,使用 LLaVA-NeXT 的方法作为基础。用于 HowTo100M 的自动语音识别(ASR)伪标签被用作每个视频的“操作”,然后通过 大型语言模型(LLM)进一步完善。
例如,ChatGPT-4o 被用于生成字幕数据集,并被要求关注主体-对象交互(例如,手处理器具和食物)、对象属性和时间动态。
由于 ASR 脚本可能包含不准确性和“噪音”,交并比(IoU)被用作度量指标,以衡量字幕与所处理的视频部分的吻合程度。作者指出,这对于创建叙事一致性至关重要。
策划的片段使用 Fréchet 视频距离(FVD)进行评估,FVD 测量真实世界示例与生成示例之间的差异,包括带有和不带有真实关键帧的结果:

使用 FVD 评估使用新字幕生成的视频与使用和不使用样本视频捕获的关键帧之间的距离。
此外,片段由 GPT-4o 和六名人类注释者评估,按照 LLaVA-Hound 的“幻觉”定义(即模型生成虚假内容的能力)。
研究人员将字幕的质量与 Qwen2-VL-72B 集合进行比较,获得了略高的评分。

Qwen2-VL-72B 和作者集合之间的 FVD 和人类评估得分比较。
方法
VideoAuteur 的生成阶段分为 长叙事导演(LND)和 视觉条件视频生成模型(VCVGM)。
LND 生成一系列视觉嵌入或关键帧,描述叙事流程,类似于“基本亮点”。VCVGM 根据这些选择生成视频片段。

VideoAuteur 处理管道的架构。长叙事视频导演为 Seed-X 驱动的生成模块提供适当的选择。
作者广泛讨论了 交错图像-文本导演 和语言中心关键帧导演的不同优点,并得出结论,前者是更有效的方法。
交错图像-文本导演通过交错文本标记和视觉嵌入生成序列,使用自回归模型预测下一个标记,基于文本和图像的综合上下文。这确保了视觉和文本之间的紧密对齐。
相比之下,语言中心关键帧导演仅使用基于文本的条件扩散模型合成关键帧,而不将视觉嵌入纳入生成过程。
研究人员发现,虽然语言中心方法生成视觉上吸引人的关键帧,但缺乏帧之间的一致性,认为交错方法在现实感和视觉一致性方面实现了更高的评分。他们还发现,这种方法更能通过训练学习现实的视觉风格,尽管有时会出现一些重复或噪音元素。
不寻常的是,在一个由稳定扩散和 Flux 主导的研究领域,作者使用腾讯的 SEED-X 7B 参数多模态 LLM 基础模型作为其生成管道(尽管该模型利用 Stability.ai 的 SDXL 发布的稳定扩散的一部分架构)。
作者指出:
‘与使用图像作为起始帧的经典图像到视频(I2V)管道不同,我们的方法利用 [回归视觉潜在变量] 作为整个序列的连续条件。 ‘
‘此外,我们通过使模型适应处理噪音视觉嵌入来提高生成视频的鲁棒性和质量,因为回归视觉潜在变量可能不完美,可能由于回归错误。 ‘
虽然典型的视觉条件生成管道通常使用初始关键帧作为模型指导的起点,但 VideoAuteur 通过交错视频和语义内容将该过程推进到一个实际管道。

视觉状态嵌入作为优越的条件方法的架构。
测试
按照 SeedStory 的方法,研究人员使用 SEED-X 应用 LoRA 微调到他们的叙事数据集,并将结果描述为“类似 Sora 的模型”,预训练在大规模视频/文本耦合上,并能够接受视觉和文本提示和条件。
32,000 个叙事视频用于模型开发,其中 1,000 个作为 验证样本。视频被裁剪到短边 448 像素,然后中心裁剪到 448x448px。
训练中,叙事生成主要在 YouCook2 验证集上进行评估。Howto100M 集用于数据质量评估,也用于图像到视频生成。
对于视觉条件损失,作者使用了 DiT 的扩散损失和 2024 年的工作,该工作基于稳定扩散。
为了证明他们关于交错方法优越性的说法,作者将 VideoAuteur 与仅依赖文本输入的几种方法进行了比较:EMU-2、SEED-X、SDXL 和 FLUX.1-schnell(FLUX.1-s)。

给定一个全局提示,“一步一步教你如何制作麻婆豆腐”,交错导演生成动作、字幕和图像嵌入,以序列化地讲述这个过程。前两行显示了从 EMU-2 和 SEED-X 潜在空间解码的关键帧。这些图像是真实且一致的,但不如 SDXL 和 FLUX 等高级模型生成的图像那么精致。
作者指出:
‘语言中心的方法使用文本到图像模型生成视觉上吸引人的关键帧,但由于互信息有限,缺乏帧之间的一致性。相比之下,交错生成方法利用语言对齐的视觉潜在变量,通过训练实现了真实的视觉风格。 ‘
‘然而,它有时会生成带有重复或噪音元素的图像,因为自回归模型难以在单次传递中创建准确的嵌入。 ‘
人类评估进一步证实了作者关于交错方法改进性能的说法,交错方法在调查中获得了最高的评分。

对比方法的比较,来自为本文进行的人类研究。
然而,我们注意到,语言中心的方法实现了最好的 美学 评分。作者认为,这并不是长叙事视频生成的核心问题。
点击播放。 为视频生成的 VideoAuteur 片段。
结论
与长视频生成中叙事一致性相关的最流行的研究线索关注单个图像。这样的项目包括 DreamStory、StoryDiffusion、TheaterGen 和 NVIDIA 的 ConsiStory。
在某种意义上,VideoAuteur 也属于这个“静态”类别,因为它利用了种子图像来生成片段。然而,交错视频和语义内容的过程使其更接近于实际管道。
首次发布于 2025 年 1 月 16 日












