Anderson 视角

为长视频生成完善叙事的一份食谱

发布于 2025年1月16日

更新于 2026年5月20日

作者

Martin Anderson

ChatGPt 4o: 'an image with a width of 1792px and a height of 1024px. It should depict an orthographic view of an AI factory where rows of white-coated computer analysts are seated in front of PCs, and on the other side of their section is a conveyer belt with multiple stages of a recipe for a cake. Three video cameras are situated equidistant across the conveyer belt, aimed at the food items.'

最近，Hunyuan Video 生成模型的公开发布加剧了关于大型多模态视觉语言模型可能创造整个电影的潜力的讨论。

然而，正如我们观察到的，这种前景在当前仍然非常遥远，原因有很多。其中一个原因是大多数 AI 视频生成器的注意力窗口非常短，难以维持一段短视频的连贯性，更不用说一系列镜头了。

另一个原因是，视频内容的一致性引用（例如可探索的环境，不应该随机改变，如果你重温它们）只能通过定制技术（如低秩适应（LoRA））在扩散模型中实现，这限制了基础模型的即时能力。

因此，生成视频的演进似乎注定会停滞，除非新的叙事连续性方法被开发出来。

叙事连续性的食谱

考虑到这一点，美国和中国之间的新合作提出了使用教学视频作为未来叙事连续性系统的可能模板。

点击播放。 VideoAuteur 项目系统化地分析了烹饪过程的各个部分，以生成一个精细的字幕数据集和一个用于生成烹饪视频的编排方法。请参阅源站点以获取更好的分辨率。源：https://videoauteur.github.io/

题为 VideoAuteur 的工作提出了一种两阶段管道，用于生成教学烹饪视频，使用协调状态的关键帧和字幕，实现了最先进的结果——虽然是在一个相对冷门的领域。

VideoAuteur 的项目页面还包括一些更吸引眼球的视频，它们使用相同的技术，例如一个拟议的漫威/DC跨界电影预告片：

点击播放。 两个来自不同宇宙的超级英雄在一个虚假预告片中相遇，来自 VideoAuteur。请参阅源站点以获取更好的分辨率。

页面上还有一些类似的宣传视频，用于一个不存在的 Netflix 动物系列和特斯拉汽车广告。

在开发 VideoAuteur 的过程中，作者尝试了不同的损失函数和其他新方法。为了开发一个食谱生成工作流程，他们还策划了 CookGen，这是最大的专注于烹饪领域的数据集，包含 200,000 个视频片段，平均时长为 9.5 秒。

平均每个视频有 768.3 个字，CookGen 是同类数据集中最详细的。作者使用了多种视觉语言模型，包括其他方法，来确保描述尽可能详细、相关和准确。

烹饪视频被选中，因为烹饪教程有一个结构化和明确的叙事，使得注释和评估变得更容易。除了色情视频（可能会进入这个领域）之外，很难想出其他任何类型的视频，它的视觉和叙事都如此“公式化”。

作者表示：

‘我们提出的两阶段自回归管道，包括一个长叙事导演和视觉条件视频生成，展示了在生成长叙事视频中语义一致性和视觉保真度的改进。’

通过对我们的数据集的实验，我们观察到视频序列中空间和时间一致性的提高。 ‘

‘我们希望我们的工作能够促进长叙事视频生成的进一步研究。’

这项新工作的标题为 VideoAuteur：向长叙事视频生成迈进，由八位作者共同完成，来自约翰霍普金斯大学、字节跳动和字节跳动种子基金。

数据集策划

为了开发 CookGen，这个为生成 AI 烹饪视频提供动力的两阶段生成系统，作者使用了 YouCook 和 HowTo100M 集合的材料。作者将 CookGen 的规模与以前专注于生成视频中叙事发展的数据集进行比较，例如 Flintstones 数据集、Pororo 卡通数据集、StoryGen、腾讯的 StoryStream 和 VIST。