人工智能

为长视频生成烹制叙事一致性

Published January 16, 2025

Updated April 26, 2026

Martin Anderson

ChatGPt 4o: 'an image with a width of 1792px and a height of 1024px. It should depict an orthographic view of an AI factory where rows of white-coated computer analysts are seated in front of PCs, and on the other side of their section is a conveyer belt with multiple stages of a recipe for a cake. Three video cameras are situated equidistant across the conveyer belt, aimed at the food items.'

最近公开发布的 Hunyuan Video 生成式 AI 模型加剧了关于大型多模态视觉语言模型的潜力讨论，即有一天它们将创建整个电影。

然而，正如我们所观察到的，这目前是一个非常遥远的前景，有几个原因。其中一个原因是大多数 AI 视频生成器的注意力窗口非常短，难以维持一致性，甚至在一个短的单个镜头中，更不用说一系列镜头。

另一个原因是，视频内容的一致引用（例如可探索的环境，不应该随机改变如果你重温它们）只能通过诸如低秩适应（LoRA）等定制技术在扩散模型中实现，这限制了基础模型的即开即用功能。

因此，生成式视频的演进似乎注定会停滞，除非开发出新的叙事连续性方法。

连续性配方

考虑到这一点，美国和中国之间的新合作提出了使用 教学烹饪视频 作为未来叙事连续性系统的可能模板。

点击播放。 VideoAuteur 项目系统化分析了烹饪过程的部分，以生成一个细致的字幕数据集和一个用于生成烹饪视频的编排方法。请参阅源站点以获取更好的分辨率。 源：https://videoauteur.github.io/

题为 VideoAuteur 的工作提出了一个两阶段管道，用于生成教学烹饪视频，使用协调状态结合关键帧和字幕，实现了最先进的结果 —— 在一个相对冷门的领域。

VideoAuteur 项目页面还包括使用相同技术的其他一些更吸引人的视频，例如一个拟议的漫威/DC跨界电影预告片：

点击播放。 两个来自不同宇宙的超级英雄在一个假的预告片中相遇，来自 VideoAuteur。请参阅源站点以获取更好的分辨率。

页面还以类似的风格展示了一个不存在的 Netflix 动物系列和特斯拉汽车广告的宣传视频。

在开发 VideoAuteur 的过程中，作者尝试了不同的损失函数和其他新颖的方法。为了开发一个食谱生成工作流程，他们还策划了 CookGen，这是最大的专注于烹饪领域的数据集，包含 200,000 个视频片段，平均时长为 9.5 秒。

平均每个视频 768.3 个字，CookGen 是同类数据集中最详尽的注释数据集。作者使用了多种视觉/语言模型，确保描述尽可能详细、相关和准确。

选择烹饪视频是因为烹饪教学有一个结构化和明确的叙事，使注释和评估变得更容易。除了色情视频（可能会进入这个领域）之外，很难想到其他类型的视频具有如此视觉和叙事上的“公式化”。

作者指出：

‘我们的提出的两阶段自回归管道，包括长叙事导演和视觉条件视频生成，展示了在生成长叙事视频中语义一致性和视觉保真度的有前途的改进。 ‘

‘通过在我们的数据集上的实验，我们观察到空间和时间一致性在视频序列中的提高。 ‘

‘我们希望我们的工作能够促进长叙事视频生成的进一步研究。 ‘

这项新工作的标题为 VideoAuteur：朝着长叙事视频生成的方向，来自约翰霍普金斯大学、字节跳动和字节跳动种子公司的八位作者。

数据集策划

为了开发 CookGen，这为生成 AI 烹饪视频提供了动力，作者使用了 YouCook 和 HowTo100M 集合的材料。作者将 CookGen 的规模与以前专注于生成式视频中叙事开发的数据集进行比较，例如 Flintstones 数据集、Pororo 动画数据集、StoryGen、腾讯的 StoryStream 和 VIST。