为长视频生成完善叙事的一份食谱
作者 Martin Anderson 最近,Hunyuan Video 生成模型的公开发布加剧了关于大型多模态视觉语言模型可能创造整个电影的潜力的讨论。然而,正如我们观察到的,这种前景在当前仍然非常遥远,原因有很多。其中一个原因是大多数 AI 视频生成器的注意力窗口非常短,难以维持一段短视频的连贯性,更不用说一系列镜头了。另一个原因是,视频内容的一致性引用(例如可探索的环境,不应该随机改变,如果你重温它们)只能通过定制技术(如低秩适应(LoRA))在扩散模型中实现,这限制了基础模型的即时能力。因此,生成视频的演进似乎注定会停滞,除非新的叙事连续性方法被开发出来。叙事连续性的食谱考虑到这一点,美国和中国之间的新合作提出了使用教学视频作为未来叙事连续性系统的可能模板。点击播放。 VideoAuteur 项目系统化地分析了烹饪过程的各个部分,以生成一个精细的字幕数据集和一个用于生成烹饪视频的编排方法。请参阅源站点以获取更好的分辨率。 源:https://videoauteur.github.io/题为 VideoAuteur 的工作提出了一种两阶段管道,用于生成教学烹饪视频,使用协调状态的关键帧和字幕,实现了最先进的结果——虽然是在一个相对冷门的领域。VideoAuteur 的项目页面还包括一些更吸引眼球的视频,它们使用相同的技术,例如一个拟议的漫威/DC跨界电影预告片:点击播放。 两个来自不同宇宙的超级英雄在一个虚假预告片中相遇,来自 VideoAuteur。请参阅源站点以获取更好的分辨率。 页面上还有一些类似的宣传视频,用于一个不存在的 Netflix 动物系列和特斯拉汽车广告。在开发 VideoAuteur 的过程中,作者尝试了不同的损失函数和其他新方法。为了开发一个食谱生成工作流程,他们还策划了 CookGen,这是最大的专注于烹饪领域的数据集,包含 200,000 个视频片段,平均时长为 9.5 秒。平均每个视频有 768.3 个字,CookGen 是同类数据集中最详细的。作者使用了多种视觉语言模型,包括其他方法,来确保描述尽可能详细、相关和准确。烹饪视频被选中,因为烹饪教程有一个结构化和明确的叙事,使得注释和评估变得更容易。除了色情视频(可能会进入这个领域)之外,很难想出其他任何类型的视频,它的视觉和叙事都如此“公式化”。作者表示:‘我们提出的两阶段自回归管道,包括一个长叙事导演和视觉条件视频生成,展示了在生成长叙事视频中语义一致性和视觉保真度的改进。’通过对我们的数据集的实验,我们观察到视频序列中空间和时间一致性的提高。...