Anderson 视角

为什么生成式视频系统无法制作完整的电影？

发布于 2024年9月23日

更新于 2026年5月20日

作者

Martin Anderson

'a gorgeous illustration of a robot operating a professional movie camera' - ChatGPT Plus, Sept 2024

生成式人工智能视频的出现和进展促使许多观察者预测，机器学习将成为电影业的终结者——单个创作者将能够使用本地或云端的GPU系统在家中制作好莱坞风格的电影。这种情况可能吗？即使可能，它是否即将发生？

个体创作者最终能够制作出我们熟悉的电影，具有连贯的角色、叙事连续性和完全的写实主义，这是可能的——也许甚至是不可避免的。然而，有几个根本性的原因说明为什么这不太可能发生在基于潜在扩散模型的视频系统中。

这些模型的核心是基于随机噪声的去噪扩散模型，这使得它们不适合重新解释相同的内容两次（即，从不同的角度或通过开发前一帧来维持与前一帧的一致性）。当使用文本提示时，单独或与上传的“种子”图像（多模态输入）一起，来自提示的令牌将从模型的潜在空间中引出语义上合适的内容。

然而，由于“随机噪声”因素的影响，它永远不会以相同的方式完成这一过程。这意味着视频中的角色身份将趋于转变，对象和环境将不匹配初始帧。

这就是为什么病毒式视频片段经常描绘出非凡的视觉效果和好莱坞级别的输出，但往往是单个镜头或展示系统能力的“展示蒙太奇”，每个镜头都有不同的角色和环境。

目前唯一提供叙事一致性的系统是那些生成静态图像的系统，例如NVIDIA的ConsiStory和科学文献中的各种项目，例如TheaterGen、DreamStory和StoryDiffusion。

在理论上，可以使用这些系统的更好版本来创建一系列图像到视频的镜头，这些镜头可以连接成一个序列。然而，在当前的技术水平下，这种方法不能产生可信的后续镜头；况且，我们已经偏离了“作者”的梦想，增加了复杂性。

可以使用低秩适应（LoRA）模型，特别是针对角色、物体或环境进行训练的模型，来保持更好的跨镜头的一致性。然而，如果一个角色想要出现在新的服装中，通常需要训练一个新的LoRA来体现这个角色穿着这种服装（尽管子概念，如“红色连衣裙”，可以与适当的图像一起训练到单独的LoRA中，但它们并不总是容易使用）。

这增加了相当大的复杂性，即使对于电影的开场景，一个人从床上起来，穿上睡衣，打哈欠，往窗外看，去浴室刷牙。这样的一个场景，包含大约4-8个镜头，可以在传统的电影制作过程中在一个上午内完成；然而，在当前的生成式人工智能技术水平下，它可能需要几周的工作，多个训练的LoRA（或其他辅助系统），以及大量的后期处理。

另外，可以使用视频到视频的方法，普通或CGI镜头可以通过文本提示转换为替代解释。例如，Runway提供了这样的一个系统。

然而，这里有两个问题：首先，你已经需要创建核心镜头，这意味着你已经在制作电影两次，即使你使用的是合成系统，如Unreal的MetaHuman。如果你创建CGI模型并使用它们进行视频到图像转换，它们在镜头之间的一致性是不可靠的。

这就是因为视频扩散模型没有“大局观”——它们创建一个新帧基于前一帧，并在某些情况下考虑附近的未来帧；但是，它们无法“十步想”和“十步回忆”。其次，扩散模型仍然难以在镜头之间保持一致的外观，即使你包含多个LoRA用于角色、环境和灯光风格。

1：你无法获得准确的后续镜头

叙事不一致是最大的障碍。事实上，目前没有任何视频生成系统能够制作出真正准确的“后续镜头”。

2：你无法轻松编辑一个镜头

如果你使用传统的CGI方法来描绘一个角色走在街上，并且你决定改变镜头的某个方面，你可以调整模型并重新渲染它。如果是真人拍摄，你可以重新设置并重新拍摄，带着适当的改变。

然而，如果你使用生成式人工智能视频生成一个你喜欢的镜头，但你想改变它的一个方面，你只能通过30-40年来开发的耗时的后期制作方法来实现：CGI、rotoscoping、建模和matting——所有这些都是劳动密集和昂贵的、耗时的过程。

3：你无法依赖物理定律

传统的CGI方法提供了各种算法物理模型，可以模拟流体动力学、气体运动、逆运动学（人体运动的精确模拟）、布料动力学、爆炸和其他现实世界现象。

然而，基于扩散的方法，如我们所见，有短期记忆，并且有有限的运动先验（训练数据集中包含的动作示例）可供参考。在OpenAI的Sora生成系统的早期版本中，公司承认Sora在这方面存在局限性（尽管这段文字已经被删除）。

在后期制作中解决问题

除了上述问题之外，单用户生成式视频还存在其他缺陷，例如难以描绘快速运动和获得输出视频的时间一致性。

此外，创建特定的面部表演和唇部同步对于生成式视频来说几乎是偶然的。在这些情况下，使用辅助系统，如LivePortrait和AnimateDiff，变得非常流行，因为它们允许将面部表情和唇部同步转移到现有的生成输出中。

结论

所有这些并不表明单个用户可以生成连贯且写实的、好莱坞风格的、全长电影，具有真实的对话、唇部同步、表演、环境和连续性。

此外，所描述的障碍，至少对于基于扩散的生成式视频模型来说，并不一定可以在短期内解决，尽管论坛评论和媒体报道表明可以。所描述的限制似乎是该架构的固有属性。

在人工智能合成研究中，像在所有科学研究中一样，杰出的想法周期性地以其潜力令人惊艳，只是进一步的研究揭示了它们的根本局限性。

在生成/合成领域，这已经发生在生成对抗网络（GANs）和神经辐射场（NeRF）身上，它们最终被证明很难转化为高性能的商业系统，尽管经过多年的学术研究。这些技术现在主要作为其他架构中的辅助组件出现。

就像电影制片厂可能希望在合法授权的电影目录上进行训练可以消除特效艺术家和VFX团队一样，人工智能实际上正在增加工作岗位。

无论基于扩散的视频系统是否真的可以转化为具有叙事一致性和写实主义的电影生成器，还是这只是另一个炼金术的追求，都将在接下来的12个月内变得明显。

可能我们需要一个完全新的方法；或者可能Gaussian Splatting（GSplat），它在20世纪90年代初期开发并最近在图像合成领域流行起来，代表了基于扩散的视频生成的潜在替代方案。

由于GSplat需要34年才能流行，因此也可能老的竞争者，如NeRF和GANs——甚至潜在扩散模型——还没有到达它们的巅峰。

尽管Kaiber的AI Storyboard功能提供了这种功能，但我所见到的结果并非生产质量。

马丁·安德森是metaphysic.ai的前科学研究内容负责人。
首次发布于2024年9月23日。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

为什么生成式视频系统无法制作完整的电影？

1：你无法获得准确的后续镜头

2：你无法轻松编辑一个镜头

3：你无法依赖物理定律

在后期制作中解决问题

结论

You may like