Anderson 视角

在AI视频生成中实现完全控制

发布于 2025年3月27日

更新于 2026年5月19日

作者

Martin Anderson

ChatGPT-4o, Adobe Firefly: lower right, imagery from the paper FullDiT: Multi-Task Video Generative Foundation Model with Full Attention (https://arxiv.org/pdf/2503.19907)

像Hunyuan和Wan 2.1这样的视频基础模型虽然强大，但不提供用户在电影和电视制作（尤其是视觉特效制作）中所需的细粒度控制。

在专业的视觉特效工作室中，像这样的开源模型，以及像Stable Diffusion、Kandinsky和Flux这样的早期图像模型（而不是视频模型），通常与一系列支持工具一起使用，这些工具将它们的原始输出适应于特定的创意需求。当导演说：“那看起来很好，但是我们可以让它变得更[n]吗？”你不能通过说模型不够精确来处理这样的请求。

相反，AI视觉特效团队将使用传统的CGI和组合技术，以及自定义的程序和工作流程，来尝试将视频合成的极限推得更远。

通过类比，一个基础视频模型就像一个默认安装的浏览器，如Chrome；它可以做很多事情，但如果你想让它适应你的需求，而不是相反，你需要一些插件。

控制狂

在基于扩散的图像合成领域，第三方系统中最重要的就是ControlNet。

ControlNet是一种为扩散基生成模型添加结构化控制的技术，允许用户使用额外的输入，如边缘图、深度图或姿势信息来引导图像或视频的生成。

ControlNet的各种方法允许进行深度到图像、语义分割到图像和姿势引导图像生成等操作。

与仅依赖文本提示不同，ControlNet引入了单独的神经网络分支或适配器来处理这些条件信号，同时保留了基础模型的生成能力。

这使得输出更加精细，更加符合用户的规格，特别是在需要精确的构图、结构或运动控制的应用中。

然而，这种基于适配器的框架有一些缺点。首先，适配器是独立训练的，这可能导致多个适配器组合时出现分支冲突，导致生成质量下降。其次，它们引入了参数冗余，需要额外的计算和内存来处理每个适配器，使得扩展效率低下。第三，尽管它们具有灵活性，但适配器通常会产生次优结果，尤其是与完全微调的模型相比，这些模型是为多条件生成而设计的。

理想情况下，ControlNet的能力应该被原生地集成到模型中，以模块化的方式来实现，这样就可以在后期轻松添加新的控制信号，如同时的视频/音频生成或本地唇-sync能力（用于外部音频）等功能。

FullDiT

最近，中国提出了一种新的方法，称为FullDiT，它将ControlNet风格的控制措施直接集成到生成视频模型中，而不是将其作为后期处理。

FullDiT将多任务条件，如身份转移、深度映射和相机运动，融入到一个统一的生成视频模型中，并且已经训练了一个原型模型和相应的视频片段。

在下面的例子中，我们可以看到同时包含相机运动、身份信息和文本信息的生成结果。

然而，作者并不将他们的实验模型作为一个功能性的基础模型，而是作为一个原型，证明了原生文本到视频（T2V）和图像到视频（I2V）模型可以提供比仅仅图像提示或文本提示更好的控制。

由于目前还没有类似的模型，因此研究人员创建了一个新的基准，称为FullBench，用于评估多任务视频生成，并声称在与现有方法的比较中取得了最先进的性能。

方法

作者声称，FullDiT的统一注意力机制可以通过捕获空间和时间关系来实现更强的跨模态表示学习。

与基于适配器的设置不同，FullDiT将多个输入条件整合到一个统一的序列中，使用全自注意力来处理它们，从而避免了分支冲突和参数冗余的问题。

这种设计使得模型可以在不依赖单独模块的情况下学习不同模态和时间之间的动态交互，并且可以轻松扩展到新的输入类型而无需重大结构变化。

三者的力量

FullDiT将每个控制信号转换为标准化的令牌格式，以便所有条件可以在统一的注意力框架中一起处理。

对于相机运动，模型编码了一系列外部参数，如位置和方向，并将其投影到反映信号时间性质的嵌入向量中。

身份信息被视为空间信号，模型使用身份图来指示每个帧中哪些角色存在，这些图被分成补丁，并投影到捕捉空间身份线索的嵌入中。

深度信号被处理为3D补丁，跨越空间和时间，并以保留其结构的方式嵌入到模型中。

数据和测试

FullDiT的训练方法依赖于选择性注释的数据集，这些数据集针对每种条件类型进行了定制，而不是要求所有条件同时存在。

对于文本条件，研究人员遵循了MiraData项目中概述的结构化字幕方法。

对于相机运动，主要数据来源是RealEstate10K数据集，因为它具有高质量的相机参数注释。

然而，作者观察到，仅使用静态场景相机数据集（如RealEstate10K）进行训练会降低生成视频中的动态物体和人类运动。为了解决这个问题，他们使用包含更多动态相机运动的内部数据集进行了额外的微调。

身份注释使用ConceptMaster项目中开发的管道生成，这允许高效地过滤和提取细粒度身份信息。

优化通过数据排序

作者还实施了一个渐进的训练计划，早期引入更具挑战性的条件，以确保模型在添加更简单的任务之前获得了强大的表示。

训练顺序从文本到相机条件，然后到身份，最终到深度，较容易的任务通常在后期引入，并且具有较少的示例。

作者强调了这种工作量排序的价值，指出更具挑战性的任务需要更长的训练时间，并且应该早期引入，而较容易的任务可能会阻碍更具挑战性的任务的收敛。

指标

作者使用十个指标来评估FullDiT，涵盖了五个主要的性能方面：文本对齐、相机控制、身份相似度、深度准确性和一般视频质量。

文本对齐使用CLIP相似度来衡量，而相机控制通过旋转错误、平移错误和相机运动一致性来评估。

身份相似度使用DINO-I和CLIP-I来评估，而深度控制准确性使用平均绝对误差（MAE）来量化。

视频质量使用MiraData中的三个指标来评估：帧级CLIP相似度用于平滑度，基于光流的运动距离用于动态性，LAION-Aesthetic评分用于视觉吸引力。

训练

作者使用一个内部（未公开）的文本到视频扩散模型进行训练，该模型包含大约十亿个参数。他们故意选择了一个适中的参数规模，以保持与先前方法的公平比较和可复现性。

由于训练视频的长度和分辨率不同，作者通过调整和填充视频到一个共同的分辨率来标准化每个批次，采样每个序列的77帧，并使用应用注意力和损失掩码来优化训练的有效性。

Adam优化器以1×10⁻⁵的学习率在64个NVIDIA H800 GPU的集群上使用，总共有5,120GB的VRAM（考虑到在爱好者合成社区中，24GB在RTX 3090上仍被认为是一个豪华标准）。

模型训练了大约32,000步，结合了最多三个身份的视频，以及20帧的相机条件和21帧的深度条件，这些条件均匀地从总共77帧中采样。

对于推理，模型以384×672像素的分辨率生成视频（大约五秒，15帧每秒），使用50个扩散推理步骤和五的分类器自由指导尺度。

先前的方法

对于相机到视频的评估，作者将FullDiT与MotionCtrl、CameraCtrl和CamI2V进行了比较，所有模型都使用RealEstate10K数据集进行训练，以确保一致性和公平性。

在身份条件生成中，由于没有可比拟的开源多身份模型，因此该模型被与1B参数的ConceptMaster模型进行了比较，使用相同的训练数据和架构。

对于深度到视频任务，比较是与Ctrl-Adapter和ControlVideo进行的。

结果表明，FullDiT在处理多个条件信号同时取得了最先进的性能，尽管它在平滑度方面略低于ConceptMaster，但在动态性和视觉质量方面表现更好。

结论

尽管FullDiT是对更全面的视频基础模型的令人兴奋的尝试，但人们不禁会想，是否会有足够的需求来证明在大规模上实施这样的功能，至少对于开源项目来说，这些项目将难以获得必要的巨大GPU处理能力，而没有商业支持。

主要的挑战是，使用像Depth和Pose这样的系统通常需要对相对复杂的用户界面（如ComfyUI）有非平凡的熟悉度。因此，一个功能性的开源模型最有可能由一群小型的视觉特效公司开发，这些公司缺乏钱财（或意愿，因为这样的系统很快就会被模型升级所淘汰）来在闭门造车的情况下开发和训练这样的模型。

另一方面，基于API的“租用AI”系统可能会有动力开发更简单、更用户友好的模型解释方法，这些方法可以直接训练到模型中。

点击播放。 FullDiT上的Depth+Text控制。

* 作者没有指定任何已知的基础模型（例如SDXL等）

首次发布于2025年3月27日