AI 模型与平台

CameraCtrl：实现T2V生成的相机控制

发布于 2024年5月23日

更新于 2026年5月21日

作者

Kunal Kejriwal

最近，尝试将文本转换为视频或T2V生成的框架利用扩散模型来增加其训练过程的稳定性，而视频扩散模型作为文本转换为视频生成框架的先驱者，扩展了2D图像扩散架构以适应视频数据，并从头开始联合训练视频和图像模型。基于此，最近的工作通过在预训练的2D层之间交错添加时间层来膨胀其2D架构，并在未见的大型数据集上微调新的模型。尽管他们采取了这种方法，文本转换为视频的扩散模型仍面临着显著的挑战，因为仅使用文本描述生成视频样本的模糊性通常会导致文本转换为视频模型对生成的控制较弱。为了解决这个限制，一些模型提供了增强的指导，而其他模型则使用精确的信号来控制合成视频中的场景或人体运动。另一方面，还有一些文本转换为视频的框架采用图像作为视频生成器的控制信号，导致精确的时间关系建模或高视频质量。

可以肯定地说，可控性在图像和视频生成任务中发挥着至关重要的作用，因为它允许用户创建他们所需的内容。然而，现有的框架经常忽略相机姿势的精确控制，而相机姿势作为一种电影语言，可以更好地表达叙事细微差别。为了解决当前的可控性限制，在本文中，我们将讨论CameraCtrl，一种新颖的想法，旨在为文本转换为视频模型实现准确的相机姿势控制。通过精确参数化相机的轨迹，模型在文本转换为视频模型上训练一个可插拔的相机模块，而不改变其他组件。此外，CameraCtrl模型还对不同数据集的影响进行了全面研究，表明具有相似外观和多样相机分布的视频可以增强模型的整体可控性和泛化能力。为了分析CameraCtrl模型在现实世界任务中的性能，实验表明该框架在实现精确和域适应相机控制方面的效率，为从相机姿势和文本输入中实现定制和动态视频生成铺平了道路。

本文旨在深入探讨CameraCtrl框架，我们将探索其机制、方法、架构以及与最先进框架的比较。让我们开始吧。

CameraCtrl：T2V生成的相机控制

最近几年，扩散模型的发展和进步显著推进了文本引导的视频生成，并革新了内容设计工作流程。可控性在实际的视频生成应用中发挥着重要作用，因为它允许用户根据自己的需求和要求定制生成的结果。具有高可控性的模型可以增强生成视频的真实性、质量和可用性，而文本和图像输入通常用于增强可控性，但它们通常缺乏对运动和内容的精确控制。为了解决这个限制，一些框架提出了利用控制信号，如姿势骨架、光流和其他多模态信号来实现更准确的控制以引导视频生成。现有框架面临的另一个限制是它们缺乏对相机点的精确控制，因为控制相机的能力对于增强生成视频的真实性至关重要，并且通过允许定制的视点来增强用户的参与度，这在游戏开发、增强现实和虚拟现实中是必不可少的。另外，熟练地管理相机运动可以让创作者突出人物关系、强调情感和引导目标观众的注意力，这在电影和广告行业中至关重要。

为了解决这些限制，CameraCtrl框架提出了一种可学习和精确的可插拔相机模块，可以控制视频生成中的相机视点。然而，将定制的相机集成到现有的文本转换为视频模型管道中是一项具有挑战性的任务，迫使CameraCtrl框架寻找有效的方法来表示和注入相机到模型架构中。同样，CameraCtrl框架采用Plücker嵌入作为相机参数的主要形式，选择Plücker嵌入的原因在于它们可以编码相机姿势信息的几何描述。另外，为了确保CameraCtrl模型在训练后的一般性和适用性，模型引入了一个仅接受Plücker嵌入作为输入的相机控制模型。为了确保相机控制模型的有效训练，框架和其开发人员进行了一项全面研究，以调查不同训练数据对框架的影响，从合成数据到真实数据。实验结果表明，实现具有多样相机姿势分布和与原始基模型相似外观的数据可以在可控性和泛化能力之间实现最佳的权衡。CameraCtrl框架的开发人员在AnimateDiff框架上实现了该模型，从而实现了在不同个性化视频生成中精确的控制，展示了其在视频创建背景下的多功能性和实用性。

AnimateDiff框架采用高效的LoRA微调方法来获得不同拍摄类型的模型权重。Direct-a-video框架提出了一种相机嵌入器来控制视频生成过程中的相机姿势，但它仅条件于三个相机参数，限制了相机的控制能力。另一方面，MotionCtrl框架设计了一个接受超过三个输入参数的运动控制器，可以生成具有更复杂相机姿势的视频。然而，需要对生成的视频的部分进行微调，这阻碍了模型的泛化性。另外，一些框架将额外的结构控制信号，如深度图，纳入图像和文本生成过程中。通常，模型将这些控制信号输入到一个额外的编码器中，然后使用各种操作将信号注入生成器中。

CameraCtrl：模型架构

在我们深入探讨相机编码器的架构和训练范式之前，了解不同的相机表示至关重要。通常，相机姿势指的是内在和外在参数，而让视频生成器条件于相机姿势的一种直接方法是将相机参数的原始值直接输入到生成器中。然而，实现这种方法可能不会增强准确的相机控制，因为旋转矩阵受到正交性的约束，而平移向量通常在大小上没有约束，这可能导致学习过程中的不一致性，影响控制的连贯性。另外，直接使用原始相机参数可能使模型难以将这些值与图像像素关联起来，导致对视觉细节的控制降低。为了避免这些限制，CameraCtrl框架选择Plücker嵌入作为相机姿势的表示，因为Plücker嵌入具有每个视频帧像素的几何表示，可以提供更详细的相机姿势信息描述。

视频生成器中的相机可控性

当模型将相机的轨迹参数化为Plücker嵌入序列（即空间映射）时，模型可以选择使用编码器模型来提取相机特征，然后将相机特征融入视频生成器中。类似于文本转换为图像的适配器，CameraCtrl模型引入了一个专门为视频设计的相机编码器。相机编码器在每个卷积块后包含一个时间注意力模型，允许它捕捉视频剪辑中相机姿势的时间关系。如以下图像所示，相机编码器仅接受Plücker嵌入输入，并提供多尺度特征。获得多尺度相机特征后，CameraCtrl模型旨在将这些特征无缝地集成到文本转换为视频模型的U-Net架构中，并确定哪些层应用于有效地集成相机信息。另外，由于大多数现有的框架采用具有时间和空间注意力层的U-Net架构，CameraCtrl模型将相机表示注入时间注意力块，这个决定得到了时间注意力层捕捉时间关系的能力的支持，这与相机轨迹的内在因果和顺序性相一致，空间注意力层则描绘了个别帧。

学习相机分布

在CameraCtrl框架中，训练相机编码器组件需要大量标记和注释的视频，模型可以使用结构从运动（SfM）方法来获取相机轨迹。CameraCtrl框架尝试选择与基文本转换为视频模型的训练数据外观相匹配的数据集，并具有尽可能广泛的相机姿势分布。使用虚拟引擎生成的数据集样本表现出多样相机分布，因为开发人员可以在渲染阶段控制相机参数，尽管它与包含真实世界样本的数据集相比存在分布差距。当处理包含真实世界样本的数据集时，相机的分布通常较窄，在这种情况下，框架需要在不同相机轨迹之间的多样性和个别相机轨迹的复杂性之间找到平衡。个别相机轨迹的复杂性确保模型在训练过程中学习控制复杂轨迹，而不同相机轨迹之间的多样性确保模型不会过拟合到某些固定模式。另外，为了监控相机编码器的训练过程，CameraCtrl框架提出了相机对齐度量来衡量相机控制的质量，通过量化生成样本的相机轨迹和输入相机条件之间的误差。

CameraCtrl：实验和结果

CameraCtrl框架实现AnimateDiff模型作为其基文本转换为视频模型，主要原因在于AnimateDiff模型的训练策略允许其运动模块与文本转换为图像的基模型或文本转换为图像的LoRA集成，以适应不同类型和领域的视频生成。模型使用Adam优化器，学习率为1e-4。另外，为了确保模型不会对原始文本转换为视频模型的视频生成能力产生负面影响，CameraCtrl框架使用FID（Frechet Inception Distance）度量来评估视频的外观质量，并比较在包含相机模块之前和之后生成的视频的质量。

为了评估其性能，CameraCtrl框架与两个现有的相机控制框架进行比较：MotionCtrl和AnimateDiff。然而，由于AnimateDiff框架仅支持八个基本相机轨迹，因此CameraCtrl与AnimateDiff的比较仅限于三个基本轨迹。另一方面，为了与MotionCtrl进行比较，框架从现有数据集中选择了超过一千个随机相机轨迹，使用这些轨迹生成视频，并使用TransErr和RotErr度量进行评估。

如图所示，CameraCtrl框架在基本轨迹上优于AnimateDiff框架，并在复杂轨迹度量上与MotionCtrl框架相比取得了更好的结果。

另外，下图展示了相机编码器架构对生成样本的整体质量的影响。从a行到d行分别代表使用ControlNet、ControlNet带时间注意力、T2I适配器和T2I适配器带时间注意力的结果。

在下图中，前两行显示了使用SparseCtrl框架的RGB编码器和CameraCtrl框架方法生成的视频。

最后的思考

在本文中，我们讨论了CameraCtrl，一种新颖的想法，旨在为文本转换为视频模型实现准确的相机姿势控制。通过精确参数化相机的轨迹，模型在文本转换为视频模型上训练一个可插拔的相机模块，而不改变其他组件。此外，CameraCtrl模型还对不同数据集的影响进行了全面研究，表明具有相似外观和多样相机分布的视频可以增强模型的整体可控性和泛化能力。为了分析CameraCtrl模型在现实世界任务中的性能，实验表明该框架在实现精确和域适应相机控制方面的效率，为从相机姿势和文本输入中实现定制和动态视频生成铺平了道路。