人工智能

CameraCtrl：启用相机控制以生成文本到视频

发布时间

3星期前

2024 年 5 月 23 日

最近尝试文本到视频或 T2V 生成的框架利用扩散模型来增加训练过程的稳定性，而视频扩散模型是文本到视频生成框架的先驱之一，它扩展了 2D 图像扩散架构，试图适应视频数据，并从头开始联合训练视频和图像模型。在此基础上，为了实现像稳定扩散这样强大的预训练图像生成器，最近的工作通过在预训练的 2D 层之间交错时间层来膨胀其 2D 架构，并在未见过的大型数据集上微调新模型。尽管采用了这些方法，文本到视频扩散模型仍面临重大挑战，因为单独使用文本描述来生成视频样本的模糊性通常会导致文本到视频模型对生成的控制较弱。为了解决这一限制，一些模型提供了增强的指导，而另一些模型则使用精确的信号来精确控制合成视频中的场景或人体运动。另一方面，有一些文本到视频框架采用图像作为视频生成器的控制信号，从而实现准确的时间关系建模或高视频质量。

可以肯定地说，可控性在图像和视频生成任务中起着至关重要的作用，因为它允许用户创建他们想要的内容。然而，现有的框架往往忽视了对相机姿势的精确控制，而相机姿势是一种电影语言，可以更好地表达模型更深层次的叙事细微差别。为了解决当前的可控性限制，在本文中，我们将讨论 CameraCtrl，这是一种新颖的想法，尝试为文本到视频模型实现精确的相机姿势控制。在精确参数化相机的轨迹后，该模型在文本到视频模型上训练即插即用相机模块，而其他组件保持不变。此外，CameraCtrl模型还对各种数据集的效果进行了全面的研究，并表明具有相似外观和不同相机分布的视频可以增强模型的整体可控性和泛化能力。为分析 CameraCtrl 模型在现实世界任务中的性能而进行的实验表明，该框架在实现精确和域自适应相机控制方面的效率很高，为追求从相机姿势和文本输入生成定制和动态视频开辟了道路。

本文旨在深入介绍 CameraCtrl 框架，我们探讨了该框架的机制、方法、架构以及它与最先进框架的比较。那么让我们开始吧。

CameraCtrl：T2V 生成的相机控制

近年来，扩散模型的最新发展和进步极大地促进了文本引导视频的生成，并彻底改变了内容设计工作流程。可控性在实际视频生成应用中起着重要作用，因为它允许用户根据自己的需要和要求定制生成的结果。凭借高可控性，模型能够增强其生成的视频的真实感、质量和可用性，虽然模型通常使用文本和图像输入来增强整体可控性，但它们往往缺乏对运动和内容的精确控制。为了解决这一限制，一些框架提出利用姿态骨架、光流和其他多模态信号等控制信号来实现更准确的控制来指导视频生成。现有框架面临的另一个限制是，它们缺乏对视频生成中刺激或调整摄像机点的精确控制，因为控制摄像机的能力至关重要，因为它不仅增强了生成视频的真实感，而且通过允许自定义视点，它还增强用户参与度，这是游戏开发、增强现实和虚拟现实中必不可少的功能。此外，巧妙地管理镜头运动可以让创作者突出人物关系、强调情感并引导目标观众的焦点，这在电影和广告行业中非常重要。

为了解决和克服这些限制，CameraCtrl 框架是一个可学习且精确的即插即用相机模块，能够控制相机的视点以生成视频。然而，将定制相机集成到现有文本到视频模型管道中是一项说起来容易做起来难的任务，迫使 CameraCtrl 框架寻找如何在模型架构中有效表示和注入相机的方法。同样，CameraCtrl 框架采用 Plucker 嵌入作为相机参数的主要形式，选择 Plucker 嵌入的原因可以归功于它们对相机姿态信息的几何描述进行编码的能力。此外，为了确保 CameraCtrl 模型训练后的通用性和适用性，该模型引入了仅接受 plucker 嵌入作为输入的相机控制模型。为了确保相机控制模型得到有效的训练，该框架及其开发人员进行了全面的研究，以调查不同的训练数据从合成数据到真实数据如何影响框架。实验结果表明，实现具有不同相机姿态分布和与原始基础模型相似的外观的数据实现了可控性和泛化性之间的最佳权衡。 CameraCtrl 框架的开发人员在 AnimateDiff 框架之上实现了该模型，从而能够精确控制不同个性化视频的生成，展示了其在各种视频创建环境中的多功能性和实用性。

AnimateDiff框架采用了高效的劳拉微调方法以获得不同类型镜头的模型权重。 Direct-a-video框架提出实现一个相机嵌入器来在视频生成过程中控制相机的姿态，但它仅以三个相机参数为条件，将相机的控制能力限制为最基本的类型。另一方面，包括 MotionCtrl 在内的框架设计了一个运动控制器，它接受三个以上的输入参数，并且能够生成具有更复杂的相机姿势的视频。然而，需要对生成的视频的某些部分进行微调，这阻碍了模型的通用性。此外，一些框架将深度图等额外的结构控制信号纳入过程中，以增强图像和文本生成的可控性。通常，该模型将这些控制信号输入附加编码器，然后使用各种操作将信号注入发生器。

CameraCtrl：模型架构

在我们了解相机编码器的架构和训练范例之前，了解不同的相机表示对于我们来说至关重要。通常，相机姿态指的是内在和外在参数，让视频生成器条件满足相机姿态的直接选择之一是将有关相机参数的原始值馈送到生成器中。然而，由于某些原因，实施这种方法可能不会增强精确的相机控制。首先，虽然旋转矩阵受到正交性的约束，但平移向量通常在大小上不受约束，并导致学习过程中的不匹配，从而影响控制的一致性。其次，直接使用原始相机参数可能会使模型难以将这些值与图像像素相关联，从而导致对视觉细节的控制减少。为了避免这些限制，CameraCtrl 框架选择 plucker 嵌入作为相机姿态的表示，因为 plucker 嵌入具有视频帧每个像素的几何表示，并且可以提供对相机姿态信息的更详细的描述。

视频生成器中的摄像机可控性

当模型将相机的轨迹参数化为采摘器嵌入序列（即空间图）时，该模型可以选择使用编码器模型来提取相机特征，然后将相机特征融合到视频生成器中。如同文字转图片适配器中，CameraCtrl 模型引入了专门为视频设计的相机编码器。相机编码器在每个卷积块之后包含一个时间注意模型，使其能够捕获整个视频剪辑中相机姿势的时间关系。如下图所示，相机编码器仅接受 plucker 嵌入输入，并提供多尺度特征。在获得多尺度相机特征后，CameraCtrl模型的目标是将这些特征无缝地集成到文本到视频模型的U-net架构中，并确定应该使用哪些层来有效地合并相机信息。此外，由于大多数现有框架采用类似 U-Net 的架构，同时包含时间和空间注意力层，CameraCtrl 模型将相机表示注入到时间注意力块中，这是由时间注意力能力支持的决定层来捕获时间关系，与相机轨迹固有的随意性和顺序性与描绘各个帧的空间注意层保持一致。

学习相机分布

在视频生成器上训练 CameraCtrl 框架内的相机编码器组件需要大量标记和注释良好的视频，并且模型能够使用运动结构或 SfM 方法获取相机轨迹。 CameraCtrl 框架尝试选择外观与视频模型的基础文本训练数据紧密匹配的数据集，并具有尽可能宽的相机姿态分布。使用虚拟引擎生成的数据集中的样本表现出不同的相机分布，因为开发人员可以在渲染阶段灵活地控制相机的参数，尽管与包含真实世界样本的数据集相比，它确实存在分布差距。当处理包含真实世界样本的数据集时，相机的分布通常很窄，在这种情况下，框架需要在不同相机轨迹之间的多样性和单个相机轨迹的复杂性之间找到平衡。单个摄像机轨迹的复杂性确保模型在训练过程中学会控制复杂的轨迹，而不同摄像机轨迹之间的多样性则确保模型不会过度拟合某些固定模式。此外，为了监控相机编码器的训练过程，CameraCtrl框架提出了相机对齐度量，通过量化生成样本的相机轨迹与输入相机条件之间的误差来衡量相机的控制质量。

CameraCtrl：实验和结果

CameraCtrl 框架实现 AnimateDiff 模型作为其基础文本到视频模型，其背后的一个主要原因是 AnimateDiff 模型的训练策略允许其运动模块与文本到图像基础模型或文本到图像 LoRA 集成以适应视频跨越不同流派和领域的一代。该模型使用 Adam 优化器以 1e-4 的恒定学习率来训练模型。此外，为了确保模型不会影响原始模型的视频生成能力文本到视频模型消极的是，CameraCtrl框架利用FID或Frechet Inception Distance度量来评估视频的外观质量，并比较包含相机模块之前和之后生成的视频的质量。

为了评估其性能，我们针对两个现有的相机控制框架：MotionCtrl 和 AnimateDiff 来评估 CameraCtrl 框架。但是，由于 AnimateDiff 框架仅支持八种基本相机轨迹，因此 CameraCtrl 和 AnimateDiff 之间的比较仅限于三种基本轨迹。另一方面，为了与 MotionCtrl 进行比较，除了基本相机轨迹之外，该框架还从现有数据集中选择了一千多个随机相机轨迹，使用这些轨迹生成视频，并使用 TransErr 和 RotErr 指标对其进行评估。

可以看出，CameraCtrl 框架在基本轨迹方面优于 AnimateDiff 框架，并且在复杂轨迹指标上与 MotionCtrl 框架相比提供了更好的结果。

此外，下图展示了相机编码器架构对生成样本整体质量的影响。 a 行到 d 行分别表示架构中实现的相机编码器生成的结果：ControlNet、具有时间注意力的 ControlNet、T2I 适配器和具有时间注意力的 T2I 适配器。

下图中，前两个对结合SparseCtrl框架的RGB编码器和CameraCtrl框架中使用的方法生成的视频进行置换。

总结

在本文中，我们讨论了 CameraCtrl，这是一个新颖的想法，试图为文本到视频模型实现精确的相机姿势控制。在精确参数化相机的轨迹后，该模型在文本到视频模型上训练即插即用相机模块，而其他组件保持不变。此外，CameraCtrl模型还对各种数据集的效果进行了全面的研究，并表明具有相似外观和不同相机分布的视频可以增强模型的整体可控性和泛化能力。为分析 CameraCtrl 模型在现实世界任务中的性能而进行的实验表明，该框架在实现精确和域自适应相机控制方面的效率很高，为追求从相机姿势和文本输入生成定制和动态视频开辟了道路。