人工智能

AnimateLCM：加速个性化扩散模型的动画

发布于 2024年3月19日

更新于 2026年5月22日

作者

Kunal Kejriwal

AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

过去几年，扩散模型在图像和视频生成任务中取得了巨大的成功和认可。特别是视频扩散模型，由于其能够产生高一致性和保真度的视频，引起了人们的广泛关注。这些模型通过其架构中的迭代去噪过程，逐渐将高维高斯噪声转化为真实数据，从而生成高质量的视频。

Stable Diffusion是图像生成任务中最具代表性的模型之一，它依赖于变分自编码器（VAE）来映射真实图像和下采样潜在特征。这使得模型能够减少生成成本，同时其架构中的跨注意力机制促进了文本条件图像生成。最近，Stable Diffusion框架为几个即插即用适配器提供了基础，以实现更具创新性和有效性的图像或视频生成。然而，大多数视频扩散模型所采用的迭代生成过程使得图像生成过程变得耗时且相对昂贵，限制了其应用范围。

在本文中，我们将讨论AnimateLCM，一个具有适配器的个性化扩散模型，旨在生成高保真度视频，步骤和计算成本最小。AnimateLCM框架的灵感来自一致性模型，该模型通过蒸馏预训练的图像扩散模型来加速采样，使用最小的步骤。另外，一致性模型的成功扩展，即潜在一致性模型（LCM），促进了条件图像生成。相比直接在原始视频数据集上进行一致性学习，AnimateLCM框架提出了使用解耦一致性学习策略。这种策略解耦了运动生成先验和图像生成先验的蒸馏，使得模型能够提高生成内容的视觉质量，并同时提高训练效率。此外，AnimateLCM模型提出了从头开始训练适配器或适应现有适配器到其蒸馏的视频一致性模型的方法。这促进了稳定扩散模型家族中即插即用适配器的组合，以实现不同的功能，而不会损害样本速度。

本文旨在深入介绍AnimateLCM框架。我们将探讨该框架的机制、方法论和架构，以及与最先进的图像和视频生成框架的比较。让我们开始吧。

AnimateLCM：个性化扩散模型的动画

扩散模型已成为图像生成和视频生成任务的首选框架，得益于其效率和生成任务的能力。大多数扩散模型依赖于迭代去噪过程来生成图像，该过程逐渐将高维高斯噪声转化为真实数据。虽然这种方法可以产生令人满意的结果，但迭代过程和采样次数会减慢生成过程，并增加扩散模型的计算需求，这比其他生成框架（如GAN或生成对抗网络）要慢得多。

过去几年中，提出了一致性模型（CM）作为迭代扩散模型的替代方案，以加速生成过程，同时保持计算需求不变。一致性模型的亮点在于，它们学习一致性映射，以保持预训练扩散模型引入的轨迹的自一致性。一致性模型的学习过程使其能够以最小的步骤生成高质量的图像，并消除了对计算密集型迭代的需求。此外，基于稳定扩散框架的潜在一致性模型（LCM）可以与现有的适配器集成到Web用户界面中，以实现诸如实时图像到图像翻译等一系列附加功能。

这让我们来到了AnimateLCM，它是一个高保真视频生成框架，需要最少的步骤来生成视频。AnimateLCM框架遵循潜在一致性模型，处理逆扩散过程作为增强概率流的分类器自由引导（CFG）求解，并直接在潜在空间中训练模型来预测此类概率流的解。然而，AnimateLCM框架并没有直接在原始视频数据上进行一致性学习，而是提出了解耦一致性学习策略。这种策略解耦了运动生成先验和图像生成先验的蒸馏。

AnimateLCM框架首先对图像基础扩散模型进行一致性蒸馏，将其适应为图像一致性模型，然后对图像一致性模型和图像扩散模型进行3D膨胀，以适应3D特征。最后，AnimateLCM框架通过对视频数据进行一致性蒸馏，获得视频一致性模型。此外，为了缓解扩散过程中可能的特征损坏，AnimateLCM框架还提出了使用初始化策略。由于AnimateLCM框架建立在稳定扩散框架之上，因此可以用公开的个性化图像扩散权重替换其训练的视频一致性模型的空间权重，以实现创新生成结果。

此外，AnimateLCM框架为不需要训练特定教师模型的适配器提出了有效的加速策略。

AnimateLCM框架的贡献可以概括为：提出的AnimateLCM框架旨在实现高质量、快速、高保真视频生成。为此，AnimateLCM框架提出了解耦蒸馏策略，解耦运动和图像生成先验，导致生成质量更好，训练效率更高。

InstantID：方法论和架构

InstantID框架的核心深受扩散模型和采样速度策略的启发。扩散模型，也称为基于评分的生成模型，已经展示了其在图像生成方面的卓越能力。在评分方向的指导下，扩散模型实现的迭代采样策略逐渐去噪污染的数据。扩散模型的效率是它们被大多数视频扩散模型采用的一大原因，因为这些模型通过在添加的时间层上进行训练来实现图像生成。另一方面，采样速度和采样加速策略有助于解决扩散模型中的缓慢生成速度。基于蒸馏的加速方法通过精细的架构或调度器来调整原始扩散权重，从而提高生成速度。

继续讨论，InstantID框架建立在稳定扩散模型之上，使其能够应用相关概念。该模型将离散的向前扩散过程视为连续时间的方差保持SDE。另外，稳定扩散模型是DDPM或去噪扩散概率模型的扩展，在该模型中，训练数据点通过离散的马尔可夫链逐渐被噪声核破坏，允许不同时间步骤的噪声数据分布遵循分布。

为了实现高保真视频生成和最小化步骤，AnimateLCM框架使稳定扩散模型遵循自一致性属性。AnimateLCM框架的总体训练结构包括解耦一致性学习策略，用于教师自由适应和有效的一致性学习。

从扩散模型到一致性模型的转变

AnimateLCM框架引入了其自身对稳定扩散模型（DM）到一致性模型（CM）的适应，遵循潜在一致性模型（LCM）的设计。值得注意的是，尽管稳定扩散模型通常预测添加到样本中的噪声，但它们本质上是σ-扩散模型。这与一致性模型形成对比，一致性模型旨在直接预测PF-ODE轨迹的解。另外，在具有某些参数的稳定扩散模型中，使用分类器自由引导策略来生成高质量图像是必要的。然而，AnimateLCM框架采用分类器自由引导增强的ODE求解器来采样同一轨迹中的相邻对，从而提高效率和质量。此外，现有模型表明，生成质量和训练效率受到轨迹中离散点数量的影响。离散点数量越小，训练过程就越快，而离散点数量越大，训练过程中就越少偏差。

解耦一致性学习

在一致性蒸馏过程中，开发人员观察到，用于训练的数据对一致性模型的最终生成质量产生了重大影响。然而，当前公开可用的数据集存在一个主要问题：它们通常包含水印数据、质量较低的数据，或者可能包含过于简短或模糊的字幕。此外，在大分辨率视频上直接训练模型计算成本高且耗时，因此对于大多数研究人员来说，这不是一个可行的选择。

鉴于高质量数据集的可用性，AnimateLCM框架提出了解耦运动先验和图像生成先验的蒸馏。更具体地说，AnimateLCM框架首先使用过滤后的高质量图像文本数据集将稳定扩散模型蒸馏为图像一致性模型。然后，框架在稳定扩散模型的层上训练轻量LoRA权重，同时冻结稳定扩散模型的权重。一旦模型调整LoRA权重，它就作为一个通用加速模块，并且已经证明其与稳定扩散社区中的其他个性化模型兼容。在推理过程中，AnimateLCM框架将LoRA权重与原始权重合并，而不会损害推理速度。获得图像生成的一致性模型后，AnimateLCM框架冻结了稳定扩散模型和LoRA权重上的权重。另外，模型将2D卷积核膨胀为伪3D核，以适应3D特征，并添加了具有零初始化和块级残差连接的时间层。这种设置有助于确保模型的输出在第一次训练时不会受到影响。AnimateLCM框架在开源视频扩散模型的指导下，训练了从稳定扩散模型扩展而来的时间层。

值得注意的是，虽然空间LoRA权重旨在不考虑时间建模而加速采样过程，但时间模块是通过标准扩散技术开发的。然而，它们的直接集成往往会在训练开始时破坏表示。这带来了在最小冲突的情况下有效地将它们合并的重大挑战。通过经验研究，AnimateLCM框架确定了一种成功的初始化方法，该方法不仅利用了空间LoRA权重的一致性先验，还减轻了它们直接组合的不利影响。

在一致性训练开始时，预训练的空间LoRA权重仅被集成到在线一致性模型中，避免了将其插入目标一致性模型。这一策略确保目标模型作为在线模型的教育指南，不会生成可能对在线模型的学习过程产生不利影响的错误预测。在整个训练过程中，LoRA权重通过指数移动平均（EMA）过程逐渐被纳入目标一致性模型中，在几次迭代后实现了最佳权重平衡。

教师自由适应

稳定扩散模型和即插即用适配器通常是同时使用的。然而，人们已经观察到，即使这些适配器在某种程度上有效，但即使大多数适配器都是使用图像扩散模型训练的，它们也往往在细节上失去控制。为了解决这个问题，AnimateLCM框架选择了教师自由适应，这是一种简单而有效的策略，可以使现有的适配器更好地兼容，或者从头开始训练适配器。这种方法使AnimateLCM框架能够实现可控的视频生成和图像到视频生成，所需步骤最少，无需教师模型。

AnimateLCM：实验和结果

AnimateLCM框架采用Stable Diffusion v1-5作为基础模型，并实现了DDIM ODE求解器进行训练。框架还应用了Stable Diffusion v1-5，使用开源的运动权重作为教师视频扩散模型，实验在WebVid2M数据集上进行，没有任何额外或增强的数据。另外，框架采用TikTok数据集，使用BLIP字幕的简短文本提示，进行可控视频生成。

定性结果

以下图表展示了AnimateLCM框架在文本到视频生成、图像到视频生成和可控视频生成中四步生成方法的结果。

如图所示，每个结果都令人满意，生成结果展示了AnimateLCM框架在不同推理步骤下保持一致性属性的能力，运动和风格保持一致。

定量结果

以下图表展示了AnimateLCM框架与最先进的DDIM和DPM++方法的定量结果和比较。

如图所示，AnimateLCM框架在低步骤范围（1-4步）中显著优于现有方法。此外，AnimateLCM指标在此比较中显示，没有使用CFG或分类器自由引导，这使得框架能够节省近50%的推理时间和峰值内存成本。另外，为了进一步验证其性能，AnimateLCM框架中的空间权重被替换为公开可用的个性化真实模型，该模型在保真度和多样性之间取得了良好的平衡，从而进一步提高了性能。

最终思考

在本文中，我们讨论了AnimateLCM，一个具有适配器的个性化扩散模型，旨在生成高保真度视频，步骤和计算成本最小。AnimateLCM框架的灵感来自一致性模型，该模型通过蒸馏预训练的图像扩散模型来加速采样，使用最小的步骤。另外，一致性模型的成功扩展，即潜在一致性模型（LCM），促进了条件图像生成。相比直接在原始视频数据集上进行一致性学习，AnimateLCM框架提出了使用解耦一致性学习策略。这种策略解耦了运动生成先验和图像生成先验的蒸馏，使得模型能够提高生成内容的视觉质量，并同时提高训练效率。