关注我们.

人工智能

AnimateLCM:加速个性化扩散模型的动画制作

mm
更新 on
AnimateLCM:通过解耦一致性学习加速个性化扩散模型和适配器的动画

在过去的几年里,扩散模型在图像和视频生成任务中取得了巨大的成功和认可。尤其是视频扩散模型,由于其能够生成具有高连贯性和保真度的视频而受到广泛关注。这些模型通过在其架构中采用迭代去噪过程来生成高质量视频,该过程逐渐将高维高斯噪声转换为真实数据。

稳定扩散是图像生成任务最具代表性的模型之一,依靠变分自动编码器(VAE)在真实图像和下采样的潜在特征之间进行映射。这使得模型能够降低生成成本,而其架构中的交叉注意机制有利于文本条件图像的生成。最近,稳定扩散框架为多个即插即用适配器奠定了基础,以实现更具创新性和更有效的图像或视频生成。然而,大多数视频扩散模型采用的迭代生成过程使得图像生成过程耗时且成本相对较高,限制了其应用。

在本文中,我们将讨论 AnimateLCM,这是一种带有适配器的个性化扩散模型,旨在以最少的步骤和计算成本生成高保真视频。 AnimateLCM 框架的灵感来自一致性模型,该模型通过提炼预先训练的图像扩散模型,以最少的步骤加速采样。此外,一致性模型的成功扩展,即潜在一致性模型(LCM),促进了条件图像的生成。 AnimateLCM 框架建议使用解耦的一致性学习策略,而不是直接在原始视频数据集上进行一致性学习。该策略将运动生成先验和图像生成先验的精炼解耦,使模型能够增强生成内容的视觉质量,同时提高训练效率。此外,AnimateLCM 模型建议从头开始训练适配器或使现有适配器适应其精炼视频一致性模型。这有利于稳定扩散模型系列中的即插即用适配器的组合,以在不损害采样速度的情况下实现不同的功能。

本文旨在深入介绍 AnimateLCM 框架。我们探讨了该框架的机制、方法和架构,以及它与最先进的图像和视频生成框架的比较。那么,让我们开始吧。

AnimateLCM:个性化扩散模型的动画

由于扩散模型在生成任务上的效率和能力,它已成为图像生成和视频生成任务的首选框架。大多数扩散模型依赖于图像生成的迭代去噪过程,将高维高斯噪声逐渐转换为真实数据。尽管该方法提供了一些令人满意的结果,但迭代过程和迭代样本的数量减慢了生成过程,并且还增加了扩散模型的计算要求,这些模型比 GAN 或 GAN 等其他生成框架慢得多 生成对抗网络。在过去的几年中,一致性模型或 CM 被提出作为迭代扩散模型的替代方案,以加速生成过程,同时保持计算要求不变。 

一致性模型的亮点在于,它们学习一致性映射,以保持预训练扩散模型引入的轨迹的自我一致性。一致性模型的学习过程使其能够以最少的步骤生成高质量的图像,并且还消除了计算密集型迭代的需要。此外,潜在一致性模型(LCM)建立在 稳定的扩散框架 可以通过现有适配器集成到 Web 用户界面中,以实现许多附加功能,例如实时图像到图像转换。相比之下,尽管现有的视频扩散模型取得了可以接受的结果,但在视频样本加速领域仍有待取得进展,并且由于视频生成计算成本较高,因此具有重要意义。 

这让我们想到了 AnimateLCM,这是一种高保真视频生成框架,需要最少的步骤来完成视频生成任务。遵循潜在一致性模型,AnimateLCM 框架将反向扩散过程视为求解 CFG 或 Classifier Free Guidance 增强概率流,并训练模型直接在潜在空间中预测此类概率流的解。然而,AnimateLCM 框架不是直接对原始视频数据进行一致性学习,这需要大量的训练和计算资源,并且通常会导致质量较差,而是提出了一种解耦的一致性学习策略,该策略将运动生成和图像生成先验的一致性蒸馏解耦。 

AnimateLCM 框架首先进行一致性蒸馏,将图像基础扩散模型调整为图像一致性模型,然后对图像一致性和图像扩散模型进行 3D 膨胀以适应 3D 特征。最终,AnimateLCM框架通过对视频数据进行一致性蒸馏,得到视频一致性模型。此外,为了减轻扩散过程造成的潜在特征损坏,AnimateLCM 框架还建议使用初始化策略。由于AnimateLCM框架建立在Stable Diffusion框架之上,因此它可以用公开的个性化图像扩散权重替换其经过训练的视频一致性模型的空间权重,以实现创新的生成结果。 

此外,为了从头开始训练特定适配器或更好地适应公开可用的适配器,AnimateLCM 框架为不需要训练特定教师模型的适配器提出了有效的加速策略。 

AnimateLCM 框架的贡献可以很好地概括为: 所提出的 AnimateLCM 框架旨在实现高质量、快速和高保真度的视频生成,为了实现这一目标,AnimateLCM 框架提出了一种解耦蒸馏策略,将运动和图像解耦生成先验可以提高生成质量并提高训练效率。 

InstantID:方法论和架构

InstantID 框架的核心从扩散模型和采样速度策略中汲取了大量灵感。扩散模型,也称为基于分数的生成模型,已经表现出了卓越的图像生成能力。在分数方向的指导下,扩散模型实施的迭代采样策略逐渐对噪声破坏的数据进行去噪。扩散模型的效率是大多数人采用它们的主要原因之一 视频扩散模型 通过在添加的时间层上进行训练。另一方面,采样速度和采样加速策略有助于解决扩散模型中生成速度慢的问题。基于蒸馏的加速方法通过改进的架构或调度器来调整原始扩散权重,以提高生成速度。 

接下来,InstantID 框架构建在稳定的扩散模型之上,该模型允许 InstantID 应用相关概念。该模型将离散前向扩散过程视为连续时间方差保持 SDE。此外,稳定扩散模型是 DDPM 或去噪扩散概率模型的扩展,其中训练数据点通过离散马尔可夫链逐渐扰动,并具有扰动肯尔,允许噪声数据在不同时间步的分布遵循分布。 

为了以最少的步骤实现高保真视频生成,AnimateLCM 框架驯服了稳定的基于扩散的视频模型以遵循自一致性属性。 AnimateLCM框架的整体训练结构由解耦的一致性学习策略组成,用于教师自由适应和有效的一致性学习。 

从扩散模型到一致性模型的转变

AnimateLCM 框架在潜在一致性模型或 LCM 的设计之后引入了自己的稳定扩散模型或 DM 对一致性模型或 CM 的适应。值得注意的是,虽然稳定扩散模型通常预测添加到样本中的噪声,但它们是必不可少的西格玛扩散模型。它与旨在直接预测 PF-ODE 轨迹解的一致性模型形成对比。此外,在具有某些参数的稳定扩散模型中,模型必须采用无分类器引导策略来生成高质量图像。然而,AnimateLCM 框架采用无分类器引导增强 ODE 求解器对相同轨迹中的相邻对进行采样,从而提高效率和质量。此外,现有模型表明生成质量和训练效率很大程度上受到轨迹中离散点数量的影响。较少数量的离散点可以加速训练过程,而较多数量的离散点可以减少训练过程中的偏差。 

解耦一致性学习

在一致性蒸馏的过程中,开发人员观察到用于训练的数据很大程度上影响了最终生成的一致性模型的质量。然而,目前公开可用的数据集的主要问题是通常由水印数据组成,或者质量较低,并且可能包含过于简短或模糊的标题。此外,直接在高分辨率视频上训练模型的计算成本高昂且耗时,这使得它对于大多数研究人员来说是不可行的选择。 

考虑到经过过滤的高质量数据集的可用性,AnimateLCM 框架建议将运动先验和图像生成先验的蒸馏解耦。更具体地说,AnimateLCM 框架首先将稳定的扩散模型提炼为图像一致性模型,并使用经过过滤的具有更好分辨率的高质量图像文本数据集。然后,该框架在稳定扩散模型的各层训练轻 LoRA 权重,从而冻结稳定扩散模型的权重 扩散模型。一旦模型调整了 LoRA 权重,它就可以作为多功能加速模块,并且已经证明了其与稳定扩散社区中其他个性化模型的兼容性。对于推理,AnimateLCM 框架将 LoRA 的权重与原始权重合并,而不会影响推理速度。 AnimateLCM框架在图像生成层面获得一致性模型后,会冻结稳定扩散模型的权重和其上的LoRA权重。此外,该模型将 2D 卷积核膨胀为伪 3D 核,以训练视频生成的一致性模型。该模型还添加了零初始化和块级残差连接的时间层。整体设置有助于确保模型的输出在第一次训练时不会受到影响。 AnimateLCM 框架在开源视频扩散模型的指导下训练从稳定扩散模型扩展的时间层。 

重要的是要认识到,虽然空间 LoRA 权重旨在加快采样过程而不考虑时间建模,并且时间模块是通过标准扩散技术开发的,但它们的直接集成往往会破坏训练开始时的表示。这给有效且高效地以最小的冲突将它们合并提出了重大挑战。通过实证研究,AnimateLCM 框架确定了一种成功的初始化方法,该方法不仅利用空间 LoRA 权重的一致性先验,而且还减轻了它们直接组合的不利影响。 

在一致性训练开始时,预训练的空间 LoRA 权重仅集成到在线一致性模型中,从而避免插入目标一致性模型。该策略确保作为在线模型的教育指南的目标模型不会生成可能对在线模型的学习过程产生不利影响的错误预测。在整个训练过程中,LoRA权重通过指数移动平均(EMA)过程逐步纳入目标一致性模型,经过多次迭代后达到最佳权重平衡。

教师自由改编

稳定扩散模型和即插即用适配器通常是齐头并进的。然而,据观察,即使即插即用适配器在一定程度上发挥作用,但即使大多数适配器都接受了图像扩散模型的训练,它们也往往会失去细节控制。为了解决这个问题,AnimateLCM 框架选择了无教师适配,这是一种简单而有效的策略,可以适应现有适配器以获得更好的兼容性,或者从头开始训练适配器。该方法允许 AnimateLCM 框架以最少的步骤实现可控视频生成和图像到视频生成,而无需教师模型。 

AnimateLCM:实验和结果

AnimateLCM 框架采用 Stable Diffusion v1-5 作为基础模型,并实现 DDIM ODE 求解器用于训练目的。该框架还应用具有开源运动权重的稳定扩散 v1-5 作为教师视频扩散模型,并在 WebVid2M 数据集上进行实验,无需任何附加或增强数据。此外,该框架使用 TikTok 数据集和 BLIP 标题的简短文本提示来生成可控视频。 

定性结果

下图展示了AnimateLCM框架实现的四步生成方法在文本转视频生成、图像转视频生成和可控视频生成方面的结果。 

可以看出,它们每个人提供的结果都与生成的结果令人满意,这证明了 AnimateLCM 框架即使在不同的推理步骤下也能够遵循一致性属性,保持相似的运动和风格。 

定量结果

下图展示了 AnimateLCM 框架与最先进的 DDIM 和 DPM++ 方法的定量结果和比较。 

可以看出,AnimateLCM 框架明显优于现有方法,尤其是在 1 到 4 步的低步状态下。此外,本次比较中显示的 AnimateLCM 指标是在不使用 CFG 或分类器免费指导的情况下进行评估的,这使得框架可以节省近 50% 的推理时间和推理峰值内存成本。此外,为了进一步验证其性能,AnimateLCM框架内的空间权重被替换为公开的个性化现实模型,该模型在保真度和多样性之间取得了良好的平衡,有助于进一步提高性能。 

总结

在本文中,我们讨论了 AnimateLCM,这是一种带有适配器的个性化扩散模型,旨在以最少的步骤和计算成本生成高保真视频。 AnimateLCM 框架的灵感来自一致性模型,该模型通过提炼预先训练的图像扩散模型以最少的步骤加速采样,以及一致性模型、潜在一致性模型或 LCM 的成功扩展,以促进条件图像生成。 AnimateLCM 框架不直接对原始视频数据集进行一致性学习,而是建议使用解耦的一致性学习策略,该策略将运动生成先验和图像生成先验的蒸馏解耦,从而使模型能够增强生成内容的视觉质量,并且同时提高培训效率。

“职业工程师,心灵作家”。 Kunal 是一位技术作家,对人工智能和机器学习有着深厚的热爱和理解,致力于通过他引人入胜且信息丰富的文档来简化这些领域的复杂概念。