存根 DynamiCrafter:使用视频扩散先验对开放域图像进行动画处理 - Unite.AI
关注我们.

人工智能

DynamiCrafter:使用视频扩散先验对开放域图像进行动画处理

mm

发布时间

 on

DynamiCrafter:使用视频扩散先验对开放域图像进行动画处理

计算机视觉 是当今人工智能社区中最令人兴奋和研究最深入的领域之一,尽管计算机视觉模型迅速增强,但图像动画仍然是困扰开发人员的一个长期挑战。即使在今天,图像动画框架仍在努力将静态图像转换为各自的视频对应物,以显示自然动态,同时保留图像的原始外观。传统上,图像动画框架主要侧重于通过特定领域的运动(如人的头发或身体运动)或随机动力学(如流体和云)来制作自然场景的动画。尽管这种方法在一定程度上有效,但它确实限制了这些动画框架对更通用的视觉内容的适用性。 

此外,传统的图像动画方法主要集中于合成振荡和随机运动,或针对特定对象类别进行定制。然而,该方法的一个显着缺陷是对这些方法强加的强烈假设,最终限制了它们的适用性,特别是在开放域图像动画等一般场景中。在过去的几年里, T2V 或文本到视频模型 在使用文本提示生成生动多样的视频方面取得了显著成功,T2V 模型的演示构成了 DynamiCrafter 框架的基础。 

DynamiCrafter 框架试图克服当前图像动画模型的局限性,并将其适用性扩展到涉及开放世界图像的通用场景。 DynamiCrafter 框架尝试合成开放域图像的动态内容,并将其转换为动画视频。 DynamiCrafter 背后的关键思想是将图像作为指导纳入生成过程中,试图利用现有文本到视频扩散模型的运动先验。对于给定的图像,DynamiCrafter 模型首先实现一个查询转换器,将图像投影到文本对齐的丰富上下文表示空间中,从而促进视频模型以兼容的方式消化图像内容。然而,DynamiCrafter 模型仍然难以在生成的视频中保留一些视觉细节,DynamiCrafter 模型通过将图像与初始噪声连接起来,将完整图像馈送到扩散模型,从而用更精确的图像补充模型,从而克服了这个问题信息。 

本文旨在深入介绍 DynamiCrafter 框架,我们探讨了该框架的机制、方法和架构,并与最先进的图像和视频生成框架进行了比较。那么让我们开始吧。 

DynamiCrafter:开放域图像动画

将静态图像动画化通常可以为观众提供引人入胜的视觉体验,因为它似乎使静态图像栩栩如生。多年来,许多框架探索了各种静态图像动画方法。最初的动画框架实现了基于物理模拟的方法,重点是模拟特定对象的运动。然而,由于每个对象类别的独立建模,这些方法既无效也不具有普适性。为了复制更真实的运动,出现了基于参考的方法,将运动或外观信息从视频等参考信号传输到合成过程。尽管与基于模拟的方法相比,基于参考的方法提供了更好的结果和更好的时间一致性,但它们需要额外的指导,这限制了其实际应用。 

近年来,大多数动画框架主要关注具有随机、特定领域或振荡运动的自然场景动画。尽管这些框架实现的方法在一定程度上有效,但这些框架产生的结果并不令人满意,还有很大的改进空间。 Text to Video 生成模型在过去几年取得的骄人成果,激励了 DynamiCrafter 框架的开发人员利用 Text to Video 模型强大的生成能力进行图像动画。 

DynamiCrafter 框架的关键基础是合并条件图像,以尝试控制视频生成过程 文本到视频扩散模型。然而,图像动画的最终目标仍然很重要,因为图像动画需要保留细节以及理解对于创建动态至关重要的视觉上下文。然而,像 VideoComposer 这样的多模态可控视频扩散模型已经尝试通过图像的视觉引导来生成视频。然而,这些方法不适合图像动画,因为它们要么导致突然的时间变化,要么由于其不太全面的图像注入机制而导致与输入图像的视觉一致性较低。为了克服这个障碍,DyaniCrafter 框架提出了一种双流注入方法,包括视觉细节引导和文本对齐的上下文表示。双流注入方法允许DynamiCrafter框架确保视频扩散模型以互补的方式合成保留细节的动态内容。 

对于给定的图像,DynamiCrafter 框架首先使用专门设计的上下文学习网络将图像投影到文本对齐的上下文表示空间中。更具体地说,上下文表示空间由一个可学习的查询转换器组成,以进一步促进其对扩散模型的适应,以及一个预训练的 CLIP 图像编码器,以提取文本对齐的图像特征。然后,该模型使用交叉注意层来使用丰富的上下文特征,并且该模型使用门控融合将这些文本特征与交叉注意层相结合。然而,这种方法将学习到的上下文表示与文本对齐的视觉细节进行交换,这有助于对图像上下文的语义理解,从而可以合成合理且生动的动态。此外,为了补充额外的视觉细节,该框架将完整图像与扩散模型的初始噪声连接起来。因此,DynamiCrafter 框架实现的双注入方法保证了输入图像的视觉一致性以及合理的动态内容。 

随着时间的推移,扩散模型或 DM 在 T2I 或文本到图像生成方面表现出了卓越的性能和生成能力。为了将 T2I 模型的成功复制到视频生成中,提出了 VDM 或视频扩散模型,该模型在像素空间中使用时空分解的 U-New 架构来对低分辨率视频进行建模。将 T2I 框架的知识转移到 T2V 框架将有助于降低培训成本。尽管 VDM 或视频扩散模型能够生成高质量视频,但它们仅接受文本提示作为唯一的语义指导,这可能无法反映用户的真实意图或可能含糊不清。然而,大多数 VDM 模型的结果很少与输入图像一致,并且存在不切实际的时间变化问题。 DynamiCrafter 方法建立在文本条件视频扩散模型的基础上,利用其丰富的动态先验来对开放域图像进行动画处理。它通过结合定制设计来实现更好的语义理解和与输入图像的一致性。 

DynamiCrafter:方法和架构

对于给定的静态图像,DyanmiCrafter 框架尝试将其动画化 图像到视频 即制作一个短视频剪辑。视频片段继承了图像的视觉内容,并表现出自然的动态。然而,图像有可能出现在所得帧序列的任意位置。图像在任意位置的出现是在具有高视觉一致性要求的图像条件视频生成任务中观察到的一种特殊挑战。 DynamiCrafter 框架通过利用预训练视频扩散模型的生成先验克服了这一挑战。 

视频扩散先验的图像动力学

通常,开放域文本到视频扩散模型可以显示基于文本描述的建模条件的动态视觉内容。要使用文本到视频生成先验对静态图像进行动画处理,框架应首先以全面的方式在视频生成过程中注入视觉信息。此外,对于动态合成,T2V 模型应该消化图像以进行上下文理解,同时它还应该能够保留生成视频中的视觉细节。 

文本对齐上下文表示

为了利用图像上下文指导视频生成,DynamiCrafter 框架尝试将图像投影到对齐的嵌入空间中,从而允许视频模型以兼容的方式使用图像信息。此后,DynamiCrafter 框架使用图像编码器从输入图像中提取图像特征,因为文本嵌入是使用预先训练的 CLIP 文本编码器生成的。现在,尽管来自 CLIP 图像编码器的全局语义标记与图像标题对齐,但它主要表示语义级别的视觉内容,因此无法捕获图像的完整范围。 DynamiCrafter 框架实现了来自 CLIP 编码器最后一层的完整视觉标记,以提取更完整的信息,因为这些视觉标记在条件图像生成任务中表现出高保真度。此外,该框架采用上下文和文本嵌入,通过双交叉注意力层与 U-Net 中间特征进行交互。该组件的设计增强了模型以依赖于层的方式吸收图像条件的能力。此外,由于 U-Net 架构的中间层更多地与对象姿势或形状相关联,因此预计图像特征将主要影响视频的外观,特别是因为两端层与外观更相关。 

视觉细节指导

DyanmiCrafter 框架采用信息丰富的上下文表示,允许其架构中的视频扩散模型生成与输入图像非常相似的视频。然而,如下图所示,由于预训练的 CLIP 编码器的设计目的是对齐语言和视觉特征,因此由于预训练的 CLIP 编码器完全保留输入信息的能力有限,生成的内容可能会显示一些差异。 

为了增强视觉一致性,DynamiCrafter 框架建议为视频扩散模型提供从输入图像中提取的附加视觉细节。为了实现这一目标,DyanmiCrafter 模型将条件图像与每帧初始噪声连接起来,并将它们提供给去噪 U-Net 组件作为指导。 

训练范式

DynamiCrafter 框架通过两个互补的流集成了条件图像,这两个互补的流在细节指导和上下文控制中发挥着重要作用。为了实现这一点,DynamiCrafter 模型采用了三步训练过程

  1. 第一步,模型训练图像上下文表示网络。 
  2. 在第二步中,模型将图像上下文表示网络适应文本到视频模型。 
  3. 在第三步也是最后一步中,模型与视觉细节指导组件联合微调图像上下文表示网络。 

为了调整图像信息以与文本到视频 (T2V) 模型兼容,DynamiCrafter 框架建议开发上下文表示网络 P,旨在从给定图像中捕获文本对齐的视觉细节。认识到 P 需要许多优化步骤来实现收敛,该框架的方法包括首先使用更简单的文本到图像 (T2I) 模型对其进行训练。该策略允许上下文表示网络在通过与 P 和 T2V 模型的空间层(而不是时间层)联合训练将其与 T2V 模型集成之前,集中精力学习图像上下文。 

为了确保 T2V 兼容性,DyanmiCrafter 框架将输入图像与每帧噪声合并,然后对 P 和视觉辨别模型 (VDM) 的空间层进行微调。选择这种方法是为了保持 T2V 模型现有时间洞察的完整性,而不会产生密集图像合并的不利影响,这可能会损害性能并偏离我们的主要目标。此外,该框架采用随机选择视频帧作为图像条件的策略来实现两个目标:(i)避免网络开发直接将合并图像与特定帧位置相关联的可预测模式,以及(ii)通过防止为任何特定框架提供过于严格的信息来鼓励更具适应性的上下文表示。 

DynamiCrafter:实验和结果

DynamiCrafter 框架首先在稳定扩散上训练上下文表示网络和图像交叉注意层。然后该框架将替换 稳定扩散 组件与 VideoCrafter 一起进一步微调上下文表示网络和空间层以进行适应以及图像串联。推理时,该框架采用了具有多条件无分类器指导的 DDIM 采样器。此外,为了评估在时域和空间域中合成的视频的时间相干性和质量,该框架报告 FVD 或 Frechet 视频距离以及 KVD 或内核视频距离,并评估所有方法的零样本性能MSR-VTT 和 UCF-101 基准测试。为了研究生成结果与输入图像之间的感知一致性,该框架引入了 PIC(感知输入一致性),并采用感知距离度量 DreamSim 作为距离的函数。 

下图演示了不同样式和内容生成的动画内容的视觉比较。 

可以看出,在所有不同的方法中,DynamiCrafter 框架很好地遵循输入图像条件,并生成时间连贯的视频。下表包含对 49 名参与者进行的用户研究的统计数据,其中包括时间相干性 (TC) 和运动质量 (MC) 的偏好率以及输入图像视觉一致性的选择率。 (我知道了)。可以看出,DynamiCrafter 框架能够大幅优于现有方法。 

下图展示了使用双流注入方法和训练范式所取得的结果。 

最后的思考

在本文中,我们讨论了 DynamiCrafter,它试图克服当前图像动画模型的局限性,并将其适用性扩展到涉及开放世界图像的通用场景。 DynamiCrafter 框架尝试合成开放域图像的动态内容,并将其转换为动画视频。 DynamiCrafter 背后的关键思想是将图像作为指导纳入生成过程中,试图利用现有文本到视频扩散模型的运动先验。对于给定的图像,DynamiCrafter 模型首先实现一个查询转换器,将图像投影到文本对齐的丰富上下文表示空间中,从而促进视频模型以兼容的方式消化图像内容。然而,DynamiCrafter 模型仍然难以在生成的视频中保留一些视觉细节,DynamiCrafter 模型通过将图像与初始噪声连接起来,将完整图像馈送到扩散模型,从而用更精确的图像补充模型,从而克服了这个问题信息。 

“职业工程师,心灵作家”。 Kunal 是一位技术作家,对人工智能和机器学习有着深厚的热爱和理解,致力于通过他引人入胜且信息丰富的文档来简化这些领域的复杂概念。