AI 模型与平台
稳定视频扩散:潜在视频扩散模型到大型数据集

生成式 AI 已经成为 AI 社区的驱动力一段时间了,生成式图像建模领域的进步,尤其是使用扩散模型,帮助生成式视频模型在研究和实际应用方面取得了显著进步。传统上,生成式视频模型要么从头开始训练,要么部分或全部微调预训练的图像模型,并添加额外的时间层,在图像和视频数据集的混合上进行训练。
继承生成式视频模型的进步,在本文中,我们将讨论 稳定视频扩散模型,一种潜在视频扩散模型,能够生成高分辨率、最先进的图像到视频和文本到视频内容。我们将讨论如何使用为合成 2D 图像而训练的潜在扩散模型来提高生成式视频模型的能力和效率,方法是添加时间层,并在小型高质量视频数据集上对模型进行微调。我们将更深入地探讨稳定视频扩散模型的架构和工作原理,并评估其在各种指标上的性能,并将其与当前最先进的视频生成框架进行比较。让我们开始吧。
稳定视频扩散模型和生成式视频模型:介绍
由于其几乎无限的潜力,生成式 AI 已成为 AI 和 ML 从业者研究的主要对象,过去几年中,生成式图像模型的效率和性能有了迅速的进步。生成式图像模型的成果使研究人员和开发人员能够在生成式视频模型上取得进展,提高了其实用性和实际应用。然而,大多数旨在提高生成式视频模型能力的研究主要关注时间层和空间层的确切排列,对于选择合适的数据对这些生成式模型的影响关注甚少。
由于生成式图像模型的进步,研究人员观察到训练数据分布对生成式模型性能的影响确实显著且无争议。另外,研究人员还观察到,在大型多样化数据集上预训练生成式图像模型,然后在小型高质量数据集上对其进行微调,通常会显著提高性能。传统上,生成式视频模型实施从成功的生成式图像模型中获得的成果,研究人员尚未研究数据和训练策略的影响。稳定视频扩散模型是通过专注于选择数据来增强生成式视频模型能力的尝试。

最近的生成式视频模型依赖于扩散模型和基于文本的条件或图像条件的方法来合成多个一致的视频或图像帧。扩散模型以其能够通过迭代精化过程学习逐渐去噪一个来自正常分布的样本而闻名,它们在高分辨率视频和文本到图像合成方面取得了理想的结果。使用相同的原理,稳定视频扩散模型在其视频数据集上训练一个潜在视频扩散模型,并使用生成式对抗网络(GAN)和自回归模型来一定程度上实现这一点。
稳定视频扩散模型遵循一种前所未有的策略,这种策略从未被任何生成式视频模型实施过,因为它依赖于潜在视频扩散基线,具有固定的架构和固定的训练策略,然后评估数据的策划效果。稳定视频扩散模型旨在通过以下方式为生成式视频建模领域做出贡献。
- 提出一种系统化和有效的数据策划工作流程,以将大量未策划的视频样本转换为高质量的数据集,然后由生成式视频模型使用。
- 训练最先进的图像到视频和文本到视频模型,以超越现有的框架。
- 进行领域特定的实验,以探测模型的 3D 理解和强大的运动先验。
现在,稳定视频扩散模型实施了潜在视频扩散模型和数据策划技术的成果。
潜在视频扩散模型
潜在视频扩散模型或视频潜在扩散模型(Video-LDM)遵循在潜在空间中训练主要生成模型的方法,具有降低的计算复杂度,大多数视频潜在扩散模型实施预训练的文本到图像模型,并在预训练架构中添加时间混合层。因此,大多数视频潜在扩散模型要么只训练时间层,要么完全跳过训练过程,而稳定视频扩散模型则对整个框架进行微调。此外,为了合成文本到视频数据,稳定视频扩散模型直接根据文本提示进行条件化,并且结果表明所得框架可以轻松地微调为多视图合成或图像到视频模型。
数据策划
数据策划是稳定视频扩散模型和生成式模型的基本组成部分,因为预训练大型模型在大规模数据集上对于提高性能至关重要,包括语言建模、判别性文本到图像生成等任务。数据策划已成功应用于生成式图像模型,利用高效的语言图像表示的能力,尽管这种讨论从未专注于开发生成式视频模型。开发人员在为生成式视频模型策划数据时面临几个障碍,为了解决这些挑战,稳定视频扩散模型实施了一种三阶段训练策略,结果是增强的结果和性能的显著提高。
高质量视频合成的数据策划
如前一节所讨论,稳定视频扩散模型实施了一种三阶段训练策略,结果是增强的结果和性能的显著提高。第一阶段是 图像预训练 阶段,使用 2D 文本到图像扩散模型。第二阶段是 视频预训练 阶段,框架在大量视频数据上进行训练。最后,我们有第三阶段 视频微调 阶段,模型在小型高质量和高分辨率视频子集上进行精化。
但是,在稳定视频扩散模型实施这些三个阶段之前,处理和注释数据至关重要,因为它作为第二阶段或视频预训练阶段的基础,并在确保最佳输出方面起着至关重要的作用。为了确保最大效率,框架首先实施了三个不同帧率(FPS)级别的级联剪辑检测管道,管道的必要性在以下图像中得到体现。

接下来,稳定视频扩散模型使用三个不同合成字幕方法来注释每个视频片段。以下表格比较了稳定扩散框架在过滤过程之前和之后使用的数据集。

第一阶段:图像预训练
稳定视频扩散模型中三个阶段管道的第一阶段是图像预训练阶段,为了实现这一点,初始稳定视频扩散模型框架基于预训练的图像扩散模型,即 稳定扩散 2.1 模型,赋予其更强的视觉表示。

第二阶段:视频预训练
第二阶段是视频预训练阶段,建立在使用数据策划在多模态生成式图像模型中通常会产生更好的结果和更高的效率这一发现的基础上。然而,由于缺乏类似的强大现成的表示来过滤掉不需要的样本用于生成式视频模型,稳定视频扩散模型依赖于人类偏好作为输入信号来创建适合预训练框架的数据集。以下图表演示了在策划的数据集上预训练框架的积极影响,这有助于提高在较小数据集上的视频预训练的整体性能。

更具体地说,框架使用不同的方法来策划潜在视频扩散的子集,并考虑训练这些数据集的 LVD 模型的排名。另外,稳定视频扩散框架还发现,使用策划的数据集来训练框架有助于提高框架的性能和扩散模型的性能。另外,数据策划策略也可以在更大、更相关和更实用的数据集上起作用。以下图表演示了在策划的数据集上预训练框架的积极影响,这有助于提高在较小数据集上的视频预训练的整体性能。

第三阶段:高质量微调
到第二阶段,稳定视频扩散框架专注于提高性能之前的视频预训练,在第三阶段,框架强调优化或进一步提高微调后视频的性能,并且如何从第二阶段到第三阶段过渡。第三阶段,框架借鉴了潜在图像扩散模型的训练技术,并增加了训练示例的分辨率。为了分析这种方法的有效性,框架将其与三个相同的模型进行比较,这些模型仅在初始化方面有所不同。第一个相同的模型具有初始化的权重,并且跳过了视频训练过程,而剩下的两个相同的模型具有从其他潜在视频模型借鉴的权重。
结果和发现
现在,让我们来看看稳定视频扩散框架在实际任务上的性能如何,以及它与当前最先进的框架相比如何。稳定视频扩散框架首先使用最优数据方法来训练一个基模型,然后对其进行微调以生成几个最先进的模型,每个模型执行特定的任务。

上图代表了框架生成的高分辨率图像到视频样本,而以下图表演示了框架生成高质量文本到视频样本的能力。

预训练基模型
如前所述,稳定视频扩散模型建立在稳定扩散 2.1 框架之上,根据最近的发现,开发人员需要采用噪声调度并增加噪声以获得更好的分辨率图像,当训练图像扩散模型时。由于这种方法,稳定视频扩散基模型学习了强大的运动表示,并且在零样本设置中超越了基线模型进行文本到视频生成,结果如下表所示。

帧插值和多视图生成
稳定视频扩散框架对图像到视频模型进行微调,以获得多个新视图的对象,并且该模型被称为 SVD-MV 或稳定视频扩散-多视图模型。原始 SVD 模型使用两个数据集对其进行微调,以便框架输入单个图像并输出多视图图像序列作为其输出。
如以下图像所示,稳定视频扩散多视图框架的性能与最先进的 Scratch 多视图框架相当,结果是 SVD-MV 能够利用原始 SVD 框架的学习成果进行多视图图像生成的明显体现。此外,结果还表明,对于大多数从 SVD 框架微调的模型来说,运行模型一段相对较短的时间可以带来最佳的结果。


在上图中,左侧指标表明,稳定视频扩散多视图框架比 Scratch-MV 和 SD2.1 多视图框架略占优势。第二个图表显示了训练迭代次数对框架性能的影响,SVD-MV 框架在 Clip 得分方面带来了可持续的结果。
最后的思考
在本文中,我们讨论了稳定视频扩散模型,一种潜在视频扩散模型,能够生成高分辨率、最先进的图像到视频和文本到视频内容。稳定视频扩散模型遵循一种前所未有的策略,这种策略从未被任何生成式视频模型实施过,因为它依赖于潜在视频扩散基线,具有固定的架构和固定的训练策略,然后评估数据的策划效果。
我们讨论了如何使用为合成 2D 图像而训练的潜在扩散模型来提高生成式视频模型的能力和效率,方法是添加时间层,并在小型高质量视频数据集上对模型进行微调。为了收集预训练数据,框架进行了可扩展性研究,并遵循系统化的数据收集实践,最后提出了一个方法来策划大量视频数据,并将嘈杂的视频转换为适合生成式视频模型的输入数据。
此外,稳定视频扩散框架采用了三个不同的视频模型训练阶段,这些阶段被独立分析以评估其对框架性能的影响。框架最终输出一个强大的视频表示,足以微调模型以实现最佳的视频合成,结果与现有的最先进的视频生成模型相当。












