人工智能

稳定视频扩散：潜在视频扩散模型到大型数据集

Published November 30, 2023

Updated April 4, 2026

Kunal Kejriwal

生成式 AI 已经成为 AI 社区的驱动力一段时间了，生成图像建模领域的进步，尤其是使用扩散模型，帮助生成视频模型在研究和实际应用方面取得了显著进步。传统上，生成视频模型要么从头开始训练，要么部分或完全从预训练的图像模型中微调，使用图像和视频数据集的混合。

在生成视频模型的进步基础上，本文将讨论 稳定视频扩散模型，一种能够生成高分辨率、最先进的图像到视频和文本到视频内容的潜在视频扩散模型。我们将讨论如何使用为合成 2D 图像而训练的潜在扩散模型，通过添加时间层和在小型高质量视频数据集上微调模型，提高生成视频模型的能力和效率。我们将更深入地探讨稳定视频扩散模型的架构和工作原理，并评估其在各种指标上的性能，并将其与当前最先进的视频生成框架进行比较。让我们开始。

稳定视频扩散模型和生成视频模型：介绍

由于其几乎无限的潜力，生成式 AI 已成为 AI 和 ML 从业者研究的主要主题，过去几年中，生成图像模型的效率和性能有了迅速的进步。生成图像模型的成果使研究人员和开发人员能够在生成视频模型上取得进展，提高了实用性和实际应用。然而，大多数尝试提高生成视频模型能力的研究主要关注时间和空间层的确切排列，很少关注选择合适数据对这些生成模型的结果的影响。

由于生成图像模型的进步，研究人员观察到训练数据分布对生成模型的性能有着显著和无争议的影响。另外，研究人员还观察到，在大型和多样化的数据集上预训练生成图像模型，然后在较小的高质量数据集上微调它，通常会显著提高性能。传统上，生成视频模型实现了成功的生成图像模型的成果，研究人员尚未研究数据和训练策略的影响。稳定视频扩散模型是通过关注数据选择来增强生成视频模型能力的尝试。

最近的生成视频模型依赖于扩散模型和文本条件或图像条件方法来合成多个一致的视频或图像帧。扩散模型以其能够通过迭代精炼过程学习逐渐去噪一个来自正常分布的样本而闻名，它们在高分辨率视频和文本到图像合成方面取得了理想的结果。使用相同的核心原理，稳定视频扩散模型在其视频数据集上训练一个潜在视频扩散模型，使用生成对抗网络或 GANs 和自回归模型。

稳定视频扩散模型遵循一个从未被任何生成视频模型实施的独特策略，因为它依赖于潜在视频扩散基线，具有固定的架构和固定的训练策略，然后评估数据的策划效果。稳定视频扩散模型旨在为生成视频建模领域做出以下贡献。

提出一种系统的和有效的数据策划工作流程，尝试将大量未策划的视频样本转换为高质量的数据集，然后由生成视频模型使用。
训练最先进的图像到视频和文本到视频模型，超越现有的框架。
进行特定领域的实验，以探测模型的 3D 理解和强大的运动先验。

现在，稳定视频扩散模型实施了潜在视频扩散模型和数据策划技术的成果。

潜在视频扩散模型

潜在视频扩散模型或 Video-LDMs 遵循在潜在空间中训练主要生成模型的方法，具有降低的计算复杂度，大多数 Video-LDMs 实施了一个预训练的文本到图像模型，结合了预训练架构中的时间混合层。因此，大多数视频潜在扩散模型要么只训练时间层，要么完全跳过训练过程，而稳定视频扩散模型则微调整个框架。另外，对于合成文本到视频数据，稳定视频扩散模型直接条件化到一个文本提示，结果表明，所得框架可以轻松地微调为多视图合成或图像到视频模型。

数据策划

数据策划是稳定视频扩散模型和生成模型的基本组成部分，因为预训练大型模型在大规模数据集上对于提高性能至关重要，包括语言建模或判别性文本到图像生成等任务。数据策划已在生成图像模型上成功实施，利用高效的语言图像表示的能力，尽管这样的讨论从未专注于开发生成视频模型。开发人员在为生成视频模型策划数据时面临几个障碍，为了解决这些挑战，稳定视频扩散模型实施了一种三阶段训练策略，结果提高了结果和性能。

高质量视频合成的数据策划

如前一节所讨论，稳定视频扩散模型实施了一种三阶段训练策略，结果提高了结果和性能。第一阶段是 图像预训练 阶段，使用 2D 文本到图像扩散模型。第二阶段是 视频预训练 阶段，框架在大量视频数据上训练。最后，我们有第三阶段 视频微调 阶段，模型在小型高质量和高分辨率视频子集上微调。

但是，在稳定视频扩散模型实施这些三个阶段之前，处理和注释数据至关重要，因为它作为第二阶段或视频预训练阶段的基础，并在确保最佳输出方面发挥着至关重要的作用。为了确保最大效率，框架首先以 3 个不同 FPS 或每秒帧数级别实施级联切割检测管道，对于此管道的需求在以下图像中得到了证明。

接下来，稳定视频扩散模型使用三种不同的人工合成字幕方法注释每个视频片段。以下表格比较了稳定扩散框架在过滤过程之前和之后使用的数据集。

第一阶段：图像预训练

稳定视频扩散模型实施的三阶段管道中的第一阶段是图像预训练，为了实现这一点，初始稳定视频扩散模型框架基于预训练的图像扩散模型，特别是 稳定扩散 2.1 模型，这使其具有更强的视觉表示。

第二阶段：视频预训练

第二阶段是视频预训练阶段，建立在使用数据策划在多模态生成图像模型中通常会带来更好结果和更高效率的发现之上，伴随着强大的判别性图像生成。然而，由于缺乏类似的强大现成表示来过滤掉生成视频模型中不需要的样本，稳定视频扩散模型依赖于人类偏好作为输入信号来创建适合预训练框架的数据集。以下图表展示了预训练框架在策划数据集上对整体性能的积极影响。

更具体地说，框架使用不同的方法来策划潜在视频扩散模型的子集，并考虑训练在这些数据集上的 LVD 模型的排名。另外，稳定视频扩散框架还发现，使用策划的数据集来训练框架有助于提高框架和扩散模型的性能。此外，数据策划策略也适用于更大、更相关和更实用的数据集。以下图表展示了预训练框架在策划数据集上对整体性能的积极影响。

第三阶段：高质量微调

到第三阶段，稳定视频扩散框架专注于优化或进一步提高微调后视频合成的性能，以及从第二阶段到第三阶段的转变如何在框架中实现。在第三阶段，框架借鉴了潜在图像扩散模型的训练技术，并增加了训练示例的分辨率。为了分析这种方法的有效性，框架将其与三个相同的模型进行比较，这些模型仅在初始化方面有所不同。第一个相同的模型具有初始化的权重，视频训练过程被跳过，而剩下的两个相同的模型是使用来自其他潜在视频模型的权重初始化的。

结果和发现

现在是时候看看稳定视频扩散框架在实际任务上的性能，以及它与当前最先进的框架的比较。稳定视频扩散框架首先使用最优数据方法来训练一个基模型，然后进行微调以生成多个最先进的模型，每个模型执行特定的任务。

上面的图片代表了框架生成的高分辨率图像到视频样本，而以下图表展示了框架生成高质量文本到视频样本的能力。

预训练基模型

如前所述，稳定视频扩散模型建立在稳定扩散 2.1 框架之上，根据最近的发现，开发人员采用噪声调度并增加噪声以获得更好分辨率的图像至关重要，当训练图像扩散模型时。由于这种方法，稳定视频扩散基模型学习了强大的运动表示，并在过程中，在零样本设置中超越了基线模型，用于文本到视频生成，结果显示在以下表格中。

帧插值和多视图生成

稳定视频扩散框架微调图像到视频模型以获得多个新视图的对象，并且这个模型被称为 SVD-MV 或稳定视频扩散-多视图模型。原始 SVD 模型使用两个数据集进行微调，以便框架输入单个图像并返回一系列多视图图像作为输出。

如以下图像所示，稳定视频扩散多视图框架提供了与最先进的 Scratch 多视图框架相当的高性能，并且结果是 SVD-MV 利用原始 SVD 框架的学习成果进行多视图图像生成能力的明显体现。此外，结果还表明，运行模型相对较少的迭代次数有助于提供最佳结果，这是大多数从 SVD 框架微调的模型的共同特征。

在上面的图像中，左侧指标表明，稳定视频扩散多视图框架比 Scratch-MV 和 SD2.1 多视图框架有了显著的改进。第二个图像展示了训练迭代次数对框架在 Clip Score 方面的整体性能的影响，SVD-MV 框架提供了可持续的结果。

最终思考

在本文中，我们讨论了稳定视频扩散，一种能够生成高分辨率、最先进的图像到视频和文本到视频内容的潜在视频扩散模型。稳定视频扩散模型遵循一个从未被任何生成视频模型实施的独特策略，因为它依赖于潜在视频扩散基线，具有固定的架构和固定的训练策略，然后评估数据的策划效果。

我们讨论了如何使用为合成 2D 图像而训练的潜在扩散模型，通过添加时间层和在小型高质量视频数据集上微调模型，提高生成视频模型的能力和效率。为了收集预训练数据，框架进行了扩展研究，并遵循系统的数据收集实践，最后提出了一个方法来策划大量的视频数据，并将噪声视频转换为适合生成视频模型的输入数据。

此外，稳定视频扩散框架采用了三个不同的视频模型训练阶段，这些阶段被独立分析以评估其对框架性能的影响。框架最终输出了一个足够强大的视频表示，以微调模型以获得最佳的视频合成，结果与当前最先进的视频生成模型相当。

Related Topics:Stable Diffusion video diffusion