Anderson 视角

通往更好的 AI 基于视频编辑的道路

发布于 2025年3月10日

更新于 2026年5月19日

作者

Martin Anderson

Images from the paper 'VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control'.

视频/图像合成研究领域经常输出视频编辑架构，过去九个月，这类输出变得更加频繁。然而，大多数这些输出仅代表对当前状态的渐进式改进，因为核心挑战是重大的。

然而，最近中国和日本之间的合作产生了一些值得更仔细检查的例子，即使它不一定是一项开创性的工作。

在下面的视频中（来自论文的相关项目网站，可能会占用您的浏览器资源），我们看到虽然该系统的深度伪造能力在当前配置中不存在，但该系统可以很好地改变图像中年轻女性的身份，基于视频掩码（左下）：

点击播放。 基于下左侧的语义分割掩码，原始（上左）女性被转化为一个明显不同的身份，尽管这个过程没有实现提示中的身份交换。 来源：https://yxbian23.github.io/project/video-painter/ (请注意，写作时，这个自动播放和视频丰富的网站倾向于崩溃我的浏览器)。如果您可以访问源视频，请为更好的分辨率和细节参考源视频，或者查看项目概述视频：https://www.youtube.com/watch?v=HYzNfsD3A0s

这种基于掩码的编辑在静态潜在扩散模型中是成熟的，使用工具如 ControlNet。然而，在视频中保持背景一致性要困难得多，即使掩码区域为模型提供了创造性的灵活性，如下所示：

点击播放。 使用新的 VideoPainter 方法改变物种。请参考源视频，如果您可以访问它们，以获得更好的分辨率和细节，或者查看项目的概述视频：https://www.youtube.com/watch?v=HYzNfsD3A0s

该论文的作者将他们的方法与腾讯自己的 BrushNet 架构和 ControlNet 进行比较，后者都具有能够隔离前景和背景生成的双分支架构。

然而，将这种方法直接应用于 OpenAI 的 Sora 提出的扩散变换器（DiT）方法带来了特定的挑战，如作者所述：

‘直接应用 [BrushNet 和 ControlNet 的架构] 到视频 DiT 中存在几个挑战：首先，考虑到视频 DiT 的强大的生成基础和大型模型，复制完整或半大的视频 DiT 后台作为上下文编码器将是不必要的和计算上不可行的。 ‘

‘其次，与 BrushNet 的纯卷积控制分支不同，DiT 中的掩码区域标记内在包含背景信息，导致 DiT 后台中掩码和未掩码区域之间的区分变得复杂。 ‘

‘最后，ControlNet 缺乏在所有层中注入特征，阻碍了密集的背景控制，适用于插入任务。 ‘

因此，研究人员开发了一种名为 VideoPainter 的插件式方法，采用双分支框架。

VideoPainter 提供了一个双分支视频插入框架，通过一个轻量级的上下文编码器来增强预训练的 DiT。该编码器仅占后台参数的 6%，作者声称这使得方法比传统方法更高效。

该模型提出三个关键创新：一个简化的两层上下文编码器，用于高效的背景指导；一个掩码选择性特征集成系统，用于分离掩码和未掩码标记；以及一个插入区域 ID 重采样技术，用于在长视频序列中保持身份一致性。

通过冻结预训练的 DiT 和上下文编码器，并引入一个 ID 适配器，VideoPainter 确保插入区域标记从以前的剪辑中持续存在，减少闪烁和不一致性。

该框架还设计为插件兼容，允许用户将其无缝地集成到现有的视频生成和编辑工作流中。

为了支持这项工作，作者们使用 CogVideo-5B-I2V 作为其生成引擎，并策划了他们声称是迄今为止最大的视频插入数据集，称为 VPData。该集合包含超过 390,000 个剪辑，总视频时长超过 886 小时。他们还开发了一个相关的基准框架，称为 VPBench。

点击播放。 来自项目网站的示例，我们看到由 VPData 集合和 VPBench 测试套件提供的分割能力。请参考源视频，如果您可以访问它们，以获得更好的分辨率和细节，或者查看项目的概述视频：https://www.youtube.com/watch?v=HYzNfsD3A0s

这项新工作的标题是《VideoPainter：任何长度的视频插入和编辑，具有插件式上下文控制》，来自腾讯 ARC 实验室、香港中文大学、东京大学和澳门大学的七位作者。

除了上述项目网站外，作者还发布了一个更易访问的 YouTube 概述视频，以及一个 Hugging Face 页面。

方法

VPData 的数据收集管道包括收集、注释、分割、选择和字幕：

数据集构建管道的模式。 来源：https://arxiv.org/pdf/2503.05639

用于此编译的源集合来自 Videvo 和 Pexels，初始收集了大约 450,000 个视频。

多个贡献库和方法组成了预处理阶段：Recognize Anything 框架用于提供开集视频标记，任务是识别主要对象；Grounding Dino 用于检测已识别对象的边界框；Segment Anything Model 2 (SAM 2) 框架用于将这些粗略选择细化为高质量的掩码分割。

为了管理场景转换并确保视频插入的一致性，VideoPainter 使用 PySceneDetect 来识别和分割剪辑在自然断点处，避免跟踪同一对象从多个角度的破坏性转变。剪辑被分成 10 秒的间隔，任何短于 6 秒的剪辑都被丢弃。

对于数据选择，应用了三个筛选标准：美学质量，使用 Laion-Aesthetic Score Predictor 评估；运动强度，通过光流使用 RAFT 测量；内容安全性，通过 Stable Diffusion 的 Safety Checker 验证。

现有的视频分割数据集的一个主要限制是缺乏详细的文本注释，这对于指导生成模型至关重要：

研究人员强调了视频字幕在可比集合中的缺乏。

因此，VideoPainter 数据策划过程包括使用多个领先的视觉语言模型，包括 CogVLM2 和 Chat GPT-4o，来生成关键帧字幕和掩码区域的详细描述。

VideoPainter 通过引入一个自定义的轻量级上下文编码器来增强预训练的 DiT，该编码器将背景上下文提取与前景生成分离，如下图右上所示：

VideoPainter 的概念模式。VideoPainter 的上下文编码器通过 VAE 处理噪声潜在、下采样掩码和掩码视频潜在，仅将背景标记集成到预训练的 DiT 中，以避免模糊性。ID 重采样适配器通过在训练期间连接掩码区域标记并在推理期间从以前的剪辑中重采样它们来确保身份一致性。

相反，该编码器在一个简化的输入上运行：噪声潜在、掩码视频潜在（通过 VAE 提取）和下采样掩码的组合。

噪声潜在提供生成上下文，掩码视频潜在与 DiT 现有的分布一致，旨在增强兼容性。

与复制大部分模型不同，作者声称 VideoPainter 仅集成 DiT 的前两层。这些提取的特征以结构化的、分组方式重新引入到冻结的 DiT 中：早期特征告知模型的前半部分，而后期特征完善模型的后半部分。

此外，一个标记选择机制确保仅重新集成背景相关的特征，防止掩码和未掩码区域之间的混淆。作者声称，这种方法使 VideoPainter 能够在背景保存方面保持高保真度，同时提高前景插入效率。

作者指出，他们的方法支持多种风格化方法，包括最流行的低秩适应（LoRA）方法。

数据和测试

VideoPainter 使用 CogVideo-5B-I2V 模型和其文本到视频等效模型进行训练。VPData 集合以 480x720px 的分辨率和 1×10^-5 的学习率进行训练。

ID 重采样适配器经过 2,000 步训练，而上下文编码器经过 80,000 步训练，均使用 AdamW 优化器。训练过程分两个阶段进行，使用 64 个 NVIDIA V100 GPU（尽管论文没有指定这些 GPU 是否具有 16GB 或 32GB 的 VRAM）。

对于基准测试，使用 Davis 进行随机掩码测试，而 VPBench 用于分割掩码测试。

VPBench 数据集包含对象、动物、人类、风景和多种任务，涵盖四个动作：添加、删除、更改和交换。该集合包含 45 个 6 秒的视频和 9 个平均时长为 30 秒的视频。

使用了八个指标来评估该过程。对于掩码区域保存，作者使用了峰值信噪比（PSNR）、学习到的感知相似度度量（LPIPS）、结构相似度指数（SSIM）和平均绝对误差（MAE）。

对于文本对齐，研究人员使用了 CLIP 相似度来评估剪辑字幕和其实际感知内容之间的语义距离，以及掩码区域的准确性。

为了评估输出视频的总体质量，使用了 Fréchet 视频距离（FVD）。

对于视频插入的量化比较，作者将他们的系统与先前的方法 ProPainter、COCOCO 和 Cog-Inp（CogVideoX）进行比较。测试包括使用图像插入模型插入剪辑的第一帧，然后使用图像到视频（I2V）后台将结果传播到潜在混合操作中，按照 2023 年一篇来自以色列的论文中提出的方法进行。

由于项目网站在写作时并非完全功能正常，并且项目相关的 YouTube 视频可能没有包含项目网站中的所有示例，因此很难找到特定于结果的视频示例。因此，我们将展示论文中的一些静态结果，并以项目网站的视频示例结束本文。

VideoPainter 与 ProPainter、COCOCO 和 Cog-Inp 在 VPBench（分割掩码）和 Davis（随机掩码）上的量化比较。指标涵盖掩码区域保存、文本对齐和视频质量。红色 = 最佳，蓝色 = 第二最佳。

关于这些定性结果，作者评论道：

‘在分割掩码的 VPBench 中，ProPainter 和 COCOCO 在大多数指标上表现最差，主要是由于它们无法插入完全掩码的对象，以及单后台架构难以平衡背景保存和前景生成。 ‘

‘在随机掩码基准测试 Davis 中，ProPainter 通过利用部分背景信息显示出改进。然而，VideoPainter 通过其双分支架构实现了最佳性能，该架构有效地解耦了背景保存和前景生成。 ‘

作者然后呈现了一些静态的定性测试示例，我们在下面展示了一些。对于所有这些示例，我们都指向项目网站和 YouTube 视频以获得更好的分辨率。

与先前框架中的插入方法的比较。

关于视频插入的定性轮次，作者评论道：

‘VideoPainter 一致地显示出在视频连贯性、质量和文本对齐方面的出色结果。值得注意的是，ProPainter 无法生成完全掩码的对象，因为它仅依赖于背景像素传播，而不是生成。 ‘

‘虽然 COCOCO 表现出基本功能，但它无法在插入区域中保持一致的 ID（不一致的船只外观和突然的景观变化），这是由于其单后台架构尝试平衡背景保存和前景生成。 ‘

‘Cog-Inp 达到基本的插入结果；然而，其混合操作的无法检测到掩码边界导致了显著的伪影。 ‘

‘此外，VideoPainter 可以生成超过一分钟的连贯视频，同时通过我们的 ID 重采样保持 ID 一致性。 ‘

研究人员还测试了 VideoPainter 增强字幕和获得改进结果的能力，将系统与 UniEdit、DiTCtrl 和 ReVideo 进行比较。

与三个先前方法的视频编辑结果比较。

作者评论道：

‘对于 VPBench 中的标准和长视频，VideoPainter 获得了卓越的性能，甚至超过了端到端的 ReVideo。这一成功可以归因于其双分支架构，确保了出色的背景保存和前景生成能力，同时保持了高保真度的非编辑区域，并确保了编辑区域与编辑指令紧密对齐，辅以插入区域 ID 重采样以保持长视频中的 ID 一致性。 ‘

虽然论文中包含了静态的定性示例，但这些示例并不是很有启发性，我们指向项目网站和 YouTube 视频以获得更好的分辨率和细节。

最后，进行了一项人机研究，30 名用户被要求评估 50 个从 VPBench 和编辑子集中随机选择的生成结果。这些示例突出了背景保存、对齐提示和总体视频质量。