Anderson 视角

使用 AI 从视频中删除物体和人物

mm
AI-generated stylized image depicting a magician robot showing an empty cabinet with a lady's tiara at the bottom. GPT-1.5

不,孩子不会留在图片中,如果 AI 有任何作用的话。

 

从图像和视频中删除人物和物体是 VFX 中心的 AI 文献中的一种流行的子研究领域,越来越多的专用数据集和框架正在解决这一挑战。最近的工作来自中国复旦大学的大数据研究所,是 EffectErase,一种“效果感知”的视频物体删除系统,作者声称,它在测试中显著改进了现有的技术:

从项目网站汇编的示例,展示了 EffectErase 方法(请注意,虽然我们提供了链接,但源网站包含许多高分辨率和非优化的自动播放视频,这可能会影响您的网页浏览器的稳定性。附件中的 YouTube 视频是一个更容易和更完整的参考,并嵌入在本文的末尾)。  

新工作涉及创建/策划一个半新颖的数据集,包含近 350 个原始的真实世界和合成场景(使用公共仓库*),要么使用专用设备捕获,要么源自并重新用于围绕开源 Blender 3D 框架构建的工作流程中。

混合的视频物体删除(VOR)数据集构成了 EffectErase 应用的基础,该应用建立在 Wan2.1 视频生成系统之上。该系统还定义了两个新的相关基准:VOR EvalVOR Wild – 分别用于具有和不具有 ground truth 的样本。

(虽然该论文有一个 伴随项目网站,但它过于繁重,包含多个高分辨率视频,难以加载;因此,如果您发现项目网站难以使用,请参考我在嵌入的视频中策划的摘录)

一个比较了可比的先前数据集的数量的比较,关于新的产品。源 - https://arxiv.org/pdf/2603.19224

一个比较了可比的先前数据集的数量的比较,关于新的产品。

研究人员声称,他们的方法在量化指标和通过人工研究判定的质量结果方面都取得了最先进的性能。

他们指出,先前的工作并没有总是能够删除物体的附加效果,例如阴影和反射,并且他们的数据集已经被仔细创建以纠正这一缺陷:

先前方法未能超越所需删除的物体,转向次要指标,例如反射和阴影的示例。

先前方法未能超越所需删除的物体,转向次要指标,例如反射和阴影的示例。

新论文的标题是 EffectErase:联合视频物体删除和插入以实现高质量效果擦除,来自复旦大学计算机科学与人工智能学院的四位研究人员。

方法

混合的 VOR 数据集的设计目的是涵盖足够广泛的场景,以涵盖所有尝试从视频中删除一个人或物体的含义:

VOR 数据集中的配对帧,展示了物体删除必须超越可见的主题,转向其诱导的效果,例如遮挡、阴影、光照变化、反射和物理变形,每个都作为输入(物体存在)和对应的干净背景一起显示。

VOR 数据集中的配对帧,展示了物体删除必须超越可见的主题,转向其诱导的效果,例如遮挡、阴影、光照变化、反射和物理变形,每个都作为输入(物体存在)和对应的干净背景一起显示。有关进一步的示例,请参阅本文末尾嵌入的 YouTube 视频。

五种代表性的“干扰”类型被作者定义为 遮挡,包括各种类型的玻璃和烟雾遮挡;阴影光照(例如,当要删除的物体创建或改变光的路径时);反射;和 变形(例如,用户在垫子上的印记,不应该在删除人之后幸存)。

VOR 数据集的构建管道,结合了 Blender 生成的合成场景和真实世界的捕获,合成数据是从策划的 3D 环境、物体和相机轨迹中构建的,真实的录像是在多样化的场景中记录的,并使用 Ken Burns 运动进行增强。SAM2 分割和手动精炼然后产生对齐的前景和背景视频三元组,具有对应的掩码。

VOR 数据集的构建管道,结合了 Blender 生成的合成场景和真实世界的捕获,合成数据是从策划的 3D 环境、物体和相机轨迹中构建的,真实的录像是在多样化的场景中记录的,并使用 Ken Burns 运动进行增强。SAM2 分割和手动精炼然后产生对齐的前景和背景视频三元组,具有对应的掩码。

对于真实的原始数据,研究人员使用固定相机记录“有”和“无”场景,涵盖了广泛的环境、时间和天气条件。

对于合成数据,多个视点被渲染,多物体场景被创建,特意设计了复杂和具有挑战性的相机运动类型,例如可能发生在真实世界的录像中;研究人员观察到,这种方法比用于类似 Remove Objects with Side Effects in Videos (ROSE) 数据集的方法更为复杂和费力。

为了增加运动的多样性,Ken Burns 效果 被应用于相机捕获的配对,添加了受控的平移、缩放和轻微的手持运动,在 14 个预定义规则下, 每对采样了五种运动模式,同时保持在原始帧内。

规模和多样性通过将合成物体与多个相机设置相结合而进一步扩展,掩码是通过在关键帧上放置手动点提示、使用 Segment Anything 2 (SAM2) 进行分割、清洁和精炼结果、以及组装验证的前景、背景和掩码三元组来生成的。

最终的集合包含 145 小时的视频,跨越 60,000 个配对的视频,真实和合成的,涵盖 366 个物体类别,在 443 个场景中。

EffectErase 网络本身通过一个变分自编码器 (VAE) 输入材料,潜在的去噪由 Wan2.1 处理。在这个骨架上,EffectErase 运行 删除-插入联合学习,它同时在同一区域训练两个任务;任务感知区域指导 (TARG),它使用对象和任务令牌与 交叉注意力 来建模空间和时间之间的对象和其效果之间的关系,并允许任务切换;以及 效果一致性损失,它在删除和插入任务中对齐效果区域:

EffectErase 框架的模式。在训练期间,配对的视频被编码到一个共享的潜在空间中,融合了噪声,并由任务感知的交叉注意力引导的扩散变换器处理,同时效果一致性损失将删除和插入区域对齐,因此两个任务都关注同一区域。

EffectErase 框架的模式。在训练期间,配对的视频被编码到一个共享的潜在空间中,融合了噪声,并由任务感知的交叉注意力引导的扩散变换器处理,同时效果一致性损失将删除和插入区域对齐,因此两个任务都关注同一区域。

删除和插入过程本身是同时训练的,使用一个共享的扩散骨架,因此模型学习关注同一区域和结构线索。

带有对象的视频、背景仅视频和掩码,首先被编码到一个 潜在空间 中;然后添加噪声进行扩散训练,模型学习在任务特定指导下恢复干净的表示。一个轻量级的适配器然后将嘈杂的特征与删除或插入条件融合,允许两个任务共享监督,同时保持可控性。

任务感知区域指导 通过将语言令牌与从前景对象中提取的视觉特征相结合,使用 CLIP,用从实际图像内容中派生的嵌入替换通用对象令牌。这种融合的表示被通过交叉注意力注入到骨架中,允许模型跟踪对象及其视觉效果如何随空间和时间演变,同时实现灵活的任务切换。

效果一致性损失 强制删除和插入过程关注同一改变的区域,因为两个任务都处理同一个对象及其视觉效果。来自每个分支的注意力图被组合成软区域图,并与从对象和背景视频中计算的 差异图 对齐,因此像光照和阴影这样的微妙变化被保留。这种额外的 损失 有助于插入指导删除,并保持两个任务的一致性。

数据和测试

研究人员测试了他们的方法与各种 inpainting、视频 inpainting 和对象删除方法:OmniPaintObjectClearVACEDiffuEraserProPainterROSE;和 MiniMax-Remover

Wan2.1 使用 LoRA†† 进行了微调,使用 VOR 数据集,分辨率为 832x480px。81 个连续帧(有效限制,超过这个限制,错误往往会发生)被随机采样用于训练,训练过程持续 129,000 次迭代,批大小为 8,在八个 H100 GPU 上,每个 GPU 有 80GB 的 VRAM。学习率设置为 1×102,LoRA 排名设置为 256。

ROSE-Benchmark 合成集合是唯一测试的外部数据集;其他两个数据集是 VOR-EvalVOR 数据集测试 分割;和 VOR-Wild,一个测试集,包含 195 个从互联网中抓取的真实视频,具有“动态对象”。

使用的指标是 峰值信噪比 (PSNR);结构相似性指数 (SSIM);学习的感知图像补丁相似性 (LPIPS);和 弗雷谢特视频距离 (FVD)。还考虑了对 195 个来自 VOR-Wild 的生成视频的用户研究,平均了 20 名志愿者的评分。

此外,作者设计了 QScore,一种利用 Qwen-VL 多模态模型的指标,以评估删除对象的视频输出质量,考虑到残留的伪影或错过的环境删除,例如阴影和光照效果:

在 ROSE 和 VOR 基准测试上的量化比较,显示了最佳和次佳结果,分别以粗体和下划线表示。

在 ROSE 和 VOR 基准测试上的量化比较,显示了最佳和次佳结果,分别以粗体和下划线表示。

关于这些结果,作者指出:

‘[当前] 图像 inpainting 方法在单个帧上使用 2D 模型,不进行时间建模,因此无法在视频中保持时间一致性。

最近的视频 inpainting 方法没有明确建模对象的副作用,导致删除结果不自然。现有的视频对象删除方法缺乏空间和时间相关性建模,通常会产生伪影和残留的删除对象的痕迹。

‘总体而言,EffectErase 获得了所有数据集和评估指标上的最先进的性能。它在视频质量指标 FVD 上获得了最佳分数,证明了生成视频的时间平滑性和一致性。

‘我们的方法还获得了最高的 QScore 和用户反馈评分,进一步证明了其在产生视觉上令人信服的删除结果方面的有效性。’

对于定性的评估,静态结果在论文中提供(如下所示),以及移动结果可在项目网站和附件的 YouTube 视频演示 中找到:

在 VOR-Eval 上的定性比较,涵盖遮挡、阴影、光照、反射和变形案例。Inpainting 方法难以删除遮挡区域以外的效果,而删除模型通常会留下可见的伪影。EffectErase 更干净地删除了目标对象及其相关的效果。请参考源论文以获取更好的分辨率,并参考项目网站以获取视频示例。

在 VOR-Eval 上的定性比较,涵盖遮挡、阴影、光照、反射和变形案例。Inpainting 方法难以删除遮挡区域以外的效果,而删除模型通常会留下可见的伪影。EffectErase 更干净地删除了目标对象及其相关的效果。请参考源论文以获取更好的分辨率,并参考项目网站以获取视频示例。

我们还参考了项目网站上的各种相关示例,以下是预览,以及本文末尾嵌入的官方 YouTube 视频:

点击播放。 EffectErase 项目网站的示例比较。请参考该网站以获取更好的分辨率(带有上述注意事项),以及更多示例。

作者评论:

‘视频 inpainting 方法通常在遮挡区域产生伪影,并且无法完全删除被删除对象引起的副作用。先前的对象删除方法,例如 [ROSE] 和 [MinMax-Remover],在删除目标对象方面表现良好,但仍然难以处理副作用,特别是在遮挡、阴影、光照、反射和变形场景中。

‘相比之下,EffectErase 能够有效地删除目标对象及其相关的效果,产生干净、连贯和高质量的结果。’

在结束时,研究人员观察到,他们的方法也可以适应插入而不是删除任务,而无需额外的训练:

视频对象插入结果。EffectErase 在插入对象的同时保留了背景内容,并在帧之间生成了一致的对象诱导的效果,例如阴影和反射。

视频对象插入结果。EffectErase 在插入对象的同时保留了背景内容,并在帧之间生成了一致的对象诱导的效果,例如阴影和反射。

视频结果对于插入任务可以在 (时间特定的)YouTube 视频示例 中看到(也嵌入在文章末尾,无时间戳)。

结论

查看文献中类似的项目,发现许多仍然希望通用 VFX 模型最终能够将此类功能纳入一个通用“工具包”模型中,而不是仅仅针对此特定任务。

然而,基于“万能的工具往往是万能的平庸”的原则,似乎合理地假设专用系统如 EffectErase 将继续保持领先于更通用的方法的优势;尽管差距可能最终会缩小到足以使差异不值得额外的训练模型的努力。

 

* 人们希望,随着对 IP 证明问题的担忧日益增长,所有这样的来源都应该被引用;但是,如果新工作的可用材料列出了 3D 模型的来源,我无法找到这个引用。

所提供的参考似乎是一个来自 2013 年的 通用解释文本,没有详细说明特定的 VAE。

†† 从论文中取出,这是一个语义不清的描述,因为微调和 LoRA 是具有不同需求的不同过程。

首次发布于 2026 年 3 月 21 日,星期六

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai