人工智能
使用机器学习更高效地从视频中删除对象

中国的新研究报告了最先进的结果,以及一种新的视频修复系统在效率方面的显著改进,该系统可以巧妙地从视频中删除对象。

悬挂滑翔机的吊带被新的程序抹去。请参阅源视频以获得更好的分辨率和更多示例。 来源:https://www.youtube.com/watch?v=N–qC3T2wc4
该技术称为端到端流引导视频修复框架(E2FGVI),还能够从视频内容中删除水印和各种其他类型的遮挡。

E2FGVI 计算遮挡后内容的预测,实现了甚至显著且难以处理的水印的删除。 来源:https://github.com/MCG-NKU/E2FGVI
(要查看更高分辨率的更多示例,请参阅 视频)
尽管发表的论文中介绍的模型是在 432px x 240px 视频(通常的低输入大小,由可用的 GPU 空间与最佳批大小和其他因素限制)上训练的,但作者已经发布了 E2FGVI-HQ,它可以处理任意分辨率的视频。
当前版本的代码可在 GitHub 上找到,而上周日发布的 HQ 版本可以从 Google Drive 和 Baidu Disk 下载。

孩子留在图片中。
E2FGVI 可以在 Titan XP GPU(12GB VRAM)上以每帧 0.12 秒的速度处理 432×240 视频,作者报告称该系统的速度比基于 光流 的先前最先进方法快 15 倍。

网球运动员意外退出。
在图像合成研究的标准数据集上测试,该新方法在定性和定量评估中都优于竞争对手。

与先前方法的比较。 来源:https://arxiv.org/pdf/2204.02663.pdf
该 论文 的标题为 向流引导视频修复的端到端框架迈进,这是南开大学四位研究人员与海思科技一位研究人员的合作成果。
这个图中缺少什么
除了其在视觉效果方面的明显应用外,高质量的视频修复将成为新的 AI 基础图像合成和图像改变技术的核心特征。
这在身体改变的时尚应用和其他框架中尤其如此,这些框架旨在“减瘦”或以其他方式改变图像和视频中的场景。在这种情况下,需要令人信服地“填充”合成时暴露的额外背景。

来自最近的一篇论文,一个“身体重塑”算法被任务填充当主题被调整大小时暴露的新背景。在这里,缺口由红色轮廓表示,即(现实生活中,如左图所示)更丰满的人之前所占据的位置。 基于来源材料:https://arxiv.org/pdf/2203.10496.pdf
连贯的光流
光流(OF)已成为视频对象删除的核心技术。像地图一样,OF 提供了时间序列的一次性映射。常用于计算机视觉计划中的速度测量,OF 也可以实现时间上一致的填充,在这种情况下,任务的总和可以在一次性处理中考虑,而不是迪士尼风格的“逐帧”关注,这不可避免地导致时间上的不连续性。
迄今为止的视频修复方法都集中在一个三阶段过程:流完成,视频基本上被映射到一个离散的可探索实体;像素传播,视频中的“空洞”通过双向传播像素来填充;以及 内容幻觉(像素“发明”,我们大多数人都熟悉深度伪造和文本到图像框架,如 DALL-E 系列),估计的“缺失”内容被发明并插入到视频中。
E2FGVI 的核心创新是将这三个阶段组合成一个端到端系统,消除了对内容或过程进行手动操作的需要。

该论文指出,需要手动干预,要求较旧的过程不使用 GPU,因此非常耗时。来自论文*:
‘以 DFVI 为例,完成一个大小为 432 × 240 的视频(来自 DAVIS),大约需要 4 分钟,这在大多数实际应用中是不可接受的。另外,除了上述缺点外,仅在内容幻觉阶段使用预训练的图像修复网络忽略了时间邻居之间的内容关系,导致视频中生成的内容不一致。’
通过将视频修复的三个阶段合并,E2FGVI 能够用特征传播代替像素传播。在先前工作中更分段的过程中,特征不那么广泛可用,因为每个阶段相对独立,工作流仅半自动化。
此外,研究人员为内容幻觉阶段设计了一个 时间焦点变换器,它不仅考虑当前帧中像素的直接邻居(即该帧部分在前一帧或下一帧中发生了什么),还考虑了远距离邻居,它们距离很远,但将影响对整个视频执行的任何操作的连贯效果。
新的基于特征的中间部分能够利用更多的特征级别过程和可学习的采样偏移,而项目的新颖焦点变换器,根据作者的说法,将焦点窗口的大小从 2D 扩展到 3D。
测试和数据
为了测试 E2FGVI,研究人员在两个流行的视频对象分割数据集上评估了该系统:YouTube-VOS 和 DAVIS。YouTube-VOS 包含 3741 个训练视频片段、474 个验证片段和 508 个测试片段,而 DAVIS 包含 60 个训练视频片段和 90 个测试片段。
E2FGVI 在 YouTube-VOS 上训练,并在两个数据集上进行了评估。在训练过程中,生成对象掩码(上述图像中的绿色区域,以及 伴随的 YouTube 视频)以模拟视频完成。
对于指标,研究人员采用了峰值信噪比(PSNR)、结构相似性(SSIM)、基于视频的 Fréchet 启发距离(VFID)和流形变换错误 —— 后者用于测量受影响的视频中的时间稳定性。
该系统测试的先前架构是 VINet、DFVI、LGTSM、CAP、FGVC、STTN 和 FuseFormer。

来自论文的定量结果部分。上下箭头表示更高或更低的数字更好。E2FGVI 获得了板块上的最佳分数。方法根据 FuseFormer 进行评估,尽管 DFVI、VINet 和 FGVC 不是端到端系统,因此无法估计它们的 FLOPs。
除了在所有竞争系统中获得最佳分数外,研究人员还进行了定性用户研究,其中使用五种代表性方法转换的视频单独显示给二十名志愿者,他们被要求根据视觉质量对其进行评分。

垂直轴表示参与者偏爱 E2FGVI 输出的视觉质量的百分比。
作者指出,尽管他们的方法被一致偏爱,但其中一个结果 FGVC 并没有反映定量结果,他们建议这表明 E2FGVI 可能正在生成“更具视觉吸引力的结果”。
在效率方面,作者指出他们的系统大大降低了每秒浮点运算(FLOPs)和在单个 Titan GPU 上的 DAVIS 数据集上的推理时间,并观察到结果显示 E2FGVI 比基于流的方法快 15 倍。
他们评论说:
‘[E2FGVI] 与所有其他方法相比具有最低的 FLOPs。这表明所提出方法对于视频修复非常高效。’
*我的内联引用转换为超链接。
最初发布于 2022 年 5 月 19 日。
2025 年 10 月 28 日修订,以删除故障视频嵌入并修改对嵌入视频的引用。













