人工智能

使用机器学习更高效地从视频中删除对象

mm

中国的新研究报告了最新的成果——以及一个新的视频修复系统的显著效率改进,该系统可以巧妙地从视频中删除对象。

悬挂滑翔机的吊带被新程序涂抹。请参阅源视频(在本文底部嵌入)以获得更好的分辨率和更多示例。来源:https://www.youtube.com/watch?v=N--qC3T2wc4

悬挂滑翔机的吊带被新程序涂抹。请参阅源视频以获得更好的分辨率和更多示例。 来源:https://www.youtube.com/watch?v=N–qC3T2wc4

该技术称为端到端流引导视频修复框架(E2FGVI),还可以从视频内容中删除水印和其他类型的遮挡。

E2FGVI 计算预测位于遮挡物后面的内容,使得甚至显著且难以处理的水印也可以被删除。来源:https://github.com/MCG-NKU/E2FGVI

E2FGVI 计算预测位于遮挡物后面的内容,使得甚至显著且难以处理的水印也可以被删除。 来源:https://github.com/MCG-NKU/E2FGVI

(要查看更高分辨率的更多示例,请参阅 视频)

虽然发表的论文中提到的模型是在 432px x 240px 视频(通常的低输入大小,由可用的 GPU 空间、最佳批次大小和其他因素限制)上训练的,但作者已经发布了 E2FGVI-HQ,它可以处理任意分辨率的视频。

当前版本的代码可在 GitHub 上找到,而上周发布的 HQ 版本可以从 Google DriveBaidu Disk 下载。

孩子留在图片中。

孩子留在图片中。

E2FGVI 可以在 Titan XP GPU(12GB VRAM)上以每帧 0.12 秒的速度处理 432×240 视频,作者报告称该系统比基于 光流 的先前最先进方法快 15 倍。

网球运动员意外退出。

网球运动员意外退出。

在标准的图像合成研究子领域数据集上测试,该新方法在定性和定量评估轮中都优于其竞争对手。

与先前方法的比较。来源:https://arxiv.org/pdf/2204.02663.pdf

与先前方法的比较。 来源:https://arxiv.org/pdf/2204.02663.pdf

该论文题为 向端到端流引导视频修复框架迈进,这是南开大学四名研究人员与海思科技一名研究人员的合作成果。

这个图中缺少什么

除了其明显的视觉效果应用外,高质量的视频修复预计将成为新一代基于 AI 的图像合成和图像处理技术的核心特征。

这在身体改变的时尚应用和其他框架中尤其如此,这些框架旨在 “瘦身” 或以其他方式改变图像和视频中的场景。在这种情况下,必须令人信服地“填充”合成中暴露的额外背景。

从最近的一篇论文中,一个身体“重塑”算法被任务为在主体被调整大小时修复新暴露的背景。这里,短缺由实线轮廓表示,即(现实生活中,见左图)更丰满的人曾经占据的区域。基于来源材料 https://arxiv.org/pdf/2203.10496.pdf

从最近的一篇论文中,一个身体“重塑”算法被任务为在主体被调整大小时修复新暴露的背景。这里,短缺由实线轮廓表示,即(现实生活中,见左图)更丰满的人曾经占据的区域。 基于来源材料 https://arxiv.org/pdf/2203.10496.pdf

连贯的光流

光流(OF)已经成为视频对象删除的核心技术。像 地图集一样,OF 提供了一张时间序列的单次地图。通常用于测量计算机视觉计划中的速度,OF 还可以实现时间上一致的修复,在这种情况下,任务的总和可以在一次传递中考虑,而不是迪士尼风格的“逐帧”注意,这不可避免地导致时间不连续。

迄今为止的视频修复方法都集中在一个三阶段过程上:流完成,其中视频基本上被映射到一个离散的可探索实体中;像素传播,其中“损坏”视频中的空洞通过双向传播像素来填充;以及 内容幻觉(像素“发明”,这对于大多数人来说是深度伪造和基于文本的图像框架(如 DALL-E 系列)而言很熟悉),其中估计的“缺失”内容被发明并插入到视频中。

E2FGVI 的核心创新是将这三个阶段组合成一个端到端系统,消除了对内容或流程进行手动操作的需要。

该论文指出,需要手动干预,这使得旧的过程无法利用 GPU,从而非常耗时。从论文中可以看出:

‘以 DFVI 为例,完成一个大小为 432 × 240 的视频(来自 DAVIS),其中包含大约 70 帧,需要大约 4 分钟,这在大多数实际应用中是不可接受的。另外,除了上述缺点之外,仅在内容幻觉阶段使用预训练的图像修复网络忽略了时间邻居之间的内容关系,从而导致视频中生成的内容不一致。’

通过将视频修复的三个阶段合并,E2FGVI 能够用特征传播代替像素传播。在先前工作中更分段的过程中,特征不那么广泛可用,因为每个阶段相对来说是独立的,工作流程只半自动化。

此外,研究人员为内容幻觉阶段设计了一种 时间焦点变换器,它不仅考虑当前帧中像素的直接邻居(即在前一帧或下一帧中该帧的哪个部分发生了什么),还考虑到远邻居,它们距离很远,但会影响对整个视频执行的任何操作的凝聚效果。

E2FGVI 的架构。

E2FGVI 的架构。

工作流程的新特征级中心部分能够利用更多特征级过程和可学习的采样偏移,而项目的新焦点变换器,根据作者的说法,将焦点窗口的大小从 2D 扩展到 3D。

测试和数据

为了测试 E2FGVI,研究人员将该系统与两个流行的视频对象分割数据集进行了比较:YouTube-VOSDAVIS。YouTube-VOS 包含 3741 个训练视频片段、474 个验证片段和 508 个测试片段,而 DAVIS 包含 60 个训练视频片段和 90 个测试片段。

E2FGVI 在 YouTube-VOS 上训练,并在两个数据集上进行了评估。在训练过程中,生成对象掩码(上图中的绿色区域和 伴随的 YouTube 视频)以模拟视频完成。

对于指标,研究人员采用了峰值信噪比(PSNR)、结构相似性(SSIM)、基于视频的 Fréchet 启发式距离(VFID)和流形变换错误——后者用于测量受影响的视频中的时间稳定性。

该系统被测试的先前架构包括 VINetDFVILGTSMCAPFGVCSTTNFuseFormer

来自论文的定量结果部分。上下箭头分别表示更高或更低的数字更好。E2FGVI 获得了所有指标的最佳得分。方法按照 FuseFormer 进行评估,尽管 DFVI、VINet 和 FGVC 不是端到端系统,因此无法估计它们的 FLOPs。

来自论文的定量结果部分。上下箭头分别表示更高或更低的数字更好。E2FGVI 获得了所有指标的最佳得分。方法按照 FuseFormer 进行评估,尽管 DFVI、VINet 和 FGVC 不是端到端系统,因此无法估计它们的 FLOPs。

除了在所有竞争系统中获得最佳得分外,研究人员还进行了一项定性用户研究,其中五种代表性方法转换的视频单独显示给二十名志愿者,他们被要求根据视觉质量对其进行评分。

垂直轴表示参与者更喜欢 E2FGVI 输出的视觉质量的百分比。

垂直轴表示参与者更喜欢 E2FGVI 输出的视觉质量的百分比。

作者指出,尽管他们的方法获得了统一的偏好,但其中一个结果 FGVC 并没有反映定量结果,他们认为这表明 E2FGVI 可能正在生成“更视觉上令人愉悦的结果”。

在效率方面,作者指出他们的系统大大降低了单个 Titan GPU 上的 DAVIS 数据集的每秒浮点运算次数和推理时间,并观察到结果显示 E2FGVI 比基于流的方法快 15 倍。

他们评论说:

‘[E2FGVI] 的 FLOPs 最低,与所有其他方法相比。这表明所提出的方法对于视频修复非常高效。’

* 我将作者的内联引用转换为超链接。

 

首次发布于 2022 年 5 月 19 日。

2025 年 10 月 28 日星期二修改,以删除有故障的视频嵌入并修改文章正文中对嵌入视频的引用。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai