关注我们.

人工智能

通过机器学习更有效地从视频中删除对象

mm
更新 on

来自中国的新研究报告了一种新的视频修复系统的最先进成果,以及令人印象深刻的效率改进,该系统可以巧妙地从镜头中删除对象。

悬挂式滑翔机的安全带采用新程序进行喷漆。 请参阅源视频(嵌入在本文底部)以获得更好的分辨率和更多示例。 来源:https://www.youtube.com/watch?v=N--qC3T2wc4

悬挂式滑翔机的安全带采用新程序进行喷漆。 请参阅源视频(嵌入在本文底部)以获得更好的分辨率和更多示例。 来源:https://www.youtube.com/watch?v=N–qC3T2wc4

该技术称为流程引导视频修复的端到端框架(E2FGVI),还能够从视频内容中删除水印和各种其他类型的遮挡。

E2FGVI 计算对遮挡背后内容的预测,从而能够去除显着且难以处理的水印。 来源:https://github.com/MCG-NKU/E2FGVI

E2FGVI 计算对遮挡后面内容的预测,从而能够去除显着且难以处理的水印。 来源:https://github.com/MCG-NKU/E2FGVI

要以更高分辨率查看更多示例,请查看文章末尾嵌入的视频。

尽管已发表论文中的模型是在 432px x 240px 视频上进行训练的(通常输入大小较低,受到可用 GPU 空间与最佳批量大小和其他因素的限制),但作者此后发布了 E2FGVI-总部,它可以处理任意分辨率的视频。

当前版本的代码是 可使用 在 GitHub 上,而上周日发布的 HQ 版本可以从 Google Drive百度网盘.

孩子留在了照片里。

孩子留在了照片里。

E2FGVI 可以在 Titan XP GPU(432GB VRAM)上以每帧 240 秒的速度处理 0.12×12 视频,作者报告说,该系统的运行速度比之前基于 光流.

一名网球运动员意外退出。

一名网球运动员意外退出。

在图像合成研究这一子领域的标准数据集上进行测试后,新方法在定性和定量评估方面均优于竞争对手。

针对先前方法的测试。 资料来源:https://arxiv.org/pdf/2204.02663.pdf

针对先前方法的测试。 资料来源:https://arxiv.org/pdf/2204.02663.pdf

我们推荐使用 标题为 走向流程引导视频修复的端到端框架,是南开大学四位研究人员与海思科技研究人员合作的成果。

这张图片缺少什么

除了在视觉效果方面的明显应用之外,高质量视频修复还将成为基于人工智能的新型图像合成和图像更改技术的核心定义特征。

对于改变身体的时尚应用程序和其他框架来说尤其如此 寻求“瘦身” 或以其他方式改变图像和视频中的场景。 在这种情况下,有必要令人信服地“填充”合成所暴露的额外背景。

根据最近的一篇论文,身体“重塑”算法的任务是在调整主体大小时修复新显示的背景。 在这里,这种不足由(现实生活中,见左图)身材丰满的人曾经占据的红色轮廓表示。 基于 https://arxiv.org/pdf/2203.10496.pdf 的源材料

根据最近的一篇论文,身体“重塑”算法的任务是在调整主体大小时修复新显示的背景。 在这里,这种不足由(现实生活中,见左图)身材丰满的人曾经占据的红色轮廓表示。 基于 https://arxiv.org/pdf/2203.10496.pdf 的源材料

相干光流

光流(OF)已成为视频对象去除发展的核心技术。 就像一个 舆图, OF 提供时间序列的一次性图。 OF 通常用于测量计算机视觉计划中的速度,OF 还可以实现时间一致的修复,其中任务的总和可以在一次传递中考虑,而不是迪士尼式的“每帧”注意力,这不可避免地会导致到时间不连续性。

迄今为止的视频修复方法主要分为三个阶段: 流程完成,其中视频本质上被映射为离散且可探索的实体; 像素传播,其中“损坏”视频中的漏洞通过双向传播像素来填充; 和 内容幻觉 (像素“发明”是我们大多数人都熟悉的深度伪造和文本到图像框架,例如 DALL-E 系列),其中估计的“丢失”内容被发明并插入到镜头中。

E的核心创新2FGVI就是将这三个阶段结合成一个端到端的系统,无需对内容或流程进行人工操作。

该论文指出,手动干预的需要要求旧进程不能利用 GPU,这使得它们非常耗时。 来自论文*:

'采取 DFVI 例如,完成一个尺寸为 432 × 240 的视频 DAVIS包含大约 70 帧,大约需要 4 分钟,这在大多数实际应用中是不可接受的。 此外,除了上述缺点之外,仅在内容幻觉阶段使用预训练的图像修复网络会忽略跨时间邻居的内容关系,导致视频中生成的内容不一致。

通过结合视频修复的三个阶段,E2FGVI 能够用特征传播代替第二阶段(像素传播)。 在先前作品的更加细分的流程中,功能并不是那么广泛可用,因为每个阶段都相对封闭,并且工作流程只是半自动化的。

此外,研究人员还设计了一种 时间焦点变换器 对于内容幻觉阶段,它不仅考虑当前帧中像素的直接邻居(即上一个或下一个图像中该帧的该部分发生的情况),还考虑许多帧之外的遥远邻居,以及但会影响对整个视频执行的任何操作的凝聚力效果。

E2FGVI 的架构。

E2FGVI 的架构。

作者表示,新的基于特征的工作流程中心部分能够利用更多特征级流程和可学习的采样偏移,而该项目的新型焦点转换器将焦点窗口的大小“从 2D 扩展到 3D” 。

测试和数据

测试E2FGVI,研究人员针对两个流行的视频对象分割数据集评估了该系统: YouTube-VOSDAVIS。 YouTube-VOS 具有 3741 个训练视频剪辑、474 个验证视频剪辑和 508 个测试剪辑,而 DAVIS 具有 60 个训练视频剪辑和 90 个测试剪辑。

E2FGVI 在 YouTube-VOS 上进行了训练,并在两个数据集上进行了评估。 在训练过程中,生成对象蒙版(上图中的绿色区域和下面的嵌入视频)来模拟视频完成。

对于指标,研究人员采用了峰值信噪比 (PSNR)、结构相似性 (SSIM)、基于视频的 Fréchet 起始距离 (VFID) 和流扭曲误差 - 后者用于测量受影响视频的时间稳定性。

测试系统的先前架构是 虚拟网, DFVI, LGTSM, 鸭舌帽, FGVC, STTN熔断器.

来自论文的定量结果部分。 向上和向下箭头分别表示数字越高或越低越好。 E2FGVI 取得了全面的最佳成绩。 这些方法是根据 FuseFormer 进行评估的,尽管 DFVI、VINet 和 FGVC 不是端到端系统,因此无法估计它们的 FLOP。

来自论文的定量结果部分。 向上和向下箭头分别表示数字越高或越低越好。 E2FGVI 取得了全面的最佳成绩。 这些方法是根据 FuseFormer 进行评估的,尽管 DFVI、VINet 和 FGVC 不是端到端系统,因此无法估计它们的 FLOP。

除了在所有竞争系统中获得最佳分数外,研究人员还进行了一项定性用户研究,其中将用五种代表性方法转换的视频分别展示给二十名志愿者,要求他们根据视觉质量对其进行评分。

纵轴表示在视觉质量方面更喜欢 E2FGVI 输出的参与者的百分比。

纵轴表示选择 E 的参与者的百分比2FGVI 输出在视觉质量方面。

作者指出,尽管大家一致偏爱他们的方法,但其中一个结果 FGVC 并未反映定量结果,他们认为这表明 E2FGVI 可能会产生“视觉上更令人愉悦的结果”。

在效率方面,作者指出,他们的系统大大减少了 DAVIS 数据集上单个 Titan GPU 上的每秒浮点运算 (FLOP) 和推理时间,并观察到结果显示 E2FGVI 的运行速度比基于流的方法快 15 倍。

他们评论说:

'[E2与所有其他方法相比,FGVI] 具有最低的 FLOP。 这表明所提出的方法对于视频修复非常有效。

httpv://www.youtube.com/watch?v=N–qC3T2wc4

 

*我将作者的内联引用转换为超链接。

首次发布于 19 年 2022 月 XNUMX 日。