人工智能

理解场景的 AI 图像抠图

发布时间 2022 年 4 月 24 日

更新 2022 年 12 月 9 日

马丁安德森

在 2003 年 DVD 发行的附加纪录片中 外侨³ （1992 年），视觉效果传奇人物理查德·埃德伦德（Richard Edlund）惊恐地回忆起光化学遮罩提取的“相扑摔跤”，这种“相扑摔跤”在 XNUMX 年和 XNUMX 年之间主导了视觉效果工作。晚1930s 以及 1980 年代后期。埃德伦德将这一过程的碰运气性质描述为“相扑”，与 1990 年代初期盛行的数字蓝/绿幕技术相比（他回从那以后的比喻）。

从背景中提取前景元素（例如人或飞船模型），以便将剪切的图像合成为背景板，最初是通过在均匀的蓝色或绿色背景下拍摄前景物体来实现的。

ILM 为《绝地归来》（1983 年）拍摄的视觉特效进行了费力的光化学提取过程。资料来源：https://www.youtube.com/watch?v=qwMLOjqPmbQ

工业光魔为《绝地归来》（1983 年）拍摄的视觉特效，需要经过繁琐的光化学提取过程。 资料来源：https://www.youtube.com/watch?v=qwMLOjqPmbQ

在生成的素材中，背景颜色随后将被化学分离，并用作模板以重新打印前景物体（或人）。光学打印机就像透明薄膜单元中的“漂浮”物体。

这个过程被称为分色叠加（CSO）——尽管这个术语最终会与粗制滥造的图像更加相关。 “色度键” 1970世纪1980年代和XNUMX年代低预算电视输出中的视频效果是通过模拟而不是化学或数字手段实现的。

1970 年英国儿童节目“Blue Peter”的分色叠加演示。资料来源：https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx

1970 年英国儿童节目“蓝色彼得”的色彩分离叠加演示。 资料来源：https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx

在任何情况下，无论是电影还是视频元素，之后提取的镜头都可以插入到任何其他镜头中。

尽管迪士尼的版权成本明显更高，而且是专有的钠蒸气法（特别以黄色为主，而且也是用过的阿尔弗雷德·希区柯克 1963 年的恐怖片 那些鸟儿）提供了更好的清晰度和更清晰的遮罩，光化学提取仍然是艰苦且不可靠的。

迪士尼专有的钠蒸气提取工艺需要接近光谱黄端的背景。图中，安吉拉·兰斯伯里 (Angela Lansbury) 在制作《床把手和扫帚》(1971) 的带有视觉特效的序列时被吊在电线上。来源

迪士尼专有的钠蒸汽萃取工艺需要接近光谱黄色端的背景。图中，安吉拉·兰斯伯里在制作《床头柜和扫帚》（1971）的一段特效片段时被吊在钢丝上。 来源

超越数字抠图

1990 世纪 XNUMX 年代，数字革命取消了化学品，但不再需要绿屏。现在，只需在 Photoshop 等像素编辑软件和可以自动抠出的新一代视频合成套件中搜索该颜色容差范围内的像素，即可删除绿色（或任何颜色）背景。彩色背景。几乎一夜之间，六十年光学印刷行业的发展已成为历史。

过去十年的 GPU 加速计算机视觉研究将遮罩提取带入了第三个时代，研究人员需要开发无需绿屏即可提取高质量遮罩的系统。仅在 Arxiv 上，与基于机器学习的前景提取创新相关的论文就是每周的专题。

把我们放在图片中

学术界和业界对人工智能提取的兴趣已经影响了消费领域：我们所有人都熟悉粗略但可行的实现方式，其形式如下：通过Zoom 以及 Skype 过滤器可以在视频电话会议中用热带岛屿等取代我们客厅的背景。

然而，最好的遮罩仍然需要绿幕，因为注意到变焦上周三。

左图是绿色屏幕前的一名男子，通过 Zoom 的虚拟背景功能，头发被精心提取。左图是一名妇女站在正常的家庭场景前，头发是通过算法提取的，精度较低，但计算要求较高。来源：https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

左图：一位男士站在绿屏前，头发通过 Zoom 的虚拟背景功能完美提取。右图：一位女士站在普通家庭场景前，头发通过算法提取，准确度较低，且计算要求较高。来源：https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

A 进一步发表来自 Zoom 支持平台的警告称，非绿屏提取还需要捕获设备具有更强的计算能力。

需要把它剪掉

“野外”遮罩提取系统（即无需绿屏即可隔离人物）的质量、便携性和资源经济性的改进与更多的行业和追求相关，而不仅仅是视频会议过滤器。

对于数据集开发，改进的面部、整个头部和全身识别可以确保无关的背景元素不会被训练到人类主体的计算机视觉模型中；更准确的隔离将大大改善语义分割旨在区分和同化领域的技术（即 '猫', '人', '船'），并改进阿联酋以及变压器基于图像合成系统，例如 OpenAI 的新达尔-E 2; 更好的提取算法将减少对昂贵的手动操作的需求对位在昂贵的视觉特效管道中。

事实上，优势多峰的（通常是文本/图像）方法，其中像“猫”这样的领域既被编码为图像，又与相关的文本引用相关联，这种方法已经在图像处理领域取得了进展。最近的一个例子是文字直播建筑，它使用多模式（文本/图像）训练来创建视频，其中包括无数其他可能性，水晶天鹅和玻璃长颈鹿.

场景感知 AI 抠图

基于人工智能的自动抠图的大量研究都集中在图像或视频帧内基于像素的分组的边界识别和评估。然而，来自中国的新研究提供了一种提取管道，可以通过利用 基于文本的描述 场景（过去 3-4 年在计算机视觉研究领域受到关注的多模态方法），声称在许多方面改进了先前的方法。

SPG-IM 提取示例（最后一张图像，右下）与现有竞争方法进行比较。 资料来源：https://arxiv.org/pdf/2204.09276.pdf

提取研究子行业面临的挑战是生成需要最少手动注释和人工干预的工作流程——理想情况下不需要。除了成本影响之外，新论文的研究人员还观察到，不同文化背景下的外包众包人员进行的注释和手动分割可能会导致图像被标记甚至以不同的方式进行分割，从而导致算法不一致和不令人满意。

其中一个例子是对“前景物体”定义的主观解释：

新论文中指出：先前的方法 LFM 和 MODNet（“GT”表示 Ground Truth，通常通过手动或非算法方法实现的“理想”结果）对前景内容的定义有不同且各不相同的有效方式，而新的方法SPG-IM 方法通过场景上下文更有效地描绘“邻近内容”。

来自新论文：先前的方法 LFM 以及 MOD网（“GT”表示 Ground Truth，即通常通过手动或非算法方法实现的“理想”结果），对前景内容的定义有不同的、有效的看法，而新的 SPG-IM 方法则通过场景环境更有效地描绘“近距内容”。

为了解决这个问题，研究人员开发了一个名为 情境感知引导图像抠图 （SPG-IM）。两级编码器/解码器架构包括情境感知蒸馏（SPD）和情境感知引导抠图（SPGM）。

SPG-IM 架构。

首先，SPD 预训练视觉到文本的特征转换，生成与其相关图像相对应的标题。之后，通过将管道连接到新颖的模型来启用前景掩模预测显着性预测技术。

然后，SPGM 根据原始 RGB 图像输入和第一个模块中获得的生成掩模输出估计的 alpha 遮罩。

目标是情景感知指导，其中系统对图像的组成有上下文理解，从而能够根据此类特定任务的已知特征从背景中提取复杂头发的挑战。

在下面的示例中，SPG-IM 了解到绳索是“降落伞”固有的，而 MODNet 无法保留和定义这些细节。与上面类似，游乐场设备的完整结构在 MODNet 中被任意丢失。

在下面的例子中，SPG-IM 理解绳索是“降落伞”的固有结构，而 MODNet 却无法保留和定义这些细节。同样，上文中游乐场设备的完整结构在 MODNet 中被任意丢失。

新的纸标题为 情境感知引导图像抠图，来自 OPPO 研究院、PicUp.ai 和 Xmotors 的研究人员。

智能自动化垫片

SPG-IM 还提供了自适应焦点变换 (AFT) 细化网络，可以分别处理局部细节和全局背景，从而实现“智能遮罩”。

了解场景背景（在本例中为“带马的女孩”）可能比以前的方法更容易进行前景提取。

该文件指出：

“我们相信视觉到文本任务的视觉表征，例如 图像字幕，专注于a)物体与物体之间以及b)物体与周围环境之间语义更全面的信号，以生成能够涵盖全局信息和局部细节的描述。此外，与昂贵的抠图像素标注相比，文本标签可以以极低的成本大规模收集。

该架构的 SPD 分支与密歇根大学的维特克斯基于变压器的文本解码器，它从语义密集的标题中学习视觉表示。

VirTex 通过图像字幕对联合训练 ConvNet 和 Transformer，并将获得的见解传输到下游视觉任务，例如目标检测。 资料来源：https://arxiv.org/pdf/2006.06666.pdf

在其他测试和消融研究中，研究人员将 SPG-IM 与最先进的技术进行了测试三图基于深度图像抠图的方法（DIM), 索引网, 上下文感知图像抠图 (CAM），引导上下文注意（GCA） FBA，和语义图像映射（SIM).

其他先前测试的框架包括无 trimap 的方法 LFM, HattMatting和 MOD网为了公平比较，测试方法根据不同的方法进行了调整；在没有代码的情况下，论文中的技术是从所描述的架构中复制而来的。

新论文指出：

我们的 SPG-IM 大幅超越所有竞争的无三元图方法（[LFM]、[HAttMatting] 和 [MODNet]）。同时，我们的模型在公共数据集（即 Composition-1K、Distinction-646 和 Human-2K）的所有四个指标以及我们的 Multi-Object-1K 基准测试中，也展现出优于最先进 (SOTA) 的基于三元图和掩模引导的方法的显著优势。

并继续：

显而易见，我们的方法无需三元图的引导，即可保留精细细节（例如发梢位置、透明纹理和边界）。此外，与其他不使用三元图的竞争模型相比，我们的 SPG-IM 能够更好地保留全局语义完整性。