Anderson 视角

能够理解场景的AI图像抠图

发布于 2022年4月24日

更新于 2026年5月24日

作者

Martin Anderson

在2003年DVD发行的《异形3》（1992）附带的纪录片中，视觉特效传奇理查德·艾德伦德回忆起了在20世纪30年代末到80年代末之间占据视觉特效工作的“相扑”式的光化学抠图过程。他将这个过程描述为“相扑”，与20世纪90年代初期兴起的数字蓝/绿幕技术相比（他也曾使用过这个比喻）。

从背景中提取前景元素（如人物或飞船模型），以便将其合成到背景板中，最初是通过将前景物体拍摄在统一的蓝色或绿色背景下实现的。

工业光魔公司为《归来的绝地武士》（1983）制作的特效镜头的劳动密集的光化学提取过程。 来源：https://www.youtube.com/watch?v=qwMLOjqPmbQ

在得到的镜头中，背景颜色随后会被化学地分离出来，并用于光学打印机中作为“浮动”物体的模板，打印出前景物体（或人物）在一个透明的胶片单元中。

这个过程被称为颜色分离叠加（CSO）——尽管这个术语最终会与20世纪70年代和80年代低预算电视节目的粗糙“色键”视频特效更相关，这些特效是通过模拟而不是化学或数字手段实现的。

1970年英国儿童节目“蓝彼得”中颜色分离叠加的示例。 来源：https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx

无论是用于电影还是视频元素，之后提取的镜头都可以插入到其他镜头中。

尽管迪士尼公司更昂贵的专有钠蒸气过程（它在黄色上键控，并且也被用于阿尔弗雷德·希区柯克1963年的恐怖片《鸟》）提供了更好的定义和更清晰的遮罩，光化学提取仍然是耗时且不可靠的。

迪士尼公司的专有钠蒸气提取过程需要背景接近光谱的黄色端。这里，安吉拉·兰斯伯里在《魔杖和扫帚》（1971）特效镜头的制作中悬挂在电线上。 来源

超越数字抠图

在20世纪90年代，数字革命消除了化学物质的需要，但不是绿幕的需要。现在可以通过在像Photoshop这样的像素编辑软件中搜索特定颜色的像素来删除绿色（或其他颜色）背景，在新的视频合成套件中可以自动键出彩色背景。几乎一夜之间，六十年的光学打印行业被抛到了历史的垃圾堆中。

过去十年的GPU加速计算机视觉研究正在将遮罩提取带入第三个时代，任务着研究人员开发不需要绿幕的高质量遮罩系统。在Arxiv上，关于基于机器学习的前景提取创新论文是每周的常见现象。

将我们置于画面中

这种学术和行业对AI提取的兴趣已经影响了消费者空间：粗糙但可用的实现方式我们都很熟悉，就像Zoom和Skype滤镜，可以在视频会议中用热带岛屿等替换我们的客厅背景。

然而，最佳的遮罩仍然需要绿幕，就像Zoom上周提到的那样。

左边，一个站在绿幕前的男人，通过Zoom的虚拟背景功能很好地提取了头发。右边，一个站在普通家庭场景前的女人，头发通过算法提取，精度较低，计算需求更高。来源：https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

来自Zoom支持平台的另一篇文章警告称，非绿幕提取还需要更大的计算能力。

需要剪辑

“野外”抠图系统（即不需要绿幕来隔离人）的质量、便携性和资源经济性的改进对于视频会议滤镜以外的许多领域和追求都很重要。

对于数据集开发，改进的人脸、全头和全身识别提供了确保背景元素不会被训练到计算机视觉模型中的可能性；更准确的隔离将大大改进语义分割技术，这些技术旨在区分和整合域（即“猫”、“人”、“船”），并改进VAE和变压器-based图像合成系统，如OpenAI的新DALL-E 2；更好的提取算法将减少在昂贵的手动rotoscoping中进行的VFX管道的需要。

事实上，多模态（通常是文本/图像）方法的兴起，在其中一个域（如“猫”）被编码为图像和相关文本引用，在图像处理中已经取得了进展。最近的一个例子是Text2Live架构，它使用多模态（文本/图像）训练来创建视频，包括水晶天鹅和玻璃长颈鹿。

场景感知AI抠图

大量关于基于AI的自动抠图的研究都集中在边界识别和图像或视频帧中基于像素的分组评估上。然而，中国的新研究提供了一种通过利用基于文本的场景描述（一种在计算机视觉研究领域过去3-4年中获得关注的多模态方法）来提高轮廓和遮罩质量的提取管道，声称在多个方面改进了先前的方法。

SPG-IM提取的示例（右下角的最后一张图），与先前的方法进行比较。 来源：https://arxiv.org/pdf/2204.09276.pdf

提取研究子领域面临的挑战是产生需要最少的手动注释和人工干预的工作流——理想情况下，根本不需要。除了成本影响外，新论文的研究人员观察到，外包给不同文化的众包工人进行的注释和手动分割可能会导致图像以不同的方式标记或分割，从而导致算法不一致且不令人满意。

一个例子是对前景对象的主观解释的定义：

来自新论文：先前的方法LFM和MODNet（“GT”表示理想结果，通常是手动或非算法方法实现的），对前景内容的定义有不同的和各自有效的解释，而新的SPG-IM方法更有效地通过场景上下文确定“附近内容”

为了解决这个问题，研究人员开发了一个名为场景感知引导图像抠图（SPG-IM）的两阶段管道。编码器/解码器架构由场景感知蒸馏（SPD）和场景感知引导抠图（SPGM）组成。

SPG-IM架构

首先，SPD对视觉-文本特征转换进行预训练，生成适合其关联图像的字幕。之后，前景掩码预测通过连接管道到一个新颖的显著性预测技术来实现。

然后，SPGM根据原始RGB图像输入和在第一个模块中获得的掩码输出一个估计的alpha遮罩。

目标是场景感知引导，其中系统对图像的内容有上下文理解，使其能够构建——例如——从背景中提取复杂头发的挑战，针对这种特定任务的已知特征。

在下面的示例中，SPG-IM理解到绳索是“降落伞”的固有部分，而MODNet无法保留和定义这些细节。同样，在上面的例子中，游乐场设备的完整结构在MODNet中被任意丢失。

这篇新论文名为场景感知引导图像抠图，来自OPPO研究院、PicUp.ai和Xmotors的研究人员。

智能自动遮罩

SPG-IM还提供了一个自适应焦点变换（AFT）细化网络，可以分别处理局部细节和全局上下文，从而实现“智能遮罩”。

理解场景上下文，在这种情况下是“带马的女孩”，可以使前景提取比先前的方法更容易。

论文指出：

‘我们相信，来自视觉-文本任务的视觉表示，例如图像字幕，关注更多语义上全面的信号，既包括物体与物体之间，也包括物体与环境之间，生成的描述可以涵盖全局信息和局部细节。此外，与图像抠图的昂贵像素注释相比，文本标签可以以非常低的成本大量收集。’

该论文还指出：

‘我们的SPG-IM比所有竞争对手的无遮罩方法（LFM、HAttMatting和MODNet）有很大优势。同时，我们的模型在公共数据集（Composition-1K、Distinction-646和Human-2K）上的所有四个指标上都优于基于遮罩和基于掩码的方法。’

并继续指出：

‘可以明显观察到，我们的方法在没有遮罩的情况下保留了细节（例如头发尖端、透明纹理和边界）。此外，与其他竞争对手的无遮罩模型相比，我们的SPG-IM可以更好地保留全局语义完整性。’

首次发表于2022年4月24日。