人工智能
提升绿幕生成的稳定扩散

尽管社区和投资者对视觉生成AI的热情很高,但这种系统的输出并不总是适合现实世界的使用;一个例子是,生成AI系统往往输出整个图像(或一系列图像,在视频的情况下),而不是通常用于多媒体的多种应用和视觉效果实践中所需的个别、隔离的元素。
一个简单的例子是设计为“浮动”在用户选择的目标背景上的剪贴画:

可能最熟悉于Photoshop用户的浅灰色方格背景,已经成为代表alpha通道或透明通道的象征,甚至在简单的消费品中,如库存图像。
这种透明度已经被广泛使用超过30年;自20世纪90年代初的数字革命以来,用户可以通过日益复杂的工具集和技术从视频和图像中提取元素。
例如,去除视频片段中的蓝幕和绿幕背景的挑战,曾经是昂贵的化学过程和光学打印机(以及手工制作的遮罩)的专利,现在可以在几分钟内使用Adobe的After Effects和Photoshop应用程序(以及许多其他免费和专有程序和系统)完成。
一旦元素被隔离,alpha通道(有效地是一个遮罩,可以遮挡任何不相关的内容)允许视频中的任何元素轻松地叠加在新背景上,或与其他隔离的元素组合。

alpha通道的示例,下行显示其效果。来源:https://helpx.adobe.com/photoshop/using/saving-selections-alpha-channel-masks.html
去除
在计算机视觉中,创建alpha通道属于语义分割的范畴,开源项目如Meta的Segment Anything提供了一种基于文本提示的方法来隔离/提取目标对象,通过语义增强的对象识别。
Segment Anything框架已被用于各种视觉效果提取和隔离工作流程,例如Alpha-CLIP项目。

使用Segment Anything的Alpha-CLIP框架的示例提取:来源:https://arxiv.org/pdf/2312.03818
有很多替代的语义分割方法,可以适应为分配alpha通道的任务。
然而,语义分割依赖于训练数据,这些数据可能不包含所有需要被提取的对象类别。虽然在大量数据上训练的模型可以识别更广泛的对象(有效地成为基础模型或世界模型),但它们仍然受到它们被训练识别的类别的限制。

语义分割系统,如Segment Anything,可能难以识别某些对象或对象的某些部分,如这里从模糊提示的输出中所示。来源:https://maucher.pages.mi.hdm-stuttgart.de/orbook/deeplearning/SAM.html
无论如何,语义分割与绿幕过程一样,是一个事后过程,并且必须在没有单一背景颜色可以被有效识别和删除的优势的情况下隔离元素。
因此,用户社区偶尔会想到可以生成包含绿幕背景的图像和视频,这些背景可以通过传统方法立即删除。
不幸的是,流行的潜在扩散模型,如稳定扩散,通常很难渲染出鲜艳的绿幕。这是因为这些模型的训练数据通常不包含很多这种特殊场景的例子。即使系统成功了,“绿色”的概念也倾向于以不想要的方式扩散到前景主题中,归因于概念的纠缠:

上面,我们看到稳定扩散优先考虑图像的真实性而不是创建单一强度的绿色,有效地复制了传统绿幕场景中的实际问题。下面,我们看到“绿色”概念污染了前景图像。提示中“绿色”概念的关注度越高,这个问题就越严重。来源:https://stablediffusionweb.com/
尽管使用了先进的方法,但上面图像中女人的裙子和男人的领带(在下面的图像中)往往会与绿色背景一起“掉落”——这是1970年代和1980年代照片化学乳剂染色去除的遗留问题。
正如往常一样,模型的缺点可以通过向问题投入特定的数据和大量的训练资源来克服。像斯坦福2024年的LayerDiffuse这样的系统创建了一个微调的模型,能够生成具有alpha通道的图像:

斯坦福LayerDiffuse项目在一百万张适当的图像上进行了训练,使模型能够具备透明度功能。来源:https://arxiv.org/pdf/2402.17113
不幸的是,除了这种方法所需的巨大的策划和训练资源外,LayerDiffuse所使用的数据集并未公开,这限制了在其上训练的模型的使用。即使这种障碍不存在,这种方法也很难定制或为特定用例开发。
2024年稍晚,Adobe Research与Stonybrook大学合作,开发了一种名为MAGICK的AI提取方法,该方法是在自定义的扩散图像上进行的训练。

2024年论文中,MAGICK中细粒度alpha通道提取的示例。来源:https://openaccess.thecvf.com/content/CVPR2024/papers/Burgert_MAGICK_A_Large-scale_Captioned_Dataset_from_Matting_Generated_Images_using_CVPR_2024_paper.pdf
15万个提取的AI生成对象被用于训练MAGICK,以便系统能够对提取开发出直观的理解:

MAGICK训练数据集的示例。
该数据集,如源论文所述,很难生成,因为扩散方法很难创建实色的色块。因此,需要手动选择生成的遮罩。
这种后勤瓶颈再次导致了一个不能轻松开发或定制的系统,而必须在其最初训练的能力范围内使用。
TKG-DM – “本地”色度提取用于潜在扩散模型
德国和日本研究人员之间的新合作提出了一个替代方案,可以在不需要训练特定数据集的情况下获得更好的结果。

TKG-DM修改了生成图像的随机噪声,使其更好地产生实色的、可键合的背景 – 可以是任何颜色。来源:https://arxiv.org/pdf/2411.15580
这种新方法通过优化潜在扩散模型(如稳定扩散)中生成图像的随机噪声来解决问题。
这种方法建立在对稳定扩散分布的色彩方案的前期调查基础上,并且能够产生任何类型的背景颜色,与其他方法相比,前景内容中背景颜色的纠缠较少(或没有)。

初始噪声由通道均值偏移条件化,可以在不将颜色信号纠缠到前景内容中的情况下影响去噪过程的某些方面。
论文指出:
‘我们的广泛实验表明,TKG-DM通过33.7%和35.9%分别提高了FID和mask-FID评分。 ‘
‘因此,我们的无需训练的模型与微调模型相媲美,提供了一个高效且通用的解决方案,用于需要精确前景和背景控制的各种视觉内容创建任务。 ‘
新论文题为TKG-DM:无需训练的色度键内容生成扩散模型,由德国和日本的七位研究人员合作完成。
方法
这种新方法通过条件化初始高斯噪声来扩展稳定扩散的架构,使用通道均值偏移(CMS)产生旨在鼓励生成结果中期望的背景/前景分离的噪声模式。

拟议系统的架构。
CMS调整每个颜色通道的均值,同时保持去噪过程的一般发展。
作者解释:
‘为了生成带有色度键背景的前景对象,我们应用了一个初始噪声选择策略,该策略使用2D高斯遮罩选择性地组合初始噪声和初始颜色噪声。 ‘
‘该遮罩通过在前景区域保留原始噪声并将色彩偏移的噪声应用于背景区域来创建渐进过渡。 ‘

所需的背景色度颜色通过空文本提示实例化,而实际的前景内容则从用户的文本指令中语义创建。
自注意力和交叉注意力用于分离图像的两个方面(色度背景和前景内容)。自注意力有助于前景对象的内部一致性,而交叉注意力保持对文本提示的忠实度。论文指出,由于背景图像通常在生成中不太详细且不被强调,其较弱的影响相对容易被克服并用纯色替换。

色度风格生成过程中自注意力和交叉注意力的影响的可视化。
数据和测试
TKG-DM使用稳定扩散V1.5和稳定扩散SDXL进行了测试。图像分别以512x512px和1024x1024px的分辨率生成。
使用稳定扩散的DDIM调度器以7.5的指导比例和50个去噪步骤生成了图像。目标背景颜色为绿色,现在是主导的掉落方法。
新方法与DeepFloyd(在MAGICK使用的设置中)进行了比较;与微调的低秩扩散模型GreenBack LoRA进行了比较;以及与LayerDiffuse进行了比较。
用于测试的数据来自MAGICK数据集的3000张图像。

MAGICK数据集的示例,来自该数据集的3000张图像用于测试新的系统。来源:https://ryanndagreat.github.io/MAGICK/Explorer/magick_rgba_explorer.html
对于指标,作者使用Fréchet Inception Distance(FID)来评估前景质量。他们还开发了一个名为m-FID的项目特定指标,该指标使用BiRefNet系统来评估生成的掩码质量。

BiRefNet系统与先前方法的可视化比较。来源:https://arxiv.org/pdf/2401.03407
为了测试语义对齐与输入提示,使用了CLIP-Sentence(CLIP-S)和CLIP-Image(CLIP-I)方法。CLIP-S评估提示的忠实度,CLIP-I评估与真实图像的视觉相似度。

新方法的第一组定性结果,这次是针对稳定扩散V1.5的结果。请参考源PDF以获得更好的分辨率。
作者断言结果(如上和下所示,SD1.5和SDXL)表明TKG-DM在无需提示工程或模型训练/微调的情况下获得了更好的结果。

SDXL的定性结果。请参考源PDF以获得更好的分辨率。
他们观察到,当有提示来激发生成结果中的绿色背景时,稳定扩散1.5很难生成干净的背景,而SDXL(尽管性能略好)会产生不稳定的浅绿色调,这可能会干扰色度过程中的分离。
他们进一步指出,LayerDiffuse会生成良好的分离背景,但有时会丢失细节,例如精确的数字或字母,并将其归因于数据集的局限性。他们还补充说,掩码生成有时也会失败,导致“未切割”的图像。
对于定量测试,虽然LayerDiffuse在SDXL中似乎具有FID的优势,但作者强调这只是因为数据集的特殊性,这有效地构成了一个“烘焙”且不灵活的产品。他们指出,在该数据集中没有被很好覆盖的任何对象或类别可能无法表现得那么好,而且进一步微调以适应新类别会给用户带来策划和训练的负担。

比较的定量结果。论文暗示,LayerDiffuse的明显优势是以灵活性为代价的,并且需要数据策划和训练的负担。
论文指出:
‘DeepFloyd的高FID、m-FID和CLIP-I评分反映了其基于DeepFloyd输出的真实性相似度。然而,这种对齐给了它一个固有的优势,使其不适合作为图像质量的公平基准。其较低的CLIP-S评分进一步表明了其与其他模型相比的文本对齐较弱。 ‘
总体而言,这些结果凸显了我们模型生成高质量、文本对齐的前景的能力,而无需微调,提供了一个高效的色度键内容生成解决方案。 ‘
最后,研究人员进行了一项用户研究,以评估各种方法的提示遵守性。100名参与者被要求判断每种方法的30个图像对,所有示例都使用BiRefNet进行了提取和手动精细化。
作者断言他们的无需训练的方法在这项研究中更受欢迎。

用户研究的结果。
TKG-DM与流行的第三方系统ControlNet兼容,作者声称它比ControlNet的本地能力更好地实现了此类分离。
结论
也许这篇新论文最值得注意的收获是潜在扩散模型的纠缠程度,与公众对它们可以轻松分离图像和视频各个方面的流行看法相反。
该研究进一步强调了研究和爱好者社区转向微调作为模型缺陷的事后解决方案的程度——一种始终针对特定类别和对象的解决方案。在这种情况下,微调的模型要么在有限的类别上表现非常好,要么在更高的类别和对象数量上表现得“可以接受”,这取决于训练集中的数据量。
因此,看到至少有一种解决方案不依赖于如此繁琐且可以说是不诚实的解决方案是令人耳目一新的。
* 1978年拍摄电影超人,演员克里斯托弗·里夫被要求穿着青绿色超人服装用于蓝幕过程拍摄,以避免标志性的蓝色服装被抹去。服装的蓝色后来通过色彩分级恢复。










