Anderson 视角

提升稳定扩散模型的绿幕生成能力

mm
Diverse Stable Diffusion green screen-based prompts, https://stablediffusionweb.com/

尽管社区和投资者对视觉生成AI的热情很高,但这种系统的输出并不总是适合现实世界的使用;一个例子是,生成AI系统往往输出整个图像(或视频中的图像序列),而不是多媒体应用和视觉效果实践者通常需要的个别、隔离的元素。

一个简单的例子是设计为“浮动”在用户选择的目标背景上的剪贴画:

可能最熟悉于Photoshop用户的浅灰色方格背景,甚至在简单的消费品中代表了透明度或透明通道,例如库存图像。

可能最熟悉于Photoshop用户的浅灰色方格背景,甚至在简单的消费品中代表了透明度或透明通道,例如库存图像。

这种透明度已经有超过三十年的历史;自20世纪90年代初的数字革命以来,用户可以通过越来越复杂的工具集和技术从视频和图像中提取元素。

例如,曾经是昂贵的化学过程和光学打印机(以及手工制作的遮罩)的“去除”蓝色和绿色背景的挑战,在Adobe的After Effects和Photoshop应用程序(以及其他免费和专有程序和系统)中只需几分钟即可完成。

一旦元素被隔离,一个alpha通道(有效地遮挡任何不相关的内容)允许视频中的任何元素轻松地叠加在新背景上,或与其他隔离的元素合成。

alpha通道示例,下行显示其效果。来源:https://helpx.adobe.com/photoshop/using/saving-selections-alpha-channel-masks.html

alpha通道示例,下行显示其效果。来源:https://helpx.adobe.com/photoshop/using/saving-selections-alpha-channel-masks.html

去除

在计算机视觉中,创建alpha通道属于语义分割的范畴,开源项目如Meta的Segment Anything提供了一种基于文本提示的方法来隔离/提取目标对象,通过增强对象识别的语义。

Segment Anything框架已被用于各种视觉效果提取和隔离工作流程,例如Alpha-CLIP项目。

使用Segment Anything在Alpha-CLIP框架中的示例提取。来源:https://arxiv.org/pdf/2312.03818

使用Segment Anything在Alpha-CLIP框架中的示例提取。来源:https://arxiv.org/pdf/2312.03818

有许多替代的语义分割方法可以适应分配alpha通道的任务。

然而,语义分割依赖于训练数据,这些数据可能不包含所有需要提取的对象类别。虽然在大量数据上训练的模型可以识别更广泛的对象,但它们仍然受到其训练数据的限制。

语义分割系统如Segment Anything可能难以识别某些对象或对象的某些部分,如来自模糊提示的输出所示。来源:https://maucher.pages.mi.hdm-stuttgart.de/orbook/deeplearning/SAM.html

语义分割系统如Segment Anything可能难以识别某些对象或对象的某些部分,如来自模糊提示的输出所示。来源:https://maucher.pages.mi.hdm-stuttgart.de/orbook/deeplearning/SAM.html

无论如何,语义分割只是一个事后过程,就像绿幕过程一样,并且必须在没有单一背景颜色的优势的情况下隔离元素,这种背景颜色可以被有效地识别和删除。

因此,已经出现了这样的想法,即可以生成包含绿幕背景的图像和视频,这些背景可以通过传统方法轻松删除。

不幸的是,流行的潜在扩散模型,如Stable Diffusion,通常很难渲染出鲜艳的绿幕。这是因为这些模型的训练数据通常不包含大量这种特殊场景的示例。即使系统成功渲染,前景主题往往会受到“绿色”概念的污染,这是由于概念的纠缠所致:

上图显示Stable Diffusion优先考虑图像的真实性而不是创建单一的绿色强度,有效地复制了传统绿幕场景中的真实世界问题。下图显示“绿色”概念污染了前景图像。来源:https://stablediffusionweb.com/

上图显示Stable Diffusion优先考虑图像的真实性而不是创建单一的绿色强度,有效地复制了传统绿幕场景中的真实世界问题。下图显示“绿色”概念污染了前景图像。来源:https://stablediffusionweb.com/

尽管采用了先进的方法,但上述图像中的女士的裙子和男士的领带仍然会随着绿色背景一起被删除——这是1970年代和1980年代照片化学涂层染色去除的遗留问题。

正如往常一样,模型的缺陷可以通过将特定的数据应用于问题并投入大量的训练资源来克服。像斯坦福2024年的LayerDiffuse这样的系统可以生成带有alpha通道的图像:

斯坦福LayerDiffuse项目在一百万张适当的图像上进行了训练,使模型能够具备透明度。来源:https://arxiv.org/pdf/2402.17113

斯坦福LayerDiffuse项目在一百万张适当的图像上进行了训练,使模型能够具备透明度。来源:https://arxiv.org/pdf/2402.17113

不幸的是,除了需要大量的策划和训练资源外,LayerDiffuse使用的数据集不公开,这限制了在其上训练的模型的使用。即使不存在这种障碍,这种方法也很难定制或开发以适应特定的用例。

稍后,在2024年,Adobe Research与Stonybrook大学合作,开发了MAGICK,一种在使用色键的生成图像上训练的AI提取方法。

2024年论文中MAGICK的细粒度alpha通道提取示例。来源:https://openaccess.thecvf.com/content/CVPR2024/papers/Burgert_MAGICK_A_Large-scale_Captioned_Dataset_from_Matting_Generated_Images_using_CVPR_2024_paper.pdf

2024年论文中MAGICK的细粒度alpha通道提取示例。来源:https://openaccess.thecvf.com/content/CVPR2024/papers/Burgert_MAGICK_A_Large-scale_Captioned_Dataset_from_Matting_Generated_Images_using_CVPR_2024_paper.pdf

15万个提取的、AI生成的对象被用于训练MAGICK,以便系统能够对提取有直观的理解:

MAGICK训练数据集的示例。

MAGICK训练数据集的示例。

该数据集,如源论文所述,很难生成,因为扩散方法很难创建实色的色块。因此,需要手动选择生成的遮罩。

这种后勤瓶颈再次导致了一个不能轻松开发或定制的系统,而必须在其最初训练的能力范围内使用。

TKG-DM – 潜在扩散模型的“原生”色键提取

德国和日本的研究人员之间的一项新合作提出了一个替代方案,能够在不需要训练专用数据集的情况下获得更好的结果。

TKG-DM通过条件随机噪声来生成实色、可键控的背景——任何颜色。来源:https://arxiv.org/pdf/2411.15580

TKG-DM通过条件随机噪声来生成实色、可键控的背景——任何颜色。来源:https://arxiv.org/pdf/2411.15580

这种新方法从生成层面解决问题,通过优化潜在扩散模型(如Stable Diffusion)中生成图像的随机噪声。

这种方法建立在对Stable Diffusion分布的色彩模式的前期研究基础上,并能够生成任何类型的背景颜色,在前景内容中具有较少(或没有)的键控颜色纠缠。

初始噪声由通道均值偏移条件,能够影响去噪过程的某些方面,而不会将颜色信号与前景内容纠缠。

初始噪声由通道均值偏移条件,能够影响去噪过程的某些方面,而不会将颜色信号与前景内容纠缠。

论文指出:

“我们的广泛实验表明,TKG-DM通过提高33.7%和35.9%的FID和mask-FID得分,优于上述方法。”

“因此,我们的训练免费模型可以媲美精调模型,提供了一种高效且多功能的解决方案,适用于需要精确前景和背景控制的各种视觉内容创建任务。”

这篇题为《TKG-DM:训练免费的色键内容生成扩散模型》的新论文来自德国和日本的七位研究人员。

方法

这种新方法通过条件初始高斯噪声(CMS)来扩展Stable Diffusion的架构,产生噪声模式以鼓励生成结果中的期望背景/前景分离。

拟议系统的架构。

拟议系统的架构。

CMS调整每个颜色通道的均值,同时保持去噪过程的一般发展。

作者解释说:

“为了在色键背景上生成前景对象,我们应用了一种初始噪声选择策略,使用2D高斯掩码选择性地组合初始[噪声]和初始颜色[噪声]。”

“该掩码通过保留前景区域的原始噪声并将颜色偏移的噪声应用于背景区域来创建平滑过渡。”

所需的背景色键颜色通过空文本提示实例化,而实际的前景内容是从用户的文本指令中创建的。

所需的背景色键颜色通过空文本提示实例化,而实际的前景内容是从用户的文本指令中创建的。

自注意力和交叉注意力用于分离图像的两个方面(色键背景和前景内容)。自注意力有助于前景对象的内部一致性,而交叉注意力保持对文本提示的忠实度。

色键风格生成过程中自注意力和交叉注意力的影响的可视化。

色键风格生成过程中自注意力和交叉注意力的影响的可视化。

数据和测试

TKG-DM使用Stable Diffusion V1.5和Stable Diffusion SDXL进行了测试,图像分别生成为512x512px和1024x1024px。

图像使用Stable Diffusion的DDIM调度器生成,指导规模为7.5,去噪步骤为50。目标背景颜色为绿色,现在是主导的去除方法。

这种新方法与DeepFloyd、精调的低秩扩散模型GreenBack LoRA以及LayerDiffuse进行了比较。

用于测试的数据来自MAGICK数据集的3000张图像。

MAGICK数据集的示例,用于测试新系统。来源:https://ryanndagreat.github.io/MAGICK/Explorer/magick_rgba_explorer.html

MAGICK数据集的示例,用于测试新系统。来源:https://ryanndagreat.github.io/MAGICK/Explorer/magick_rgba_explorer.html

为了评估前景质量,作者使用了Fréchet Inception Distance(FID)。他们还开发了一种特定于项目的度量标准,称为m-FID,使用BiRefNet系统来评估生成的掩码质量。

BiRefNet系统与前方法的视觉比较。来源:https://arxiv.org/pdf/2401.03407

BiRefNet系统与前方法的视觉比较。来源:https://arxiv.org/pdf/2401.03407

为了测试语义对齐,使用了CLIP-Sentence(CLIP-S)和CLIP-Image(CLIP-I)方法。CLIP-S评估提示的忠实度,而CLIP-I评估与真值的视觉相似度。

新方法的首批定性结果,适用于Stable Diffusion V1.5。请参阅源PDF以获取更好的分辨率。

新方法的首批定性结果,适用于Stable Diffusion V1.5。请参阅源PDF以获取更好的分辨率。

作者声称结果(如上所示,SD1.5和SDXL)表明TKG-DM在无需提示工程或模型训练/精调的情况下获得了更好的结果。

SDXL的定性结果。请参阅源PDF以获取更好的分辨率。

SDXL的定性结果。请参阅源PDF以获取更好的分辨率。

他们观察到,Stable Diffusion 1.5在生成干净的背景方面存在困难,而SDXL(尽管性能略好)会产生不稳定的浅绿色色调,这可能会干扰色键过程中的分离。

他们进一步指出,LayerDiffuse会生成良好的分离背景,但有时会丢失细节,如精确的数字或字母,并将其归因于数据集的局限性。他们还指出,遮罩生成有时也会失败,导致“未裁剪”的图像。

对于定量测试,虽然LayerDiffuse在SDXL的FID方面似乎占有优势,但作者强调这是在专用数据集的基础上实现的,这实际上是一个“烘焙”且不灵活的产品。任何未在该数据集中涵盖或涵盖不充分的对象或类别可能不会表现得那么好,而进一步的精调将给用户带来数据集的策划和训练负担。

比较的定量结果。论文暗示,LayerDiffuse的明显优势是以灵活性为代价的,并带来了数据策划和训练的负担。

比较的定量结果。论文暗示,LayerDiffuse的明显优势是以灵活性为代价的,并带来了数据策划和训练的负担。

论文指出:

“DeepFloyd的高FID、m-FID和CLIP-I评分反映了其与真值的相似性,这是由于DeepFloyd的输出。然而,这种对齐使其在图像质量方面不适合作为公平的基准。此外,其较低的CLIP-S评分表明其文本对齐能力较弱。”

“总体而言,这些结果凸显了我们模型生成高质量、文本对齐的前景的能力,而无需精调,提供了一种高效的色键内容生成解决方案。”

最后,研究人员进行了一项用户研究,以评估不同方法的提示遵循性。100名参与者被要求评估每种方法的30对图像,使用BiRefNet和所有示例的手动精修。作者的训练免费方法在这项研究中被更喜欢。

用户研究结果。

用户研究结果。

TKG-DM与Stable Diffusion的流行第三方系统ControlNet兼容,作者声称它可以产生比ControlNet的本地能力更好的分离结果。

结论

也许这篇新论文最值得注意的收获是潜在扩散模型的纠缠程度,以及它们与生成新内容时轻松分离图像和视频方面的流行公众认知之间的对比。

该研究还强调了研究和爱好者社区转向精调作为模型缺陷的事后解决方案的程度——一种只能针对特定类别和对象类型的解决方案。在这种情况下,精调的模型要么在有限的类别上表现非常好,要么在更高的类别和对象数量上表现得“可以接受”,这取决于训练集中更大的数据量。

因此,看到至少有一种解决方案不依赖于这些劳动密集且可疑的解决方案是令人耳目一新的。

*拍摄1978年的电影超人,演员克里斯托弗·里夫被要求穿着青绿色超人服装进行蓝幕拍摄,以避免标志性的蓝色服装被抹去。服装的蓝色后来通过色彩分级恢复。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai