人工智能

DiffSeg : 无监督零样本分割使用稳定扩散

Published December 26, 2023

Updated April 27, 2026

Kunal Kejriwal

DiffSeg : Unsupervised Zero-Shot Segmentation using Stable Diffusion

计算机视觉模型中一个核心挑战是生成高质量的分割掩码。最近在大规模有监督训练方面的进展使得可以在各种图像样式中实现零样本分割。此外，无监督训练简化了无需大量注释的分割。尽管有了这些发展，构建一个能够在零样本设置中无需注释分割任何内容的计算机视觉框架仍然是一个复杂的任务。语义分割是计算机视觉模型中的一个基本概念，涉及将图像划分为具有统一语义的较小区域。这项技术为许多下游任务奠定了基础，例如医学成像、图像编辑、自动驾驶等。

为了推进计算机视觉模型的发展，图像分割不应局限于具有有限类别的固定数据集。相反，它应该作为各种其他应用的通用基础任务。然而，按像素收集标签的高成本提出了一个重大挑战，限制了零样本和有监督分割方法的进展，这些方法不需要注释并且缺乏对目标的先验知识。本文将讨论如何使用稳定扩散模型中的自注意力层来创建一个能够在零样本设置中分割任何输入的模型，即使没有适当的注释。这些自注意力层固有地理解了预训练的稳定扩散模型所学到的对象概念。

DiffSeg : 一个增强的零样本分割算法

语义分割是一种过程，它将图像划分为具有相似语义的各个部分。这项技术为许多下游任务奠定了基础。传统上，零样本计算机视觉任务依赖于有监督的语义分割，使用具有注释和标记类别的大型数据集。然而，在零样本设置中实现无监督语义分割仍然是一个挑战。虽然传统的有监督方法是有效的，但其每像素标签成本往往是禁止性的，突出了开发零样本设置中更不受限制的无监督分割方法的必要性，在这种设置中，模型既不需要注释数据，也不需要对数据的先验知识。

为了解决这个限制，DiffSeg 提出了一种新颖的后处理策略，利用稳定扩散框架来构建一个通用的分割模型，能够在任何图像上实现零样本转移。稳定扩散框架已经证明了其在基于提示条件生成高分辨率图像方面的有效性。对于生成的图像，这些框架可以使用对应的文本提示生成分割掩码，通常只包括主导前景对象。

相比之下，DiffSeg 是一种新颖的后处理方法，它通过利用扩散模型中的自注意力层来创建分割掩码。DiffSeg 算法由三个关键组件组成：迭代注意力合并、注意力聚合和非最大抑制，如下图所示。

DiffSeg 算法通过聚合具有空间一致性的 4D 注意力张量来保留多个分辨率的视觉信息，并使用迭代合并过程通过采样锚点。这些锚点作为合并具有相同对象锚点的注意力掩码的起点。DiffSeg 框架使用 KL 散度方法控制合并过程，以测量两个注意力图之间的相似性。

与基于聚类的无监督分割方法相比，开发人员不需要事先指定 DiffSeg 算法中的集群数量，即使没有任何先验知识，DiffSeg 算法也可以在不使用任何额外资源的情况下生成分割。总体而言，DiffSeg 算法是一个“新颖的无监督和零样本分割方法，它利用预训练的稳定扩散模型，可以在不使用任何额外资源或先验知识的情况下分割图像。”

DiffSeg : 基础概念

DiffSeg 是一个新颖的算法，它建立在扩散模型、无监督分割和零样本分割的基础上。

扩散模型

DiffSeg 算法建立在预训练扩散模型的基础上。扩散模型是计算机视觉模型中最流行的生成框架之一，它学习从采样到的等向高斯噪声图像到生成图像的正向和反向扩散过程。稳定扩散是扩散模型中最流行的变体，它用于执行各种任务，包括有监督分割、零样本分类、语义对应匹配、标签高效分割和开放词汇分割。然而，扩散模型的一个问题是它们依赖于高维视觉特征来执行这些任务，并且它们通常需要额外的训练来充分利用这些特征。

无监督分割

DiffSeg 算法与无监督分割密切相关，无监督分割是一种现代人工智能实践，旨在在不使用任何注释的情况下生成密集分割掩码。然而，要实现良好的性能，无监督分割模型确实需要一些先验的无监督训练数据。无监督分割人工智能框架可以分为两个类别：使用预训练模型的聚类和基于不变性的聚类。在第一个类别中，框架使用预训练模型学习的判别特征来生成分割掩码，而第二个类别中的框架使用一种通用的聚类算法，优化两个图像之间的互信息以将图像分割为语义聚类并避免退化分割。

零样本分割

DiffSeg 算法与零样本分割框架密切相关，零样本分割框架是一种方法，能够在不需要任何先验训练或数据知识的情况下分割任何内容。零样本分割模型已经展示了其在最近的零样本转移方面的出色能力，尽管它们需要一些文本输入和提示。相比之下，DiffSeg 算法使用扩散模型生成分割，而无需查询和合成多个图像，也无需知道对象的内容。

DiffSeg : 方法和架构

DiffSeg 算法使用预训练的稳定扩散模型中的自注意力层来生成高质量的分割任务。

稳定扩散模型

稳定扩散是 DiffSeg 框架中的一个基本概念。稳定扩散是一种生成人工智能框架，也是最流行的扩散模型之一。扩散模型的一个主要特征是正向和反向传递。在正向传递中，图像在每个时间步骤中迭代添加少量高斯噪声，直到图像变成等向高斯噪声图像。在反向传递中，扩散模型迭代删除等向高斯噪声图像中的噪声以恢复原始图像，而无需高斯噪声。

稳定扩散框架采用编码器-解码器和 U-Net 设计，具有注意力层，其中它使用编码器将图像压缩到具有较小空间维度的潜在空间，并使用解码器将图像解压缩。U-Net 架构由一堆模块块组成，每个块由以下两个组件之一组成：变换器层或残差层。

组件和架构

扩散模型中的自注意力层将固有的对象信息分组为空间注意力图，DiffSeg 是一种新颖的后处理方法，用于将注意力张量合并为有效的分割掩码，管道由三个主要组件组成：注意力聚合、非最大抑制和迭代注意力。

注意力聚合

对于通过 U-Net 层和编码器传递的输入图像，稳定扩散模型生成 16 个注意力张量，每个维度有 5 个张量。生成 16 个张量的主要目标是将这些具有不同分辨率的注意力张量聚合为一个具有最高可能分辨率的张量。为此，DiffSeg 算法将 4 个维度区别对待。

在四个维度中，注意力张量的最后两个维度具有不同的分辨率，但它们在空间上是一致的，因为 DiffSeg 框架的 2D 空间图对应于位置和空间位置之间的相关性。因此，DiffSeg 框架对所有注意力图的这两个维度进行采样，以达到最高分辨率，即 64 x 64。另一方面，前两个维度指示注意力图的位置参考，如下图所示。

由于这些维度指的是注意力图的位置，因此需要相应地聚合注意力图。另外，为了确保聚合的注意力图具有有效的分布，框架在聚合后对分布进行归一化，每个注意力图都被分配一个与其分辨率成比例的权重。

迭代注意力合并

虽然注意力聚合的主要目标是计算注意力张量，但主要目标是将注意力图合并为一个对象提议堆栈，每个提议包含一个类别或单个对象的激活。实现这一目标的提议解决方案是对张量的有效分布实施 K-Means 算法，以找到对象的聚类。然而，使用 K-Means 并不是最优的解决方案，因为 K-Means 聚类需要用户事先指定集群的数量。此外，实施 K-Means 算法可能会导致同一图像的结果不同，因为它在初始化时是随机的。为了克服这个障碍，DiffSeg 框架提议生成一个采样网格来创建提议，通过迭代合并注意力图。

非最大抑制

迭代注意力合并的前一步骤产生一个对象提议列表，以注意力图的形式表示每个对象提议包含对象的激活。框架使用非最大抑制将对象提议列表转换为有效的分割掩码，这是一个有效的方法，因为列表中的每个元素已经是一个概率分布图。对于所有图中的每个空间位置，算法取最大概率的索引，并根据对应的图的索引分配成员资格。

DiffSeg : 实验和结果

无监督分割框架使用两个分割基准，即 Cityscapes 和 COCO-stuff-27。Cityscapes 基准是一个自动驾驶数据集，包含 27 个中级类别，而 COCO-stuff-27 基准是原始 COCO-stuff 数据集的精简版本，它将 80 个事物和 91 个类别合并为 27 个类别。此外，为了分析分割性能，DiffSeg 框架使用平均交并比（mIoU）和像素精度（ACC），由于 DiffSeg 算法无法提供语义标签，因此它使用匈牙利匹配算法将每个预测掩码分配给一个真实掩码。如果预测掩码的数量超过真实掩码的数量，框架将未匹配的预测任务视为假负例。

另外，DiffSeg 框架还强调了三个工作来运行干扰：语言依赖（LD）、无监督适应（UA）和辅助图像（AX）。语言依赖意味着该方法需要描述性文本输入来促进图像的分割，无监督适应指的是该方法需要在目标数据集上进行无监督训练，而辅助图像指的是该方法需要额外的输入，既可以是合成图像，也可以是参考图像池。

结果

在 COCO 基准上，DiffSeg 框架包括两个 K-Means 基准，K-Means-S 和 K-Means-C。K-Means-C 基准包括 6 个集群，它们是通过平均评估图像中的对象数量计算得出的，而 K-Means-S 基准使用每个图像的特定集群数量，基于真实掩码中的对象数量，如下图所示。

如图所示，K-Means 基准优于现有方法，证明了使用自注意力张量的好处。有趣的是，K-Means-S 基准优于 K-Means-C 基准，这表明集群数量是一个基本的超参数，并且调整它对于每个图像都很重要。此外，即使依赖相同的注意力张量，DiffSeg 框架也优于 K-Means 基准，这证明了 DiffSeg 框架不仅能够提供更好的分割，还能够避免使用 K-Means 基准的缺点。

在 Cityscapes 数据集上，DiffSeg 框架在 320 分辨率输入上实现了与使用较低分辨率输入的框架相似的结果，同时在使用较高 512 分辨率输入的框架上优于准确率和 mIoU。

如前所述，DiffSeg 框架使用几个超参数，如下图所示。

注意力聚合是 DiffSeg 框架中使用的基本概念，不同聚合权重的效果如下图所示，图像分辨率保持不变。

如图所示，(b) 中的高分辨率图（64 x 64）产生最详细的分割，尽管分割中有一些可见的裂缝，而 (c) 中的较低分辨率图（32 x 32）倾向于过度分割细节，尽管它会导致更好的凝聚分割。在 (d) 中，低分辨率图无法生成任何分割，因为整个图像被合并为一个单独的对象，使用现有的超参数设置。最后，(a) 中使用比例聚合策略的结果是细节更好，凝聚性更平衡。

最终想法

零样本无监督分割仍然是计算机视觉框架面临的最大挑战之一，现有的模型要么依赖于非零样本无监督适应，要么依赖于外部资源。为了克服这个挑战，我们讨论了如何使用稳定扩散模型中的自注意力层来构建一个能够在零样本设置中无需注释分割任何输入的模型，因为这些自注意力层包含了预训练的稳定扩散模型所学到的对象的固有概念。我们还讨论了 DiffSeg，一种新颖的后处理策略，旨在利用稳定扩散框架来构建一个可以在任何图像上实现零样本转移的通用分割模型。该算法依赖于注意力图之间的相似性来迭代合并注意力图以获得有效的分割掩码，从而在流行的基准上实现最先进的性能。