AI 模型与平台
自注意力引导:提高扩散模型的样本质量

去噪扩散模型是一种通过迭代去噪过程从噪声中合成图像的生成式人工智能框架。它们因其出色的图像生成能力和多样性而受到赞扬,这在很大程度上归功于基于文本或类别的条件引导方法,包括分类器引导和分类器自由引导。这些模型在创建多样化、高质量的图像方面取得了显著的成功。最近的研究表明,类似类别标题和标签的引导技术在提高这些模型生成的图像质量方面发挥着至关重要的作用。
然而,扩散模型和引导方法在某些外部条件下面临局限性。分类器自由引导(CFG)方法使用标签丢弃,增加了训练过程的复杂性,而分类器引导(CG)方法需要额外的分类器训练。两种方法都受到外部条件的限制,限制了它们的潜力,并将它们局限于需要额外条件(如文本或类别)的条件设置中。
为了解决这些局限性,开发人员已经提出了一种更为通用的扩散引导方法,称为自注意力引导(SAG)。这种方法利用扩散模型的中间样本中的信息来生成图像。在本文中,我们将探讨SAG的工作原理、方法和结果,并将其与当前最先进的框架和管道进行比较。
自注意力引导:提高扩散模型的样本质量
去噪扩散模型(DDMs)因其能够通过迭代去噪过程从噪声中创建图像而受到欢迎。这些模型的图像合成能力在很大程度上归功于所使用的扩散引导方法。尽管它们具有优势,但扩散模型和基于引导的方法面临着增加复杂性和计算成本等挑战。
为了克服当前的局限性,开发人员已经引入了自注意力引导方法,这是一种更为通用的扩散引导方法,它不依赖于扩散引导的外部信息,从而实现了一种无条件和灵活的方法来引导扩散框架。自注意力引导方法最终有助于提高传统扩散引导方法的适用性,使其能够应用于有或没有外部要求的场景中。
自注意力引导基于简单的通用公式原理和中间样本中包含的内部信息也可以作为引导的假设。基于此原理,SAG方法首先引入了模糊引导,一种简单直接的解决方案,以提高样本质量。模糊引导旨在利用高斯模糊的良性属性,通过自然地去除细节,来引导中间样本,并使用被高斯模糊去除的信息作为结果来提高图像与输入信息的相关性。虽然模糊引导方法在中等引导规模上提高了样本质量,但它在大引导规模上难以复制结果,因为它经常引入整个区域的结构模糊性。因此,模糊引导方法难以将原始输入与降级输入的预测对齐。为了提高模糊引导方法在更大引导规模上的稳定性和有效性,自注意力引导方法尝试利用扩散模型的自注意力机制,因为现代扩散模型已经在其架构中包含了自注意力机制。
假设自注意力对于捕获核心的显著信息至关重要,自注意力引导方法使用扩散模型的自注意力图来对包含显著信息的区域进行对抗性模糊,并在此过程中使用所需的残差信息来引导扩散模型。然后,方法利用注意力图在扩散模型的逆过程中,提高图像质量,并使用自条件化来减少伪影,而无需额外的训练或外部信息。

总而言之,自注意力引导方法
- 是一种新颖的方法,利用扩散框架的内部自注意力图来提高生成样本图像的质量,而无需额外的训练或外部条件。
- SAG方法尝试将条件引导方法推广为无条件方法,可以与任何扩散模型集成,而无需额外的资源或外部条件,从而提高引导框架的适用性。
- SAG方法还尝试展示其与现有条件方法和框架的正交能力,从而通过与其他方法和模型的灵活集成来提高性能。
继续,自注意力引导方法从相关框架的发现中学习,包括去噪扩散模型、采样引导、生成式人工智能自注意力方法和扩散模型的内部表示。然而,在其核心,自注意力引导方法实现了来自DDPM或去噪扩散概率模型、分类器引导、分类器自由引导和扩散框架中自注意力的学习。我们将在下一节中深入讨论这些内容。
自注意力引导:预备知识、方法和架构
去噪扩散概率模型或DDPM
DDPM或去噪扩散概率模型是一种使用迭代去噪过程从白噪声中恢复图像的模型。传统上,DDPM模型在时间步长上接收输入图像和方差时间表,以使用前向过程(称为马尔可夫过程)获得图像。
分类器和分类器自由引导与GAN实现
GAN或生成式对抗网络具有独特的多样性与保真度的权衡能力,为了将GAN框架的这一能力带到扩散模型中,自注意力引导框架提出使用分类器引导方法,该方法使用额外的分类器。相反,分类器自由引导方法也可以在不使用额外分类器的情况下实现相同的结果。虽然该方法可以实现所需的结果,但由于需要额外的标签和额外的训练细节,从而增加了模型的复杂性,因此在计算上不可行。
扩散引导的泛化
虽然分类器和分类器自由引导方法可以实现所需的结果,并有助于扩散模型的条件生成,但它们依赖于额外的输入。对于任何给定的时间步长,扩散模型的输入由一般化条件和扰乱样本(不包括一般化条件)组成。此外,一般化条件包括扰乱样本中的内部信息、外部条件或两者的结合。所得的引导是使用具有预测一般化条件能力的虚拟回归器来实现的。
使用自注意力图提高图像质量
扩散引导的泛化意味着可以通过从扰乱样本中提取的显著信息来引导扩散模型的逆过程。基于此,自注意力引导方法有效地捕获了逆过程中的显著信息,同时限制了预训练扩散模型中离分布问题的风险。
模糊引导
自注意力引导中的模糊引导基于高斯模糊,一种线性滤波方法,其中输入信号与高斯滤波器卷积以生成输出。随着标准偏差的增加,高斯模糊减少了输入信号中的细节,并通过平滑它们使其变得局部不可区分。此外,实验表明输入信号和高斯模糊输出信号之间存在信息不平衡,其中输出信号包含更多的细节信息。
基于此学习,自注意力引导框架引入了模糊引导,一种简单直接的解决方案,以提高样本质量。模糊引导本质上是故意排除扩散过程中中间重构中的信息,并使用此信息来引导其预测以增加图像与输入信息的相关性。模糊引导基本上使原始预测与模糊输入预测更远。另外,高斯模糊的良性属性防止输出信号与原始信号相差太大,具有适中的偏差。在简单的术语中,模糊会自然地发生在图像中,使高斯模糊成为预训练扩散模型更合适的方法。
在自注意力引导管道中,输入信号首先使用高斯滤波器进行模糊,然后与额外的噪声一起扩散以产生输出信号。通过这样做,SAG管道减轻了模糊的副作用,即减少高斯噪声,并使引导依赖于内容而不是随机噪声。虽然模糊引导在中等引导规模上提供了令人满意的结果,但它在大引导规模上难以复制结果,因为它容易产生嘈杂的结果,如下图所示。

这些结果可能是由于模糊引导方法引入的全局模糊性所致,使得SAG管道难以将原始输入的预测与降级输入对齐,导致嘈杂的输出。
自注意力机制
如前所述,扩散模型通常具有内置的自注意力组件,这是扩散模型框架中的一个基本组件。自注意力机制在扩散模型的核心实现,并允许模型在生成过程中关注输入的显著部分,如下图所示,其中顶行是高频掩码,底行是最终生成图像的自注意力掩码。

所提出的自注意力引导方法建立在同样的原理上,并利用扩散模型中的自注意力图的能力。总体而言,自注意力引导方法模糊了输入信号或简单地说,隐藏了扩散模型关注的补丁中的信息。此外,自注意力引导中的输出信号包含输入信号的完整区域,这意味着它不会导致输入的结构模糊性,并解决了全局模糊的问题。然后,管道通过对自注意力图进行全局平均池化(GAP)来聚合自注意力图,并对最近邻居进行上采样以匹配输入信号的分辨率。
自注意力引导:实验和结果
为了评估其性能,自注意力引导管道使用8个Nvidia GeForce RTX 3090 GPU进行采样,并建立在预训练的IDDPM、ADM和稳定扩散框架之上。
无条件生成与自注意力引导
为了衡量SAG管道在无条件模型上的有效性并展示其无条件属性(分类器引导和分类器自由引导方法所不具备的),SAG管道在50,000个样本上运行,使用无条件预训练的框架。

如所观察到的,SAG管道的实施提高了无条件输入的FID、sFID和IS指标,同时降低了召回值。此外,SAG管道实施的定性改进在以下图像中显而易见,其中顶部的图像是ADM和稳定扩散框架的结果,而底部的图像是具有SAG管道的ADM和稳定扩散框架的结果。


有条件生成与SAG
SAG管道在无条件生成方面的集成可以实现异常的结果,并且SAG管道能够实现条件无关性,使其能够用于有条件生成。
稳定扩散与自注意力引导
尽管原始的稳定扩散框架可以生成高质量的图像,但将其与自注意力引导管道集成可以显著提高结果。为了评估其影响,开发人员使用空提示和每对图像的随机种子进行稳定扩散,并使用500对图像(有和没有自注意力引导)进行人工评估。结果如下图所示。

此外,SAG的实施可以提高稳定扩散框架的能力,因为将分类器自由引导与自注意力引导相结合可以扩大稳定扩散模型的范围以实现文本到图像的合成。此外,具有自注意力引导的稳定扩散模型生成的图像质量更高,伪影更少,得益于SAG管道的自条件化效果,如下图所示。

当前局限性
尽管自注意力引导管道的实施可以大大提高生成图像的质量,但它也有一些局限性。
一个主要的局限性是与分类器引导和分类器自由引导的正交性。如图所示,SAG的实施可以提高FID评分和预测评分,表明SAG管道包含一个可以与传统引导方法同时使用的正交组件。

然而,它仍然需要扩散模型以特定的方式进行训练,这增加了复杂性和计算成本。
此外,自注意力引导的实施不会增加内存或时间消耗,这表明SAG中掩码和模糊等操作的开销可以忽略不计。然而,它仍然会增加计算成本,因为它比无引导方法多了一个步骤。

最后的思考
在本文中,我们讨论了自注意力引导,一种新颖的引导方法,利用扩散模型中间样本中的内部信息来生成高质量的图像。自注意力引导基于简单的通用公式原理和中间样本中包含的内部信息也可以作为引导的假设。自注意力引导管道是一种无条件和无需训练的方法,可以应用于各种扩散模型,并使用自条件化来减少生成图像中的伪影并提高整体质量。












