Connect with us

人工智能

概念滑块:在LoRA适配器中实现扩散模型的精确控制

mm

多亏了它们的能力,文本到图像扩散模型已经在艺术界变得非常流行。然而,当前的模型,包括最先进的框架,往往难以保持对生成图像中的视觉概念和属性的控制,导致不满意的输出。大多数模型仅依赖文本提示,这使得连续属性(如天气的强度、阴影的清晰度、面部表情或人物的年龄)难以精确控制。这使得最终用户难以调整图像以满足他们的特定需求。另外,尽管这些生成框架产生高质量和真实的图像,但它们容易出现像扭曲的面部或缺失的手指这样的失真。

为了克服这些局限性,开发人员提出了使用可解释的概念滑块。这些滑块承诺为最终用户提供更大的控制力,以控制视觉属性,提高图像生成和编辑在扩散模型中的质量。扩散模型中的概念滑块通过识别与单个概念相对应的参数方向并最小化对其他属性的干扰来工作。该框架使用样本图像或一组提示创建这些滑块,从而为文本和视觉概念建立方向。

最终,使用概念滑块在文本到图像扩散模型中可以实现最小程度的干扰和对最终输出的增强控制,同时也可以提高感知的真实性而不改变图像的内容,从而生成真实的图像。在本文中,我们将更深入地讨论在文本到图像框架中使用概念滑块的概念,并分析其使用如何导致更高质量的AI生成图像。

概念滑块介绍

如前所述,当前的文本到图像扩散框架往往难以控制生成图像中的视觉概念和属性,导致不满意的结果。此外,许多这些模型在调节连续属性方面存在困难,这进一步导致了不满意的输出。概念滑块可以帮助缓解这些问题,赋予内容创作者和最终用户对图像生成过程的增强控制,并解决当前框架面临的挑战。

大多数当前的文本到图像扩散模型仅依赖于直接的文本提示修改来控制图像属性。虽然这种方法可以实现图像生成,但它不是最优的,因为改变提示可能会大幅改变图像的结构。另一种方法是使用后处理技术,它们反转扩散过程并修改交叉注意力以编辑视觉概念。然而,后处理技术有局限性,仅支持有限数量的同时编辑,并且需要为每个新概念进行单独的干扰传递。此外,如果不仔细设计,它们可能会引入概念纠缠。

相比之下,概念滑块提供了一种更高效的解决方案,用于图像生成。这些轻量级、易于使用的适配器可以应用于预训练模型,增强对所需概念的控制和精度,在单次干扰传递中具有最小的纠缠。概念滑块还可以编辑不受文本描述覆盖的视觉概念,这是它们与基于文本提示的编辑方法的区别。虽然基于图像的自定义方法可以有效地为基于图像的概念添加令牌,但它们在编辑图像方面很难实施。概念滑块另一方面,允许最终用户提供一小部分成对的图像来定义所需的概念。然后,滑块将此概念泛化并自动将其应用于其他图像,旨在增强真实性并修复手部等失真。

概念滑块旨在从四个生成AI和扩散框架概念中学习和解决问题:图像编辑、指导方法、模型编辑和语义方向。

图像编辑

当前的AI框架要么专注于使用条件输入来指导图像结构,要么操纵源图像与其目标提示的交叉注意力来实现单图像编辑在文本到图像扩散框架中。因此,这些方法只能在单个图像上实施,并且需要每个图像的潜在基础优化,因为随着提示的时间步骤,几何结构会随时间变化。

指导方法

基于分类器的指导方法的使用已经表明了它们增强生成图像质量和提高文本图像对齐能力的能力。通过在干扰期间纳入指导项,该方法提高了扩散框架继承的有限组合性,并且可以用于引导不安全的概念在扩散框架中。

模型编辑

使用概念滑块也可以被视为一种模型编辑技术,它使用低秩适配器输出单个语义属性,使得可以进行连续控制以与属性对齐。基于微调的自定义方法然后用于个性化框架以添加新概念。另外,自定义扩散技术提出了一个方法来微调交叉注意力层以将新视觉概念纳入预训练扩散模型中。相反,文本扩散技术提出了优化嵌入向量以激活模型能力并将文本概念引入框架的方法。

GAN中的语义方向

操作语义属性是生成对抗网络的关键属性,潜在空间轨迹被发现以自监督的方式对齐。在扩散框架中,这些潜在空间轨迹存在于U-Net架构的中间层中,扩散框架中的潜在空间的主要方向捕获全局语义。概念滑块直接训练对应特殊属性的低秩子空间,并通过使用文本或图像对来优化全局方向,获得精确和局部化的编辑方向。

概念滑块:架构和工作原理

扩散模型和LoRA或低秩适配器

扩散模型本质上是生成AI框架的一个子类,它们的工作原理是通过反转扩散过程来合成数据。前向扩散过程最初将噪声添加到数据中,因此从有组织的状态转变为完全的高斯噪声状态。扩散模型的主要目标是通过逐渐去噪图像并以随机高斯噪声为输入来生成图像,同时还可以预测条件和时间步骤的真实噪声。在实际应用中,扩散框架的主要目标是预测条件和时间步骤的真实噪声。

LoRA或低秩适配器技术将权重更新分解为预训练模型的输入和输出维度,并将更新约束为低维子空间。这种技术使得在下游任务中高效地适应大型预训练框架成为可能。

概念滑块

概念滑块的主要目标是作为一种方法来微调LoRA适配器在扩散框架中,以便更好地控制概念目标图像,并且以下图所示。概念滑块在目标概念上学习低秩参数方向,以增加或减少特定属性的表达。对于模型和其目标概念,概念滑块的主要目标是获得一个增强的模型,该模型修改了图像在条件概念上的属性增强和抑制的可能性,以增加属性增强的可能性并减少属性抑制的可能性。使用重参数化和Tweedie公式,框架引入了一个时间变化的噪声过程,并将每个分数表示为去噪预测。此外,解缠 objetivo 微调概念滑块中的模块,同时保持预训练权重不变,并且LoRA公式中引入的缩放因子在干扰期间被修改。缩放因子还可以通过修改框架而不重新训练来增强编辑的强度,如下图所示。

以前的框架使用的编辑方法通过重新训练框架并增加指导来实现更强的编辑。然而,在干扰期间缩放缩放因子会产生相同的编辑结果,而无需增加重新训练的成本和时间。

学习视觉概念

概念滑块的设计目的是控制文本提示无法定义的视觉概念,这些滑块利用小型数据集,既可以是成对的图像,也可以是训练概念。图像对之间的对比使得滑块可以学习视觉概念。另外,概念滑块的训练过程优化了LoRA组件,这些组件既可以在前向方向也可以在反向方向中实现。因此,LoRA组件与视觉效果在两个方向上的方向对齐。

概念滑块:实现结果

为了分析性能的提高,开发人员主要在Stable Diffusion XL上评估了概念滑块的使用,这是一个高分辨率的1024像素框架,并且还在Stable Diffusion v1.4框架上进行了额外的实验,每个模型都训练了500个epoch。

文本概念滑块

为了评估文本概念滑块的性能,它们在30个基于文本的概念上进行了验证,并且该方法与两个基线进行了比较,这两个基线使用标准文本提示进行固定数量的时间步骤,然后通过添加提示来引导图像。如以下图所示,使用概念滑块的结果始终具有更高的CLIP评分和与原始框架相比的LPIPS评分减少。

如上图所示,使用概念滑块可以在保持图像整体结构的同时实现对所需属性的精确编辑。

视觉概念滑块

仅使用文本提示的文本到图像扩散模型通常难以保持对视觉属性(如面部毛发或眼形)的更高程度的控制。为了确保对细粒度属性的更好控制,概念滑块利用了可选的文本指导和图像数据集。如以下图所示,概念滑块为“眼大小”和“眉毛形状”创建了单独的滑块,这些滑块使用图像对来捕捉所需的转换。

结果可以通过提供特定的文本来进一步完善,这样方向就可以专注于该面部区域,并创建具有逐步控制的滑块来控制目标属性。

组合滑块

使用概念滑块的一个主要优势是其组合性,它允许用户组合多个滑块以获得增强的控制,而不是一次专注于单个概念,这可以归功于概念滑块中使用的低秩方向。另外,由于概念滑块是轻量级的LoRA适配器,因此它们易于共享,并且可以轻松叠加在扩散模型上。用户还可以同时调整多个旋钮来引导复杂的生成,方法是下载有趣的滑块集。

以下图表演示了概念滑块的组合能力,并且多个滑块从左到右逐步组合,每行允许以增强的控制来遍历高维概念空间。

提高图像质量

尽管最先进的文本到图像扩散框架和大型生成模型(如Stable Diffusion XL模型)能够生成真实和高质量的图像,但它们经常受到图像失真(如模糊或扭曲的物体)的困扰,即使这些最先进框架的参数具备生成高质量输出的潜力。使用概念滑块可以通过识别低秩参数方向来生成具有较少失真的图像,从而解锁这些模型的真正能力。

修复手

生成具有真实外观的手的图像一直是扩散框架面临的挑战,使用概念滑块可以直接控制手的失真。以下图表演示了使用“修复手”概念滑块的效果,该滑块允许框架生成具有更真实的手的图像。

修复滑块

使用概念滑块不仅可以生成更真实的手,还表明了提高图像整体真实性的潜力。概念滑块可以识别单个低秩参数方向,从而使图像从常见的失真问题中转变,并且结果如以下图所示。

总结

在本文中,我们讨论了概念滑块,这是一种新的简单却可扩展的范式,能够在扩散模型中实现可解释的控制。使用概念滑块的目标是解决当前文本到图像扩散框架面临的难以控制生成图像中的视觉概念和属性的问题,这通常导致不满意的输出。此外,大多数文本到图像扩散模型在调节图像中的连续属性方面存在困难,这最终导致了不满意的输出。使用概念滑块可能使文本到图像扩散框架能够缓解这些问题,并赋予内容创作者和最终用户对图像生成过程的增强控制,并解决当前框架面临的挑战。

专业为工程师,心为作家。 Kunal是一名技术作家,对AI和ML有着深厚的热爱和理解,致力于通过其引人入胜和信息丰富的文档来简化这些领域中的复杂概念。