关注我们.

人工智能

HD-Painter:使用扩散模型进行高分辨率文本引导图像修复

mm

发布时间

 on

HD-Painter:使用扩散模型进行高分辨率文本引导图像修复

扩散模型 毫无疑问,它们彻底改变了人工智能和机器学习行业,它们的实时应用程序已成为我们日常生活中不可或缺的一部分。在文本到图像模型展示出其卓越的能力之后,基于扩散的图像处理技术,例如可控生成、专业化和个性化图像合成、对象级图像编辑、提示条件变化和编辑,成为热门研究课题。及其在计算机视觉行业中的应用。

然而,尽管文本到图像框架具有令人印象深刻的功能和出色的结果,特别是文本到图像修复框架,仍然具有潜在的发展领域。其中包括理解全局场景的能力,尤其是在高扩散时间步长中对图像进行去噪时。为了解决这个问题,研究人员推出了 HD-Painter,这是一个完全无需培训的框架,可以准确地遵循提示指令并连贯地缩放到高分辨率图像修复。 HD-Painter 框架采用 Prompt Aware Introverted Attention (PAIntA) 层,该层利用提示信息来增强自我注意力分数,从而生成更好的文本对齐。

为了进一步提高提示的连贯性,HD-Painter 模型引入了重新加权注意力评分指导 (RASG) 方法。这种方法将事后采样策略无缝集成到 DDIM 组件的一般形式中,从而防止分布外的潜在变化。此外,HD-Painter 框架还具有专门为修复而定制的超分辨率技术,使其能够扩展到更大的尺度并以高达 2K 的分辨率完成图像中缺失的区域。

HD-Painter:文本引导图像修复

近几个月来,文本到图像的扩散模型确实成为人工智能和机器学习行业的一个重要话题,模型在各种实际应用中展示了令人印象深刻的实时功能。预训练的文本到图像生成模型(例如 DALL-E、Imagen 和 Stable Diffusion)已通过在后向扩散过程中将去噪(生成)未知区域与扩散的已知区域合并来显示其对于图像补全的适用性。尽管产生了视觉上吸引人且协调一致的输出,但现有模型很难理解全局场景,特别是在高扩散时间步长去噪过程下。通过修改预先训练的文本到图像扩散模型以纳入额外的上下文信息,可以对它们进行微调以实现文本引导的图像补全。

此外,在扩散模型中,文本引导的修复和文本引导的图像完成是研究人员感兴趣的主要领域。这种兴趣是由以下事实驱动的:文本引导的修复模型可以根据文本提示在输入图像的特定区域生成内容,从而产生潜在的应用,例如修饰特定图像区域、修改颜色或衣服等主题属性以及添加或添加替换对象。总之,文本到图像的扩散模型最近取得了前所未有的成功,因为它们具有异常逼真和视觉吸引力的生成能力。

然而,大多数现有框架在两种情况下都表现出迅速的忽视。第一个是 背景优势 当模型通过忽略后台提示来完成未知区域时,而第二种情况是 附近物体优势 当模型使用视觉上下文似然而不是输入提示将已知区域对象传播到未知区域时。这两个问题有可能是由于原版修复扩散能够准确解释文本提示或将其与从已知区域获得的上下文信息混合的能力造成的。 

为了解决这些障碍,HD-Painter 框架引入了 Prompt Aware Introverted Attention 或 PAIntA 层,该层使用提示信息来增强自我注意力分数,最终生成更好的文本对齐。 PAIntA 使用给定的文本条件来增强 自我关注 分数,旨在减少来自图像区域的非提示相关信息的影响,同时增加与提示对齐的已知像素的贡献。为了进一步增强生成结果的文本对齐,HD-Painter 框架实施了一种利用交叉注意力分数的事后指导方法。然而,普通事后指导机制的实施可能会由于扩散方程中的附加梯度项而导致分布偏移。分配之外的转变最终将导致生成输出的质量下降。为了解决这个障碍,HD-Painter 框架实现了重新加权注意力分数指导或 RASG,这是一种将事后采样策略无缝集成到 DDIM 组件的一般形式中的方法。它允许框架通过引导样本朝向提示对齐的潜在样本,并将它们包含在训练有素的域中,来生成视觉上合理的修复结果。

通过在其架构中部署 RASH 和 PAIntA 组件,HD-Painter 框架比现有框架具有显着优势,包括最先进的、修复和文本到图像扩散模型,因为它设法解决了现有的提示忽略问题。此外,RASH 和 PAIntA 组件都提供即插即用功能,使它们能够与扩散基础修复模型兼容,以应对上述挑战。此外,通过实施时间迭代混合技术并利用 高分辨率扩散模型,HD-Painter 管道可以有效运行高达 2K 分辨率的修复。 

综上所述,HD-Painter旨在在该领域做出以下贡献:

  1. 它旨在通过在其架构中实现提示感知内向注意力或 PAIntA 层来解决文本引导图像修复框架所经历的背景和附近对象优势的提示忽略问题。 
  2. 它旨在通过在其架构中实现重新加权注意力分数指导或 RASG 层来改善输出的文本对齐,使 HD-Painter 框架能够执行事后引导采样,同时防止轮班分布失调。 
  3. 设计一种有效的免训练文本引导图像完成管道,其性能优于现有的最先进框架,并使用简单而有效的修复专用超分辨率框架来执行高达 2K 分辨率的文本引导图像修复。 

HD-Painter:方法和架构

在我们查看架构之前,了解构成 HD-Painter 框架基础的三个基本概念至关重要: 图像修复、扩散框架的事后指导、 修复特定的建筑块。 

图像修复是一种旨在填充图像中缺失区域的方法,同时确保生成图像的视觉吸引力。传统的深度学习框架实现了使用已知区域来传播深度特征的方法。然而,扩散模型的引入导致了修复模型的发展,特别是文本引导的图像修复框架。传统上,预先训练的文本到图像扩散模型通过在采样过程中使用已知区域的噪声版本来替换潜在的未屏蔽区域。尽管这种方法在一定程度上有效,但它会显着降低生成输出的质量,因为去噪网络只能看到已知区域的噪声版本。为了解决这个障碍,一些方法旨在微调预先训练的文本到图像模型,以实现文本引导的图像修复。通过实施这种方法,该框架能够通过串联生成随机掩模,因为该模型能够在未掩模区域上调节去噪框架。 

接下来,传统的深度学习模型实现了特殊的设计层,以实现有效的修复,一些框架能够有效地提取信息,并通过引入特殊的卷积层来处理图像的已知区域,生成视觉上吸引人的图像。一些框架甚至在其架构中添加了上下文注意层,以减少所有不必要的繁重计算要求,以实现高质量的修复。 

最后,事后指导方法是后向扩散采样方法,指导下一步潜在预测实现特定的函数最小化目标。事后指导方法在生成视觉内容时非常有帮助,尤其是在存在额外约束的情况下。然而,事后引导方法有一个主要缺点:众所周知,它们会导致图像质量下降,因为它们往往会通过梯度项来改变潜在生成过程。 

谈到 HD-Painter 的架构,该框架首先制定了文本引导的图像完成问题,然后引入了两种扩散模型,即稳定修复和 稳定扩散。 HD-Painter 模型随后引入了 PAIntA 和 RASG 模块,最后我们得出了修复特定的超分辨率技术。 

稳定的扩散和稳定的修复

稳定扩散是一种在自动编码器的潜在空间内运行的扩散模型。对于文本到图像的合成,稳定扩散框架实现了文本提示来指导该过程。引导功能的结构类似于 UNet 架构,交叉注意力层将其限制在文本提示上。此外,稳定扩散模型可以通过一些修改和微调来执行图像修复。为了实现这一点,编码器生成的掩模图像的特征与缩小的二进制掩模连接到潜伏。然后将得到的张量输入到 UNet 架构中以获得估计的噪声。然后,该框架将新添加的卷积滤波器初始化为零,同时使用稳定扩散模型中的预训练检查点初始化 UNet 的其余部分。 

上图展示了 HD-Painter 框架的概述,该框架由两个阶段组成。在第一阶段,HD-Painter 框架实现文本引导的图像绘制,而在第二阶段,模型修复输出的特定超分辨率。为了填充任务区域并与输入提示保持一致,该模型采用预先训练的修复扩散模型,用 PAIntA 层替换自注意力层,并实现 RASG 机制来执行后向扩散过程。然后,模型对最终估计的潜在图像进行解码,从而生成修复图像。 HD-Painter然后实现超稳定扩散模型来修复原始尺寸图像,并实现以低分辨率输入图像为条件的稳定扩散框架的扩散后向过程。该模型在已知区域中的每个步骤之后将去噪预测与原始图像的编码混合,并导出下一个潜在变量。最后,该模型对潜在数据进行解码并实现泊松混合以避免边缘伪影。 

提示内向注意力或 PAIntA

现有的修复模型(例如稳定修复)往往更多地依赖于修复区域周围的视觉上下文,而忽略输入的用户提示。根据用户体验,这个问题可以分为两类:附近物体优势和背景优势。视觉上下文对输入提示的支配问题可能是由于自注意力层的唯一空间和无提示性质造成的。为了解决这个问题,HD-Painter 框架引入了 Prompt Aware Introverted Attention 或 PAIntA,它使用交叉注意矩阵和修复掩模来控制未知区域中自注意层的输出。 

Prompt Aware Introverted Attention 组件首先应用投影层来获取键、值和查询以及相似度矩阵。然后,模型调整已知像素的注意力分数,以减轻已知区域对未知区域的强烈影响,并利用文本提示定义新的相似度矩阵。 

重新调整注意力评分指南或 RASG

HD-Painter框架采用事后采样引导方法,进一步增强生成与文本提示的对齐。与目标函数一起,事后采样指导方法旨在利用交叉注意层的开放词汇分割特性。然而,这种普通的事后指导方法有可能改变潜在的扩散域,这可能会降低生成图像的质量。为了解决这个问题,HD-Painter 模型实现了重新加权注意力分数指导或 RASG 机制,该机制引入了梯度重新加权机制,从而保留了潜在域。 

HD-Painter:实验和结果

为了分析其性能,我们将 HD-Painter 框架与当前最先进的模型进行了比较,包括稳定修复、GLIDE 和 BLD 或混合潜在扩散超过 10000 个随机样本,其中选择提示作为所选实例蒙版的标签。 

可以看出,HD-Painter 框架在三个不同指标上明显优于现有框架,特别是在 CLIP 指标上提高了 1.5 个百分点,生成的准确度分数与其他最先进的方法相差约 10% 。 

接下来,下图展示了 HD-Painter 框架与其他修复框架的定性比较。可以观察到,其他基线模型要么将图像中的缺失区域重建为已知区域对象的延续,而忽略提示,要么生成背景。另一方面,HD-Painter 框架由于在其架构中实现了 PAIntA 和 RASG 组件,因此能够成功生成目标对象。 

总结

在本文中,我们讨论了 HD-Painter,这是一种训练自由文本引导的高分辨率修复方法,可解决现有修复框架遇到的挑战,包括提示忽略以及附近和背景对象主导。 HD-Painter 框架实现了 Prompt Aware Introverted Attention 或 PAIntA 层,该层使用提示信息来增强自我注意力分数,最终产生更好的文本对齐生成。 

为了进一步提高提示的连贯性,HD-Painter 模型引入了重新加权注意力分数指导或 RASG 方法,该方法将事后采样策略无缝集成到 DDIM 组件的一般形式中,以防止分布外的潜在变化。此外,HD-Painter框架引入了专门为修复而定制的超分辨率技术,可以扩展到更大的尺度,并允许HD-Painter框架以高达2K的分辨率完成图像中缺失的区域。

“职业工程师,心灵作家”。 Kunal 是一位技术作家,对人工智能和机器学习有着深厚的热爱和理解,致力于通过他引人入胜且信息丰富的文档来简化这些领域的复杂概念。