人工智能

HD-Painter：基于扩散模型的高分辨率文本引导图像修复

发布于 2024年2月13日

更新于 2026年5月22日

作者

Kunal Kejriwal

HD-Painter : High Resolution Text-Guided Image Inpainting with Diffusion Models

扩散模型无疑已经彻底改变了 AI 和 ML 行业，其在现实世界中的应用已经成为我们日常生活中不可或缺的一部分。文本到图像模型展示了其令人惊叹的能力后，基于扩散的图像操作技术，如可控生成、专用和个性化图像合成、对象级图像编辑、提示条件变体和编辑等，已经成为计算机视觉行业中热门的研究话题。

然而，尽管它们具有令人印象深刻的能力和异常的结果，文本到图像框架，特别是文本到图像修复框架，仍然有潜在的发展空间。这些包括理解全局场景的能力，特别是在高扩散时间步长中对图像进行去噪。为了解决这个问题，研究人员引入了 HD-Painter，一种完全无需训练的框架，它可以准确地遵循提示指令，并可以扩展到高分辨率图像修复。HD-Painter 框架采用了一种称为 PAIntA 的提示感知内向注意力层，它利用提示信息来增强自注意力分数，从而实现更好的文本对齐生成。

为了进一步提高提示的连贯性，HD-Painter 模型引入了一种称为 RASG 的重权注意力分数指导方法。这种方法将后验采样策略无缝地集成到 DDIM 组件的通用形式中，防止了潜在的分布偏移。另外，HD-Painter 框架具有专门为修复设计的超分辨率技术，使其能够扩展到更大的尺度，并可以用高达 2K 的分辨率完成图像中缺失的区域。

HD-Painter：文本引导图像修复

文本到图像扩散模型确实是近几个月 AI 和 ML 行业中的一个重要话题，模型展示了令人印象深刻的实时能力，涵盖了各种实际应用。预训练的文本到图像生成模型，如 DALL-E、Imagen 和 Stable Diffusion，已经展示了其在图像完成方面的适用性，通过在反向扩散过程中将去噪（生成）的未知区域与扩散的已知区域合并。尽管这些模型产生了视觉上吸引人和协调的输出，但现有的模型仍然难以理解全局场景，特别是在高扩散时间步长的去噪过程中。通过修改预训练的文本到图像扩散模型以纳入额外的上下文信息，可以对其进行微调以实现文本引导的图像完成。

此外，在扩散模型中，文本引导修复和文本引导图像完成是研究人员感兴趣的主要领域。这种兴趣是由文本引导修复模型可以根据文本提示在输入图像的特定区域生成内容这一事实驱动的，从而导致了潜在的应用，如修饰特定图像区域、修改主题属性（如颜色或衣服）以及添加或替换对象。总之，文本到图像扩散模型最近取得了前所未有的成功，主要归功于其异常真实和视觉上吸引人的生成能力。

然而，大多数现有的框架在两个场景中表现出提示忽略。第一个是 背景主导 当模型通过忽略背景中的提示来完成未知区域，而第二个场景是 附近对象主导 当模型使用视觉上下文的可能性而不是输入提示来将已知区域的对象传播到未知区域。这种视觉上下文主导提示的现象可能是由于自注意力层的空间性质和无提示性质所致。

为了解决这些障碍，HD-Painter 框架引入了提示感知内向注意力或 PAIntA 层，该层使用提示信息来增强自注意力分数，从而实现更好的文本对齐生成。PAIntA 使用给定的文本条件来增强自注意力分数，目标是减少已知区域对未知区域的强烈影响，同时增加与提示对齐的已知像素的贡献。为了进一步增强生成结果的文本对齐，HD-Painter 框架实现了一种后验指导方法，该方法利用跨注意力分数。然而，原始后验指导机制的实现可能会导致潜在的分布偏移，从而降低生成图像的质量。为了解决这个问题，HD-Painter 框架实现了一种称为 RASG 的重权注意力分数指导机制，该机制引入了一种梯度重权机制，从而实现潜在域的保留。

通过在其架构中部署 RASH 和 PAIntA 组件，HD-Painter 框架在解决现有的提示忽略问题方面比现有的（包括最先进的）修复和文本到图像扩散模型具有显著的优势。此外，RASH 和 PAIntA 组件提供了即插即用的功能，使其能够与基于扩散的修复模型兼容，以解决上述挑战。通过实现时间迭代混合技术和利用高分辨率扩散模型的能力，HD-Painter 流水线可以有效地处理高达 2K 分辨率的修复。

总之，HD-Painter 的目标是通过以下方式为该领域做出贡献：

它旨在通过在其架构中实现提示感知内向注意力或 PAIntA 层来解决文本引导图像修复框架中存在的提示忽略问题，特别是背景和附近对象的主导问题。
它旨在通过在其架构中实现重权注意力分数指导或 RASG 层来提高输出的文本对齐，从而实现后验指导采样，同时防止潜在的分布偏移。
设计一个有效的无需训练的文本引导图像完成流水线，能够超越现有的最先进框架，并使用简单而有效的修复专用超分辨率框架来执行高达 2K 分辨率的文本引导图像修复。

HD-Painter：方法和架构

在我们深入探讨架构之前，了解 HD-Painter 框架的三个基本概念至关重要： 图像修复、扩散框架中的后验指导、 以及 修复专用架构块。

图像修复是一种旨在填充图像中缺失区域的方法，同时确保生成图像的视觉吸引力。传统的深度学习框架实现了使用已知区域来传播深度特征的方法。然而，扩散模型的引入导致了修复模型的演变，特别是文本引导图像修复框架。传统上，预训练的文本到图像扩散模型通过在采样过程中使用已知区域的噪声版本来替换潜在的未知区域。虽然这种方法在一定程度上有效，但它会显著降低生成输出的质量，因为去噪网络只能看到已知区域的噪声版本。为了解决这个障碍，一些方法旨在微调预训练的文本到图像模型以实现文本引导图像完成。通过实现这种方法，框架能够生成一个随机掩码，并通过将模型的去噪网络条件化为未掩码区域来实现文本引导图像完成。

继续讨论，传统的深度学习模型实现了专门的设计层以实现高效的修复，一些框架能够有效地提取信息并通过引入特殊的卷积层来处理图像的已知区域，从而生成视觉上吸引人的图像。一些框架甚至在其架构中添加了上下文注意力层，以减少高质量修复所需的所有对所有自注意力的重计算。

最后，后验指导方法是反向扩散采样方法，用于引导下一步潜在预测朝向特定的函数最小化目标。后验指导方法在生成视觉内容（尤其是在存在额外约束的情况下）方面非常有用。然而，后验指导方法有一个主要缺点：它们会导致图像质量降低，因为它们会通过梯度项偏移潜在生成过程。

接下来讨论 HD-Painter 的架构，框架首先公式化文本引导图像完成问题，然后引入两个扩散模型，分别是稳定修复和稳定扩散。HD-Painter 模型然后引入 PAIntA 和 RASG 块，最后我们得到修复专用的超分辨率技术。

稳定扩散和稳定修复

稳定扩散是一种在自编码器的潜在空间中操作的扩散模型。对于文本到图像合成，稳定扩散框架实现了一种文本提示来引导该过程。引导函数具有类似于 UNet 架构的结构，并且条件化在文本提示上。另外，稳定扩散模型可以通过一些修改和微调来执行图像修复。为了实现这一点，编码器生成的掩码图像的特征与二进制掩码的下采样相结合，得到潜在的张量，然后输入到 UNet 架构中以获得估计的噪声。框架然后初始化新添加的卷积滤波器为零，而 UNet 的其余部分使用来自稳定扩散模型的预训练检查点进行初始化。

上图展示了 HD-Painter 框架的概述，包括两个阶段。在第一个阶段，HD-Painter 框架实现了文本引导图像绘制，而在第二个阶段，模型修复特定的超分辨率输出。为了填充缺失区域并保持与输入提示的一致性，模型采用预训练的修复扩散模型，替换自注意力层为 PAIntA 层，并实现 RASG 机制以执行反向扩散过程。模型然后解码最终估计的潜在结果，得到修复后的图像。HD-Painter 然后实现稳定扩散模型以修复原始大小的图像，并条件化在低分辨率输入图像上，执行稳定扩散框架的反向扩散过程。在每一步中，模型将去噪预测与原始图像的编码混合，并推导出下一个潜在。最后，模型解码潜在并实现泊松混合以避免边缘伪影。

提示感知内向注意力或 PAIntA

现有的修复模型，如稳定修复，往往更依赖于修复区域周围的视觉上下文，并忽略输入的用户提示。根据用户体验，这个问题可以分为两个类别：附近对象的主导和背景的主导。视觉上下文主导提示的现象可能是由于自注意力层的空间性质和无提示性质所致。为了解决这个问题，HD-Painter 框架引入了提示感知内向注意力或 PAIntA，它使用跨注意力矩阵和修复掩码来控制自注意力层在未知区域的输出。

提示感知内向注意力组件首先应用投影层以获取键、值和查询，以及相似性矩阵。模型然后调整已知像素的注意力分数，以减少已知区域对未知区域的强烈影响，并通过利用文本提示定义一个新的相似性矩阵。

重权注意力分数指导或 RASG

HD-Painter 框架采用了一种后验采样指导方法，以进一步增强生成的对齐与文本提示。与目标函数一起，后验采样指导方法旨在利用跨注意力层的开放词汇分割属性。然而，原始后验指导方法的这种方法可能会导致潜在的分布偏移，从而降低生成图像的质量。为了解决这个问题，HD-Painter 模型实现了一种称为 RASG 的重权注意力分数指导机制，该机制引入了一种梯度重权机制，从而实现潜在域的保留。

HD-Painter：实验和结果

为了分析其性能，HD-Painter 框架与当前的最先进模型进行了比较，包括稳定修复、GLIDE 和 BLD 或混合潜在扩散，比较的样本数量为 10000 个，提示被选为所选实例掩码的标签。

如图所示，HD-Painter 框架在三个不同的指标上比现有的框架表现出色，特别是在 CLIP 指标上的 1.5 分的改进和生成准确性得分与其他最先进方法相比的 10% 差异。

继续讨论，下图展示了 HD-Painter 框架与其他修复框架的定性比较。如图所示，其他基线模型要么将缺失区域重构为已知区域对象的延续而忽略提示，要么生成背景。另一方面，HD-Painter 框架能够成功地生成目标对象，这归功于其架构中实现的 PAIntA 和 RASG 组件。

最终思考

在本文中，我们讨论了 HD-Painter，一种无需训练的文本引导高分辨率修复方法，它解决了现有的修复框架面临的挑战，包括提示忽略、附近对象的主导和背景的主导。HD-Painter 框架实现了一种提示感知内向注意力或 PAIntA 层，该层使用提示信息来增强自注意力分数，从而实现更好的文本对齐生成。

为了进一步提高提示的连贯性，HD-Painter 模型引入了一种重权注意力分数指导或 RASG 方法，该方法将后验采样策略无缝地集成到 DDIM 组件的通用形式中，防止了潜在的分布偏移。另外，HD-Painter 框架引入了一种专门为修复设计的超分辨率技术，使其能够扩展到更大的尺度，并可以用高达 2K 的分辨率完成图像中缺失的区域。