人工智能

HD-Painter：高分辨率文本引导图像修复与扩散模型

Published February 13, 2024

Updated April 4, 2026

Kunal Kejriwal

HD-Painter : High Resolution Text-Guided Image Inpainting with Diffusion Models

扩散模型无疑已经革新了 AI 和 ML 行业，其在实时应用中的作用已经成为我们日常生活中不可或缺的一部分。在文本到图像模型展示了其卓越的能力之后，扩散基图像操作技术，如可控生成、专业和个性化图像合成、对象级图像编辑、提示条件变体和编辑等，成为热门的研究话题，因为它们在计算机视觉行业中有着广泛的应用。

然而，尽管它们具有令人印象深刻的能力和卓越的结果，文本到图像框架，特别是文本到图像修复框架，仍然有潜在的发展空间。这些包括理解全局场景的能力，特别是在高扩散时间步长中对图像进行去噪时。为了解决这个问题，研究人员引入了 HD-Painter，一种完全无需训练的框架，它能够准确地遵循提示指令，并且可以扩展到高分辨率图像修复。HD-Painter 框架采用了提示感知内向注意力（PAIntA）层，该层利用提示信息来增强自注意力评分，从而实现更好的文本对齐生成。

为了进一步提高提示的一致性，HD-Painter 模型引入了重新加权注意力评分指导（RASG）方法。这种方法将后置采样策略无缝地集成到 DDIM 组件的通用形式中，防止潜在的偏移。另外，HD-Painter 框架具有专门为修复设计的超分辨率技术，使其能够扩展到更大的尺度，并且可以用高达 2K 的分辨率完成图像中缺失的区域。

HD-Painter：文本引导图像修复

文本到图像扩散模型确实是近几个月 AI 和 ML 行业中的一个重要话题，模型展示了令人印象深刻的实时能力，涵盖了各种实际应用。像 DALL-E、Imagen 和 Stable Diffusion 这样的预训练文本到图像生成模型已经展示了其通过在后向扩散过程中将去噪（生成）的未知区域与扩散的已知区域合并来完成图像的能力。尽管这些模型产生了视觉上吸引人且协调的输出，但现有的模型仍然难以理解全局场景，特别是在高扩散时间步长的去噪过程中。通过修改预训练的文本到图像扩散模型以纳入额外的上下文信息，可以对其进行微调以实现文本引导的图像完成。

此外，在扩散模型中，文本引导修复和文本引导图像完成是研究人员感兴趣的主要领域。这种兴趣是由文本引导修复模型可以根据文本提示在输入图像的特定区域生成内容这一事实驱动的，从而导致了潜在的应用，如修饰特定图像区域、修改主题属性（如颜色或衣服）以及添加或替换对象。总之，文本到图像扩散模型最近取得了前所未有的成功，这是由于它们具有异常的真实性和视觉吸引力。

然而，大多数现有的框架在两个场景中表现出提示忽略的特点。第一个是 背景主导性 ，即模型通过忽略背景中的提示来完成未知区域，而第二个场景是 附近对象主导性 ，即模型使用视觉上下文的可能性将已知区域的对象传播到未知区域，而不是使用输入提示。可能，这两个问题都是由于扩散修复的纯净形式无法准确地解释文本提示或将其与来自已知区域的上下文信息混合所致。

为了解决这些障碍，HD-Painter 框架引入了提示感知内向注意力（PAIntA）层，该层使用提示信息来增强自注意力评分，从而实现更好的文本对齐生成。PAIntA 使用给定的文本条件来增强自注意力评分，目标是减少图像区域中与提示无关的信息的影响，同时增加与提示对齐的已知像素的贡献。为了进一步增强生成结果的文本对齐，HD-Painter 框架实现了一个后置指导方法，该方法利用了跨注意力评分。然而，原始后置指导机制的实现可能会导致潜在的偏移，这是由于扩散方程中增加的梯度项所致。潜在的偏移最终会导致生成输出的质量下降。为了解决这个障碍，HD-Painter 框架实现了重新加权注意力评分指导（RASG），一种将后置采样策略无缝地集成到 DDIM 组件中的方法。它允许框架通过引导样本朝向提示对齐的潜在变量并将其保持在训练域中来生成视觉上合理的修复结果。

通过在其架构中部署 RASH 和 PAIntA 组件，HD-Painter 框架在现有的、包括最先进的、修复和文本到图像扩散模型中占有显著的优势，因为它能够解决现有的提示忽略问题。此外，RASH 和 PAIntA 组件提供了即插即用功能，允许它们与扩散基修复模型兼容，以解决上述挑战。另外，通过实施时间迭代混合技术和利用高分辨率扩散模型的能力，HD-Painter 流水线可以有效地处理高达 2K 分辨率的修复。

总之，HD-Painter 致力于在以下方面做出贡献：

它旨在通过在其架构中实施提示感知内向注意力（PAIntA）层来解决文本引导图像修复框架中存在的提示忽略问题，包括背景主导性和附近对象主导性。
它旨在通过在其架构中实施重新加权注意力评分指导（RASG）层来提高输出的文本对齐，允许 HD-Painter 框架执行后置引导采样，同时防止潜在的偏移。
设计一个有效的无需训练的文本引导图像完成流水线，能够超越现有的最先进框架，并使用简单而有效的修复专用超分辨率框架来执行高达 2K 分辨率的文本引导图像修复。

HD-Painter：方法和架构

在我们查看架构之前，了解 HD-Painter 框架的三个基本概念至关重要： 图像修复、扩散框架中的后置指导 和 修复特定架构块。

图像修复是一种旨在填充图像中缺失区域的方法，同时确保生成图像的视觉吸引力。传统的深度学习框架实施了使用已知区域来传播深度特征的方法。然而，扩散模型的引入导致了修复模型的演变，特别是文本引导图像修复框架。传统上，预训练的文本到图像扩散模型通过使用已知区域的噪声版本来替换潜在的未知区域。在采样过程中，这种方法在一定程度上有效，但由于去噪网络只能看到已知区域的噪声版本，因此会显著降低生成输出的质量。为了解决这个障碍，一些方法旨在微调预训练的文本到图像模型以实现文本引导图像修复。通过实施这种方法，框架能够生成随机掩码，因为模型能够将去噪框架条件化为未掩码区域。

继续，传统的深度学习模型实施了专门的设计层以实现高效的修复，一些框架能够有效地提取信息并通过引入特殊的卷积层来处理图像的已知区域，从而生成视觉上吸引人的图像。一些框架甚至在其架构中添加了上下文注意力层，以减少所有对所有自注意力的不必要的重计算要求。

最后，后置指导方法是后向扩散采样方法，引导下一步潜在预测朝向特定的函数最小化目标。后置指导方法在生成视觉内容（尤其是在存在额外约束的情况下）方面非常有用。然而，后置指导方法有一个主要缺点：它们会导致图像质量下降，因为它们倾向于通过梯度项偏移潜在生成过程。

来看 HD-Painter 的架构，框架首先公式化文本引导图像完成问题，然后引入两个扩散模型，分别是稳定修复和稳定扩散。HD-Painter 模型然后引入 PAIntA 和 RASG 块，最后我们得到修复特定的超分辨率技术。

稳定扩散和稳定修复

稳定扩散是一个在自编码器的潜在空间中工作的扩散模型。对于文本到图像合成，稳定扩散框架实施了一个文本提示来引导该过程。引导函数具有类似于 U-Net 架构的结构，并且条件化在文本提示上。另外，稳定扩散模型可以通过一些修改和微调来执行图像修复。为了实现这一点，编码器生成的掩码图像的特征与二进制掩码的潜在变量连接，然后输入到 U-Net 架构中以获得估计的噪声。框架然后初始化新添加的卷积滤波器为零，而 U-Net 的其余部分使用来自稳定扩散模型的预训练检查点初始化。

上图展示了 HD-Painter 框架的概述，包括两个阶段。在第一个阶段，HD-Painter 框架实施文本引导图像绘制，而在第二个阶段，模型修复特定超分辨率的输出。为了填充缺失区域并保持与输入提示的一致性，模型采用预训练的修复扩散模型，替换自注意力层为 PAIntA 层，并实施 RASG 机制来执行后向扩散过程。模型然后解码最终估计的潜在变量，生成修复图像。HD-Painter 然后实施稳定扩散模型来修复原始大小的图像，并实施稳定扩散框架的后向扩散过程，条件化在低分辨率输入图像上。模型在每一步中将去噪预测与原始图像的编码混合，并推导出下一个潜在变量。最后，模型解码潜在变量并实施泊松混合以避免边缘伪影。

提示感知内向注意力或 PAIntA

现有的修复模型，如稳定修复，往往更依赖于修复区域周围的视觉上下文，并忽略输入的用户提示。根据用户体验，这个问题可以分为两个类别：附近对象主导性和背景主导性。视觉上下文主导提示的问题可能是由于自注意力层的仅空间和提示无关的性质所致。为了解决这个问题，HD-Painter 框架引入了提示感知内向注意力（PAIntA），它使用跨注意力矩阵和修复掩码来控制未知区域的自注意力层的输出。

提示感知内向注意力组件首先应用投影层来获取键、值和查询，以及相似性矩阵。模型然后调整已知像素的注意力评分，以减轻已知区域对未知区域的强烈影响，并通过利用文本提示定义一个新的相似性矩阵。

重新加权注意力评分指导或 RASG

HD-Painter 框架采用后置采样指导方法来进一步增强生成与文本提示的对齐。后置采样指导方法结合目标函数，旨在利用跨注意力层的开放词汇分割属性。然而，原始后置指导方法具有潜在的偏移扩散潜在变量的领域的风险，这可能会降低生成图像的质量。为了解决这个问题，HD-Painter 模型实施了重新加权注意力评分指导（RASG）机制，该机制引入了梯度重加权机制，实现潜在领域的保留。

HD-Painter：实验和结果

为了分析其性能，HD-Painter 框架与当前的最先进模型进行比较，包括稳定修复、GLIDE 和 BLD 或混合潜在扩散，比较在 10000 个随机样本中，提示被选为所选实例掩码的标签。

如图所示，HD-Painter 框架在三个不同的指标上显著优于现有的框架，特别是在 CLIP 指标上的 1.5 分的改进和与其他最先进方法相比的生成准确性评分的 10% 差异。

继续，下图展示了 HD-Painter 框架与其他修复框架的定性比较。如图所示，其他基线模型要么将缺失区域重构为已知区域对象的延续而忽略提示，要么生成背景。另一方面，HD-Painter 框架能够成功地生成目标对象，这归功于其架构中实施的 PAIntA 和 RASG 组件。

最终想法

在本文中，我们讨论了 HD-Painter，一种无需训练的文本引导高分辨率修复方法，它解决了现有的修复框架面临的挑战，包括提示忽略、附近对象主导性和背景主导性。HD-Painter 框架实施了提示感知内向注意力（PAIntA）层，该层使用提示信息来增强自注意力评分，从而实现更好的文本对齐生成。

为了进一步提高提示的一致性，HD-Painter 模型引入了重新加权注意力评分指导（RASG）方法，该方法将后置采样策略无缝地集成到 DDIM 组件中，以防止潜在的偏移。另外，HD-Painter 框架引入了专门为修复设计的超分辨率技术，从而可以扩展到更大的尺度，并且可以用高达 2K 的分辨率完成图像中缺失的区域。

Related Topics:HD-Painter inpainting PAIntA