Connect with us

Anderson 视角

提升 AI 图像编辑的准确性

mm
Images from the paper ' Tight Inversion: Image-Conditioned Inversion for Real Image Editing'

虽然 Adobe 的 Firefly 潜在扩散模型(LDM)可以说是目前最好的,但 Photoshop 用户在尝试其生成功能时会发现,它不能轻松地 编辑现有图像,而是用基于用户文本提示的图像完全 替换 用户选择的区域(尽管 Firefly 擅长将生成的部分集成到图像的上下文中)。

在当前的 beta 版本中,Photoshop 至少可以 将参考图像 作为部分图像提示纳入,这使得 Adobe 的旗舰产品赶上 Stable Diffusion 用户已经享受了两年多的功能,得益于第三方框架,如 Controlnet

当前的 Adobe Photoshop beta 版本允许在生成新内容时使用参考图像 - 虽然现在仍然是一种碰运气的方式。

当前的 Adobe Photoshop beta 版本允许在生成新内容时使用参考图像 – 虽然现在仍然是一种碰运气的方式。

这说明了图像合成研究中一个尚未解决的问题 – 扩散模型在编辑现有图像时的困难,而不需要完全“重新想象”用户指示的选择。

虽然这种基于扩散的填充遵循用户的提示,但它完全重新创造了源主题,而不考虑原始图像(除了与环境混合)。来源:https://arxiv.org/pdf/2502.20376

虽然这种基于扩散的填充遵循用户的提示,但它完全重新创造了源主题,而不考虑原始图像(除了与环境混合)。 来源:https://arxiv.org/pdf/2502.20376

这个问题发生是因为 LDM 通过 迭代去噪 生成图像,其中每个阶段的过程都由用户提供的文本提示条件。将文本提示内容转换为 嵌入令牌,并且具有数百万个近匹配嵌入的超大规模模型(如 Stable Diffusion 或 Flux),该过程具有计算出的 条件分布 作为目标;每一步都是朝着这个“条件分布目标”迈进。

因此,这是文本到图像 – 用户“希望得到最好的结果”,因为无法准确预测生成结果会是什么样子。

相反,许多人试图利用 LDM 的强大生成能力来编辑现有图像 – 但这需要在保真度和灵活性之间取得平衡。

当图像通过诸如 DDIM 反转 等方法投影到模型的潜在空间时,目标是尽可能准确地恢复原始图像,同时仍允许进行有意义的编辑。问题在于,图像被重构得越精确,模型就越坚持其 原始 结构,使得进行重大修改变得困难。

与近年来提出的许多其他基于扩散的图像编辑框架一样,Renoise 架构难以对图像外观进行任何真正的更改,只是在猫的喉咙底部出现了一个简简单单的蝴蝶结的迹象。

与近年来提出的许多其他基于扩散的图像编辑框架一样,Renoise 架构难以对图像外观进行任何真正的更改,只是在猫的喉咙底部出现了一个简简单单的蝴蝶结的迹象。

另一方面,如果过程优先考虑可编辑性,模型就会放松对原始图像的控制,使得引入更改变得更容易 – 但代价是与源图像的一致性降低:

任务完成 - 但对于大多数基于 AI 的图像编辑框架来说,这是一种转变,而不是调整。

任务完成 – 但对于大多数基于 AI 的图像编辑框架来说,这是一种转变,而不是调整。

由于这是一个即使 Adobe 的大量资源也难以解决的问题,因此我们可以合理地认为,这是一个值得注意的挑战,可能没有简单的解决方案,如果有的话。

紧密反转

因此,本周发布的新论文中的示例引起了我的注意,因为这项工作在这一领域的当前状态下提供了一个有价值且值得注意的改进,证明了能够对投影到模型潜在空间的图像应用细致和精炼的编辑 – 而不使编辑变得微不足道或压倒原始内容。

将紧密反转应用于现有的反转方法,源选择被以更细粒度的方式考虑,并且变换符合原始材料而不是覆盖它们。

将紧密反转应用于现有的反转方法,源选择被以更细粒度的方式考虑,并且变换符合原始材料而不是覆盖它们。

LDM 爱好者和从业者可能会认识到这种结果,因为大部分内容可以使用外部系统(如 Controlnet 和 IP-Adapter)创建复杂的工作流程。

事实上,新方法 – 被称为 紧密反转 – 确实利用了 IP-Adapter,以及一个专门用于人脸的模型,用于人脸描绘。

来自 2023 年 IP-Adapter 论文的示例,展示了如何对源材料进行合适的编辑。来源:https://arxiv.org/pdf/2308.06721

来自 2023 年 IP-Adapter 论文的示例,展示了如何对源材料进行合适的编辑。 来源:https://arxiv.org/pdf/2308.06721

紧密反转的显著成就是将复杂的技术程序化为一个单独的插件模式,可以应用于现有的系统,包括许多最流行的 LDM 分布。

自然地,这意味着紧密反转(TI)与它利用的辅助系统一样,使用源图像作为其编辑版本的条件因素,而不是仅仅依赖准确的文本提示:

紧密反转应用真正混合编辑的源材料的进一步示例。

紧密反转应用真正混合编辑的源材料的进一步示例。

虽然作者承认他们的方法并非完全摆脱了基于扩散的图像编辑技术中保真度和可编辑性之间的传统和持续紧张关系,但他们报告了将 TI 注入现有系统时的最先进结果,与基线性能相比。

这项 新工作 的标题为 紧密反转:用于实际图像编辑的图像条件反转,来自 Tel Aviv 大学和 Snap 研究所的五位研究人员。

方法

最初,一个大型语言模型(LLM)用于生成一组多样化的文本提示,从而生成图像。然后,对每个图像应用上述的 DDIM 反转 带有三个文本条件:用于生成图像的文本提示;相同提示的简短版本;以及一个空(空)提示。

使用这些过程返回的反转噪声,图像再次使用相同的条件重新生成,并且没有 分类器免费指导(CFG)。

具有不同提示设置的 DDIM 反转得分。

具有不同提示设置的 DDIM 反转得分。

如上图所示,随着文本长度的增加,各个指标的得分都会提高。使用的指标是 峰值信噪比(PSNR);L2 距离;结构相似性指数(SSIM);以及 学习感知图像补丁相似性(LPIPS)。

图像意识

实际上,紧密反转改变了主机扩散模型编辑真实图像的方式,通过将反转过程条件化为图像本身,而不是仅仅依赖文本。

通常,将图像反转到扩散模型的噪声空间需要估计起始噪声,当去噪时,可以重构输入。标准方法使用文本提示来指导此过程;但不完美的提示可能会导致错误,丢失细节或改变结构。

紧密反转反而使用 IP Adapter 将视觉信息输入模型,使其以更高的准确性重构图像,将源图像转换为条件令牌,并将它们投影到反转管道中。

这些参数是可编辑的:增加源图像的影响力会使重构几乎完美,而减少它会允许进行更具创造力的更改。这使得紧密反转对微妙的修改(如更改衬衫颜色)和更重要的编辑(如交换对象)都很有用 – 而不会出现其他反转方法的常见副作用,例如细节丢失或背景内容中的意外异常。

作者表示:

‘我们注意到,紧密反转可以轻松地与以前的反转方法(例如 Edit Friendly DDPM、ReNoise)集成,[通过切换原生扩散核心为 IP Adapter 修改的模型],[并且] 紧密反转在重构和可编辑性方面始终改进了这些方法。’

数据和测试

研究人员评估了 TI 在重构和编辑现实世界源图像方面的能力。所有实验都使用 Stable Diffusion XL 和 DDIM 调度器,如 原始 Stable Diffusion 论文 中所述;所有测试都使用 50 个去噪步骤和默认的 7.5 的指导尺度。

对于图像条件,使用了 IP-Adapter-plus sdxl vit-h。对于少步测试,研究人员使用了 SDXL-Turbo 和 Euler 调度器,并且还使用了 FLUX.1-dev,在后一种情况下,模型的条件为 PuLID-Flux,使用 RF-Inversion,28 步。

PulID 只用于包含人脸的案例,因为这是 PulID 被训练来解决的领域 – 而我们对生成人脸的浓厚兴趣表明,仅仅依赖基础模型(如 Stable Diffusion)更广泛的权重可能不适合这一特定任务的标准。

重构测试用于定性和定量评估。在下图中,我们看到 DDIM 反转的定性示例:

DDIM 反转的定性结果。每行显示一个高细节图像及其重构版本,使用逐渐更精确的条件进行反转和去噪。随着条件变得更准确,重构质量会提高。最右列显示了最佳结果,在那里,原始图像本身被用作条件,实现了最高保真度。CFG 在任何阶段都没有使用。请参阅源文档以获取更好的分辨率和详细信息。

DDIM 反转的定性结果。每行显示一个高细节图像及其重构版本,使用逐渐更精确的条件进行反转和去噪。随着条件变得更准确,重构质量会提高。最右列显示了最佳结果,在那里,原始图像本身被用作条件,实现了最高保真度。CFG 在任何阶段都没有使用。请参阅源文档以获取更好的分辨率和详细信息。

论文指出:

‘这些示例强调了条件反转过程对图像的显著改进,特别是在高细节区域。 ‘

‘值得注意的是,在 [下图的] 第三个示例中,我们的方法成功地重构了右拳击手背上的纹身。此外,拳击手的腿姿势更准确地被保留下来,腿上的纹身变得可见。’

DDIM 反转的进一步定性结果。描述性条件改进了 DDIM 反转,图像条件优于文本,特别是在复杂图像上。

DDIM 反转的进一步定性结果。描述性条件改进了 DDIM 反转,图像条件优于文本,特别是在复杂图像上。

作者还测试了紧密反转作为现有系统的插入模块,将修改后的版本与其基线性能进行比较。

测试的三个系统是上述的 DDIM 反转和 RF-Inversion;以及 ReNoise,它与本论文有一些共同的作者。由于 DDIM 结果没有难度地获得 100% 的重构,研究人员只关注可编辑性。

(定性结果图像的格式难以在这里复制,所以我们将读者引导至源 PDF 以获取更好的分辨率和有意义的清晰度。)

左,SDXL 的紧密反转的定性重构结果。右,Flux 的重构。这些结果在发布的工作中布局混乱,因此请参阅源 PDF 以获得更真实的印象。

左,SDXL 的紧密反转的定性重构结果。右,Flux 的重构。这些结果在发布的工作中布局混乱,因此请参阅源 PDF 以获得更真实的印象。

作者评论说:

‘如图所示,将紧密反转集成到现有方法中始终可以改进重构。例如,我们的方法准确地重构了左侧示例中的栏杆和右侧示例中的蓝衬衫。’

作者还对系统进行了定量测试。按照以前的工作,他们使用了 验证集MS-COCO,并指出结果(如下图所示)在所有方法中改进了所有指标的重构。

比较系统在有和没有紧密反转的情况下的性能指标。

比较系统在有和没有紧密反转的情况下的性能指标。

接下来,作者测试了系统编辑照片的能力,将其与基线版本的先前方法 prompt2promptEdit Friendly DDPMLED-ITS++;以及 RF-Inversion 进行比较。

下面显示了论文的定性结果的选取(我们将读者引导至源 PDF 以获取更多示例)。

SDXL 和 Flux 的定性结果的选取。(我们将读者引导至源 PDF 以获取更好的分辨率和有意义的清晰度。)

SDXL 和 Flux 的定性结果的选取。(我们将读者引导至源 PDF 以获取更好的分辨率和有意义的清晰度。)

作者声称,紧密反转在保真度和可编辑性之间取得了更好的平衡,始终优于现有的反转技术。

标准方法,如 DDIM 反转和 ReNoise,可以很好地恢复图像,但论文指出,它们在应用编辑时经常难以保留细节。

相比之下,紧密反转利用图像条件将模型的输出更紧密地锚定在原始图像上,防止不必要的失真。作者声称,即使竞争方法产生看似准确的重构,但编辑的引入往往会导致伪影或结构不一致,而紧密反转缓解了这些问题。

最后,通过评估紧密反转与 MagicBrush 基准测试,并使用 CLIP Sim 进行测量,获得了定量结果。

紧密反转与 MagicBrush 基准测试的定量比较。

紧密反转与 MagicBrush 基准测试的定量比较。

作者得出结论:

‘在两个图中,图像保存和对目标编辑的遵守之间的权衡很明显。紧密反转在这个权衡上提供了更好的控制,并且在图像保存和编辑方面都优于其他方法。 ‘

‘注意,图像和文本提示之间的 CLIP 相似度超过 0.3 表示图像和提示之间的合理对齐。’

结论

虽然紧密反转并不代表了对基于 LDM 的图像合成中最棘手挑战的“突破”,但它将一系列繁琐的辅助方法整合为一种统一的 AI 基础图像编辑方法。

虽然紧密反转的方法并没有消除可编辑性和保真度之间的紧张关系,但结果表明这种紧张关系明显减少。考虑到这项工作所解决的核心挑战可能最终被证明是不可逾越的(除非在未来系统中超越基于 LDM 的架构),紧密反转代表了一个令人欢迎的渐进式改进,推动了当前的最先进技术。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai