关注我们.

安德森的角度

提高人工智能图像编辑的准确性

mm
论文《紧密反演:用于真实图像编辑的图像条件反演》中的图片

尽管 Adob​​e 的 萤火虫 潜在扩散模型 (LDM) 可以说是目前最好的模型之一,尝试过其生成功能的 Photoshop 用户会注意到,它不能轻松地 编辑现有图像 – 相反,它完全 替代品 根据用户的文本提示,用图像显示用户选定的区域(尽管 Firefly 擅长将生成的部分集成到图像的上下文中)。

在目前的测试版本中,Photoshop 至少可以 结合参考图像 作为部分图像提示,这使得 Adob​​e 的旗舰产品能够 稳定扩散 得益于第三方框架,用户已经享受了两年多的时间,例如 控制网:

Adobe Photoshop 的当前测试版允许在选择中生成新内容时使用参考图像 - 尽管目前这只是一个碰运气的事情。

Adobe Photoshop 的当前测试版允许在选择中生成新内容时使用参考图像 - 尽管目前这是一个碰运气的事情。

这说明了图像合成研究中的一个悬而未决的问题——扩散模型在不对用户指示的选择进行全面“重新想象”的情况下编辑现有图像时会遇到困难。

虽然这种基于扩散的修复遵循了用户的提示,但它完全重塑了源主题,而不考虑原始图像(除非将新一代与环境融合)。来源:https://arxiv.org/pdf/2502.20376

虽然这种基于扩散的修复遵循用户的提示,但它完全重塑了源主题,而没有考虑原始图像(除了将新一代与环境融合)。 来源:https://arxiv.org/pdf/2502.20376

出现此问题的原因是 LDM 通过 迭代去噪,其中每个阶段都以用户提供的文本提示为条件。将文本提示内容转换为 嵌入标记,并使用包含数十万(或数百万)个与提示相关的近似匹配嵌入的超大规模模型(如稳定扩散或通量),该过程具有计算 条件分布 为之努力;而迈出的每一步,都是朝着这个“有条件分配目标”迈出的一步。

这就是文本到图像——用户“希望得到最好的结果”的场景,因为没有人能确切地知道这一代会是什么样子。

相反,许多人试图利用 LDM 强大的生成能力来编辑现有图像 - 但这需要在保真度和灵活性之间取得平衡。

当图像通过以下方法投影到模型的潜在空间时 DDIM 反转,目标是尽可能接近地恢复原始图像,同时仍允许进行有意义的编辑。问题是,图像重建得越精确,模型就越符合其 原版的 结构,因此很难进行重大修改。

与近年来提出的许多其他基于扩散的图像编辑框架一样,Renoise 架构很难对图像的外观做出任何真正的改变,只能在猫喉咙底部出现一个领结的敷衍迹象。

与近年来提出的许多其他基于扩散的图像编辑框架一样,Renoise 架构很难对图像的外观做出任何真正的改变,只能在猫喉咙底部出现一个领结的敷衍迹象。

另一方面,如果该过程优先考虑可编辑性,则模型会放松对原始图像的控制,从而更容易引入更改 - 但代价是与源图像的整体一致性:

任务完成了——但对于大多数基于人工智能的图像编辑框架来说,这是一种转变,而不是调整。

任务完成——但对于大多数基于人工智能的图像编辑框架来说,这是一种转变,而不是调整。

由于这个问题即使 Adob​​e 投入大量资源也难以解决,因此我们可以合理地认为,这个挑战是显著的,并且可能不会有简单的解决方案(如果有的话)。

紧反转

因此,本周发布的新论文中的例子引起了我的注意,因为这项工作对该领域目前最先进的技术进行了有价值和值得注意的改进,证明能够对投影到模型潜在空间中的图像应用细微和精细的编辑 - 而这些编辑要么微不足道,要么会淹没源图像中的原始内容:

通过将紧密反演应用于现有的反演方法,可以以更细致的方式考虑源选择,并且变换符合原始材料而不是覆盖它们。

通过将紧密反演应用于现有的反演方法,可以以更细致的方式考虑源选择,并且变换符合原始材料而不是覆盖它。

LDM 爱好者和从业者可能会认可这种结果,因为其中大部分可以在复杂的工作流程中使用外部系统(如 Controlnet 和 IP适配器.

事实上,这种被称为 紧反转 – 确实利用了 IP-Adapter 以及专用的基于面部的模型来进行人类描绘。

摘自 2023 年 IP-Adapter 原始论文,对源材料进行恰当编辑的示例。来源:https://arxiv.org/pdf/2308.06721

来自原始的 2023 IP-Adapter 论文,对源材料进行恰当编辑的示例。 来源:https://arxiv.org/pdf/2308.06721

那么,Tight Inversion 的信号成就就是将复杂的技术程序化为单一的插件模式,可以应用于现有系统,包括许多最流行的 LDM 发行版。

自然,这意味着 Tight Inversion (TI) 与它所利用的附加系统一样,使用源图像作为其自身编辑版本的条件因素,而不是仅仅依赖于准确的文本提示:

Tight Inversion 将真正混合的编辑应用于源材料的能力的进一步示例。

Tight Inversion 将真正混合的编辑应用于源材料的能力的进一步示例。

尽管作者承认他们的方法无法摆脱基于扩散的图像编辑技术中保真度和可编辑性之间的传统和持续的紧张关系,但他们报告了将 TI 注入现有系统时相对于基线性能的最先进的结果。

新工作 标题为 紧密反演:用于真实图像编辑的图像条件反演,来自特拉维夫大学和 Snap Research 的五位研究人员。

付款方式

首先使用大型语言模型 (LLM) 生成一组不同的文本提示,然后根据这些提示生成图像。然后将上述 DDIM 反转应用于每幅图像 具有三个文本条件:用于生成图像的文本提示;相同的缩短版本;以及空提示。

利用这些过程返回的反转噪声,图像再次以相同的条件再生,并且没有 无分类器指导 (CFG)。

DDIM 反转分数涵盖具有不同提示设置的各种指标。

DDIM 反转分数涵盖具有不同提示设置的各种指标。

从上图可以看出,随着文本长度的增加,各项指标的得分都有所提高。使用的指标包括 峰值信噪比 峰值信噪比(PSNR); L2 距离; 结构相似性指数 (SSIM);和 学习感知图像块相似性 (低功率IPS)。

形象意识

有效紧密反转通过调节图像本身的反转过程而不是仅仅依赖于文本来改变宿主扩散模型编辑真实图像的方式。

通常,将图像反转到扩散模型的噪声空间需要估计起始噪声,当噪声消除后,可以重建输入。标准方法使用文本提示来指导此过程;但不完善的提示可能会导致错误、丢失细节或改变结构。

相反,Tight Inversion 使用 IP Adapter 将视觉信息输入模型,以便以更高的精度重建图像,将源图像转换为条件标记,并将它们投射到反演管道中。

这些参数是可编辑的:增加源图像的影响可使重建近乎完美,而减少它则可以实现更具创造性的变化。这使得 Tight Inversion 既可用于细微的修改(例如更改衬衫颜色),也可用于更重要的编辑(例如更换对象),而不会产生其他反演方法常见的副作用(例如丢失精细细节或背景内容出现意外畸变)。

作者指出:

“我们注意到,通过[切换 IP 适配器改变模型的本机扩散核心],紧密反演可以轻松地与以前的反演方法(例如,编辑友好 DDPM、ReNoise)集成,[并且]紧密反演在重建和可编辑性方面不断改进这些方法。”

数据与测试

研究人员评估了 TI 重建和编辑真实世界源图像的能力。所有实验均使用 稳定扩散 XL 使用 DDIM 调度程序,如 原装稳定扩散纸;所有测试均采用 50 个去噪步骤,默认指导尺度为 7.5。

对于图像调节, IP 适配器-plus sdxl vit-h 被使用。对于几步测试,研究人员使用 SDXL-Turbo 使用欧拉调度程序,并进行了实验 FLUX.1-dev,在后一种情况下对模型进行条件处理 PuLID通量使用 RF反演 共 28 步。

PulID 仅用于以人脸为特征的案例,因为这是 PulID 经过训练来解决的领域 - 虽然值得注意的是,针对这种可能的提示类型使用了专门的子系统,但我们对生成人脸的过度兴趣表明,仅仅依靠稳定扩散等基础模型的更广泛权重可能不足以满足我们对这项特定任务所要求的标准。

进行了重建测试以进行定性和定量评估。在下图中,我们看到了 DDIM 反演的定性示例:

DDIM 反演的定性结果。每行显示高度详细的图像及其重建版本,每个步骤在反演和去噪过程中使用越来越精确的条件。随着条件变得更加精确,重建质量也会提高。最右边的一列展示了最佳结果,其中原始图像本身用作条件,实现了最高保真度。任何阶段均未使用 CFG。请参阅源文档以获得更好的分辨率和细节。

DDIM 反演的定性结果。每行显示高度详细的图像及其重建版本,每个步骤在反演和去噪过程中使用越来越精确的条件。随着条件变得更加精确,重建质量也会提高。最右边的一列展示了最佳结果,其中原始图像本身用作条件,实现了最高保真度。任何阶段均未使用 CFG。请参阅源文档以获得更好的分辨率和细节。

该文件指出:

“这些例子强调,对图像进行反演过程的调节可以显著改善高度详细区域的重建。

值得注意的是,在下图的第三个示例中,我们的方法成功重建了右侧拳击手背部的纹身。此外,拳击手的腿部姿势得到了更准确的保留,腿部的纹身也清晰可见。

DDIM 反演的进一步定性结果。描述性条件改进了 DDIM 反演,图像调节的效果优于文本,尤其是在复杂图像上。

DDIM 反演的进一步定性结果。描述性条件改进了 DDIM 反演,图像调节的效果优于文本,尤其是在复杂图像上。

作者还测试了“紧反演”作为现有系统的插入模块,并将修改后的版本与其基线性能进行了对比。

测试的三个系统分别是前面提到的 DDIM 反演和 RF-反演; 重新调音,与本文讨论的论文有部分作者相同。由于 DDIM 结果在获得 100% 重建方面毫无困难,因此研究人员只关注可编辑性。

(定性结果图像的格式难以在此重现,因此尽管下面有一些选择,但我们仍请读者参阅源 PDF 以获得更全面的覆盖范围和更好的分辨率)

左图为使用 SDXL 进行 Tight Inversion 的定性重建结果。右图为使用 Flux 进行重建。已发表的著作中这些结果的布局使其难以在此重现,因此请参考源 PDF 以了解所获差异的真实印象。

左图为使用 SDXL 进行 Tight Inversion 的定性重建结果。右图为使用 Flux 进行重建。已发表的著作中这些结果的布局使其难以在此重现,因此请参考源 PDF 以了解所获差异的真实印象。

以下是作者的评论:

如图所示,将“紧反演”与现有方法相结合可以持续改进重建效果。例如,我们的方法准确地重建了最左侧示例中的扶手,以及最右侧示例中身穿蓝色衬衫的男子(见论文图5)。

作者还对系统进行了定量测试。与之前的研究一致,他们使用了 验证集 of 麦可可,并注意结果(如下图所示)改善了所有方法的所有指标的重建。

比较具有和不具有紧密反转的系统的性能指标。

比较具有和不具有紧密反转的系统的性能指标。

接下来,作者测试了该系统的能力 编辑 照片,将其与之前方法的基线版本进行对比 提示2提示; 编辑友好 DDPM; LED-ITS++;和 RF 反演。

下面展示了本文针对 SDXL 和 Flux 的部分定性结果(我们请读者参阅原始论文中相当紧凑的布局以获取更多示例)。

论文中选取了从大量定性结果(相当混乱)中选出的结果。我们建议读者参考源 PDF,以获得更好的分辨率和更有意义的清晰度。

论文中选取了从大量定性结果(相当混乱)中选出的结果。我们建议读者参考源 PDF,以获得更好的分辨率和更有意义的清晰度。

作者认为,通过在重建和可编辑性之间取得更好的平衡,Tight Inversion 始终优于现有的反演技术。论文指出,DDIM 反演和 ReNoise 等标准方法可以很好地恢复图像,但在应用编辑时,它们往往难以保留精细的细节。

相比之下,紧反演利用图像调节将模型的输出更接近原始图像,从而防止不必要的扭曲。作者认为,即使竞争方法产生的重建结果 出现 准确地说,引入编辑通常会导致伪影或结构不一致,而紧密反转可以缓解这些问题。

最后,通过评估紧反演与 魔法画笔 基准测试,使用 DDIM 反转和 LEDITS++,测量 CLIP 模拟.

Tight Inversion 与 MagicBrush 基准的定量比较。

Tight Inversion 与 MagicBrush 基准的定量比较。

作者总结:

“在这两个图中,图像保存和遵守目标编辑之间的权衡显而易见。紧密反转可以更好地控制这种权衡,并更好地保留输入图像,同时仍与编辑 [提示] 保持一致。

“请注意,图像和文本提示之间的 CLIP 相似度高于 0.3 表示图像和提示之间存在合理的对齐。”

结语

尽管它并不代表基于 LDM 的图像合成中最棘手的挑战之一的“突破”,但 Tight Inversion 将许多繁琐的辅助方法整合为一种统一的基于 AI 的图像编辑方法。

虽然这种方法并没有消除可编辑性和保真度之间的矛盾,但根据所呈现的结果,这种矛盾明显减少了。考虑到这项工作解决的核心挑战如果按照其本身的方式处理(而不是在未来系统中超越基于 LDM 的架构),最终可能会被证明是难以解决的,因此 Tight Inversion 代表了当前技术水平的可喜的渐进式改进。

 

首次发布于 28 年 2025 月 XNUMX 日星期五

机器学习作家,人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站: 马丁南德森.ai
联系我们 [email protected]
推特:@manders_ai