人工智能

使用 EditGAN 进行高精度语义图像编辑

发布时间

9个月前

2023 年 9 月 4 日

库纳尔·凯杰里瓦尔

生成对抗网络或 GAN 在图像编辑行业中得到了新的应用。在过去的几个月里，EditGAN 在 AI/ML 行业越来越受欢迎，因为它是一种高精度、高质量语义图像编辑的新颖方法。

我们将详细讨论 EditGAN 模型，并让您了解为什么它可能被证明是语义图像编辑行业的里程碑。

那么让我们开始吧。但在我们了解 EditGAN 是什么之前，我们必须先了解 EditGAN 的重要性，以及为什么它是向前迈出的重要一步。

为什么要编辑GAN？

尽管传统的 GAN 架构帮助基于 AI 的图像编辑行业取得了显着进步，但从头开始构建 GAN 架构仍面临一些重大挑战。

在训练阶段，GAN 架构需要大量带有语义分割注释的标记数据。
它们只能提供高级控制。
通常，他们只是在图像之间来回插值。

可以看出，虽然传统的 GAN 架构可以完成工作，但它们对于大规模部署来说并不有效。传统 GAN 架构的效率低于标准，是 NVIDIA 于 2022 年推出 EditGAN 的原因。

EditGAN 被认为是一种高精度、高质量语义的有效方法图像编辑能够允许用户通过更改图像的高度详细的分割掩模来编辑图像。 EditGAN 成为图像编辑任务的可扩展方法的原因之一是其架构。

EditGAN 模型建立在 GAN 框架之上，该框架对图像及其语义分割进行联合建模，并且只需要少量标记或注释的训练数据。 EditGAN的开发者尝试将图像嵌入到GAN的潜在空间中，通过根据分割编辑执行条件潜在代码优化来有效地修改图像。此外，为了摊销优化，该模型尝试在潜在空间中找到实现编辑的“编辑向量”。

EditGAN 框架的架构允许模型学习任意数量的编辑向量，然后可以高速高效地实现或直接应用于其他图像。此外，实验结果表明，EditGAN 可以以前所未有的细节水平编辑图像，同时最大限度地保持图像质量。

总而言之，我们为什么需要 EditGAN，它是第一个基于 GAN 的图像编辑框架，提供

非常高精度的编辑。
可以处理少量标记数据。
可以在实时场景中有效部署。
允许同时进行多个编辑的组合性。
适用于 GAN 生成的、真实的嵌入图像，甚至域外图像。

使用 EditGAN 进行高精度语义图像编辑

StyleGAN2 是一种最先进的图像合成 GAN 框架，是 EditGAN 的主要图像生成组件。 StyleGAN2 框架映射从多元正态分布池中提取的潜在代码，并将其映射为真实图像。

StyleGAN2 是一种深度生成模型，经过训练可以合成图像尽可能获得最高的质量，同时获得对建模图像的语义理解。

分割训练和推理

EditGAN 模型使用优化将图像嵌入到 GAN 的潜在空间中，并使用编码器对新图像执行分割，并训练分割分支。 EditGAN 框架继续以之前的工作为基础，并训练编码器将图像嵌入到潜在空间中。这里的主要目标是使用 GAN 的样本和现实训练数据来训练由标准像素级 L2 和 LPIPS 构造损失组成的编码器。此外，在处理 GAN 样本时，该模型还使用潜在代码显式地规范编码器。

结果，该模型将带有语义分割标记的数据集中的带注释图像嵌入到潜在空间中，并使用交叉熵损失来训练生成器的分割分支。

使用分段编辑在潜在空间中查找语义

EditGAN 的主要目的是利用语义分割和图像的联合分布高精度图像编辑。假设我们有一个图像 x 需要进行编辑，因此模型将图像嵌入到 EditGAN 的潜在空间中或使用模型本身的样本图像。然后分割分支生成 y 或相应的分割主要是因为 RGB 图像和分割共享相同的潜在代码 w. 然后，开发人员可以使用任何标签或数字绘画工具来修改分段并根据自己的要求手动编辑它们。

推理期间编辑的不同方式

使用优化获得的潜在空间编辑向量可以被描述为具有语义意义，并且通常与不同的属性解开。因此，要编辑新图像，模型可以直接将图像嵌入到潜在空间中，并直接执行模型之前学习的相同编辑操作，而无需从头开始重新进行优化。可以肯定地说，模型学习的编辑向量分摊了最初编辑图像所必需的优化。

值得注意的是，开发人员仍未完善解开，并且编辑矢量在用于其他图像时通常不会返回最佳结果。但是，可以通过在测试期间执行一些额外的优化步骤来消除图像其他部分的编辑伪影来解决该问题。

根据我们目前的学习，EditGAN框架可以用于以三种不同的模式编辑图像。

通过编辑向量进行实时编辑

对于本地化且解开的图像，该模型通过应用之前以不同比例学习的编辑向量来编辑图像，并以交互速率操作图像。

使用自我监督细化进行基于矢量的编辑

为了编辑未与图像其他部分完美分离的局部图像，该模型使用先前学习的编辑向量来初始化图像编辑，并通过在测试期间执行一些额外的优化步骤来消除编辑伪影。

基于优化的编辑

为了执行大规模和特定于图像的编辑，该模型从一开始就执行优化，因为编辑向量不能用于执行到其他图像的此类传输。

SAP系统集成计划实施

EditGAN 框架根据分布在四个不同类别的图像进行评估：汽车、鸟类、猫和面孔。模型的分割分支是通过使用 16、30、30、16 的图像掩模对分别作为汽车、鸟、猫和人脸的标记训练数据来训练的。当纯粹使用优化来编辑图像时，或者当模型尝试学习编辑向量时，模型会使用 Adam 优化器执行 100 个优化步骤。

对于 Cat、Car 和 Faces 数据集，该模型使用 DatasetGAN 测试集中的真实图像，这些图像未用于训练 GAN 框架来执行编辑功能。这些图像立即通过优化和编码嵌入到 EditGAN 的潜在空间中。对于鸟类类别，编辑显示在 GAN 生成的图像上。

成果

定性结果

域内结果

上图展示了 EditGAN 框架在新颖图像上应用先前学习的编辑向量并使用 30 个优化步骤细化图像时的性能。 EditGAN 框架执行的这些编辑操作对于所有类都是解开的，并且它们保留了图像的整体质量。比较 EditGAN 和其他框架的结果，可以看出，EditGAN 框架在执行高精度、复杂的编辑，同时保留主体身份和图像质量方面优于其他方法。

令人惊讶的是，EditGAN 框架可以执行极其高精度的编辑，例如放大瞳孔或编辑汽车轮胎中的轮辐。此外，EditGAN 还可以用于编辑只有几个像素的对象的语义部分，或者也可以用于对图像进行大规模修改。值得注意的是，EditGAN 框架的多个编辑操作能够生成与 GAN 训练数据中出现的图像不同的操纵图像。

域外结果

为了评估 EditGAN 的域外性能，该框架已在 MetFaces 数据集上进行了测试。 EditGAN 模型使用域内真实面孔来创建编辑向量。然后，该模型使用 100 步优化过程嵌入域外的 MetFaces 肖像，并通过 30 步自我监督细化过程应用编辑向量。结果如下图所示。

定量结果

为了定量衡量 EditGAN 的图像编辑能力，该模型使用了 MaskGAN 首次引入的微笑编辑基准。包含中性表情的面孔被笑脸取代，并且通过三个参数来衡量表现。

语义正确性

该模型使用预先训练的微笑属性分类器来测量图像中的人脸在编辑后是否表现出微笑表情。

发行级图像质量

内核起始距离或 KID 和 Frechet 起始距离或 FID 是在 CelebA 测试数据集和 400 个编辑的测试图像之间计算的。

身份保留

使用预先训练的 ArcFace 特征提取网络来测量模型在编辑图像时保留主体身份的能力。

上表比较了 EditGAN 框架与其他基线模型在微笑编辑基准上的性能。在三个不同的基线上对 EditGAN 框架提供如此高结果所遵循的方法进行了比较：

掩模GAN

MaskGAN 将非微笑图像及其分割掩模和目标微笑分割掩模作为输入。值得注意的是，与 EditGAN 相比，MaskGAN 框架需要大量的注释数据。

本地编辑

EditGAN还将其性能与本地编辑进行了比较，本地编辑是一种通过聚类GAN特征来实现本地编辑的方法，并且它依赖于参考图像。

接口GAN

就像 EditGAN 一样，InterFaceGAN 也尝试在模型的潜在空间中寻找编辑向量。但与EditGAN不同的是，InterFaceGAN模型使用了大量的标注数据、辅助属性分类器，不具备精细的编辑精度。

风格GAN2蒸馏

此方法创建了一种替代方法，不一定需要真实图像嵌入，而是使用编辑向量模型来创建训练数据集。

限制

由于 EditGAN 基于 GAN 框架，因此它与任何其他 GAN 模型具有相同的限制：它只能处理可由 GAN 建模的图像。 EditGAN 在处理 GAN 建模图像方面的局限性是难以跨不同场景实现 EditGAN 的主要原因。然而，值得注意的是，EditGAN 的高精度编辑可以通过利用编辑向量轻松转移到其他不同的图像。