人工智能

高精度语义图像编辑与EditGAN

发布于 2023年9月4日

更新于 2026年5月23日

作者

Kunal Kejriwal

A person holding on the globe in his hands while standing in fields.

生成对抗网络或 GAN 已经在图像编辑行业中应用了新的应用。过去几个月，EditGAN 在 AI/ML 行业中获得了流行，因为它是一种用于高精度和高质量语义图像编辑的新方法。

我们将详细讨论 EditGAN 模型，并让您了解为什么它可能成为语义图像编辑行业中的一个里程碑。

让我们开始。但是在我们了解 EditGAN 之前，了解 EditGAN 的重要性和为什么它是一个重要的进步是非常重要的。

为什么 EditGAN？

虽然传统的 GAN 架构已经帮助 AI 基础的图像编辑行业取得了显著的进步，但构建 GAN 架构从头开始仍然存在一些重大挑战。

在训练阶段，GAN 架构需要大量带有语义分割注释的标记数据。
它们只能提供高级控制。
并且，它们经常只是在图像之间进行插值。

可以观察到，虽然传统的 GAN 架构可以完成工作，但它们对于大规模部署并不有效。传统 GAN 架构的效率低下是为什么 EditGAN 被引入的原因。

EditGAN 被提出作为一种高精度和高质量语义图像编辑的有效方法，具有允许用户通过修改图像的详细分割掩码来编辑图像的能力。EditGAN 的架构是其可扩展性的原因之一。

EditGAN 模型建立在一个联合模型图像和语义分割的 GAN 框架上，仅需要少量标记或注释的训练数据。EditGAN 的开发人员尝试将图像嵌入 GAN 的潜在空间中，以有效地修改图像，并执行条件潜在代码优化以实现分割编辑。另外，为了 amortize 优化，模型尝试在潜在空间中找到“编辑向量”。

EditGAN 框架的架构允许模型学习任意数量的编辑向量，这些向量可以直接应用于其他图像，具有高速度和效率。另外，实验结果表明 EditGAN 可以编辑图像，具有以前所未有的细节水平，同时最大限度地保留图像质量。

总之，EditGAN 是第一个基于 GAN 的图像编辑框架，提供

非常高精度的编辑。
可以使用少量标记数据。
可以在实时场景中有效部署。
允许同时进行多个编辑。
可以在 GAN 生成、真实嵌入和甚至域外图像上工作。

高精度语义图像编辑与 EditGAN

StyleGAN2，是一个用于图像合成的最先进的 GAN 框架，是 EditGAN 的主要图像生成组件。StyleGAN2 框架将从多变量正态分布中抽取的潜在代码映射到真实图像中。

StyleGAN2 是一个深度生成模型，已经被训练为合成最高质量的图像，并获得了对图像的语义理解。

分割训练和推理

EditGAN 模型使用优化和编码器将图像嵌入 GAN 的潜在空间中，并执行新图像的分割和训练分割分支。EditGAN 框架继续建立在以前的工作基础上，并训练一个编码器将图像嵌入潜在空间中。主要目标是使用来自 GAN 和真实训练数据的样本训练编码器，使用标准的像素级 L2 和 LPIPS 构造损失。此外，模型还使用 GAN 样本显式正则化编码器。

结果，模型将带有语义分割注释的注释图像嵌入潜在空间中，并使用交叉熵损失训练生成器的分割分支。

使用分割编辑来找到潜在空间中的语义

EditGAN 的主要目的是利用图像和语义分割的联合分布来实现高精度图像编辑。假设我们有一个需要编辑的图像 x，模型将图像嵌入 EditGAN 的潜在空间中，或使用模型本身的样本图像。然后，分割分支生成 y 或对应的分割，主要是因为 RGB 图像和分割共享相同的潜在代码 w。开发人员可以使用任何标记或数字绘图工具来修改分割并根据需要手动编辑它们。

推理期间的不同编辑方式

使用优化获得的潜在空间编辑向量可以被描述为语义上有意义的，并且经常与不同的属性解耦。因此，要编辑一个新图像，模型可以直接将图像嵌入潜在空间中，并直接执行之前学习的相同编辑操作，而无需从头开始执行优化。可以说，模型学习的编辑向量 amortize 了最初编辑图像所需的优化。

值得注意的是，开发人员尚未完善解耦，并且编辑向量经常不返回其他图像的最佳结果。然而，可以通过在测试时间执行几个额外的优化步骤来克服这个问题，去除其他图像部分的编辑伪影。

根据我们当前的学习，EditGAN 框架可以以三种不同的模式编辑图像。

实时编辑与编辑向量

对于局部和解耦的图像，模型通过应用之前学习的编辑向量并以不同规模操纵图像来编辑图像，并以交互式速率执行编辑操作。

使用自监督细化的向量编辑

对于不完美解耦的局部图像，模型使用之前学习的编辑向量初始化图像编辑，并通过在测试时间执行几个额外的优化步骤来去除编辑伪影。

优化编辑

要执行大规模和图像特定的编辑，模型从头开始执行优化，因为编辑向量不能用于执行此类转移到其他图像。

实现

EditGAN 框架在四个不同类别的图像上进行了评估：汽车、鸟类、猫和人脸。模型的分割分支使用 16、30、30、16 个图像-掩码对作为汽车、鸟类、猫和人脸的标记训练数据进行训练。当图像仅使用优化编辑或当模型尝试学习编辑向量时，模型执行 100 步优化使用 Adam 优化器。

对于猫、汽车和人脸数据集，模型使用 DatasetGAN 的测试集中的真实图像，这些图像没有用于训练 GAN 框架，以执行编辑功能。这些图像直接嵌入 EditGAN 的潜在空间中使用优化和编码。对于鸟类类别，编辑是在 GAN 生成的图像上显示的。

结果

定性结果

域内结果

上图展示了 EditGAN 框架在应用之前学习的编辑向量到新图像并使用 30 步优化来细化图像时的性能。EditGAN 框架执行的这些编辑操作对于所有类别都是解耦的，并且保留了图像的整体质量。比较 EditGAN 和其他框架的结果，可以观察到 EditGAN 框架在执行高精度和复杂编辑时，保留了主体身份和图像质量，优于其他方法。

令人惊讶的是，EditGAN 框架可以执行非常高精度的编辑，例如扩大瞳孔或编辑汽车轮胎的轮辋。另外，EditGAN 还可以编辑对象的语义部分，这些部分只有几个像素，或执行大规模的图像修改。值得注意的是，EditGAN 框架的几个编辑操作可以生成与 GAN 训练数据中不同的操纵图像。

域外结果

为了评估 EditGAN 的域外性能，框架已经在 MetFaces 数据集上进行了测试。EditGAN 模型使用域内真实人脸创建编辑向量。然后，模型将 MetFaces 人像嵌入 EditGAN 的潜在空间中，使用 100 步优化过程，并应用编辑向量通过 30 步自监督细化过程。结果可以在下图中看到。