人工智能

无意中的好处：映射GAN的潜在空间

Published December 3, 2021

Updated April 28, 2026

Martin Anderson

在试图提高AI生成图像的质量和保真度时，一组来自中国和澳大利亚的研究人员无意中发现了一种方法，可以交互式地控制生成对抗网络（GAN）的潜在空间——图像合成技术背后的神秘计算矩阵，这项技术即将革新电影、游戏、社交媒体和其他娱乐及研究领域。

他们的发现是项目中心目标的副产品，允许用户使用鼠标任意和交互式地探索GAN的潜在空间，就像浏览视频或翻阅书籍一样。

研究人员附件视频的摘录（见文章末尾的嵌入）。注意用户使用“抓取”光标（左上）操纵变换。 Source: https://www.youtube.com/watch?v=k7sG4XY5rIc

该方法使用“热图”来指示GAN运行相同数据集数千次（或数十万次）时，哪些图像区域需要改进。热图旨在通过告诉GAN哪里出了错来提高图像质量，以便其下一次尝试会更好；但同时，它也提供了整个潜在空间的“地图”，可以通过移动鼠标来浏览。

通过GradCAM强调的空间视觉注意力，通过施加明亮的颜色来指示需要注意的区域。这些样本是在研究人员的项目中使用StyleGan2的默认实现生成的。

通过GradCAM强调的空间视觉注意力，通过施加明亮的颜色来指示需要注意的区域。 Source: https://arxiv.org/pdf/2112.00718.pdf

该论文名为《通过提高空间意识来改进GAN平衡》，来自香港中文大学和澳大利亚国立大学的研究人员。除了论文外，视频和其他材料可以在项目页面找到。

这项工作是初步的，目前仅限于低分辨率图像（256×256），但它是一个证明了概念的例子，承诺要打开GAN潜在空间的“黑盒子”，而这正是多个研究项目为了获得更大的图像合成控制力而努力的目标。

虽然这些图像很吸引人（您可以在文章末尾嵌入的视频中看到更多高分辨率图像），但更重要的是，该项目发现了一种方法，可以通过告诉GAN在训练过程中哪里出了错来提高图像质量，并可能更快地实现这一点。

但是，正如“对抗性”所示，GAN不是一个单一的实体，而是一场不平等的冲突。要了解研究人员在这方面取得了什么改进，我们来看看这场战争是如何被描述的。

生成器的可怜命运

如果您曾经被这样一个想法困扰，即您购买的某件新衣服是在一个被剥削的国家的血汗工厂生产的，或者您有一个老板或客户不断告诉您“再做一次！”却从不告诉您哪里出了错，那么请为GAN中的生成器部分感到一点同情。

生成器是工作马，过去五年或这么长时间里一直在帮助GAN创建令人愉悦的图像，例如生成不存在的人的照片像素、将旧视频游戏升级到4K分辨率、将一个世纪前的视频转换为全彩色60帧每秒的输出等。

从创建不存在的人的照片像素到恢复古老的视频和重现存档的视频游戏，GAN在过去几年里一直很忙。

生成器一次又一次地运行所有训练数据，例如一张张人脸的图片，以创建一个可以生成不存在的人的照片的GAN，直到它能够创建令人信服的图像，就像它学习的真实照片一样。

那么，生成器如何知道它在每次尝试创建比之前更好的图像时是否取得了进展？

生成器有一个来自地狱的老板。

判别器的无情不透明

判别器的工作是告诉生成器它没有足够好地创建一个真实的图像，并告诉它“再做一次”。判别器不会告诉生成器哪里出了错；它只是私下查看生成的图像，将其与源图像（也私下查看）进行比较，并为图像分配一个分数。

这个分数永远都不够好。判别器不会停止说“再做一次”，直到研究科学家关闭它（当他们判断额外的训练不会改善输出时）。

这样，生成器在没有任何建设性批评的情况下，仅凭一个分数（其度量标准是一个谜），必须随机猜测图像的哪些部分或方面导致了更高的分数。这将导致它走向更多不满意的道路，直到它足够积极地改变某些东西以获得更高的分数。

判别器作为导师和导师

新研究的创新之处在于判别器现在指示生成器哪些图像部分不满意，以便生成器可以在下一次迭代中关注这些区域，而不是丢弃评分较高的部分。这种关系的性质已经从对抗转变为合作。

为了解决判别器和生成器之间的认识差异，研究人员使用GradCAM作为一种机制，可以将判别器的认识转化为生成器下一次尝试的视觉反馈。

新的“平衡”训练方法称为EqGAN。为了最大程度地提高可复制性，研究人员使用默认设置将现有的技术和方法纳入其中，包括使用StyleGan2架构。

EqGAN的架构。生成器的空间编码与判别器的空间意识对齐，空间热图（见前面的图像）的随机样本通过空间编码层（SEL）编码回生成器。GradCAM是判别器的注意力图可用于生成器的机制。

GradCAM生成热图（见上图），反映了判别器对最新迭代的批评，并使其可用于生成器。

一旦模型训练完成，映射就作为这种合作过程的副产品保留下来，但也可以以研究人员项目视频中演示的交互方式使用。

EqGAN

该项目使用了多个流行的数据集，包括LSUN猫和教堂数据集，以及FFHQ数据集。下面的视频还展示了使用EqGAN进行面部和猫的操纵示例。

所有图像在训练EqGAN之前都已调整为256×256像素，使用StyleGAN2的官方实现。模型在8个GPU上训练，批次大小为64，直到判别器接触到超过2500万张图像。

使用Frechet Inception Distance（FID）测试系统的结果，作者建立了一个称为失衡指标（DI）的度量标准，即判别器保留的对生成器的知识优势程度，目标是缩小这一差距。

在三个训练数据集上，新的度量标准显示出有用的下降，空间意识编码到生成器中后，FID和DI都显示出改进的平衡。

研究人员得出结论：

“我们希望这项工作能够激发更多的研究来重新审视GAN平衡，并开发新的方法来通过操纵GAN平衡来提高图像合成质量。我们还将在未来的工作中对这个问题进行更多的理论研究。”

并继续说：

“定性结果表明，我们的方法成功地使生成器集中于特定的区域。实验结果在各种数据集上验证了我们的方法可以减轻GAN训练中的失衡，并显著提高图像合成质量。具有空间意识的生成模型还可以实现输出图像的交互式操纵。”

查看下面的视频以获取更多关于该项目的信息，以及GAN潜在空间的动态和交互式探索的更多示例。

2021年12月4日上午11:12 – 更正GradCAM的URL并整理周围的引用。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

无意中的好处：映射GAN的潜在空间

生成器的可怜命运

判别器的无情不透明

判别器作为导师和导师

EqGAN

You may like