关注我们.

人工智能

映射 GAN 潜在空间的意想不到的好处

mm
更新 on

在试图提高人工智能生成图像的质量和保真度时,来自中国和澳大利亚的一组研究人员无意中发现了一种交互控制图像潜在空间的方法。 生成性对抗网络 (GAN)——新一波图像合成技术背后的神秘计算矩阵,将彻底改变电影、游戏、社交媒体以及娱乐和研究的许多其他领域。

他们的发现是该项目中心目标的副产品,允许用户用鼠标任意交互地探索 GAN 的潜在空间,就像浏览视频或翻阅一本书一样。

研究人员随附视频的摘录(请参阅文章末尾的嵌入内容)。 请注意,用户正在使用“抓取”光标(左上角)来操作转换。 来源:https://www.youtube.com/watch?v=k7sG4XY5rIc

研究人员随附视频的摘录(有关更多示例,请参阅文章末尾的嵌入内容)。 请注意,用户正在使用“抓取”光标(左上角)来操作转换。 来源:https://www.youtube.com/watch?v=k7sG4XY5rIc

该方法使用“热图”来指示当 GAN 运行同一数据集数千(或数十万)次时应该改进图像的哪些区域。 热图的目的是通过告诉 GAN 哪里出了问题来提高图像质量,以便其下一次尝试会更好; 但巧合的是,这还提供了整个潜在空间的“地图”,可以通过移动鼠标进行浏览。

通过 GradCAM 强调空间视觉注意力,它通过施加明亮的颜色来指示需要注意的区域。 这些样本是在研究人员的项目中使用 StyleGan2 的默认实现生成的。 资料来源:https://arxiv.org/pdf/2112.00718.pdf

通过 GradCAM 强调空间视觉注意力,它通过施加明亮的颜色来指示需要注意的区域。 资料来源:https://arxiv.org/pdf/2112.00718.pdf

我们推荐使用 叫做 通过提高空间意识来改善 GAN 平衡, 来自香港中文大学和澳大利亚国立大学的研究人员。 除了论文之外,还可以在项目页面找到视频和其他材料。

这项工作尚处于起步阶段,目前仅限于低分辨率图像(256×256),但它是一个概念证明,有望打破潜在空间的“黑匣子”,并且是在多个研究项目正在进行之际进行的在那扇门上追求对图像合成的更大控制。

尽管此类图像很吸引人(并且您可以在本文末尾嵌入的视频中以更高的分辨率看到更多图像),但更重要的可能是该项目找到了一种方法来创建改进的图像质量,并且有可能通过告诉 GAN 在训练期间具体哪里出了问题,可以更快地做到这一点。

但是,如 对抗性 表明,GAN 不是一个单一的实体,而是权威与苦差事之间的不平等冲突。 为了了解研究人员在这方面取得了哪些进展,让我们看看迄今为止这场战争的特征。

发电机的悲惨困境

如果你曾经被这样的想法所困扰,你买的一些很棒的新衣服是在一个被剥削国家的血汗工厂生产的,或者有一个老板或客户一直告诉你“再做一次!” 不要告诉你最近的尝试出了什么问题,请对 发生器 生成对抗网络的一部分。

生成器是过去五年左右让您高兴的主力,它帮助 GAN 创建 不存在的真实人物, 高档老电子游戏 至 4k 分辨率,并翻开百年老镜头 60fps 的全彩高清输出,以及其他奇妙的人工智能新奇事物。

从创建不真实的人的真实面孔到恢复古代镜头和复兴存档视频游戏,GAN 在过去几年一直很忙。

从创建不真实的人的真实面孔到恢复古代镜头和复兴存档视频游戏,GAN 在过去几年一直很忙。

生成器一次又一次地运行所有训练数据(例如人脸图片,以便制作可以创建随机的、不存在的人的照片的 GAN),一次一张照片,持续数天甚至数周,直到它能够创建与所研究的真实照片一样令人信服的图像。

那么,每次生成器尝试创建比之前的尝试更好的图像时,它如何知道它正在取得任何进展呢?

生成器有一个来自地狱的老板。

鉴别器的无情不透明

的工作 判别器 是告诉生成器它在创建与原始数据真实的图像方面做得不够好,并且 再来一遍。 判别器不会告诉生成器 什么 生成器的最后一次尝试是错误的; 它只是私下查看它,将生成的图像与源图像进行比较(再次私下),并为图像分配一个分数。

分数是 决不要 够好了。 歧视者不会停止说 '再来一遍' 直到研究科学家将其关闭(当他们判断额外的训练不会进一步提高输出时)。

这样,在没有任何建设性批评的情况下,并且只配备了一个其指标是个谜的分数,生成器必须随机猜测图像的哪些部分或方面导致了比以前更高的分数。 在它做出足够积极的改变以获得更高的分数之前,这将导致它走上许多更令人不满意的路线。

作为导师和导师的鉴别者

新研究提供的创新本质上是判别器现在向生成器指示 图像的哪些部分不满意,以便生成器可以在下一次迭代中专注于这些区域,而不是丢弃评级较高的部分。 关系的性质已从对抗性转变为合作性。

为了弥补鉴别器和生成器之间的洞察力差异,研究人员使用了 研究生CAM 作为一种机制,能够将鉴别器的见解转化为生成器下一次尝试的视觉反馈辅助工具。

新的“平衡”训练方法称为 EqGAN。 为了获得最大的可重复性,研究人员在默认设置下合并了现有的技术和方法,包括使用 风格甘2 建筑。

EqGAN 的架构。 生成器的空间编码与鉴别器的空间感知保持一致,空间热图的随机样本(参见前面的图像)通过空间编码层(SEL)编码回生成器。 GradCAM 是一种将判别器的注意力图提供给生成器的机制。

EqGAN 的架构。 生成器的空间编码与鉴别器的空间感知保持一致,空间热图的随机样本(参见前面的图像)通过空间编码层(SEL)编码回生成器。 GradCAM 是一种将判别器的注意力图提供给生成器的机制。

GradCAM 生成反映鉴别器对最新迭代的批评的热图(见上图),并将其提供给生成器。

一旦模型经过训练,映射仍然是这个合作过程的产物,但也可以用于以研究人员项目视频中演示的交互方式探索最终的潜在代码(见下文)。

等式GAN

该项目使用了许多流行的数据集,包括 LSUN Cat 和 Churches 数据集,以及 FF总部 数据集。 下面的视频还展示了使用 EqGAN 进行面部和猫科动物操作的示例。

在正式实施 StyleGAN256 上训练 EqGAN 之前,所有图像的大小均已调整为 256×2。 该模型在 64 个 GPU 上以 8 个批量大小进行训练,直到判别器接触到超过 25 万张图像。

使用 Frechet 起始距离(Frechet Inception Distance)测试所选样本的系统结果(FID),作者建立了一个称为不平衡指标(DI)的指标——判别器相对于生成器保留知识优势的程度,目的是缩小这一差距。

在训练的三个数据集上,将空间意识编码到生成器中后,新指标显示出有用的下降,FID 和 DI 都证明了平衡的改善。

研究人员得出结论:

“我们希望这项工作能够激发更多重新审视 GAN 平衡的工作,并开发更多新颖的方法,通过操纵 GAN 平衡来提高图像合成质量。 我们还将在今后的工作中对此问题进行更多的理论研究。

并继续:

“定性结果表明,我们的方法成功地[迫使生成器]专注于特定区域。 对各种数据集的实验验证了我们的方法减轻了 GAN 训练中的不平衡性,并显着提高了整体图像合成质量。 由此产生的具有空间意识的模型还可以对输出图像进行交互式操作。

请观看下面的视频,了解有关该项目的更多详细信息,以及 GAN 中潜在空间的动态和交互式探索的更多示例。

通过提高空间意识改善 GAN 平衡

 

 

11 年 12 月 4 日上午 2021:XNUMX – 更正了 GradCAM 的 URL 并整理了周围的参考。