使用“Blob”编辑GAN的潜在空间

发布于 2022年5月8日

更新于 2026年5月24日

作者

Martin Anderson

来自UC Berkeley和Adobe的新研究提供了一种直接编辑由生成对抗网络（GAN）创建的超现实内容的方法，这种内容通常无法被控制、动画或自由操纵，就像Photoshop用户和CGI从业者所熟悉的那样。

该方法被称为BlobGAN，它涉及创建一个“blob”网格——数学构造直接映射到GAN的潜在空间中的内容。

通过移动这些“blob”，您可以在场景表示中以更为直观的方式移动“对象”，这种方式更接近于CGI和CAD方法，而不是当前许多GAN潜在空间映射和控制的尝试。

使用BlobGAN进行场景操纵：当用户移动“blob”时，GAN中的潜在对象和样式也会相应地改变。 更多示例，请参见文章末尾的视频或https://www.youtube.com/watch?v=KpUv82VsU5k

由于“blob”对应于GAN潜在空间中场景中的“对象”，所有对象都是潜在空间中的先验解耦的，使得可以单独修改它们。

对象可以被调整大小、缩小、克隆和删除等操作。

与照片编辑软件（或文本编辑软件）中的任何对象一样，一个“blob”可以被复制并随后被操纵。

Blob可以在界面中被复制，它们对应的潜在表示也会被’复制和粘贴’。来源：https://dave.ml/blobgan/#results

BlobGAN还可以将新颖的用户选定图像解析到其潜在空间中。

使用BlobGAN，您不需要将要操纵的图像直接纳入训练数据，然后寻找它们的潜在代码，而可以随意输入选择的图像并操纵它们。这里被改变的照片是事后用户输入的。来源：https://dave.ml/blobgan/#results

更多结果可以在这里看到，也可以在文章末尾的YouTube视频中看到。还有一份交互式的Colab演示，以及一个GitHub仓库。

这种工具性和范围可能看起来很天真，在Photoshop之后的时代，参数化软件包如Cinema4D和Blender已经允许用户创建和自定义3D世界数十年了。但是，它代表了一种有前途的方法，通过使用映射到潜在代码的代理实体来驯服GAN潜在空间的怪癖和神秘性质。

作者们断言：

‘在一个具有挑战性的多类别数据集上，BlobGAN在图像质量方面超过了Style-GAN2，如FID所测量的那样。’

该论文被称为BlobGAN：空间解耦的场景表示，由两位来自UC Berkeley的研究人员和三位来自Adobe Research的研究人员共同撰写。

BlobGAN为GAN图像合成带来了新的范式。该论文指出，之前的方法要么是“自上而下”，要么是“自下而上”。

GAN或图像分类器中的自上而下方法将场景图像视为类别，如“卧室”、“教堂”、“脸”等。这类文本/图像配对为新的多模态图像合成框架提供了动力，如OpenAI最近的DALL-E 2。

自下而上的方法则将图像中的每个像素映射到一个类别、标签或类别。这种方法使用多种技术，语义分割是当前研究的一个热门方向。

作者们评论道：

‘这两种方法似乎都不令人满意，因为它们都无法提供一种简单的方法来推理场景的部分作为实体。场景的部分要么被烘焙到一个单一的耦合潜在向量中（自上而下），要么需要从单个像素标签中分组在一起（自下而上）。’

相反，BlobGAN提供了一种无监督的中级表示，或生成模型的代理框架。

布局网络将局部（和可控的）’blob’实体映射到潜在代码。中心的彩色圆圈组成一个’blob地图’。来源：https://arxiv.org/pdf/2205.02837.pdf

高斯（即基于噪声的）“blob”是深度有序的，代表着一个瓶颈，在架构中为每个实体分配一个映射，解决了GAN内容操纵中最大的障碍：解耦（这也是自编码器架构的问题）。得到的“blob地图”用于操纵BlobGAN的解码器。

作者们惊讶地注意到，该系统通过一个不使用显式标签的现成判别器学会将场景分解为布局和实体。

“blob”地图中的实体通过一种修订的StyleGAN2派生的网络转换为图像，这种方法从NVIDIA的先前研究中汲取灵感。

NVIDIA研究的修订StyleGAN 2派生。一些原理被采用或适配用于BlobGAN。来源：https://arxiv.org/pdf/1912.04958.pdf

StyleGAN 2被修改为接受来自“blob”地图的输入，而不是通常的单个全局向量。

BlobGAN使得一系列操纵成为可能，包括自动完成一个卧室场景，以及调整和重新定位房间中的元素。在下面的行中，我们看到使其成为可能的用户可访问的工具——“blob”地图。

通过类比，BlobGAN不是一次性地创建一个庞大而复杂的建筑（潜在空间），然后探索其无尽的路径，而是首先发送组件块，并始终知道它们在哪里。这种内容和位置的解耦是工作的主要创新。

* 在写作时不可用

首次发布于2022年5月8日。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI