Connect with us

人工智能

使用 ‘Blobs’ 编辑 GAN 的潜在空间

mm

来自 UC Berkeley 和 Adobe 的新研究提供了一种直接编辑由生成对抗网络 (GAN) 创建的超现实内容的方法,但通常无法控制、动画或自由操纵的方式,长期以来熟悉于 Photoshop 用户和 CGI 实践者。

题为 BlobGAN 的方法涉及创建一个 ‘blobs’ 网格 – 直接映射到 GAN 潜在空间中的内容的数学构造。

通过移动 blobs,可以以更接近 CGI 和 CAD 方法而非当前许多尝试映射和控制 GAN 潜在空间的方法的直观方式移动场景表示中的 ‘对象’:

使用 BlobGAN 进行场景操纵:当用户移动 'blobs' 时,GAN 中的潜在对象和样式的排列也会相应地改变。更多示例,请参见本文末尾的附件视频,或访问 https://www.youtube.com/watch?v=KpUv82VsU5k

使用 BlobGAN 进行场景操纵:当用户移动 ‘blobs’ 时,GAN 中的潜在对象和样式的排列也会相应地改变。 更多示例,请参见本文末尾的附件视频,或访问 https://www.youtube.com/watch?v=KpUv82VsU5k

由于 blobs 对应于 GAN 的潜在空间中映射的场景中的 ‘对象’,所有对象都是 a priori 分离的,因此可以单独修改它们:

对象可以被调整大小、缩小、克隆和删除等操作。

对象可以被调整大小、缩小、克隆和删除等操作。

与任何对象编辑软件(或甚至文本编辑软件)一样,一个 blob 可以被复制并随后被操纵:

blobs 可以在界面中被复制,其对应的潜在表示也会被 '复制和粘贴'。来源:https://dave.ml/blobgan/#results

blobs 可以在界面中被复制,其对应的潜在表示也会被 ‘复制和粘贴’。 来源:https://dave.ml/blobgan/#results

BlobGAN 也可以解析用户选择的新图像到其潜在空间:

使用 BlobGAN,您不需要将要操纵的图像直接纳入训练数据,然后寻找它们的潜在代码,而可以随时输入选择的图像并操纵它们。这里被改变的照片是事后用户输入。来源:https://dave.ml/blobgan/#results

使用 BlobGAN,您不需要将要操纵的图像直接纳入训练数据,然后寻找它们的潜在代码,而可以随时输入选择的图像并操纵它们。 来源:https://dave.ml/blobgan/#results

更多结果可以在 这里 和附件 YouTube 视频中看到(嵌入在本文末尾),也可以在 https://www.youtube.com/watch?v=KpUv82VsU5k 中看到。还有一個交互式 Colab 演示*, 和一个 GitHub 仓库**。

这种工具和范围可能看起来很天真,在 Photoshop 之后的时代,参数化软件包如 Cinema4D 和 Blender 已经允许用户创建和自定义 3D 世界数十年;但它代表了一种有前途的方法,通过使用代理实体来映射潜在代码来驯服 GAN 中潜在空间的怪癖和神秘性质。

作者声称:

‘在一个具有挑战性的多类别数据集的室内场景中,BlobGAN 在图像质量方面优于 Style-GAN2,如 FID 测量的那样。’

论文 的标题为 BlobGAN:空间分离的场景表示,由两位来自 UC Berkeley 的研究人员和三位来自 Adobe Research 的研究人员共同撰写。

中间人

BlobGAN 为 GAN 图像合成带来了新的范式。新论文指出,之前的方法要么是 ‘自上而下’,要么是 ‘自下而上’。

自上而下的方法在 GAN 或图像分类器中将场景图像视为类别,例如 ‘卧室’、’教堂’、’面部’ 等。这类文本/图像配对为新一代多模态图像合成框架提供了动力,例如最近的 DALL-E 2。

自下而上的方法则将图像中的每个像素映射到一个类别、标签或类别。这种方法使用多种技术,语义分割是 当前流行的研究方向

作者评论:

‘两种方法似乎都不令人满意,因为它们都不能提供一种简单的方法来推理场景的部分作为实体。场景的部分要么被融入一个单一的纠缠潜在向量(自上而下),要么需要从单个像素标签中分组(自下而上)。’

相反,BlobGAN 提供了一种 无监督的中级表示,或生成模型的代理框架。

布局网络将局部(和可控)的 'blob' 实体映射到潜在代码。中心的彩色圆圈组成一个 'blob 地图'。来源:https://arxiv.org/pdf/2205.02837.pdf

布局网络将局部(和可控)的 ‘blob’ 实体映射到潜在代码。中心的彩色圆圈组成一个 ‘blob 地图’。 来源:https://arxiv.org/pdf/2205.02837.pdf

高斯(即基于噪声的)blobs 是深度有序的,代表着一个将每个实体分配给一个映射的瓶颈,解决了 GAN 内容操纵的最大障碍:分离(也是 自动编码器基于架构的问题)。得到的 ‘blob 地图’ 用于操纵 BlobGAN 的解码器。

作者注意到,系统通过一个不使用显式标签的现成鉴别器学会将场景分解为布局和实体,这让他们有些惊讶。

架构和数据

blob 地图中的实体通过一个修订的 StyleGAN2 衍生 网络 转换为图像,这种方法从 NVIDIA 的先前研究中汲取灵感。

NVIDIA 研究的修订 StyleGAN 2 衍生品。该工作的一些原理被采用或适用于 BlobGAN。来源:https://arxiv.org/pdf/1912.04958.pdf

NVIDIA 研究的修订 StyleGAN 2 衍生品。该工作的一些原理被采用或适用于 BlobGAN。 来源:https://arxiv.org/pdf/1912.04958.pdf

StyleGAN 2 在 BlobGAN 中被修改为接受来自 blob 地图的输入,而不是通常的单个全局向量。

BlobGAN 使得一系列操纵成为可能,包括 '自动完成' 一个空卧室场景,以及调整和重新定位房间中的元素。在下面的行中,我们看到使其成为可能的用户可访问的工具 - blob 地图。

BlobGAN 使得一系列操纵成为可能,包括 ‘自动完成’ 一个空卧室场景,以及调整和重新定位房间中的元素。在下面的行中,我们看到使其成为可能的用户可访问的工具 – blob 地图。

通过类比,BlobGAN 不是让一个巨大而复杂的建筑(潜在空间)一下子出现,然后不得不探索它的无尽通道,而是从一开始就发送组件块,并且总是知道它们在哪里。这是工作的主要创新。

 

* 不在编写时功能
** 代码尚未在编写时发布

 

首次发布于 2022 年 5 月 8 日。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai