关注我们.

人工智能

使用“Blob”编辑 GAN 的潜在空间

mm
更新 on

加州大学伯克利分校和 Adob​​e 的新研究提供了一种直接编辑超真实内容的方法,这些内容可以由生成对抗网络 (GAN) 创建,但通常无法以 Photoshop 长期熟悉的方式进行控制、动画或自由操作用户和 CGI​​ 从业者。

标题 布洛布生成网络,该方法涉及创建一个“斑点”网格——直接映射到 GAN 潜在空间内内容的数学结构。

通过移动斑点,您可以以直观的方式移动场景表示中的“对象”,这种方式比当前映射和控制 GAN 潜在空间的许多尝试更接近 CGI 和 CAD 方法:

使用 BlobGAN 进行场景操作:当用户移动“斑点”时,GAN 中潜在对象和样式的配置也会相应改变。 有关更多示例,请参阅嵌入在本文末尾的论文随附视频,或访问 https://www.youtube.com/watch?v=KpUv82VsU5k

使用 BlobGAN 进行场景操作:当用户移动“斑点”时,GAN 中潜在对象和样式的配置也会相应改变。 有关更多示例,请参阅嵌入在本文末尾的论文随附视频,或访问 https://www.youtube.com/watch?v=KpUv82VsU5k

由于 blob 对应于 GAN 中映射的场景中的“对象” 潜在空间,所有物体都解开 先验,可以单独更改它们:

对象可以进行调整大小、缩小、克隆和删除等操作。

对象可以进行调整大小、缩小、克隆和删除等操作。

与照片编辑(甚至文本编辑)软件中的任何对象一样,斑点可以被复制并随后进行操作:

Blob 可以在界面中复制,并且它们相应的潜在表示也将被“复制和粘贴”。 来源:https://dave.ml/blobgan/#results

Blob 可以在界面中复制,并且它们相应的潜在表示也将被“复制和粘贴”。 来源:https://dave.ml/blobgan/#results

BlobGAN 还可以将用户选择的新颖图像解析到其潜在空间中:

使用 BlobGAN,您不必将想要操作的图像直接合并到训练数据中,然后找出它们的潜在代码,而是可以随意输入选择的图像并操作它们。 此处更改的照片是事后用户输入。 来源:https://dave.ml/blobgan/#results

使用 BlobGAN,您不必将想要操作的图像直接合并到训练数据中,然后找出它们的潜在代码,而是可以随意输入选择的图像并操作它们。 此处更改的照片是事后用户输入。 来源:https://dave.ml/blobgan/#results

更多结果可见 请点击此处尝试搜索。,并在随附的 YouTube视频 (嵌入在本文末尾)。 还有一个互动 Colab 演示* 和 GitHub 回购。**

这种工具和范围在后 Photoshop 时代似乎很幼稚,几十年来,Cinema4D 和 Blender 等参数化软件包一直允许用户创建和定制 3D 世界; 但它代表了一种有前途的方法,通过使用映射到潜在代码的代理实体来驯服生成对抗网络中潜在空间的怪异和神秘性质。

作者断言:

“在具有挑战性的室内场景多类别数据集上,通过 FID 测量,BlobGAN 在图像质量方面优于 Style-GAN2。”

我们推荐使用 标题为 BlobGAN:空间分离的场景表示,由加州大学伯克利分校的两名研究人员和 Adob​​e Research 的三名研究人员共同撰写。

中间人

BlobGAN 为 GAN 图像合成带来了新的范例。 新论文指出,之前解决潜在空间中离散实体的方法要么是“自上而下”,要么是“自下而上”。

GAN 或图像分类器中的自上而下方法将场景图像视为类别,例如“卧室”、“教堂”、“脸部”等。这种文本/图像配对为新一代多模态图像合成框架提供了动力,比如最近来自 OpenAI 的 DALL-E 2。

相反,自下而上的方法将图像中的每个像素映射到类、标签或类别中。 这些方法使用不同的技术,尽管语义分割是一种 当前流行的研究方向.

作者评论:

“这两条路径似乎都不能令​​人满意,因为它们都无法提供简单的方法来将场景的某些部分推理为实体。 场景部分要么被烘焙成单个纠缠潜在向量(自上而下),要么需要从单个像素标签分组在一起(自下而上)。

相反,BlobGAN 提供了 无监督的中层代表,或生成模型的代理框架。

布局网络将本地(且可控)“blob”实体映射到潜在代码。 中心的彩色圆圈构成“斑点图”。 资料来源:https://arxiv.org/pdf/2205.02837.pdf

布局网络将本地(且可控)“blob”实体映射到潜在代码。 中心的彩色圆圈构成“斑点图”。 资料来源:https://arxiv.org/pdf/2205.02837.pdf

高斯(即基于噪声的)斑点是深度排序的,代表了为每个实体分配映射的架构中的瓶颈,解决了 GAN 内容操作的最大障碍:解缠结(也 一个问题 对于基于自动编码器的架构)。 生成的“blob 图”用于操作 BlobGAN 的解码器。

作者惊讶地指出,系统通过不使用显式标签的现成鉴别器学习将场景分解为布局和实体。

架构和数据

blob 图中的实体通过修订后的 StyleGAN2 衍生转换为图像 网络,这种方法的灵感来自于 NVIDIA 之前的研究。

来自 NVIDIA Research 的修订版 StyleGAN 2 衍生品。 这项工作中的一些原则已被 BlobGAN 采用​​或改编。 资料来源:https://arxiv.org/pdf/1912.04958.pdf

来自 NVIDIA Research 的修订版 StyleGAN 2 衍生品。 这项工作中的一些原则已被 BlobGAN 采用​​或改编。 资料来源:https://arxiv.org/pdf/1912.04958.pdf

StyleGAN 2 在 BlobGAN 中进行了修改,以接受来自 blob 图的输入,而不是通常情况下的单个全局向量。

BlobGAN 实现了一系列操作,包括卧室场景的“自动完成”,以及房间中元素的大小和重新定位。 在下面的行中,我们看到了实现此目的的用户可访问的工具 - blob 映射。

BlobGAN 实现了一系列操作,包括“自动完成”空卧室场景,以及调整房间内元素的大小和位置。 在下面的行中,我们看到了实现此目的的用户可访问的工具 - blob 映射。

以此类推,BlobGAN 不是一次性将巨大而复杂的建筑物(潜在空间)全部建成,然后必须探索其无尽的小道,而是在开始时发送组件块,并且始终知道它们在哪里。 这种内容和地点的解开是该作品的主要创新。

BlobGAN:空间分离的场景表示

 

* 在撰写本文时无法使用
** 在撰写本文时代码尚未发布

 

首次发布于 8 年 2022 月 XNUMX 日。