Anderson 视角

使用草图创建自定义生成对抗网络

发布于 2021年8月6日

更新于 2026年5月24日

作者

Martin Anderson

卡内基梅隆大学和麻省理工学院的研究人员开发了一种新方法，允许用户通过绘制草图来创建自定义生成对抗网络（GAN）图像生成系统。

这种系统可以让用户创建能够生成非常具体的图像的图像生成系统，例如特定的动物、建筑类型，甚至是特定的人。目前，大多数GAN生成系统会产生广泛且相当随机的输出，很难指定特定的特征，例如动物的品种、人脸的发型、建筑风格或实际的面部特征。

这种方法在论文《Sketch Your Own GAN》中被概述，利用了一种新颖的绘图界面作为有效的“搜索”功能，来找到特征和类别在图像数据库中，这些数据库可能包含成千上万种对象，包括许多与用户意图不相关的子类型。然后，GAN会在此过滤后的子集图像上进行训练。

通过绘制用户希望使用GAN进行校准的特定对象类型，框架的生成能力就会专门针对该类。例如，如果用户希望创建一个能够生成特定类型猫（而不是任何普通的猫，如《这只猫不存在》）的框架，他们的输入草图将作为一个过滤器，排除掉不相关的猫类。

来源：https://peterwang512.github.io/GANSketching/

该研究由卡内基梅隆大学的Sheng Yu-Wang和麻省理工学院计算机科学与人工智能实验室的David Bau领导，共同研究人员包括Jun-Yan Zhu。

这种方法被称为“GAN绘图”，它使用输入草图直接修改“模板”GAN模型的权重，以特定的域或子域为目标，通过跨域对抗性损失。

为了确保模型的输出是多样化的，同时保持高图像质量，研究人员探索了不同的正则化方法。他们创建了示例应用程序，可以插值潜在空间并进行图像编辑过程。

这种[$class]不存在

GAN基于的图像生成系统已经成为一种潮流，如果不是一种模因，在过去的几年里，出现了许多项目，能够生成不存在的东西的图片，包括人、租赁公寓、零食、脚、马、政客和昆虫等。

GAN基于的图像合成系统是通过编译或整理大量来自目标域的图像数据集而创建的，例如面部或马；训练模型以概括图像数据库中的一系列特征；并实现生成器模块，可以输出基于学习特征的随机示例。

DeepFacePencil的输出，该工具允许用户从草图创建逼真的人脸。许多类似的草图到图像项目存在。来源：https://arxiv.org/pdf/2008.13343.pdf

在训练过程中，高维特征是首先被具体化的，并等同于画家在画布上最初的宽泛笔触。这些高维特征最终将与更详细的特征相关联（例如，猫的眼光和锋利的胡须，而不是仅仅是一个代表头部的泛型米色斑块）。

我知道你是什么意思……

通过映射这些早期基本形状和最终详细解释之间的关系，可以推断出“模糊”和“具体”图像之间的关系，从而使用户能够从粗略的涂鸦中创建复杂和逼真的图像。

最近，NVIDIA发布了其长期的GauGAN研究的桌面版本，该研究是关于基于GAN的景观生成的，这很容易证明这一原理：

近似涂鸦被转换为丰富的风景图像，通过NVIDIA的GauGAN和NVIDIA Canvas应用程序。来源：https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-synthesis/

同样，多个系统，如DeepFacePencil，使用相同的原理创建了草图诱导的逼真图像生成器，适用于各种域。

DeepFacePencil的架构。

简化草图到图像

新论文的GAN绘图方法旨在通过使用用户输入来定义哪些子集的图像应构成训练数据，从而消除通常涉及GAN图像框架开发的数据收集和策划的巨大负担。

该系统被设计为只需要少量输入草图来校准框架。该系统有效地逆转了2019年卡内基梅隆大学、Adobe、Uber ATG和Argo AI联合研究项目PhotoSketch的功能，PhotoSketch旨在从图像创建艺术草图，并已包含有效的模糊>具体图像创建关系的映射。

对于生成过程，新方法仅修改StyleGAN2的权重。由于使用的图像数据仅是总可用数据的一个子集，因此仅修改映射网络即可获得理想的结果。

该方法在多个流行的子域上进行了评估，包括马、教堂和猫。

普林斯顿大学2016年的LSUN数据集被用作派生目标子域的核心材料。为了建立一个对真实世界用户输入草图的怪癖具有鲁棒性的草图映射系统，该系统被训练在微软于2021-2016年间开发的QuickDraw数据集上。

尽管草图映射之间的PhotoSketch和QuickDraw有所不同，但研究人员发现，他们的框架在相对简单的姿势上成功地跨越了它们，尽管更复杂的姿势（例如，猫躺下）证明更具挑战性，而非常抽象的用户输入（例如，过于粗糙的绘图）也会阻碍结果的质量。

潜在空间和自然图像编辑

研究人员基于核心工作开发了两个应用程序：潜在空间编辑和图像编辑。潜在空间编辑提供了可解释的用户控件，这些控件在训练时被实现，并允许在保持忠实于目标域和一致性方面具有很大的变化范围。

GAN绘图的自定义模型的平滑潜在空间插值。

潜在空间编辑组件由2020年的GANSpace项目提供支持，GANSpace项目是奥卢大学、Adobe和NVIDIA的联合研究项目。

也可以将单个图像输入到自定义模型中，从而实现自然图像编辑。在这种应用中，单个图像被投影到自定义GAN中，不仅可以直接编辑，还可以保留更高级的潜在空间编辑，如果也使用了这种编辑。

这里，真实图像被用作输入到GAN（猫模型），并编辑输入以匹配提交的草图。这允许通过草图进行图像编辑。

尽管可以配置，但该系统并不是为实时工作而设计的，至少在训练和校准方面是如此。目前，GAN绘图需要30,000次训练迭代。该系统还需要访问原始模型的原始训练数据。

在数据集是开源且具有允许本地复制的许可证的情况下，这可以通过在本地安装包中包含源数据来实现，尽管这将占用大量磁盘空间；或者通过远程访问或处理数据，通过基于云的方法，这将引入网络开销和（在处理实际发生在云端的情况下）可能的计算成本考虑。

仅使用4个人类生成的草图训练的自定义FFHQ模型的变换。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

使用草图创建自定义生成对抗网络

这种[$class]不存在

我知道你是什么意思……

简化草图到图像

潜在空间和自然图像编辑

发现更多