人工智能
使用草图创建自定义生成对抗网络

卡内基梅隆大学和麻省理工学院的研究人员开发了一种新方法,允许用户仅通过绘制提示性涂鸦来创建自定义生成对抗网络(GAN)图像创建系统。这种系统可以让最终用户创建能够生成非常具体的图像的图像生成系统,例如特定的动物、建筑类型,甚至个别人物。目前,大多数GAN生成系统产生的输出很广泛,相当随机,具有有限的特征指定能力,例如动物品种、人物头发类型、建筑风格或实际面部身份。该方法在《Sketch Your Own GAN》论文中概述,利用了一种新颖的绘图界面作为有效的“搜索”功能来找到其他图像数据库中可能包含成千上万个对象的特征和类别,包括许多与用户意图不相关的子类型。然后,GAN在此过滤后的子集图像上进行训练。通过绘制用户希望使用GAN进行校准的特定对象类型,框架的生成能力变得专门针对该类。例如,如果用户希望创建一个生成特定类型猫(而不是任何旧猫,如可以从This Cat Does Not Exist获得)的框架,他们的输入草图作为一个过滤器来排除不相关的猫类。

来源:https://peterwang512.github.io/GANSketching/
该研究由卡内基梅隆大学的Sheng Yu-Wang和麻省理工学院的Colleague Jun-Yan Zhu以及David Bau领导。该方法本身被称为“GAN绘图”,并使用输入草图直接改变“模板”GAN模型的权重,以通过跨域对抗性损失针对识别的域或子域。探索了不同的正则化方法,以确保模型的输出是多样化的,同时保持高图像质量。研究人员创建了可以插入潜在空间并进行图像编辑过程的示例应用程序。
这个[$class]不存在
基于GAN的图像生成系统已经成为一种潮流,如果不是一种模因,在过去的几年里,出现了许多可以生成不存在的东西的图片的项目,包括人、租赁公寓、零食、脚、马、政客和昆虫等。基于GAN的图像合成系统是通过编译或整理包含目标域图像的广泛数据集(例如面部或马匹)创建的;训练可以概括图像数据库中一系列特征的模型;并实现可以根据学习的特征输出随机示例的生成器模块。

DeepFacePencil中的草图输出,它允许用户从草图创建照片级别的面部。许多类似的草图到图像项目存在。 来源:https://arxiv.org/pdf/2008.13343.pdf
在训练过程中,高维特征是最先被具体化的,相当于画家在画布上最初的宽泛色彩笔触。这些高维特征最终将与更详细的特征相关联(例如,猫的眼光和锋利的胡须,而不是仅仅是一个代表头部的泛型米色斑点)。
我知道你是什么意思……
通过映射这些早期基本形状和最终详细解释之间的关系,这些关系是在训练过程中稍后获得的,因此可以推断出“模糊”和“具体”图像之间的关系,允许用户从粗糙的涂鸦创建复杂和照片级别的图像。最近,NVIDIA发布了其长期GauGAN研究的桌面版本,该研究基于GAN的景观生成,轻松演示了这一原理:

通过NVIDIA的GauGAN和现在的NVIDIA Canvas应用程序,近似的涂鸦被转换为丰富的风景图像。来源:https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-synthesis/
同样,像DeepFacePencil这样的多个系统使用了相同的原理来创建草图诱导的照片级图像生成器,适用于各种域。
简化草图到图像
新论文的GAN绘图方法旨在通过使用用户输入来定义哪个子集的图像应构成训练数据,从而消除开发GAN图像框架中通常涉及的数据收集和策划的巨大负担。该系统被设计为仅需要少量输入草图来校准框架。该系统有效地反转了2019年卡内基梅隆大学、Adobe、Uber ATG和Argo AI研究人员联合研究项目PhotoSketch的功能,PhotoSketch被纳入新的工作中。PhotoSketch旨在从图像创建艺术草图,并已经包含了有效的模糊>具体图像创建关系的映射。对于生成过程的这一部分,新方法仅修改了StyleGAN2的权重。由于使用的图像数据仅是总可用数据的一个子集,因此仅修改映射网络就可以获得理想的结果。该方法在多个流行的子域上进行了评估,包括马、教堂和猫。 

潜在空间和自然图像编辑
研究人员开发了两个基于核心工作的应用程序:潜在空间编辑和图像编辑。潜在空间编辑提供了可解释的用户控件,这些控件在训练时得到促进,并允许在保持忠实于目标域的同时进行广泛的变化,并在变化中保持愉快的一致性。
潜在空间编辑组件由2020年的GANSpace项目提供支持,GANSpace项目是一个由Aalto大学、Adobe和NVIDIA联合发起的项目。也可以将单个图像输入自定义模型,从而实现自然图像编辑。在此应用中,单个图像被投影到自定义GAN中,不仅可以实现直接编辑,还可以保留更高级别的潜在空间编辑,如果也使用了它。

这里,实际图像被用作输入到GAN(猫模型),它编辑输入以匹配提交的草图。这允许通过草图进行图像编辑。
虽然可以配置,但该系统并不是为实时工作而设计的,至少在训练和校准方面是如此。目前,GAN绘图需要30,000次训练迭代。该系统还需要访问原始模型的原始训练数据。 在数据集是开源且具有允许本地复制的许可证的情况下,这可以通过在本地安装的包中包含源数据来实现,尽管这将占用大量磁盘空间;或者通过云端方法访问或处理数据,这将引入网络开销和(在云端实际处理数据的情况下)可能的计算成本考虑。















