Anderson 视角
SofGAN:一种提供更大控制度的GAN面部生成器

上海和美国的研究人员开发了一种基于GAN的肖像生成系统,允许用户创建具有以前不可用的控制级别的新面孔,包括头发、眼睛、眼镜、纹理和颜色等个别方面。
为了展示该系统的多功能性,创作者提供了一个Photoshop风格的界面,用户可以直接绘制语义分割元素,这些元素将被重新解释为真实的图像,甚至可以通过直接在现有照片上绘制来获得。
在下面的示例中,演员丹尼尔·雷德克里夫的照片被用作跟踪模板(目标不是产生他的肖像,而是一个一般的照片级图像)。当用户填充各种元素,包括离散的方面,如眼镜时,它们被识别和解释为输出图像中的绘图:

使用一张图像作为SofGAN生成肖像的跟踪材料。 来源:https://www.youtube.com/watch?v=xig8ZA3DVZ8
该 论文 的标题是 SofGAN:具有动态风格的肖像图像生成器 ,由 Anpei Chen 和 Ruiyang Liu 领导,另外还有两位来自上海科技大学的研究人员和一位来自加利福尼亚大学圣地亚哥分校的研究人员。
解开特征
该工作的主要贡献不是提供用户友好的UX,而是在学习的面部特征中“解开”特征,如姿势和纹理,这使得SofGAN也可以生成与相机视点不直接对齐的面孔。
由于纹理现在与几何分离,面部形状和纹理也可以作为单独的实体进行操作。实际上,这允许改变源面部的种族,这是一种曾经存在争议的做法,现在有了一个潜在的有用应用,即创建种族平衡的机器学习数据集。

SofGAN还支持人工老化和在以前的分割图像系统中未见的粒度级别上的一致风格调整,例如NVIDIA的 GauGAN 和Intel的基于游戏的神经渲染 系统。

SofGAN可以将老化作为一种迭代风格实现。
另一个SofGAN方法的突破是,训练不需要成对的分割/真实图像,而可以直接在未配对的真实世界图像上进行训练。
研究人员表示,SofGAN的“解开”架构的灵感来自传统的图像渲染系统,它将图像的个别方面分解。视觉效果工作流程中,复合元素通常被分解为最小的组件,并且有专门的专家负责每个组件。
语义占用场(SOF)
为了在机器学习图像合成框架中实现这一点,研究人员开发了一个 语义占用场(SOF) ,它是传统占用场的扩展,用于识别面部肖像的组成元素。SOF是在校准的多视图语义分割图上训练的,但没有任何地面真实监督。

从单个分割图(左下)生成多个迭代。
另外,通过对SOF的输出进行光线追踪,可以获得2D分割图,然后由GAN生成器进行纹理处理。合成的语义分割图也通过三层编码器在低维空间中编码,以确保在更改视点时输出的连续性。
训练方案对每个语义区域的两个随机样式进行空间混合:
研究人员声称,SofGAN比当前的最先进方法实现了更低的Frechet Inception Distance(FID)和更高的学习感知图像补丁相似度(LPIPS)指标。
以前的StyleGAN方法经常受到特征纠缠的阻碍,其中图像的组成元素不可逆转地与彼此绑定,导致不需要的元素出现在所需元素旁边(例如,当渲染耳朵形状时,可能会出现耳环,因为训练时使用了带有耳环的图片)。

光线追踪 用于计算语义分割图的体积,从而实现多视点。
数据集和训练
在SofGAN的各种实现中,使用了三个数据集:CelebAMask-HQ,一个包含30,000张高分辨率图像的仓库,这些图像来自CelebA-HQ数据集;NVIDIA的Flickr-Faces-HQ(FFHQ),其中包含70,000张图像,研究人员使用预训练的面部解析器对图像进行标注;以及一组自产的122张带有手动标注语义区域的肖像扫描。
SOF由三个可训练的子模块组成:超网、光线追踪器(见上图)和分类器。该项目的语义实例化风格GAN生成器的配置与StyleGAN2在某些方面相似。通过随机缩放和裁剪进行数据增强,每四步进行路径正则化。整个训练过程需要22天才能在四个RTX 2080 Ti GPU上达到80万次迭代,使用CUDA 10.1。
该论文没有提到2080卡的配置,它们可以容纳11gb-22gb的VRAM,这意味着训练SofGAN所使用的总VRAM在44Gb到88Gb之间。
研究人员观察到,在训练的早期,1500次迭代,三天内,就出现了可接受的、普遍的、高级别的结果。训练的剩余部分花费在缓慢地获得细节,如头发和眼睛方面。
SofGAN通常从单个分割图中实现比对手方法(如NIVDIA的 SPADE 和 Pix2PixHD,以及 SEAN)更真实的结果。
以下是研究人员发布的视频。更多自托管视频可在 项目页面 上找到。















