关注我们.

人工智能

通过语义分割协调面部合成

mm
更新 on

发明人脸的问题 生成性对抗网络 (GAN)的一个特点是,为虚假图像提供燃料的现实世界数据带有不受欢迎且不可分割的装备,例如头部(和/或面部)上的头发、背景以及各种面部家具,例如眼镜、帽子、和耳环; 并且人格的这些外围方面不可避免地与“融合”的身份联系在一起。

在最常见的 GAN 架构下,这些元素无法在自己的专用空间中寻址,而是与它们嵌入的面部(或周围)紧密相关。

通常也不可能决定或影响外观 小节 GAN 创建的脸部,例如缩小眼睛、拉长鼻子或像警察素描艺术家那样改变头发颜色。

然而,图像合成研究部门正在努力:

基于 GAN 的面部生成的新研究将面部的各个部分分成不同的区域,每个区域都有自己的“生成器”,与其他图像生成器协同工作。 在中间行,我们看到编排的“特征图”构建了面部的其他区域。 资料来源:https://arxiv.org/pdf/2112.02236.pdf

基于 GAN 的人脸生成的新研究将人脸的各个部分分成不同的区域,每个区域都有自己的“生成器”,与其他图像生成器协同工作。 在中间行,我们看到编排的“特征图”构建了面部的其他区域。 资料来源:https://arxiv.org/pdf/2112.02236.pdf

在一个新的 来自中国跨国科技巨头字节跳动美国子公司的研究人员使用语义分割将人脸的组成部分分解为离散的部分,每个部分都分配有自己的生成器,这样就可以实现更大程度的识别。  解开。 或者至少, 知觉的 解开。

我们推荐使用 标题为 SemanticStyleGAN:学习组合生成先验以实现可控图像合成和编辑,并伴随着丰富的媒体 项目页 其中包含以这种方式隔离面部和头部元素时可以实现的各种细粒度变换的多个示例。

面部纹理、发型和颜色、眼睛形状和颜色以及曾经不可分割的 GAN 生成特征的许多其他方面现在都可以被解开,尽管分离的质量和工具水平可能因情况而异。 来源:https://semanticstylegan.github.io/

面部纹理、发型和颜色、眼睛形状和颜色以及许多其他方面曾经不可分割的 GAN 生成的特征现在都可以 事实上的  解开,尽管分离的质量和工具性的水平可能因情况而异。 来源:https://semanticstylegan.github.io/

不可控制的潜在空间

经过训练可以生成人脸的生成对抗网络 - 例如 风格甘2 为流行网站 thispersondoesnotexist.com 提供支持的生成器 – 在“功能”之间形成复杂的相互关系(不是面部意义上的)它是通过分析数千个现实世界的面孔而得出的,以便学习如何制作逼真的人脸本身。

这些秘密过程是“潜在代码”,统称为 潜在空间。 它们很难分析,因此也很难工具化。

上周出现了一个不同的新图像合成项目,试图在训练过程中“绘制”这个近乎神秘的空间,然后 使用这些地图进行交互式导航,并且已经提出了各种其他解决方案来获得对 GAN 合成内容的更深入的控制。

我们已经取得了一些进展,提供了多种 GAN 架构,试图以某种方式“进入”潜在空间并从那里控制面部生成。 这些努力包括 接口GAN, 风格流, GAN空间风格钻机等不断产出的新论文。

它们的共同点是解开程度有限。 用于各种方面(例如“头发”或“表情”)的巧妙 GUI 滑块往往会将背景和/或其他元素拖入转换过程中,并且它们(包括此处讨论的论文)都没有解决时间问题神经毛。

划分并征服潜在空间

无论如何,字节跳动的研究采取了不同的方法:SemanticStyleGAN 没有试图辨别单个 GAN 在整个生成的人脸图像上运行的奥秘,而是制定了一种基于布局的方法,其中人脸由单独的生成器进程“组合”。

为了实现(面部)特征的这种区分,SemanticStyleGAN 使用 傅里叶特征 生成语义分割图(面部地形的粗略彩色区别,如下图右下角所示)以隔离将受到单独、专门关注的面部区域。

新方法的架构,将语义分割的间隙层强加到面部上,有效地将框架转变为图像不同方面的多个生成器的协调器。

新方法的架构,将语义分割的间隙层强加到面部上,有效地将框架转变为图像不同方面的多个生成器的协调器。

为假图像生成分割图,随着模型的改进,这些假图像会系统地呈现给 GAN 判别器进行评估,并呈现给用于训练的(非假)源图像。

在该过程开始时, 多层感知器 (MLP)最初映射随机选择的潜在代码,然后将其用于控制​​多个生成器的权重,每个生成器将控制要生成的面部图像的一部分。

每个生成器都会根据上游输入的傅里叶特征创建一个特征图和一个模拟深度图。 该输出是分割掩模的基础。

下游渲染网络仅受早期特征图的限制,现在知道如何生成更高分辨率的分割掩模,从而促进图像的最终生成。

最后,分叉鉴别器监督 RGB 图像(对我们来说,最终结果)和允许将它们分开的分割掩模的串联分布。

使用 SemanticStyleGAN,当“拨入”面部特征变化时,不会出现不受欢迎的视觉扰动,因为每个面部特征都在编排框架内进行了单独训练。

替换背景

由于该项目的目的是更好地控制生成的环境,因此渲染/合成过程包括一个在真实图像上训练的背景生成器。

背景在 SemanticStyleGAN 中不会被拖入面部操作的一个令人信服的原因是,它们位于更远的层上,并且是完整的,即使部分被叠加的面部隐藏。

背景在 SemanticStyleGAN 中不会被拖入面部操作的一个令人信服的原因是,它们位于更远的层上,并且是完整的,即使部分被叠加的面部隐藏。

由于分割图将导致没有背景的面部,因此这些“插入”背景不仅提供上下文,而且还被配置为在照明方面适合叠加的面部。

训练和数据

“真实”模型是在最初的 28,000 张图像上进行训练的 CelebAMask-总部,调整大小为 256×256 像素以适应训练空间(即可用的 VRAM,它决定每次迭代的最大批量大小)。

在开发过程和各种消融测试中,训练了许多模型,并试验了不同的工具、数据集和架构。 该项目最大的生产模型具有 512×512 分辨率,在 2.5 个 NVIDIA Tesla V100 GPU 上训练了超过 0.137 天。 训练后,在没有并行化的情况下,在 lobe GPU 上生成单个图像需要 XNUMX 秒。

该项目页面上的许多视频(参见上面的链接)中演示的更多卡通/动漫风格的实验源自各种流行的基于面部的数据集,包括 美化, 面对面Bitmoji.

权宜之计?

作者认为,SemanticStyleGAN 没有理由不能应用于其他领域,例如风景、汽车、教堂以及新架构在其职业生涯早期经常遇到的所有其他“默认”测试领域。

然而,该论文承认,随着一个领域的类数量增加(例如 '车'路灯', '行人', '建筑', '车' 等),如果不进一步进行优化,这种零敲碎打的方法可能会在很多方面变得行不通。 例如,CityScapes 城市数据集有 30 个类别 8 个班级.

很难说目前对更直接地征服潜在空间的兴趣是否会像炼金术一样注定会失败。 或者潜在的代码最终是否会被破译和控制——这一发展可能会使这种更“外部复杂”的方法变得多余。