关注我们.

人工智能

Adobe 研究扩展了解缠结的 GAN 面部编辑

mm
更新 on

不难理解为什么 纠葛 是图像合成中的一个问题,因为它通常是生活其他领域的问题; 例如,从咖喱中去除姜黄比丢弃汉堡中的泡菜要困难得多,而且几乎不可能使一杯咖啡脱甜。 有些东西只是捆绑在一起。

同样,纠缠是图像合成架构的绊脚石,理想情况下,在使用机器学习创建或编辑面部(或 狗狗, ,或任何其他域)。

如果你可以分离出诸如 年龄, 性别, 头发的颜色, 肤色, 情感等等,您将在一个框架中开始真正的工具性和灵活性,该框架可以在真正的粒度级别上创建和编辑面部图像,而不会将不需要的“乘客”拖入这些转换中。

在最大纠缠度(左上图)下,你所能做的就是将学习到的 GAN 网络的图像更改为另一个人的图像。

这是有效地利用最新的人工智能计算机视觉技术来实现通过其他方式解决的问题 三十多年前.

通过一定程度的分离(上图中前面的“中分离”),可以执行基于风格的更改,例如头发颜色、表情、化妆品应用和有限的头部旋转等。

资料来源:FEAT:注意力面部编辑,2022 年 2202.02713 月,https://arxiv.org/pdf/XNUMX.pdf

来源: 壮举:用心进行脸部编辑,2022 年 2202.02713 月,https://arxiv.org/pdf/XNUMX.pdf

在过去两年中,人们进行了许多尝试来创建交互式面部编辑环境,允许用户通过滑块和其他传统 UI 交互来更改面部特征,同时在进行添加或更改时保持目标面部的核心特征完整。 然而,由于 GAN 潜在空间中潜在的特征/风格纠缠,这已被证明是一个挑战。

例如,该 眼镜 特质经常与 特征,这意味着戴上眼镜也可能使面部“老化”,而面部老化可能会戴上眼镜,具体取决于高级特征的应用分离程度(请参阅下面的“测试”示例)。

最值得注意的是,如果不重新计算发丝和配置,几乎不可能改变头发颜色和其他头发方面,这会产生“嘶嘶作响”的过渡效果。

来源:InterFaceGAN 演示(CVPR 2020),https://www.youtube.com/watch?v=uoftpl3Bj6w

来源:InterFaceGAN 演示(CVPR 2020),https://www.youtube.com/watch?v=uoftpl3Bj6w

潜在到潜在的 GAN 遍历

Adobe 主导的新论文 进入 WACV 2022 为解决这些根本问题提供了一种新颖的方法 题为 Latent to Latent:一种学习映射器,用于对 StyleGAN 生成的图像中的多个人脸属性进行身份保留编辑.

论文《潜在到潜在:用于在 StyleGAN 生成的图像中对多个人脸属性进行身份保留编辑的学习映射器》的补充材料。 在这里我们看到,学习到的面孔中的基本特征没有被拖入不相关的变化中。 请参阅文章末尾嵌入的完整视频,以获得更好的细节和分辨率。 来源:https://www.youtube.com/watch?v=rf_61llRH0Q

论文的补充材料 Latent to Latent:一种学习映射器,用于对 StyleGAN 生成的图像中的多个人脸属性进行身份保留编辑。 在这里我们看到,学习到的面孔中的基本特征没有被拖入不相关的变化中。 请参阅文章末尾嵌入的完整视频,以获得更好的细节和分辨率。 来源:https://www.youtube.com/watch?v=rf_61llRH0Q

该论文由 Adob​​e 应用科学家 Siavash Khodadadeh 和其他四名 Adob​​e 研究人员以及中佛罗里达大学计算机科学系的一名研究人员领导。

这篇文章很有趣,部分原因是 Adob​​e 已经在这个领域运营了一段时间,并且很容易想象该功能在未来几年内进入 Creative Suite 项目; 但主要是因为为该项目创建的架构采用了不同的方法来在应用更改时保持 GAN 面部编辑器中的视觉完整性。

作者声明:

“[我们]训练一个神经网络来执行潜在到潜在的转换,找到与具有更改的属性的图像相对应的潜在编码。 由于该技术是一次性的,因此它不依赖于属性逐渐变化的线性或非线性轨迹。

通过在整个生成管道上端到端地训练网络,系统可以适应现成生成器架构的潜在空间。 保护属性,例如维护人的身份,可以以训练损失的形式进行编码。

“一旦潜在到潜在网络经过训练,它就可以重复用于任意图像,而无需重新训练。”

最后一部分意味着所提出的架构以完成状态交付给最终用户。 它仍然需要在本地资源上运行神经网络,但新图像可以“放入”并几乎立即准备好进行更改,因为该框架足够解耦,不需要进一步的特定于图像的训练。

当滑块在潜在空间中绘制随机和任意路径时,性别和面部毛发会发生变化,而不仅仅是“在端点之间擦洗”。

当滑块在潜在空间中绘制随机和任意路径时,性别和面部毛发会发生变化,而不仅仅是“在端点之间擦洗”。 请参阅文章末尾嵌入的视频,以更高分辨率了解更多转换。

这项工作的主要成就之一是网络能够通过仅更改目标向量中的属性来“冻结”潜在空间中的身份,并提供保存正在转换的身份的“校正项”。

本质上,所提出的网络嵌入在一个更广泛的架构中,该架构协调所有处理的元素,这些元素通过具有冻结权重的预先训练的组件,不会对转换产生不必要的横向影响。

由于训练过程依赖于 三胞胎 可以通过种子图像生成(在 GAN反转)或现有的初始潜在编码,整个训练过程是无监督的,此类系统中的常规标签和管理系统范围的默认操作有效地融入到架构中。 事实上,新系统使用现成的属性回归器:

“我们的网络可以独立控制的属性数量仅受识别器功能的限制 - 如果一个人有一个属性识别器,我们可以将其添加到任意面孔。 在我们的实验中,我们训练了潜在到潜在网络以允许调整 35 种不同的面部属性,这比之前的任何方法都多。

该系统包含了针对不需要的“副作用”转换的额外保护措施:在没有属性更改请求的情况下,潜在到潜在网络会将潜在向量映射到自身,从而进一步提高目标身份的稳定持久性。

人脸识别

过去几年,GAN 和基于编码器/解码器的面部编辑器反复出现的一个问题是,应用的变换往往会降低相似度。 为了解决这个问题,Adobe 项目使用了一个嵌入式面部识别网络,称为 面对网 作为鉴别器。

项目架构,请参阅左下中部分以了解 FaceNet 的包含情况。 资料来源:潜在到潜在:用于在 StyleGAN 生成的图像中对多个人脸属性进行身份保留编辑的学习映射器,OpenAccess。

项目架构,请参阅左下中部分以了解 FaceNet 的包含情况。 来源: Latent to Latent:一种学习映射器,用于对 StyleGAN 生成的图像中的多个人脸属性进行身份保留编辑, 开放存取.

(就个人而言,这似乎是一个令人鼓舞的举措,将标准面部识别甚至表情识别系统整合到生成网络中,可以说是克服这一问题的最佳途径。 盲像素>像素映射 它在当前的 Deepfake 架构中占据主导地位,但以牺牲表情保真度和面部生成领域的其他重要领域为代价。)

访问所有区域 在潜在空间

该框架的另一个令人印象深刻的功能是它能够根据用户的想法在潜在空间的潜在转换之间任意移动。 一些提供探索性界面的现有系统通常让用户基本上在固定的功能转换时间线之间进行“擦洗”——令人印象深刻,但通常是一种相当线性或规定性的体验。

来自通过提高空间意识改善 GAN 平衡:这里,用户在两个潜在空间位置之间的一系列潜在过渡点之间进行擦洗,但在潜在空间中预先训练的位置的范围内。 要应用基于相同材料的其他类型的转换,需要重新配置和/或重新训练。 来源:https://genforce.github.io/eqgan/

通过提高空间意识改善 GAN 平衡:这里,用户在两个潜在空间位置之间擦洗一系列潜在的过渡点,但在潜在空间中预先训练的位置的范围内。 要应用基于相同材料的其他类型的转换,需要重新配置和/或重新训练。 来源:https://genforce.github.io/eqgan/

除了接受全新的用户图像之外,用户还可以手动“冻结”他们想要在转换过程中保留的元素。 通过这种方式,用户可以确保(例如)背景不会移动,或者眼睛保持睁开或闭上。

时间

属性回归网络在三个网络上进行训练: FF总部, CelebAMask-总部,以及通过从 Z 空间采样 400,000 个向量而获得的本地 GAN 生成网络 StyleGAN-V2.

未分发 (OOD) 图像被过滤掉,并使用 Microsoft 的 人脸API,结果图像集分割为 90/10,留下 721,218 个训练图像和 72,172 个测试图像进​​行比较。

测试

尽管实验网络最初配置为容纳 35 个潜在转换,但为了针对可比框架进行类似测试,这些转换被精简为 XNUMX 个 接口GAN, GAN空间风格流.

八个选定的属性是 年龄, 脱发, 胡须, 口语, 性别, 眼镜, 沥青偏航。 有必要针对原始发行版中未提供的八个属性中的某些属性重新调整竞争框架,例如添加 脱发胡子 到InterFaceGAN。

正如预期的那样,竞争架构中出现了更大程度的纠缠。 例如,在一项测试中,InterFaceGAN 和 StyleFlow 在要求申请时都更改了受试者的性别 年龄:

两个相互竞争的框架将性别改变纳入“年龄”转换,并且在没有用户直接出价的情况下改变头发颜色。

两个相互竞争的框架将性别改变纳入“年龄”转换,并且在没有用户直接出价的情况下改变头发颜色。

此外,两位竞争对手发现眼镜和年龄是密不可分的:

眼镜和头发颜色改变无需额外付费!

眼镜和头发颜色改变无需额外付费!

这并不是一项研究的一致胜利:正如文章末尾嵌入的随附视频所示,该框架在尝试推断不同角度(偏航)时效率最低,而 GANSpace 在以下方面具有更好的总体结果: 年龄 和强加 眼镜。 在添加俯仰角(头部角度)方面,潜在到潜在的框架与 GANSpace 和 StyleFlow 相关。

基于 MTCNN 人脸检测器校准计算的结果。 结果越低越好。

基于校准计算的结果 MTCNN人脸检测器。 结果越低越好。

有关示例的更多详细信息和更好的分辨率,请查看下面本文附带的视频。

潜在到潜在 - WACV 2022

 

首次发布于 16 年 2022 月 XNUMX 日。