人工智能
Adobe 研究扩展了解缠结的 GAN 面部编辑

不难理解为什么 纠葛 在图像合成中是一个问题,因为它在生活中的其他领域也经常是一个问题;例如,从咖喱中去除姜黄比从汉堡中去除泡菜要难得多,而且几乎不可能降低一杯咖啡的甜度。有些事情就是如此。
同样,纠缠是图像合成架构的绊脚石,理想情况下,在使用机器学习创建或编辑面部(或 狗狗, 船,或任何其他域)。
如果你可以分离出诸如 年龄, 性别, 头发的颜色, 肤色, 情感等等,您将在一个框架中开始拥有真正的工具性和灵活性,该框架可以在真正精细的级别上创建和编辑面部图像,而不会将不必要的“乘客”拖入这些转换中。
在最大纠缠度(左上图)下,你所能做的就是将学习到的 GAN 网络的图像更改为另一个人的图像。
这是有效地利用最新的人工智能计算机视觉技术来实现通过其他方式解决的问题 三十多年前.
通过一定程度的分离(上图中的“中等分离”),可以执行基于风格的改变,例如头发颜色、表情、化妆品应用和有限的头部旋转等。

来源: 壮举:用心进行脸部编辑,2022 年 2202.02713 月,https://arxiv.org/pdf/XNUMX.pdf
在过去两年中,人们进行了许多尝试来创建交互式面部编辑环境,允许用户通过滑块和其他传统 UI 交互来更改面部特征,同时在进行添加或更改时保持目标面部的核心特征完整。 然而,由于 GAN 潜在空间中潜在的特征/风格纠缠,这已被证明是一个挑战。
例如,该 眼镜 特质经常与 岁 特征,这意味着戴上眼镜也可能会使脸部“变老”,而脸部变老可能会使戴上眼镜,这取决于高级特征分离的程度(有关示例,请参见下面的“测试”)。
最值得注意的是,如果不重新计算发束和分布,几乎不可能改变头发颜色和其他头发方面,从而产生“嘶嘶作响”的过渡效果。

来源:InterFaceGAN 演示(CVPR 2020),https://www.youtube.com/watch?v=uoftpl3Bj6w
潜在到潜在的 GAN 遍历
Adobe 主导的新论文 进入 WACV 2022 为解决这些根本问题提供了一种新颖的方法 纸 题为 Latent to Latent:一种学习映射器,用于对 StyleGAN 生成的图像中的多个人脸属性进行身份保留编辑.

论文的补充材料 Latent to Latent:一种学习映射器,用于对 StyleGAN 生成的图像中的多个人脸属性进行身份保留编辑。 在这里我们看到,学习到的面孔中的基本特征没有被拖入不相关的变化中。 请参阅文章末尾嵌入的完整视频,以获得更好的细节和分辨率。 来源:https://www.youtube.com/watch?v=rf_61llRH0Q
该论文由 Adobe 应用科学家 Siavash Khodadadeh 和其他四名 Adobe 研究人员以及中佛罗里达大学计算机科学系的一名研究人员领导。
这篇文章之所以有趣,部分是因为 Adobe 已经在这个领域运营了一段时间,而且很容易想象这个功能会在未来几年进入 Creative Suite 项目;但主要是因为为该项目创建的架构采用了不同的方法来在应用更改时保持 GAN 人脸编辑器中的视觉完整性。
作者声明:
“[我们]训练一个神经网络来执行潜在到潜在的转换,找到与具有更改的属性的图像相对应的潜在编码。 由于该技术是一次性的,因此它不依赖于属性逐渐变化的线性或非线性轨迹。
通过在整个生成管道上端到端地训练网络,系统可以适应现成生成器架构的潜在空间。 保护属性,例如维护人的身份,可以以训练损失的形式进行编码。
“一旦潜在网络经过训练,它就可以重复用于任意图像而无需重新训练。”
最后一步意味着,我们提出的架构已经以完成状态交付给最终用户。它仍然需要在本地资源上运行神经网络,但新的图像可以“插入”并几乎立即进行修改,因为该框架已经足够解耦,无需进一步针对特定图像进行训练。

随着滑块在潜在空间中绘制随机且任意的路径,性别和面部毛发也会随之变化,而不仅仅是“在端点之间来回移动”。观看文章末尾嵌入的视频,了解更多更高分辨率的变换效果。
这项工作的主要成就之一是网络能够通过仅改变目标向量中的属性来“冻结”潜在空间中的身份,并提供保留正在转换的身份的“校正项”。
本质上,所提出的网络嵌入在一个更广泛的架构中,该架构协调所有处理的元素,这些元素通过具有冻结权重的预先训练的组件,不会对转换产生不必要的横向影响。
由于训练过程依赖于 三胞胎 可以通过种子图像生成(在 GAN反转)或现有的初始潜在编码,整个训练过程是无监督的,此类系统中的常规标签和管理系统范围的默认操作有效地融入到架构中。 事实上,新系统使用现成的属性回归器:
我们的网络能够独立控制的属性数量仅受限于识别器的能力——如果识别器能够识别某个属性,我们就可以将其添加到任意人脸中。在实验中,我们训练了潜在到潜在网络,使其能够调整 35 种不同的面部属性,这比以往任何方法都要多。
该系统采用了额外的保护措施来防止不良的“副作用”转换:在没有属性更改请求的情况下,潜在到潜在网络将把潜在向量映射到自身,从而进一步增加目标身份的稳定持久性。
人脸识别
过去几年,GAN 和基于编码器/解码器的面部编辑器反复出现的一个问题是,应用的变换往往会降低相似度。 为了解决这个问题,Adobe 项目使用了一个嵌入式面部识别网络,称为 面对网 作为鉴别器。

项目架构,请参阅左下中部分以了解 FaceNet 的包含情况。 来源: Latent to Latent:一种学习映射器,用于对 StyleGAN 生成的图像中的多个人脸属性进行身份保留编辑, 开放存取.
(就个人而言,这似乎是一个令人鼓舞的举措,将标准面部识别甚至表情识别系统整合到生成网络中,可以说是克服这一问题的最佳途径。 盲像素>像素映射 它在当前的 Deepfake 架构中占据主导地位,但以牺牲表情保真度和面部生成领域的其他重要领域为代价。)
访问所有区域 在潜在空间
该框架的另一个令人印象深刻的特性是它能够根据用户的意愿,在潜在空间中的潜在转换之间任意切换。之前一些提供探索性界面的系统通常让用户在固定的特征转换时间线之间“切换”——这虽然令人印象深刻,但通常体验相当线性或受限。

从 通过提高空间意识改善 GAN 平衡:这里,用户在两个潜在空间位置之间擦洗一系列潜在的过渡点,但在潜在空间中预先训练的位置的范围内。 要应用基于相同材料的其他类型的转换,需要重新配置和/或重新训练。 来源:https://genforce.github.io/eqgan/
除了能够接收全新的用户图像外,用户还可以手动“冻结”想要在转换过程中保留的元素。这样,用户可以确保(例如)背景不会移动,或者眼睛保持睁开或闭合。
时间
属性回归网络在三个网络上进行训练: FF总部, CelebAMask-总部,以及通过从 Z 空间采样 400,000 个向量而获得的本地 GAN 生成网络 StyleGAN-V2.
过滤掉分布外(OOD)图像,并使用 Microsoft 的 人脸API,结果图像集分割为 90/10,留下 721,218 个训练图像和 72,172 个测试图像进行比较。
测试与验证
尽管实验网络最初配置为容纳 35 个潜在转换,但为了针对可比框架进行类似测试,这些转换被精简为 XNUMX 个 接口GAN, GAN空间和 风格流.
八个选定的属性是 车龄, 脱发, 胡须, 口语, 性别, 眼镜, 沥青和 偏航。 有必要针对原始发行版中未提供的八个属性中的某些属性重新调整竞争框架,例如添加 脱发 以及 胡子 到InterFaceGAN。
正如预期的那样,竞争架构中出现了更大程度的纠缠。 例如,在一项测试中,InterFaceGAN 和 StyleFlow 在要求申请时都更改了受试者的性别 年龄:
此外,两位竞争对手发现眼镜和年龄是密不可分的:
这项研究并非一帆风顺:正如文章末尾的视频所示,该框架在尝试推断不同角度(偏航)时效果最差,而 GANSpace 则在以下方面取得了更好的普遍效果: 年龄 和强加 眼镜。 在添加俯仰角(头部角度)方面,潜在到潜在的框架与 GANSpace 和 StyleFlow 相关。

基于校准计算的结果 MTCNN人脸检测器。 结果越低越好。
欲了解更多详细信息和更佳示例分辨率,请查看下面随附的论文视频。
首次发布于 16 年 2022 月 XNUMX 日。















