Connect with us

人工智能

Adobe 研究扩展解耦 GAN 面部编辑

mm

不难理解为什么 耦合 是图像合成中的一个问题,因为它经常是其他领域中的一个问题;例如,从咖喱中去除姜黄比从汉堡中丢弃泡菜要难得多,而从一杯咖啡中去除糖几乎是不可能的。有些东西就是捆绑在一起的。

同样,耦合是图像合成架构的一个绊脚石,这些架构理想情况下希望在使用机器学习创建或编辑面部(或 或其他任何领域)时分离出不同的特征和概念。

如果你可以分离出诸如 年龄性别头发颜色皮肤色调情感 等特征,你将拥有真正的工具性和灵活性,可以在面部图像的粒度级别上创建和编辑面部图像,而不会将不需要的“乘客”带入这些转换中。

在最大耦合度(上左)时,你只能将学习的 GAN 网络的图像更改为另一个人的图像。

这实际上是使用最新的 AI 计算机视觉技术来实现一种在三十多年前通过其他手段解决的问题

具有某种程度的分离(上图中的“中等分离”),可以执行基于样式的更改,例如头发颜色、表情、化妆和有限的头部旋转等。

来源:FEAT:面部编辑与注意力,2022 年 2 月,https://arxiv.org/pdf/2202.02713.pdf

来源:FEAT:面部编辑与注意力,2022 年 2 月,https://arxiv.org/pdf/2202.02713.pdf

过去两年中,已经有多次尝试创建交互式面部编辑环境,允许用户使用滑块和其他传统 UI 交互更改面部特征,同时保持目标面部的核心特征在进行添加或更改时。然而,这已经被证明是一个挑战,因为 GAN 的潜在空间中存在潜在的特征/样式耦合。

例如,眼镜 特征通常与 年龄 特征交织在一起,这意味着添加眼镜也可能“老化”面部,而老化面部可能会添加眼镜,具体取决于应用的高级特征分离程度(请参见“测试”部分以获取示例)。

最值得注意的是,几乎不可能改变头发颜色和其他头发方面而不重新计算头发线和布局,这会产生“嘶嘶”声和过渡效果。

来源:InterFaceGAN 演示(CVPR 2020),https://www.youtube.com/watch?v=uoftpl3Bj6w

来源:InterFaceGAN 演示(CVPR 2020),https://www.youtube.com/watch?v=uoftpl3Bj6w

潜在到潜在 GAN 遍历

Adobe 领导的一篇新论文 进入 WACV 2022,提出了一种新方法来解决这些潜在问题,在一篇名为 潜在到潜在:一种学习映射器,用于 StyleGAN 生成图像中多个面部属性的身份保留编辑 的论文中。

来自论文潜在到潜在:一种学习映射器,用于 StyleGAN 生成图像中多个面部属性的身份保留编辑的补充材料。这里我们看到,学习面部的基本特征在不相关的更改中不会被拖入。请参见文章末尾的完整视频嵌入以获取更好的详细信息和分辨率。来源:https://www.youtube.com/watch?v=rf_61llRH0Q

来自论文潜在到潜在:一种学习映射器,用于 StyleGAN 生成图像中多个面部属性的身份保留编辑的补充材料。这里我们看到,学习面部的基本特征在不相关的更改中不会被拖入。请参见文章末尾的完整视频嵌入以获取更好的详细信息和分辨率。 来源:https://www.youtube.com/watch?v=rf_61llRH0Q

这篇论文由 Adobe 应用科学家 Siavash Khodadadeh 领导,共同作者包括四位其他 Adobe 研究人员和一位来自中佛罗里达大学计算机科学系的研究人员。

这篇论文很有趣,部分原因是 Adobe 一直在这个领域运营,很容易想象这种功能会在未来几年进入 Creative Suite 项目;但主要是因为该项目创建的架构采取了与保持 GAN 面部编辑器的视觉完整性不同的方法,而更改正在被应用。

作者声明:

‘[我们] 训练一个神经网络执行潜在到潜在的转换,找到对应于具有更改属性的图像的潜在编码。由于该技术是一次性执行的,因此它不依赖于属性渐进变化的线性或非线性轨迹。

‘通过在整个生成管道上对网络进行端到端训练,系统可以适应现成生成器架构的潜在空间。保持身份等一致性属性可以以训练损失的形式编码。

‘一旦潜在到潜在的网络被训练,它可以被重复用于任意图像,而无需重新训练。’

这最后一部分意味着提出的架构以最终用户的形式到达。它仍然需要在本地资源上运行神经网络,但新图像可以“放入”并几乎立即准备好进行修改,因为框架足够解耦,不需要进一步的图像特定训练。

性别和面部毛发更改,滑块绘制随机和任意路径通过潜在空间,而不仅仅是“擦除端点”。请参见文章末尾的视频嵌入以获取更多转换和更好的分辨率。

性别和面部毛发更改,滑块绘制随机和任意路径通过潜在空间,而不仅仅是“擦除端点”。请参见文章末尾的视频嵌入以获取更多转换和更好的分辨率。

在工作中的主要成就之一是网络能够通过仅更改目标向量中的属性来“冻结”潜在空间中的身份,并提供“纠正项”以保留正在转换的身份。

本质上,提出的网络嵌入在一个更广泛的架构中,后者编排所有处理的元素,这些元素经过预训练组件传递,这些组件的权重被冻结,因此不会对转换产生不需要的侧面效应。

由于训练过程依赖于 三元组,这些三元组可以由种子图像(在 GAN 反转 下)或现有的初始潜在编码生成,因此整个训练过程是无监督的,通常的标签和策划系统在此类系统中有效地被烘焙到架构中。事实上,新系统使用现成的属性回归器:

‘[我们的] 网络可以独立控制的属性数量仅受限于识别器(s)的能力 – 如果你有一个识别器用于某个属性,我们可以将其添加到任意面部。我们的实验中,我们训练了潜在到潜在的网络,以允许调整 35 个不同的面部属性,超过任何以前的方法。’

系统还包含一个额外的保障措施,以防止不需要的“副作用”转换:如果没有请求属性更改,潜在到潜在的网络将潜在向量映射到自身,从而进一步增加目标身份的稳定性。

面部识别

过去几年中,GAN 和编码器/解码器基于面部编辑器的一个反复出现的问题是,应用的转换往往会降低相似度。为了应对这一问题,Adobe 项目使用了一个名为 FaceNet 的嵌入式面部识别网络作为鉴别器。

项目架构,请参见下中左侧的 FaceNet 包含。来源:潜在到潜在:一种学习映射器,用于 StyleGAN 生成图像中多个面部属性的身份保留编辑,OpenAccess。

项目架构,请参见下中左侧的 FaceNet 包含。 来源:潜在到潜在:一种学习映射器,用于 StyleGAN 生成图像中多个面部属性的身份保留编辑OpenAccess

(在个人方面,这似乎是将标准面部识别和甚至表情识别系统集成到生成网络中的一个令人鼓舞的举动,可能是克服当前深度伪造架构在牺牲表情保真度和面部生成领域其他重要领域的情况下主导的盲像素到像素映射的最佳方法。)

访问所有区域 在潜在空间中

该框架的另一个令人印象深刻的功能是它能够在用户的任意选择下在潜在空间中任意旅行。以前的几个系统提供了探索式接口,通常会将用户基本上“擦除”在固定特征转换时间线之间——令人印象深刻,但通常相当线性或规定性的体验。

来自提高 GAN 平衡:通过提高空间意识:这里,用户擦除两个潜在空间位置之间的一系列潜在转换点,但在潜在空间的预训练位置内。要应用基于相同材料的其他类型的转换,需要重新配置和/或重新训练。来源:https://genforce.github.io/eqgan/

来自提高 GAN 平衡:通过提高空间意识:这里,用户擦除两个潜在空间位置之间的一系列潜在转换点,但在潜在空间的预训练位置内。要应用基于相同材料的其他类型的转换,需要重新配置和/或重新训练。 来源:https://genforce.github.io/eqgan/

除了能够接受完全新的用户图像外,用户还可以手动“冻结”他们希望在转换过程中保留的元素。这样,用户可以确保(例如)背景不会移动,或者眼睛保持睁开或闭合。

数据

属性回归网络是在三个网络上训练的:FFHQCelebAMask-HQ 和一个本地生成的网络,通过从 StyleGAN-V2 的 Z 空间中采样 400,000 个向量获得。

过滤掉了分布外(OOD)图像,并使用 Microsoft 的 Face API 提取属性,得到的图像集被分成 90/10,剩下 721,218 个训练图像和 72,172 个测试图像来比较。

测试

虽然实验网络最初配置为适应 35 个潜在转换,但它们被削减到 8 个,以便对比相似的框架 InterFaceGANGANSpaceStyleFlow 进行类似的测试。

选择的八个属性是 年龄秃头胡须表情性别眼镜俯仰偏航。必须重新配置竞争框架以适应八个属性中的某些属性,例如将 秃头胡须 添加到 InterFaceGAN 中。

如预期,竞争框架中出现了更高程度的耦合。例如,在一个测试中,InterFaceGAN 和 StyleFlow 都在应用 年龄 时更改了主体的性别:

两个竞争框架将性别更改融入“年龄”转换中,还更改了头发颜色,而没有用户的直接要求。

两个竞争框架将性别更改融入“年龄”转换中,还更改了头发颜色,而没有用户的直接要求。

此外,两个对手发现,眼镜和年龄是不可分割的方面:

眼镜和头发颜色更改,免费赠送!

眼镜和头发颜色更改,免费赠送!

这并不是对研究的统一胜利;如文章末尾嵌入的视频所示,该框架在尝试外推多样化角度(偏航)时效果最差,而 GANSpace 在 年龄 和眼镜的施加方面有更好的总体结果。潜在到潜在的框架与 GANSpace 和 StyleFlow 相比,在添加俯仰(头部角度)方面是平局。

结果基于 MTCNN 面部检测器的校准计算。结果越低越好。

结果基于 MTCNN 面部检测器的校准计算。结果越低越好。

有关更多详细信息和更好的分辨率示例,请查看文章末尾的附件视频。

 

首次发布于 2022 年 2 月 16 日。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai