Anderson 视角

GAN作为传统CGI的面部渲染器

mm

观点当生成对抗网络(GANs)首次展示其生成令人惊叹的逼真的3D面部时,人们对GANs创造出时间一致的视频特征的人脸产生了极大的兴趣。

在GAN的潜在空间中,似乎有一种隐藏的秩序和理性——一种潜在的语义逻辑,埋藏在潜在代码中,这将允许GAN生成一致的多个视图和多个解释(例如表情变化)相同的面部——并随后提供一个时间上令人信服的深度伪造视频方法,这将使自动编码器黯然失色。

高分辨率输出将变得简单,而低分辨率环境将不再是GPU限制的DeepFaceLab和FaceSwap的束缚。面部的“交换区”(在自动编码器工作流中)将成为GAN的“创建区”,由少量输入图像或甚至单个图像提供信息。

由于整个图像都是从头开始生成的,包括头发、下巴线条和面部线条的外部极限,这些极限经常对“传统”的自动编码器深度伪造构成挑战,因此不会再有“交换”和“主机”面部之间的不匹配。

GAN面部视频的冬天

然而,事实证明这并没有那么简单。最终,解耦证明是核心问题,并且仍然是主要挑战。如何保持明显的面部身份,并改变其姿势或表情,而不需要收集成千上万张参考图像来教导神经网络这些变化的发生方式,就像自动编码器系统那样?

后来的思考是,输入身份可以受到目的论、通用、模板化转换的制约,这些转换不是特定于身份的。例如,应用一个在GAN中不存在的表情到一个GAN面部。

在过去的几年中,已经提出了许多GAN面部表情编辑器,大多数都与未知身份有关,在这种情况下,转换的保真度对于普通读者来说是无法知道的,因为这些面部并不是熟悉的面部。

也许GAN面部编辑器中最受关注的是InterFaceGAN,它可以在与姿势(相机/面部角度)、表情、年龄、种族、性别和其他基本特征相关的潜在代码中执行潜在空间遍历。

InterFaceGAN和类似框架的1980年代风格的“形态学”功能主要是为了说明转换的路径,当图像被重新投影到适当的潜在代码(例如“年龄”)时。在产生具有时间连续性的视频片段方面,这样的方案到目前为止都被认为是“令人印象深刻的灾难”。

如果你加上创建时间一致的头发的困难,以及潜在代码探索/操作技术没有天然的时间指导,并且很难将这样的指导注入到一个旨在生成静止图像且没有原生视频输出的框架中,那么可以合理地得出结论,GAN并不是面部视频合成的全部。

因此,后续的努力带来了渐进式改进,在去耦方面取得了进展,而其他人则在计算机视觉中添加了其他约定作为“指导层”,例如使用语义分割作为控制机制,例如在2021年末的论文中,SemanticStyleGAN:学习可控图像合成和编辑的组合生成先验

参数指导

GAN面部合成研究社区越来越多地使用“传统”参数化CGI面部作为指导和为GAN潜在空间中的令人印象深刻但难以控制的潜在代码带来秩序的方法。

虽然参数化面部原语已经成为计算机视觉研究的基石,拥有超过二十年的历史,但最近这种方法的兴趣日益增长,尤其是在使用皮肤多人线性模型(SMPL)CGI原语,这是一种由马克斯·普朗克研究所和ILM开创的方法,并随后通过Sparse Trained Articulated Human Body Regressor(STAR)框架得到改进。

2020年的论文StyleRig:为3D控制风格GAN的肖像图像,采用了一种日益流行的方法,使用三维可变形面部模型(3DMMs)作为代理来改变StyleGAN环境中的特征,在这种情况下,通过一个名为RigNet的新型rigging网络:

然而,像往常一样,这些计划的结果似乎仅限于最小的姿势操纵和“无信息”的表情/情感变化。

类似的输出可以在三菱研究院的MOST-GAN中找到,这是一篇2021年的论文,它使用非线性3DMMs作为解耦架构,但也难以实现动态和一致的运动。

最新的研究尝试了可控性和解耦,是一镜到底的人脸重演,它再次使用3DMM参数化头部作为StyleGAN的友好接口。

GAN是否在面部视频合成中占有一席之地

从单个源图像中实现动态表达和非分布式姿势似乎是当前GAN面部合成研究中的一个炼金术般的痴迷,主要是因为GAN是目前唯一能够输出相对高保真和高分辨率神经面部的方法:虽然自动编码器深度伪造框架可以在多个真实世界姿势和表情上训练,但它们必须在VRAM限制的输入/输出分辨率下运行,并且需要一个“主机”;而NeRF也受到类似的限制,并且与其他两种方法不同,目前没有为改变面部表情建立的方法论,并且在一般性上具有有限的可编辑性。

似乎,准确的CGI/GAN面部合成系统的唯一前进道路是找到一种方法,将多图像身份实体组装到潜在空间中,在那里,一个人的身份潜在代码不需要跨越整个潜在空间来利用无关的姿势参数,而可以参考自己的相关(真实世界)图像作为转换的参考。

即使在这种情况下,或者即使整个StyleGAN网络都在单个身份面部集上训练(类似于自动编码器使用的训练集),缺乏的语义逻辑仍然可能需要由辅助技术(如语义分割或参数化3DMM面部)提供,这些技术在这种情况下至少会有更多的内容可供参考。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai