人工智能

GAN 作为“传统”CGI 的面部渲染器

发布时间 2022 年 6 月 7 日

更新 2022 年 12 月 9 日

马丁安德森

检讨当生成对抗网络 (GAN) 首次展示其令人惊叹的复制能力时现实 3D 人脸的出现引发了一场淘金热，人们纷纷挖掘 GAN 的潜力，以创建具有人脸的时间一致视频。

在 GAN 的潜在空间中，似乎存在必须隐藏的秩序和合理性——一种埋藏在潜在代码中的新生语义逻辑模式，它允许 GAN 生成一致的多个视图和多种解释（例如表达变化）同脸——随后提供了一种暂时令人信服的深度伪造视频方法，该方法将会爆炸自动编码器从水里出来。

与 GPU 限制迫使 DeepFaceLab 和 FaceSwap 运行的贫民窟般的低分辨率环境相比，高分辨率输出将是微不足道的，而面部的“交换区”（在自动编码器工作流程中）将成为 GAN 的“创建区”，由少量输入图像甚至只是一张图像决定。

“交换”和“宿主”面之间不会再出现不匹配的情况，因为整体图像将从头开始生成，包括头发、下颌线和面部轮廓的最外层，这对于“传统”自动编码器深度伪造来说通常是一个挑战。

GAN 面部视频冬季

事实证明，事情并没有那么容易。最终，解开事实证明这是核心问题，并且仍然是主要挑战。如何保持独特的面部身份，并改变其姿势或表情，而不收集数千张参考图像的语料库来教神经网络发生这些变化时会发生什么，就像自动编码器系统如此费力地做的那样？

相反，GAN 面部表演和合成研究的后续想法是，输入身份也许可以受制于目的论、通用性、 模板化 不特定于身份的转换。一个例子是将一个表情应用到 GAN 脸部，而该表情在 GAN 所知道的该人的任何图像中都没有出现。

从 2022 年论文《StyleGAN 潜在空间中基于张量的情感编辑》开始，模板化表达式被应用于来自 FFHQ 数据集的输入面部。 资料来源：https://arxiv.org/pdf/2205.06102.pdf

显然，“一刀切”的方法无法涵盖个体独有的面部表情多样性。我们不禁要问，像杰克·尼科尔森或威廉·达福这样独特的笑容，在这种“平均表情”的潜在代码的影响下，能否得到忠实的解读。

这位迷人的拉丁陌生人是谁？尽管 GAN 方法可以生成更真实、分辨率更高的脸部，但这种转换并不像 DeepFaceLab 那样由演员的多个真实世界图像来通知，DeepFaceLab 需要在包含数千张图像的数据库上进行广泛的训练，而且通常要付出一定的代价。这样的图像。此处（背景）将 DeepFaceLab 模型导入 DeepFaceLive，这是流行且有争议的软件的流式实现。示例来自 https://www.youtube.com/watch?v=9tr35y-yQRY (2022) 和 https://arxiv.org/pdf/2205.06102.pdf。

这位迷人的拉丁裔陌生人是谁？虽然 GAN 方法可以生成更“逼真”、分辨率更高的人脸，但这种转换并非基于演员的多张真实世界图像，而 DeepFaceLab 则不同，后者在包含数千张真实图像的数据库中进行大量训练，因此相似度有所降低。这里（背景）将 DeepFaceLab 模型导入深脸直播，流行且有争议的软件的流式实现。示例来自 https://www.youtube.com/watch?v=9tr35y-yQRY (2022) 和 https://arxiv.org/pdf/2205.06102.pdf。

过去几年提出了许多 GAN 面部表情编辑器，其中大多数处理未知身份，其中变换的保真度对于普通读者来说是不可能知道的，因为这些不是熟悉的面孔。

2020 年推出的 Cascade-EF-GAN 改变了模糊身份。 资料来源：https://arxiv.org/pdf/2003.05905.pdf

也许过去三年中最受关注（和引用）的 GAN 面部编辑器是接口GAN，它可以在与姿势（相机/面部角度）、表情、年龄、种族、性别和其他基本品质相关的潜在代码中执行潜在空间遍历。

InterFaceGAN 演示（CVPR 2020）

Watch this video on YouTube

InterFaceGAN 及其类似框架所具备的 1980 年代风格的“变形”功能，主要是为了展示图像通过恰当的潜在代码（例如“年龄”）重新投影后，如何实现变形的过程。就制作具有时间连续性的视频片段而言，迄今为止，此类方案已被评为“令人印象深刻的灾难”。

如果你添加到创造暂时一致的头发的困难，以及潜在代码探索/操作技术没有固有的时间准则可供使用的事实（并且很难知道如何将此类准则注入到旨在容纳和生成静态图像的框架中，并且该框架没有本机规定）对于视频输出），可以合理地得出结论：GAN 并不是面部视频合成的 All You Need™。

于是，后续的努力有了成果渐进式改进而其他人则将计算机视觉中的其他惯例作为“指导层”，例如在 2021 年末使用语义分割作为控制机制纸 SemanticStyleGAN：学习组合生成先验以实现可控图像合成和编辑.

语义分割作为 SemanticStyleGAN 中潜在空间工具的一种方法。 来源：https://semanticstylegan.github.io/

参数化指导

GAN 面部合成研究界越来越多地转向使用“传统”参数化 CGI 面部作为引导和整理 GAN 潜在空间中令人印象深刻但不守规矩的潜在代码的方法来。

尽管参数化面部基元一直是计算机视觉研究的主要内容二十多年，随着蒙皮多人线性模型（Skinned Multi-Person Linear Model）的使用增加（SMPL) CGI 原语，这是一种由马克斯·普朗克研究所和 ILM 首创的方法，此后通过稀疏训练的铰接式人体回归器进行了改进（星）框架。

SMPL（在这种情况下称为 SMPL-X 的变体）可以强加一个 CGI 参数化网格，该网格符合图像中整个人体的估计姿势（必要时包括表情），从而允许在使用参数化网格作为体积或感知指南的图像。资料来源：https://arxiv.org/pdf/1904.05866.pdf

SMPL（在本例中是一个名为 SMPL-X）可以强加一个符合图像中整个人体的估计姿势（必要时包括表情）的 CGI 参数化网格，允许使用参数化网格作为体积或感知模型对图像执行新的操作指导方针。资料来源：https://arxiv.org/pdf/1904.05866.pdf

这一系列中最受好评的作品是迪士尼 2019 年推出的 风格渲染 该计划将传统纹理贴图与 GAN 生成的图像融合在一起，试图创建改进的“深度伪造风格”动画输出。

迪士尼对 GAN 生成的深度赝品的混合方法中，旧与新的结合。来源：https://www.youtube.com/watch?v=TwpLqTmvqVk

迪士尼采用混合方法对 GAN 生成的深度伪造作品进行新旧融合。 来源：https://www.youtube.com/watch?v=TwpLqTmvqVk

迪士尼的方法将传统渲染的 CGI 方面强加到 StyleGAN2 网络中，以“修复”“问题区域”中的人类面部对象，其中时间一致性是视频生成的一个问题 - 例如皮肤纹理等区域。

带样式的渲染工作流程。

由于指导此过程的参数化 CGI 头部可以进行调整和更改以适合用户，因此 GAN 生成的面部能够反映这些变化，包括头部姿势和表情的变化。

尽管旨在将 CGI 的工具性与 GAN 面孔的自然真实感结合起来，但最终的结果却证明了两全其美，并且仍然无法保持头发纹理甚至基本特征定位的一致：

风格渲染中出现了一种新的恐怖谷，尽管该原理仍然具有一定的潜力。

MTT综合医学训练疗法国际教学中心纸 StyleRig：绑定 StyleGAN 以对肖像图像进行 3D 控制 采用越来越流行的方法，使用三维可变形脸部模型（3DMM）作为在 StyleGAN 环境中改变特征的代理，在本例中是通过一个名为 RigNet 的新型索具网络：

3DMM 充当 StyleRig 中潜在空间解释的代理。 资料来源：https://arxiv.org/pdf/2004.00121.pdf

然而，与这些举措一样，迄今为止的结果似乎仅限于最低限度的姿势操纵和“不知情的”表情/情感变化。

StyleRig 提高了控制水平，但头发的时间一致性仍然是一个尚未解决的挑战。 来源：https://www.youtube.com/watch?v=eaW_P85wQ9k

三菱研究公司的 MOST-GAN一个2021 纸使用非线性 3DMM 作为解缠结架构，但也斗争实现动态且一致的运动。

尝试工具化和解开的最新研究是 百万像素的一次面部重演，再次使用 3DMM 参数化头作为 StyleGAN 的友好界面。

在 One-Shot Face Reenactment 的 MegaFR 工作流程中，网络通过将倒置的真实世界图像与从渲染的 3DMM 模型获取的参数相结合来执行面部合成。 资料来源：https://arxiv.org/pdf/2205.13368.pdf

OSFR 属于不断壮大的 GAN 脸部编辑器类别，旨在开发 Photoshop/After Effects 风格的线性编辑工作流程，用户可以输入可以应用变换的所需图像，而不是在潜在空间中寻找与以下内容相关的潜在代码：一个身份。

再次，参数化表达代表了一种总体的、非个性化的表达注入方法，导致操作本身就显得“不可思议”，而且并不总是积极的。

OSFR 中的注入表达式。

与之前的研究类似，OSFR 可以从单张图像中推断出接近原始的姿势，还可以执行“正面化”，即将偏离中心的姿势图像转换为面部照片：

原始（上图）和推断的面部照片来自新论文中详细介绍的 OSFR 实现之一。

在实践中，这种推断类似于支撑摄影测量的一些原理神经辐射场 (NeRF)，但这里的几何图形必须由单张照片定义，而不是 3-4 个视点，从而允许 NeRF 解释缺失的间隙姿势并创建以人类为特征的可探索的神经 3D 场景。

（然而，NeRF 也不是 All You Need™，因为它几乎具有完全不同的一组路障生成面部视频合成方面的 GAN）

GAN 在面部视频合成中占有一席之地吗？

从单一源图像中实现动态表情和分布外的姿势似乎是目前 GAN 面部合成研究中一种炼金术般的痴迷，主要是因为 GAN 是目前唯一能够输出相当高分辨率和相对高保真度神经面部的方法：虽然自动编码器深度伪造框架可以对大量真实世界的姿势和表情进行训练，但它们必须在 VRAM 限制的输入/输出分辨率下运行，并且需要“主机”；而 NeRF 也受到类似的限制，并且 - 与其他两种方法不同 - 目前还没有建立改变面部表情的方法，并且总体上可编辑性有限。

看来，实现精确的 CGI/GAN 人脸合成系统的唯一途径是采取新举措，找到某种方法在潜在空间内组装多照片身份实体，其中一个人身份的潜在代码不必穿过整个潜在空间来利用不相关的姿势参数，但可以参考其自身相关的（现实世界）图像作为转换的参考。

即使在这种情况下，或者即使整个 StyleGAN 网络在单一身份人脸集上进行训练（类似于自动编码器使用的训练集），缺乏的语义逻辑仍然可能需要通过辅助技术来提供，例如语义分割或参数化 3DMM 面孔，在这种情况下，至少会有更多的材料可供使用。

相关话题：AI 人工智能特集甘 GAN 生成对抗网络机器学习

马丁安德森

机器学习作家，人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站：马丁南德森.ai
联系我们 [email protected]
推特：@manders_ai

联合人工智能

GAN 作为“传统”CGI 的面部渲染器

GAN 面部视频冬季

参数化指导

GAN 在面部视频合成中占有一席之地吗？

你可能会喜欢