关注我们.

人工智能

GAN 作为“传统”CGI 的面部渲染器

mm
更新 on

检讨 当生成对抗网络 (GAN) 首次展示其令人惊叹的复制能力时 现实 3D 人脸的出现引发了一场淘金热,人们纷纷挖掘 GAN 的潜力,以创建具有人脸的时间一致视频。

在 GAN 潜在空间的某个地方,似乎有 必须 隐藏的秩序和合理性——一种埋藏在潜在代码中的新生语义逻辑模式,它允许 GAN 生成一致的多个视图和多种解释(例如表达变化) 脸——随后提供了一种暂时令人信服的深度伪造视频方法,该方法将会爆炸 自动编码器 从水里出来。

与贫民窟般的低分辨率环境相比,高分辨率输出将是微不足道的,在低分辨率环境中,GPU 限制迫使 DeepFaceLab 和 FaceSwap 运行,而面部的“交换区域”(在自动编码器工作流程中)将成为“创建区域” GAN 的信息由少量输入图像甚至单个图像提供。

“交换”和“主机”面孔之间不会再出现不匹配的情况,因为 整体 图像的各个部分将从头开始生成,包括头发、下巴轮廓和面部轮廓的最外肢,这通常对“传统”自动编码器深度伪造来说是一个挑战。

GAN 面部视频冬季

事实证明,事情并没有那么容易。 最终, 解开 事实证明这是核心问题,并且仍然是主要挑战。 如何保持独特的面部身份,并改变其姿势或表情,而不收集数千张参考图像的语料库来教神经网络发生这些变化时会发生什么,就像自动编码器系统如此费力地做的那样?

相反,GAN 面部表演和合成研究的后续想法是,输入身份也许可以受制于目的论、通用性、 模板化 不特定于身份的转换。 一个例子是将一个表情应用到 GAN 脸部,而该表情在 GAN 所知道的该人的任何图像中都没有出现。

从 2022 年论文《StyleGAN 潜在空间中基于张量的情感编辑》开始,模板化表达式被应用于来自 FFHQ 数据集的输入面部。 资料来源:https://arxiv.org/pdf/2205.06102.pdf

从 2022 年论文《StyleGAN 潜在空间中基于张量的情感编辑》开始,模板化表达式被应用于来自 FFHQ 数据集的输入面部。 资料来源:https://arxiv.org/pdf/2205.06102.pdf

显然,“一刀切”的方法无法涵盖个体独特的面部表情的多样性。 我们不得不想,在这种“平均表情”潜在密码的影响下,像杰克·尼科尔森或威廉·达福这样独特的微笑是否能够得到忠实的解释。

这位迷人的拉丁陌生人是谁? 尽管 GAN 方法可以生成更真实、分辨率更高的脸部,但这种转换并不像 DeepFaceLab 那样由演员的多个真实世界图像来通知,DeepFaceLab 需要在包含数千张图像的数据库上进行广泛的训练,而且通常要付出一定的代价。这样的图像。 此处(背景)将 DeepFaceLab 模型导入 DeepFaceLive,这是流行且有争议的软件的流式实现。 示例来自 https://www.youtube.com/watch?v=9tr35y-yQRY (2022) 和 https://arxiv.org/pdf/2205.06102.pdf。

这位迷人的拉丁陌生人是谁? 尽管 GAN 方法可以生成更“真实”且分辨率更高的脸部,但这种变换并非由演员的多个真实世界图像决定,而 DeepFaceLab 的情况就是如此,它在包含数千张此类图像的数据库上进行了广泛的训练,因此,相似性就会受到损害。 这里(背景)一个 DeepFaceLab 模型被导入到 深脸直播,流行且有争议的软件的流式实现。 示例来自 https://www.youtube.com/watch?v=9tr35y-yQRY (2022) 和 https://arxiv.org/pdf/2205.06102.pdf。

过去几年提出了许多 GAN 面部表情编辑器,其中大多数 处理未知身份,其中变换的保真度对于普通读者来说是不可能知道的,因为这些不是熟悉的面孔。

2020 年推出的 Cascade-EF-GAN 改变了模糊身份。 资料来源:https://arxiv.org/pdf/2003.05905.pdf

2020 年推出的 Cascade-EF-GAN 改变了模糊身份。 资料来源:https://arxiv.org/pdf/2003.05905.pdf

也许过去三年中最受关注(和引用)的 GAN 面部编辑器是 接口GAN,它可以在与姿势(相机/面部角度)、表情、年龄、种族、性别和其他基本品质相关的潜在代码中执行潜在空间遍历。

InterFaceGAN 演示(CVPR 2020)

InterFaceGAN 和类似框架的 1980 世纪 XNUMX 年代风格的“变形”功能主要是一种说明变换路径的方法,因为图像通过适当的潜在代码(例如“年龄”)重新投影回来。 就制作具有时间连续性的视频片段而言,此类计划迄今为止已被称为“令人印象深刻的灾难”。

如果你添加到 创造暂时一致的头发的困难,以及潜在代码探索/操作技术没有固有的时间准则可供使用的事实(并且很难知道如何将此类准则注入到旨在容纳和生成静态图像的框架中,并且该框架没有本机规定)对于视频输出),可以合理地得出结论:GAN 并不是面部视频合成的 All You Need™。

于是,后续的努力有了成果 渐进式改进 在解开纠缠中,而其他人则将计算机视觉中的其他约定作为“指导层”,例如在 2021 年底使用语义分割作为控制机制 SemanticStyleGAN:学习组合生成先验以实现可控图像合成和编辑.

语义分割作为 SemanticStyleGAN 中潜在空间工具的一种方法。 来源:https://semanticstylegan.github.io/

语义分割作为 SemanticStyleGAN 中潜在空间工具的一种方法。 来源:https://semanticstylegan.github.io/

参数化指导

GAN 面部合成研究社区越来越倾向于使用“传统”参数化 CGI 面部作为一种方法来指导 GAN 潜在空间中令人印象深刻但难以驾驭的潜在代码并为其带来秩序。

尽管参数化面部基元一直是计算机视觉研究的主要内容 二十多年,随着蒙皮多人线性模型(Skinned Multi-Person Linear Model)的使用增加(SMPL) CGI 原语,这是一种由马克斯·普朗克研究所和 ILM 首创的方法,此后通过稀疏训练的铰接式人体回归器进行了改进()框架。

SMPL(在这种情况下称为 SMPL-X 的变体)可以强加一个 CGI 参数化网格,该网格符合图像中整个人体的估计姿势(必要时包括表情),从而允许在使用参数化网格作为体积或感知指南的图像。 资料来源:https://arxiv.org/pdf/1904.05866.pdf

SMPL(在本例中是一个名为 SMPL-X)可以强加一个符合图像中整个人体的估计姿势(必要时包括表情)的 CGI 参数化网格,允许使用参数化网格作为体积或感知模型对图像执行新的操作指导方针。 资料来源:https://arxiv.org/pdf/1904.05866.pdf

该系列中最受好评的开发是迪士尼的 2019 风格渲染 该倡议将传统纹理贴图与 GAN 生成的图像相结合,试图创建改进的“深度伪造风格”动画输出。

迪士尼对 GAN 生成的深度赝品的混合方法中,旧与新的结合。 来源:https://www.youtube.com/watch?v=TwpLqTmvqVk

迪士尼对 GAN 生成的深度赝品的混合方法中,旧与新的结合。 来源:https://www.youtube.com/watch?v=TwpLqTmvqVk

迪士尼的方法将传统渲染的 CGI 面强加到 StyleGAN2 网络中,以“修复”“问题区域”中的人类面部对象,其中时间一致性是视频生成的一个问题——例如皮肤纹理。

带样式的渲染工作流程。

带样式的渲染工作流程。

由于指导此过程的参数化 CGI 头部可以进行调整和更改以适合用户,因此 GAN 生成的面部能够反映这些变化,包括头部姿势和表情的变化。

尽管旨在将 CGI 的工具性与 GAN 面孔的自然真实感结合起来,但最终的结果却证明了两全其美,并且仍然无法保持头发纹理甚至基本特征定位的一致:

风格渲染中出现了一种新的恐怖谷,尽管该原理仍然具有一定的潜力。

风格渲染中出现了一种新的恐怖谷,尽管该原理仍然具有一定的潜力。

MTT综合医学训练疗法国际教学中心 StyleRig:绑定 StyleGAN 以对肖像图像进行 3D 控制 采用越来越流行的方法,使用 三维可变形脸部模型 (3DMM)作为在 StyleGAN 环境中改变特征的代理,在本例中是通过一个名为 RigNet 的新型索具网络:

3DMM 充当 StyleRig 中潜在空间解释的代理。 资料来源:https://arxiv.org/pdf/2004.00121.pdf

3DMM 充当 StyleRig 中潜在空间解释的代理。 资料来源:https://arxiv.org/pdf/2004.00121.pdf

然而,与这些举措一样,迄今为止的结果似乎仅限于最小的姿势操作和“不知情”的表达/影响变化。

StyleRig 提高了控制水平,但头发的时间一致性仍然是一个尚未解决的挑战。 来源:

StyleRig 提高了控制水平,但头发的时间一致性仍然是一个尚未解决的挑战。 来源:https://www.youtube.com/watch?v=eaW_P85wQ9k

类似的输出可以从三菱研究中心找到 MOST-GAN一个2021 使用非线性 3DMM 作为解缠结架构,但也 斗争 实现动态且一致的运动。

尝试工具化和解开的最新研究是 百万像素的一次面部重演,再次使用 3DMM 参数化头作为 StyleGAN 的友好界面。

在 One-Shot Face Reenactment 的 MegaFR 工作流程中,网络通过将倒置的真实世界图像与从渲染的 3DMM 模型获取的参数相结合来执行面部合成。 资料来源:https://arxiv.org/pdf/2205.13368.pdf

在 One-Shot Face Reenactment 的 MegaFR 工作流程中,网络通过将倒置的真实世界图像与从渲染的 3DMM 模型获取的参数相结合来执行面部合成。 资料来源:https://arxiv.org/pdf/2205.13368.pdf

OSFR 属于不断壮大的 GAN 脸部编辑器类别,旨在开发 Photoshop/After Effects 风格的线性编辑工作流程,用户可以输入可以应用变换的所需图像,而不是在潜在空间中寻找与以下内容相关的潜在代码:一个身份。

同样,参数表达式代表了一种总体且非个性化的注入表达的方法,导致其自身看起来“不可思议”的操作,但并不总是积极的方式。

OSFR 中的注入表达式。

OSFR 中的注入表达式。

与之前的工作一样,OSFR 可以从单个图像推断出接近原始的姿势,并且还可以执行“正面化”,即将偏离中心的姿势图像转换为面部照片:

原始(上图)和推断的面部照片来自新论文中详细介绍的 OSFR 实现之一。

原始(上图)和推断的面部照片来自新论文中详细介绍的 OSFR 实现之一。

在实践中,这种推断类似于支撑摄影测量的一些原理 神经辐射场 (NeRF),但这里的几何图形必须由单张照片定义,而不是 3-4 个视点,从而允许 NeRF 解释缺失的间隙姿势并创建以人类为特征的可探索的神经 3D 场景。

(然而,NeRF 也不是 All You Need™,因为它几乎具有 完全不同的一组路障 生成面部视频合成方面的 GAN)

GAN 在面部视频合成中占有一席之地吗?

从单一源图像中实现动态表情和分布外姿势似乎是目前 GAN 面部合成研究中一种炼金术般的痴迷,主要是因为 GAN 是目前唯一能够输出相当高分辨率和相对较高分辨率的方法。保真度神经面孔:尽管自动编码器 Deepfake 框架可以训练多种现实世界的姿势和表情,但它们必须在 VRAM 限制的输入/输出分辨率下运行,并且需要“主机”; 而 NeRF 也受到类似的限制,并且与其他两种方法不同,目前还没有用于改变面部表情的既定方法,并且总体上可编辑性有限。

看来,准确的 CGI/GAN 人脸合成系统的唯一出路是采取一项新举措,找到在潜在空间内组装多照片身份实体的方法,其中一个人身份的潜在代码不必一路穿越潜在空间以利用不相关的姿势参数,但可以参考其自己的相关(现实世界)图像作为转换的参考。

即使在这种情况下,或者即使整个 StyleGAN 网络在单一身份人脸集上进行训练(类似于自动编码器使用的训练集),缺乏的语义逻辑仍然可能需要通过辅助技术来提供,例如语义分割或参数化 3DMM 面孔,在这种情况下,至少会有更多的材料可供使用。