Anderson 视角

通过组合多个NeRF创建全身Deepfakes

发布于 2022年10月12日

更新于 2026年5月23日

作者

Martin Anderson

图像合成研究领域充满了新的系统提案，旨在创建全身视频和图片，主要是年轻人，尤其是年轻女性，穿着不同类型的衣服。生成的图像通常是静态的；有时，表示也会移动，但通常不太好。

与相关领域（如潜在扩散模型）当前的令人眩晕的进步速度相比，这一特定研究领域的进展速度非常缓慢；然而，研究小组（大多数在亚洲）继续不知疲倦地解决这个问题。

过去10-15年中提出的或半推出的几十个甚至数百个“虚拟试穿”系统之一，利用基于机器学习的对象识别来评估身体并将其适应于拟议的服装。 来源：https://www.youtube.com/watch?v=2ZXrgGyhbak

目标是创建新的系统，以实现时尚和服装市场的“虚拟试穿”——可以适应客户和当前或即将发布的特定产品的系统，而无需实时叠加或要求客户发送稍微NSFW的图片用于ML-based渲染管道。

流行的合成架构似乎都不容易适应这一任务：生成对抗网络（GAN）的潜在空间不适合产生令人信服的时间运动（甚至一般的编辑）；虽然神经辐射场（NeRF）能够生成真实的人体运动，但通常对编辑具有天然的抵抗力；自动编码器需要人体/服装特定的训练；潜在扩散模型与GAN一样，没有本地时间机制，用于视频生成。

EVA3D

尽管如此，论文和提案继续出现。最近的一个提案引起了人们的兴趣，这在一个 Otherwise 平淡的商业导向的研究领域中是一个罕见的现象。

EVA3D，来自新加坡南洋理工大学，是一个长期以来的方法的首次体现——使用多个神经辐射场网络，每个网络都致力于身体的不同部分，然后将它们组合成一个集成的视觉化表示。

EVA3D中由多个NeRF网络组合而成的移动年轻女性。 来源：https://hongfz16.github.io/projects/EVA3D.html

结果，在运动方面，是可以接受的。虽然EVA3D的视觉化并没有完全摆脱不适感谷，但至少可以看到出口。

使EVA3D出众的是，研究人员几乎是这一领域中唯一的，他们意识到单个网络（GAN、NeRF或其他）在可预见的未来内无法处理可编辑和灵活的人体全身生成——部分是由于研究的步伐，部分是由于硬件和其他后勤限制。

因此，南洋理工大学团队将任务分配到16个网络和多种技术上——一种已经被用于神经渲染城市环境的方法，如Block-NeRF和CityNeRF，这种方法似乎可能成为一种日益有趣和潜在的有价值的中间措施，以实现未来五年内的人体全身Deepfakes，当然，这取决于新的概念或硬件发展。

并非所有创建此类“虚拟试穿”的挑战都是技术或后勤方面的，论文概述了一些数据问题，特别是在无监督学习方面：

‘[时尚]数据集大多具有非常有限的人体姿势（大多数是相似的站立姿势），并且具有高度不平衡的视角（大多数是正面视图）。这种不平衡的2D数据分布可能会阻碍3D GAN的无监督学习，导致新视图/姿势合成困难。因此，需要适当的训练策略来缓解这个问题。’

EVA3D工作流程将人体划分为16个不同的部分，每个部分都是通过自己的NeRF网络生成的。显然，这样就有足够的“解冻”部分，可以通过运动捕捉或其他类型的运动数据使人物活跃起来。除了这个优势之外，它还允许系统将最大资源分配给对整体印象最有“说服力”的身体部位。

例如，人类的脚具有非常有限的关节活动范围，而面部和头部的真实性，以及整体身体运动的质量，可能是渲染的真实性标志。

EVA3D与之前方法的定性比较。作者声称在这方面取得了SOTA结果。

该方法与概念上相关的NeRF中心项目2021年的A-NeRF有着根本的不同，A-NeRF来自英属哥伦比亚大学和Reality Labs Research，旨在将内部控制骨架添加到传统的“一体化”NeRF表示中，使得根据需要将处理资源分配给身体的不同部分更加困难。

之前的动作——A-NeRF为NeRF提供了VFX行业长期使用的相同类型的可塑性和关节化的中心骨架。 来源：https://lemonatsu.github.io/anerf/

与大多数类似的人体中心项目一样，EVA3D使用皮肤多人线性模型（SMPL），一种传统的基于CGI的方法，用于为当前合成方法添加工具性。今年早些时候，另一个论文来自浙江大学和香港城市大学的创意媒体学院，使用了这种方法来执行神经体重塑。

EVA3D在DeepFashion上的定性结果。

方法

在这个过程中使用的SMPL模型是针对人体“先验”的，即被EVA3D“自愿”深度伪造的人。SMPL模型的皮肤权重协商的是规范空间（即SMPL模型的“休息”或“中性”姿势）与最终外观渲染之间的差异。

EVA3D的概念工作流程。 来源：https://arxiv.org/pdf/2210.04888.pdf

如上图所示，SMPL的边界框被用作将最终组成身体的16个网络的边界定义。然后使用SMPL的逆线性混合皮肤（LBS）算法将可见采样光线转移到规范（被动姿势）空间。然后根据这些配置查询16个子网络，并最终合成为最终渲染。

整个NeRF复合体然后被用来构建一个3D人体GAN框架。

第二阶段GAN框架的渲染最终将针对真正的2D图像集合进行训练。

代表人体每个部分的每个子网络由具有SIREN（正弦表示网络）激活的叠加多层感知器（MLP）组成。虽然SIREN在这种工作流程中解决了很多问题，但它往往会过拟合而不是泛化，研究人员建议可以在未来使用替代库（见文章末尾）。

数据、训练和测试

EVA3D面临着异常的数据问题，这是由于时尚数据集的限制和模板化风格，这些数据集往往缺乏替代或新颖的视图，并且可能是故意的重复，以便关注衣服而不是穿着它们的人。

由于这种姿势分布不平衡，EVA3D使用基于SMPL模板几何的人体先验，然后预测该姿势的有符号距离场（SDF）偏移，而不是直接预测目标姿势。

对于支持实验，研究人员使用了四个数据集：DeepFashion；SHHQ；UBCFashion；以及AIST Dance Video Database（AIST Dance DB）。

后两个数据集包含比前两个更为多样的姿势，但代表相同的个体，这种多样性被抵消了；简而言之，数据非常具有挑战性，考虑到任务的性质。

SSHQ的示例。 来源：https://arxiv.org/pdf/2204.11823.pdf

使用的基线是ENARF-GAN，第一个从2D图像数据集渲染NeRF视觉的项目；斯坦福和NVIDIA的EG3D；以及StyleSDF，一项由华盛顿大学、Adobe Research和斯坦福大学合作的项目——所有这些方法都需要超分辨率库才能从本机分辨率扩展到高分辨率。

采用了争议的Frechet Inception Distance（FID）和Kernel Inception Distance（KID）以及Percentage of Correct Keypoints（[email protected]）等指标。

在定量评估中，EVA3D在四个数据集上所有指标中都处于领先地位：

定量结果。

研究人员指出，EVA3D实现了最低的几何渲染错误率，这是此类项目中的一个关键因素。他们还观察到，他们的系统可以控制生成的姿势，并在[email protected]评分中获得更高的分数，与EG3D相比，EG3D是唯一在一个类别中获得更高分数的竞争方法。

EVA3D以512x512px的分辨率原生运行，虽然它可以通过叠加升级层轻松有效地升级到HD分辨率，就像谷歌最近对其1024分辨率文本到视频产品Imagen Video所做的那样。

该方法并非毫无局限性。论文指出，SIREN激活可能会导致圆形伪影，这可以通过在未来版本中使用替代的基础表示（如EG3D）结合2D解码器来解决。另外，很难将SMPL准确地拟合到时尚数据源上。

最后，该系统很难适应更大、更流畅的服装，如大型连衣裙；这种类型的服装表现出与创建神经渲染头发相同的流体动力学挑战。假设，适当的解决方案可以帮助解决这两个问题。

首次发布于2022年10月12日。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

通过组合多个NeRF创建全身Deepfakes

EVA3D

方法

数据、训练和测试

发现更多