人工智能

通过组合多个NeRF创建全身Deepfakes

Published October 12, 2022

Updated April 28, 2026

Martin Anderson

图像合成研究领域充斥着新的系统提案，旨在创建全身视频和图片，主要针对年轻人，尤其是年轻女性，穿着各种服装。生成的图像通常是静态的；有时，表示会移动，但通常不会很好地移动。

这种研究线的进展速度与相关领域（如潜在扩散模型）当前令人眩晕的进步速度相比是冰川般的；然而，主要位于亚洲的研究团队仍然不懈地致力于解决这个问题。

过去10-15年中提出的或半推出的几十个甚至数百个’虚拟试穿’系统之一，通过基于机器学习的对象识别来评估身体并将其适应于拟议的服装。 来源：https://www.youtube.com/watch?v=2ZXrgGyhbak

目标是创建新的系统，以实现时尚和服装市场的“虚拟试穿”——这些系统可以适应客户和当前可用的或即将发布的特定产品，而无需实时叠加服装的笨拙，或者要求客户发送稍微NSFW的图片用于基于ML的渲染管道。

没有流行的合成架构似乎容易适应这一任务：生成对抗网络（GAN）的潜在空间不适合产生令人信服的时间运动（甚至一般的编辑）；虽然神经辐射场（NeRF）能够生成真实的人体运动，但通常自然抵抗需要进行“交换”人或服装的编辑；自编码器需要人/服装特定的训练；潜在扩散模型与GAN一样，没有本地时间机制，用于视频生成。

EVA3D

尽管如此，论文和提案继续出现。最新的提案在一个 Otherwise 不太突出的和专门针对商业导向的研究线中引起了异常的兴趣。

EVA3D，来自新加坡南洋理工大学，是一种长期以来一直在等待的方法的首次体现——使用多个神经辐射场网络，每个网络都致力于身体的不同部分，然后将它们组合成一个完整的可视化。

通过多个NeRF网络合成的移动年轻女性，用于EVA3D。 来源：https://hongfz16.github.io/projects/EVA3D.html

结果，在运动方面，是可以接受的。虽然EVA3D的可视化还没有完全摆脱不适感谷，但至少可以看到出口。

EVA3D的突出之处在于，其研究人员几乎是该领域唯一一个认识到，单个网络（GAN、NeRF或其他）在可预见的未来内不太可能能够处理可编辑和灵活的人体全身生成——部分原因是研究的进展速度，部分原因是硬件和其他后勤限制。

因此，南洋理工大学团队将任务分解为16个网络和多种技术——一种已经被用于神经渲染城市环境的方法，例如 Block-NeRF 和 CityNeRF，这种方法可能会成为一种日益有趣和可能富有成果的半途措施，在未来五年内实现全身Deepfakes，当然取决于新的概念或硬件发展。

并非所有创建此类“虚拟试穿”的挑战都是技术或后勤方面的，该论文概述了一些数据问题，特别是在无监督学习方面：

‘[时尚]数据集大多具有非常有限的人体姿势（大多数是相似的站立姿势），并且具有高度不平衡的视角（大多数是正面视图）。这种不平衡的2D数据分布可能会阻碍3D GAN的无监督学习，导致新视图/姿势合成困难。因此，需要一种适当的训练策略来缓解这个问题。’

EVA3D工作流程将人体分成16个不同的部分，每个部分都是通过其自己的NeRF网络生成的。显然，这创建了足够的“解冻”部分，以便通过运动捕捉或其他类型的运动数据来激活人物。此外，这种方法还允许系统将最大资源分配给对整体印象最有说服力的身体部分。

例如，人体脚部的关节活动范围非常有限，而面部和头部的真实性，以及整体身体运动的质量，可能是渲染的真实性焦点。

EVA3D与先前方法的定性比较。作者声称在这方面取得了SOTA结果。

这种方法与概念上相关的NeRF中心项目——2021年的 A-NeRF 形成鲜明对比，后者来自不列颠哥伦比亚大学和Reality Labs Research，旨在将内部控制骨架添加到传统的“一体化”NeRF表示中，使得根据需要将处理资源分配给身体的不同部分变得更加困难。

先前的动作——A-NeRF为NeRF提供了与VFX行业长期使用的CGI角色动画相同的可塑性和关节化的中央骨架。 来源：https://lemonatsu.github.io/anerf/

与大多数类似的人类中心项目一样，EVA3D使用了一个皮肤多人线性模型（SMPL），一种传统的基于CGI的方法，为当前合成方法的总体抽象添加工具性。今年早些时候，另一篇论文来自杭州浙江大学和香港城市大学创意媒体学院，使用了这种方法进行了神经体重塑。

EVA3D在DeepFashion上的定性结果。

方法

用于此过程的SMPL模型是针对人体“先验”的，即基本上被EVA3D“自愿”Deepfake的人，并且其皮肤权重协商了规范空间（即SMPL模型的“休息”或“中性”姿势）和最终外观的渲染之间的差异。

EVA3D的概念工作流程。 来源：https://arxiv.org/pdf/2210.04888.pdf

如上图所示，SMPL的边界框被用作最终将组成身体的16个网络的边界定义。然后使用SMPL的逆线性混合皮肤（LBS）算法将可见采样光线转移到规范（被动姿势）空间。然后根据这些配置查询16个子网络，并最终合并成最终渲染。

整个NeRF复合体然后用于构建3D人体GAN框架。

第二阶段GAN框架的渲染最终将针对真实的2D图像集合进行训练，包括人类和时尚。

代表人体每个部分的每个子网络由具有SIREN（正弦表示网络）激活的叠加多层感知器（MLP）组成。虽然SIREN解决了像这样的工作流程中的许多问题，但它倾向于过拟合而不是泛化，研究人员建议可以在未来使用替代库（见文章末尾）。

数据、训练和测试

EVA3D面临着由于时尚数据集的限制和模板化风格而带来的特殊数据问题，这些数据集往往缺乏替代或新颖的视图，并且可能是故意的，为了专注于服装而不是穿着它们的人。

由于这种姿势分布不平衡，EVA3D使用基于SMPL模板几何的人体先验（见上文），然后预测该姿势的有符号距离场（SDF）偏移，而不是直接目标姿势。

对于支持实验，研究人员使用了四个数据集：DeepFashion；SHHQ；UBCFashion；以及AIST Dance Video Database（AIST Dance DB）。

后两个数据集包含比前两个更为多样的姿势，但代表相同的个体，这抵消了这种多样性；简而言之，数据具有挑战性，考虑到任务。

SSHQ的示例。 来源：https://arxiv.org/pdf/2204.11823.pdf

使用的基线是 ENARF-GAN，第一个从2D图像数据集渲染NeRF视觉的项目；斯坦福和NVIDIA的 EG3D；以及 StyleSDF，华盛顿大学、Adobe Research和斯坦福大学的合作项目——所有这些方法都需要超分辨率库来从本地到高分辨率进行扩展。

采用了争议的弗雷切特初始距离（FID）和内核初始距离（KID）以及正确关键点百分比（[email protected]）作为度量标准。

在定量评估中，EVA3D在四个数据集上所有指标中都领先：

定量结果。

研究人员指出，EVA3D实现了几何渲染的最低错误率，这是此类项目中的一个关键因素。他们还观察到，他们的系统可以控制生成的姿势并实现更高的[email protected]分数，与EG3D相比，后者是唯一一个在某一类别中得分更高的竞争方法。

EVA3D本身以标准的512x512px分辨率运行，尽管它可以通过添加上采样层轻松地扩展到HD分辨率，就像谷歌最近在其1024分辨率的文本到视频产品 Imagen Video 中所做的那样。

这种方法并非毫无局限性。该论文指出，SIREN激活可能会引起圆形伪影，这可以通过在未来版本中使用替代的基础表示（例如EG3D）与2D解码器相结合来解决。另外，很难将SMPL准确地拟合到时尚数据源上。

最后，该系统无法轻松地适应更大、更流畅的服装，如大型礼服；这种类型的服装表现出与神经渲染头发具有挑战性相同的流体动力学。假设，一个合适的解决方案可以帮助解决这两个问题。

首次发布于2022年10月12日。

Related Topics:China DeepFakes image synthesis research

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

通过组合多个NeRF创建全身Deepfakes

EVA3D

方法

数据、训练和测试

You may like