Anderson 视角

通过组合多个NeRF创建全身Deepfakes

mm

图像合成研究领域充满了新的系统提案,旨在创建全身视频和图片,主要是年轻人,尤其是年轻女性,穿着不同类型的衣服。生成的图像通常是静态的;有时,表示也会移动,但通常不太好。

与相关领域(如潜在扩散模型)当前的令人眩晕的进步速度相比,这一特定研究领域的进展速度非常缓慢;然而,研究小组(大多数在亚洲)继续不知疲倦地解决这个问题。

过去10-15年中提出的或半推出的几十个甚至数百个“虚拟试穿”系统之一,利用基于机器学习的对象识别来评估身体并将其适应于拟议的服装。来源:https://www.youtube.com/watch?v=2ZXrgGyhbak

过去10-15年中提出的或半推出的几十个甚至数百个“虚拟试穿”系统之一,利用基于机器学习的对象识别来评估身体并将其适应于拟议的服装。 来源:https://www.youtube.com/watch?v=2ZXrgGyhbak

目标是创建新的系统,以实现时尚和服装市场的“虚拟试穿”——可以适应客户和当前或即将发布的特定产品的系统,而无需实时叠加或要求客户发送稍微NSFW的图片用于ML-based渲染管道。

流行的合成架构似乎都不容易适应这一任务:生成对抗网络(GAN)的潜在空间不适合产生令人信服的时间运动(甚至一般的编辑);虽然神经辐射场(NeRF)能够生成真实的人体运动,但通常对编辑具有天然的抵抗力;自动编码器需要人体/服装特定的训练;潜在扩散模型与GAN一样,没有本地时间机制,用于视频生成。

EVA3D

尽管如此,论文和提案继续出现。最近的一个提案引起了人们的兴趣,这在一个 Otherwise 平淡的商业导向的研究领域中是一个罕见的现象。

EVA3D,来自新加坡南洋理工大学,是一个长期以来的方法的首次体现——使用多个神经辐射场网络,每个网络都致力于身体的不同部分,然后将它们组合成一个集成的视觉化表示。

EVA3D中由多个NeRF网络组合而成的移动年轻女性。来源:https://hongfz16.github.io/projects/EVA3D.html

EVA3D中由多个NeRF网络组合而成的移动年轻女性。 来源:https://hongfz16.github.io/projects/EVA3D.html

结果,在运动方面,是可以接受的。虽然EVA3D的视觉化并没有完全摆脱不适感谷,但至少可以看到出口。

使EVA3D出众的是,研究人员几乎是这一领域中唯一的,他们意识到单个网络(GAN、NeRF或其他)在可预见的未来内无法处理可编辑和灵活的人体全身生成——部分是由于研究的步伐,部分是由于硬件和其他后勤限制。

因此,南洋理工大学团队将任务分配到16个网络和多种技术上——一种已经被用于神经渲染城市环境的方法,如Block-NeRF和CityNeRF,这种方法似乎可能成为一种日益有趣和潜在的有价值的中间措施,以实现未来五年内的人体全身Deepfakes,当然,这取决于新的概念或硬件发展。

并非所有创建此类“虚拟试穿”的挑战都是技术或后勤方面的,论文概述了一些数据问题,特别是在无监督学习方面:

‘[时尚]数据集大多具有非常有限的人体姿势(大多数是相似的站立姿势),并且具有高度不平衡的视角(大多数是正面视图)。这种不平衡的2D数据分布可能会阻碍3D GAN的无监督学习,导致新视图/姿势合成困难。因此,需要适当的训练策略来缓解这个问题。’

EVA3D工作流程将人体划分为16个不同的部分,每个部分都是通过自己的NeRF网络生成的。显然,这样就有足够的“解冻”部分,可以通过运动捕捉或其他类型的运动数据使人物活跃起来。除了这个优势之外,它还允许系统将最大资源分配给对整体印象最有“说服力”的身体部位。

例如,人类的脚具有非常有限的关节活动范围,而面部和头部的真实性,以及整体身体运动的质量,可能是渲染的真实性标志。

EVA3D与之前方法的定性比较。作者声称在这方面取得了SOTA结果。

EVA3D与之前方法的定性比较。作者声称在这方面取得了SOTA结果。

该方法与概念上相关的NeRF中心项目2021年的A-NeRF有着根本的不同,A-NeRF来自英属哥伦比亚大学和Reality Labs Research,旨在将内部控制骨架添加到传统的“一体化”NeRF表示中,使得根据需要将处理资源分配给身体的不同部分更加困难。

之前的动作——A-NeRF为NeRF提供了VFX行业长期使用的相同类型的可塑性和关节化的中心骨架。来源:https://lemonatsu.github.io/anerf/

之前的动作——A-NeRF为NeRF提供了VFX行业长期使用的相同类型的可塑性和关节化的中心骨架。 来源:https://lemonatsu.github.io/anerf/

与大多数类似的人体中心项目一样,EVA3D使用皮肤多人线性模型(SMPL),一种传统的基于CGI的方法,用于为当前合成方法添加工具性。今年早些时候,另一个论文来自浙江大学和香港城市大学的创意媒体学院,使用了这种方法来执行神经体重塑。

EVA3D在DeepFashion上的定性结果。

EVA3D在DeepFashion上的定性结果。

方法

在这个过程中使用的SMPL模型是针对人体“先验”的,即被EVA3D“自愿”深度伪造的人。SMPL模型的皮肤权重协商的是规范空间(即SMPL模型的“休息”或“中性”姿势)与最终外观渲染之间的差异。

EVA3D的概念工作流程。来源:https://arxiv.org/pdf/2210.04888.pdf

EVA3D的概念工作流程。 来源:https://arxiv.org/pdf/2210.04888.pdf

如上图所示,SMPL的边界框被用作将最终组成身体的16个网络的边界定义。然后使用SMPL的逆线性混合皮肤(LBS)算法将可见采样光线转移到规范(被动姿势)空间。然后根据这些配置查询16个子网络,并最终合成为最终渲染。

整个NeRF复合体然后被用来构建一个3D人体GAN框架。

第二阶段GAN框架的渲染最终将针对真正的2D图像集合进行训练。

第二阶段GAN框架的渲染最终将针对真正的2D图像集合进行训练。

代表人体每个部分的每个子网络由具有SIREN(正弦表示网络)激活的叠加多层感知器(MLP)组成。虽然SIREN在这种工作流程中解决了很多问题,但它往往会过拟合而不是泛化,研究人员建议可以在未来使用替代库(见文章末尾)。

数据、训练和测试

EVA3D面临着异常的数据问题,这是由于时尚数据集的限制和模板化风格,这些数据集往往缺乏替代或新颖的视图,并且可能是故意的重复,以便关注衣服而不是穿着它们的人。

由于这种姿势分布不平衡,EVA3D使用基于SMPL模板几何的人体先验,然后预测该姿势的有符号距离场(SDF)偏移,而不是直接预测目标姿势。

对于支持实验,研究人员使用了四个数据集:DeepFashion;SHHQ;UBCFashion;以及AIST Dance Video Database(AIST Dance DB)。

后两个数据集包含比前两个更为多样的姿势,但代表相同的个体,这种多样性被抵消了;简而言之,数据非常具有挑战性,考虑到任务的性质。

SSHQ的示例。来源:https://arxiv.org/pdf/2204.11823.pdf

SSHQ的示例。 来源:https://arxiv.org/pdf/2204.11823.pdf

使用的基线是ENARF-GAN,第一个从2D图像数据集渲染NeRF视觉的项目;斯坦福和NVIDIA的EG3D;以及StyleSDF,一项由华盛顿大学、Adobe Research和斯坦福大学合作的项目——所有这些方法都需要超分辨率库才能从本机分辨率扩展到高分辨率。

采用了争议的Frechet Inception Distance(FID)和Kernel Inception Distance(KID)以及Percentage of Correct Keypoints([email protected])等指标。

在定量评估中,EVA3D在四个数据集上所有指标中都处于领先地位:

定量结果。

定量结果。

研究人员指出,EVA3D实现了最低的几何渲染错误率,这是此类项目中的一个关键因素。他们还观察到,他们的系统可以控制生成的姿势,并在[email protected]评分中获得更高的分数,与EG3D相比,EG3D是唯一在一个类别中获得更高分数的竞争方法。

EVA3D以512x512px的分辨率原生运行,虽然它可以通过叠加升级层轻松有效地升级到HD分辨率,就像谷歌最近对其1024分辨率文本到视频产品Imagen Video所做的那样。

该方法并非毫无局限性。论文指出,SIREN激活可能会导致圆形伪影,这可以通过在未来版本中使用替代的基础表示(如EG3D)结合2D解码器来解决。另外,很难将SMPL准确地拟合到时尚数据源上。

最后,该系统很难适应更大、更流畅的服装,如大型连衣裙;这种类型的服装表现出与创建神经渲染头发相同的流体动力学挑战。假设,适当的解决方案可以帮助解决这两个问题。

首次发布于2022年10月12日。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai