Anderson 视角

使用 AI 重塑人体类型

mm

来自中国的一项新研究合作提供了一种通过协调的双神经编码器网络来重塑图像中的人体的新方法,该网络由参数模型引导,允许最终用户在交互式 GUI 中调节体重、身高和体型比例。

参数化的身体形状调节,滑块改变三个可用功能。来源:https://arxiv.org/pdf/2203.10496.pdf

参数化的身体形状调节,滑块改变三个可用功能。 来源:https://arxiv.org/pdf/2203.10496.pdf

该工作在几个方面改进了阿里巴巴最近的类似项目,因为它可以令人信服地改变身高和体型比例,以及体重,并且具有一个专门的神经网络用于“填充”(不存在的)背景,可以通过“更瘦”的身体图像显示出来。它还改进了早期的参数化方法,通过去除在变换公式中需要大量的人类干预。

该新架构被称为 NeuralReshaper,它将参数化的 3D 人体模板拟合到源图像中,然后使用模板中的变形来适应原始图像到新的参数。

该系统可以处理穿着衣服和半穿着衣服(例如泳装)的身体变形。

这种类型的变换目前在时尚 AI 研究领域引起了极大的兴趣,该领域已经产生了许多 StyleGAN/CycleGAN 基础的和一般神经网络平台,用于虚拟试穿,可以将可用的服装适应用户提交的图像的身体形状和类型,或者帮助视觉一致性。

论文 被称为 单图像人体重塑与深度神经网络,来自浙江大学和香港城市大学的研究人员。

SMPL 拟合

NeuralReshaper 使用了由马克斯·普朗克智能系统研究所和工业光魔公司于 2015 年开发的 Skinned Multi-Person Linear Model (SMPL)。

SMPL 参数化的人体来自 2015 年的 Planck/ILM 合作。来源:https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

SMPL 参数化的人体来自 2015 年的 Planck/ILM 合作。 来源:https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

在该过程的第一阶段,源图像生成一个 SMPL 模型,需要进行身体变换。SMPL 模型适应图像的方法遵循 2018 年由德国和美国大学提出的 Human Mesh Recovery (HMR) 方法。

三个变形参数(体重、身高、体型比例)在此阶段计算,同时考虑相机参数,如焦距。2D 关键点和生成的轮廓对齐提供了变形的封闭,在形式上增加了边界准确性,并允许进一步的背景填充。

SMPL 拟合阶段:左,源图像;第二,优化结果;第三,直接推断结果;第四,2D 关键点优化结果;第五,完成的拟合结果(见上图)

SMPL 拟合阶段:左,源图像;第二,优化结果;第三,直接推断结果;第四,2D 关键点优化结果;第五,完成的拟合结果(见上图)

3D 变形然后投影到图像空间中,以便定义变形。该过程大约需要 30 秒每张图像。

NeuralReshaper 架构

NeuralReshaper 同时运行两个神经网络:一个前景编码器生成变形的身体形状,一个背景编码器专注于填充“去遮挡”背景区域(例如,减瘦身体时)。

U-net 风格的框架集成了两个编码器的特征输出,然后传递结果到一个统一的编码器,最终从两个输入中产生一个新图像。该架构具有一个新颖的变形引导机制,以实现集成。

训练和实验

NeuralReshaper 使用 PyTorch 在单个 NVIDIA 1080ti GPU 上实现,具有 11GB 的 VRAM。网络在 100 个 epoch 下训练,使用 Adam 优化器,生成器的目标损失为 0.0001,判别器的目标损失为 0.0004。训练使用批大小 8,来自 COCO、MPII 和 LSP 的专有数据集,以及批大小 2,来自 DeepFashion 数据集。

左,原始图像;右,NeuralReshaper 的重构输出

左,原始图像;右,NeuralReshaper 的重构输出

以下是 DeepFashion 数据集的示例,仅用于 NeuralReshaper 训练,原始图像始终在左侧。

三个可控属性是解耦的,可以单独应用。

在派生的户外数据集上进行变换更具挑战性,因为它们经常需要填充复杂的背景和清晰地分离变形的身体类型:

参数必要性

如论文所述,这种类型的同图像变换代表了图像合成中的一个不良定问题。许多变换 GAN 和编码器框架可以使用成对图像(例如,用于草图 > 照片和照片 > 草图变换的多个项目)。

然而,在这种情况下,这需要具有相同人体在不同物理配置中的图像对,例如减肥或整容广告中的“前后”图像 – 这些数据很难获得或生成。

或者,变换 GAN 网络可以在更多样化的数据上进行训练,并通过寻找源图像(原始图像的潜在代码)和所需类别(在本例中为“胖”、“瘦”、“高”等)之间的潜在方向来实现变换。然而,这种方法目前对于细致的身体重塑来说还不够。

神经辐射场(NeRF)方法在全身模拟方面比大多数 GAN 基础系统更先进,但仍然是特定场景和资源密集型的,目前几乎没有编辑身体类型的能力(除了缩放整个身体相对于其环境以外)。

GAN 的潜在空间很难管理;VAE 单独不能解决全身重现的复杂性;NeRF 一致且真实地重建人体的能力仍处于初期阶段。因此,结合“传统”的 CGI 方法(如 SMPL)似乎将在人体图像合成研究领域继续下去,作为一种方法来控制和整合其参数和可利用性尚不完全理解的特征、类别和潜在代码。

这种类型的变换代表了图像合成中的一个不良定问题。许多变换 GAN 和编码器框架可以使用成对图像(例如,用于草图 > 照片和照片 > 草图变换的多个项目)。然而,在这种情况下,这需要具有相同人体在不同物理配置中的图像对,例如减肥或整容广告中的“前后”图像 – 这些数据很难获得或生成。

或者,变换 GAN 网络可以在更多样化的数据上进行训练,并通过寻找源图像(原始图像的潜在代码)和所需类别(在本例中为“胖”、“瘦”、“高”等)之间的潜在方向来实现变换。然而,这种方法目前对于细致的身体重塑来说还不够。

神经辐射场(NeRF)方法在全身模拟方面比大多数 GAN 基础系统更先进,但仍然是特定场景和资源密集型的,目前几乎没有编辑身体类型的能力(除了缩放整个身体相对于其环境以外)。

GAN 的潜在空间很难管理;VAE 单独不能解决全身重现的复杂性;NeRF 一致且真实地重建人体的能力仍处于初期阶段。因此,结合“传统”的 CGI 方法(如 SMPL)似乎将在人体图像合成研究领域继续下去,作为一种方法来控制和整合其参数和可利用性尚不完全理解的特征、类别和潜在代码。

 

首次发布于 2022 年 3 月 31 日。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai