关注我们.

人工智能

用人工智能重塑人体类型

mm
更新 on

来自中国的一项新研究合作提供了一种在图像中重塑人体的新方法,通过使用协调双神经编码器网络,在参数模型的指导下,允许最终用户调节体重、身高和身体比例在交互式 GUI 中。

身体形状的参数化调制,通过滑块改变三个可用功能。 资料来源:https://arxiv.org/pdf/2203.10496.pdf

身体形状的参数化调制,通过滑块改变三个可用功能。 资料来源:https://arxiv.org/pdf/2203.10496.pdf

这项工作提供了一些改进 最近的类似项目 来自阿里巴巴,因为它可以令人信服地改变身高、身体比例以及体重,并且有一个专门的神经网络来“修复”(不存在的)背景,这些背景可以通过“更苗条”的身体图像来揭示。 它还改进了一个值得注意的 早期参数法 通过消除在转变过程中大量人工干预的需要来实现身体重塑。

标题 神经重塑者,新架构将参数化 3D 人体模板拟合到源图像,然后使用模板中的扭曲使原始图像适应新参数。

该系统能够处理穿衣和半穿衣(即沙滩装)人物的身体变形。

这种类型的转变目前引起了人们的强烈兴趣 时尚人工智能 研究部门,已经生产了多个基于 StyleGAN/CycleGAN 的通用神经网络平台 虚拟试穿 它可以使可用的服装适应用户提交的图像的体型和类型,或者以其他方式帮助视觉一致性。

我们推荐使用 标题为 利用深度神经网络进行单图像人体重塑,来自杭州浙江大学和香港城市大学创意媒体学院的研究人员。

SMPL 接头

NeuralReshaper 利用蒙皮多人线性模型 (SMPL) 发达 由马克斯·普朗克智能系统研究所和著名视觉特效公司工业光魔于 2015 年推出。

来自 2015 年 Planck/ILM 合作的 SMPL 参数化人类。 资料来源:https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

来自 2015 年 Planck/ILM 合作的 SMPL 参数化人类。 资料来源:https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

在该过程的第一阶段,从需​​要进行身体变换的源图像生成 SMPL 模型。 SMPL模型对图像的适应遵循以下公式 方法 德国和美国大学于 2018 年提出的 Human Mesh Recovery(HMR)方法。

在此阶段计算变形的三个参数(体重、身高、身体比例),并考虑相机参数,例如焦距。 2D 关键点和生成的轮廓对齐为 2D 轮廓形式的变形提供了外壳,这是一种额外的优化措施,可以提高边界精度并允许在管道中进一步进行真实的背景修复。

SMPL 拟合阶段:左,源图像; 左二为马克斯普朗克智能系统研究所2016年研究中概述的方法得到的优化结果; 左起第三个,用于人体形状和姿势端到端恢复的预训练模型的直接推理结果; 右数第二个,2D关键点优化后得到的结果; 最后,右图是轮廓优化后完成的合身(见上文)。

SMPL 拟合阶段:左,源图像; 二、2016年概述的方法得到的优化结果 研究 由马克斯·普朗克智能系统研究所领导; 第三,预训练模型的直接推理结果 人体形状和姿势的端到端恢复; 第四,2D关键点优化后得到的结果; 最后,第五,轮廓优化后完成的拟合(见上文)。

然后将 3D 变形投影到架构的图像空间中,以形成定义变形的密集扭曲场。 此过程每张图像大约需要 30 秒。

神经重塑架构

NeuralReshaper 串联运行两个神经网络:一个生成变换后的身体形状的前景编码器,以及一个专注于填充“去遮挡”背景区域的背景编码器(例如,在瘦身的情况下 - 参见图片)以下)。

U-net 式框架集成了两个编码器特征的输出,然后将结果传递给统一编码器,最终从两个输入生成新颖的图像。 该架构采用新颖的扭曲引导机制来实现集成。

训练与实验

NeuralReshaper 在具有 1080GB VRAM 的单个 NVIDIA 11ti GPU 上的 PyTorch 中实现。 该网络在 Adam 优化器下训练了 100 个 epoch,其中生成器的目标损失设置为 0.0001,鉴别器的目标损失设置为 0.0004。 训练的批量大小为 8,用于专有的户外数据集(取自 COCO, MPII和 LSP),以及 2 用于训练 深时尚 数据集。

左边是原始图像,右边是 NeuralReshaper 重新调整比例的输出。

左边是原始图像,右边是 NeuralReshaper 重新调整比例的输出。

以下是专门来自 DeepFashion 数据集的一些示例,经过 NeuralReshaper 训练,原始图像始终位于左侧。

三个可控属性是解开的,可以单独应用。

对派生的室外数据集进行转换更具挑战性,因为它们经常需要填充复杂的背景以及对转换后的身体类型进行清晰且令人信服的描绘:

参数必要性

正如本文所观察到的,这种类型的同图像变换代表了图像合成中的不适定问题。 许多变革性 GAN 和编码器框架可以利用配对图像(例如旨在实现效果的各种项目) 素描>照片照片>素描 变换)。

然而,在当前的情况下,这将需要具有不同物理配置的同一个人的图像对,例如饮食或整形手术广告中的“之前和之后”图像——难以获取或生成的数据。

或者,变革性 GAN 网络可以训练更加多样化的数据,并通过寻找 潜在方向 源(原始图像潜在代码)和所需的类(在本例中为“胖”、“瘦”、“高”等)之间。 然而,目前这种方法对于微调身体重塑的目的来说太有限了。

神经辐射场(神经RF)方法在全身模拟方面比大多数基于 GAN 的系统要先进得多,但仍然是场景特定的和资源密集型的,目前以 NeuralReshaper 和之前的项目试图解决的精细方式编辑身体类型的能力非常有限(缺乏 缩小整个身体 相对于其环境)。

GAN 的潜在空间很难治理; VAE 本身还不能解决全身生殖的复杂性。 NeRF 持续且真实地重塑人体的能力仍处于初级阶段。 因此,“传统”CGI 方法(例如 SMPL)的结合似乎将继续在人类图像合成研究领域中继续,作为一种收集和巩固特征、类别和潜在代码的方法,这些新兴的技术中其参数和可利用性尚未完全理解。技术。

 

首次发布于 31 年 2022 月 XNUMX 日。