Connect with us

Unite.AI

使用 AI 制作“更好”的身体

人工智能

使用 AI 制作“更好”的身体

Published March 10, 2022

Updated April 28, 2026

By

Martin Anderson

阿里巴巴 DAMO 学院的新研究提供了一种基于 AI 的工作流程，用于自动化身体图像的重塑——这是计算机视觉领域中一个罕见的尝试，目前该领域主要专注于基于面部的操作，例如深度伪造和基于 GAN 的面部编辑。

在“结果”列中，生成的注意力图定义了要修改的区域。来源：https://arxiv.org/pdf/2203.04670.pdf

在“结果”列中，生成的注意力图定义了要修改的区域。 来源：https://arxiv.org/pdf/2203.04670.pdf

研究人员的架构使用骨骼姿势估计来解决图像合成和编辑系统在概念化和参数化现有身体图像方面的更大复杂性，至少可以实现有意义和选择性的编辑。

估计的骨骼图帮助识别和关注身体可能被修饰的区域，例如上臂区域。

该系统最终使用户能够设置参数以改变身体的外观，例如体重、肌肉质量或体重分布，在全身或半身照片中，并且可以对穿着或不穿着的身体部分生成任意变换。

左，输入图像；中，导出注意力区域的热图；右，变换后的图像。

左，输入图像；中，导出注意力区域的热图；右，变换后的图像。

该工作的动机是开发自动化工作流程，以替代摄影师和生产图形艺术家在各种媒体分支中（从时尚到杂志风格的输出和宣传材料）进行的繁琐的数字操作。

一般来说，作者承认，这些变换通常使用Photoshop和其他传统的位图编辑器中的“变形”技术应用，并且几乎专门用于女性图像。因此，为了促进新过程的开发，所创建的自定义数据集主要由女性照片组成：

“由于身体修饰主要是女性所期望的，我们的集合主要是女性照片，考虑到年龄、种族（非洲：亚洲：高加索 = 0.33：0.35：0.32）、姿势和服装的多样性。”

该论文的标题为用于人体重塑的结构感知流生成，由五位与阿里巴巴全球DAMO学院相关的作者撰写。

数据集开发

与图像合成和编辑系统通常一样，该项目的架构需要一个定制的训练数据集。作者委托三位摄影师从Unsplash股票照片网站生产标准的Photoshop操作，结果是一个名为BR-5K*的数据集，包含5000张高质量的2K分辨率图像。

研究人员强调，在该数据集上训练的目标不是产生“理想化”和概括的特征，与吸引力或理想外貌的索引相关，而是提取与专业身体图像操作相关的中心特征映射。

然而，他们承认，最终的操作反映了从“真实”到预设的“理想”外貌的转换过程：

“我们邀请三位专业艺术家使用Photoshop独立地修饰身体，目标是实现苗条的身材，以满足流行的美学标准，并选择最好的一个作为基准。”

由于该框架根本不处理面部，因此在包含在数据集中之前，面部被模糊了。

架构和核心概念

系统的工作流程涉及输入高分辨率的肖像，降低分辨率以适应可用的计算资源，并提取估计的骨骼图姿势（如下图左二），以及部分亲和力场（PAF），它们于2016年由卡内基梅隆大学机器人研究所创新（见下方嵌入的视频）。

部分亲和力场有助于定义肢体的方向和与更广泛的骨骼框架的关联，为该项目提供了一个额外的注意力/定位工具。

来自2016年部分亲和力场论文的预测PAF编码肢体方向作为2D向量的一部分，包括肢体的一般位置。来源：https://arxiv.org/pdf/1611.08050.pdf

来自2016年部分亲和力场论文的预测PAF编码肢体方向作为2D向量的一部分，包括肢体的一般位置。 来源：https://arxiv.org/pdf/1611.08050.pdf

尽管骨骼图似乎与体重的外观无关，但它们在指导最终的转换过程中很有用，可以将要修改的区域（例如上臂、后背和大腿）关注到身体的特定部位。

然后，将结果输入到结构亲和力自注意力（SASA）模块中，该模块位于流生成器的中心瓶颈中（见下图）。

SASA调节流生成器的一致性，结果然后传递给变形模块（上图右二），它应用了从数据集中手动修订中学习到的变换。

结构亲和力自注意力（SASA）模块分配注意力到相关的身体部位，有助于避免不必要或不相关的变换。

结构亲和力自注意力（SASA）模块分配注意力到相关的身体部位，有助于避免不必要或不相关的变换。

输出图像随后被上采样回原始的2K分辨率，使用的过程与2017年风格的深度伪造架构类似，也是DeepFaceLab等流行软件包的基础；上采样过程也常用于GAN编辑框架中。

该架构的注意力网络以组合去注意力网络（CODA）为模型，该网络是2019年美国/新加坡学术合作，参与者包括亚马逊AI和微软。

测试

基于流的框架被测试与先前的流式方法FAL和通过变形进行动画（ATW），以及图像翻译架构Pix2PixHD和GFLA，使用SSIM、PSNR和LPIPS作为评估指标。

初始测试结果（标题中的箭头方向表示是否更好）。

初始测试结果（标题中的箭头方向表示是否更好）。

根据这些采用的指标，作者的系统优于先前的架构。

选定的结果。请参阅本文链接的原始PDF以获取更高分辨率的比较。

选定的结果。请参阅本文链接的原始PDF以获取更高分辨率的比较。

除了自动化指标外，研究人员还进行了用户研究（结果表的最后一列），其中40名参与者各自被展示了30个问题，这些问题是从100个问题池中随机选取的，涉及通过各种方法生成的图像。70%的受访者更喜欢新的技术，认为它更“视觉上吸引人”。

挑战

该新论文代表了对基于AI的身体操作的罕见尝试。图像合成领域目前更感兴趣的是通过诸如神经辐射场（NeRF）等方法生成可编辑的身体，或者专注于探索GAN的潜在空间和自动编码器用于面部操作的潜力。

作者的计划目前仅限于产生对感知体重的变化，并且他们尚未实施任何可以恢复通过AI驱动的减肥图像中被揭示的背景的插补技术。

然而，他们提议，肖像抠图和通过纹理推理的背景融合可以轻松解决由人体“不完美”所揭示的图像背景的恢复问题。

用于恢复通过AI驱动的减肥揭示的背景的拟议解决方案。

用于恢复通过AI驱动的减肥揭示的背景的拟议解决方案。

* 虽然预印本提到了提供有关数据集的更多详细信息以及项目的进一步示例的补充材料，但这些材料的位置在论文中没有提供，并且对应作者尚未对我们的请求做出回应。

最初发布于2022年3月10日。

Related Topics:deepfake DeepFakes image synthesis research

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai