Connect with us

Unite.AI

使用 AI 制作“更好”的身体

Anderson 视角

使用 AI 制作“更好”的身体

发布于 2022年3月10日

更新于 2026年5月24日

作者

Martin Anderson

阿里巴巴 DAMO 学院的新研究提出了一种 AI 驱动的工作流程，用于自动化图像中的身体重塑——这是计算机视觉领域中一个罕见的尝试，目前该领域主要专注于面部操纵，例如深度伪造和 GAN 基础的面部编辑。

结果列中的插图显示了需要修改的区域。来源：https://arxiv.org/pdf/2203.04670.pdf

结果列中的插图显示了需要修改的区域。来源：https://arxiv.org/pdf/2203.04670.pdf

研究人员的架构使用骨骼姿势估计来解决图像合成和编辑系统在概念化和参数化现有身体图像方面面临的更大复杂性，至少可以实现有意义和选择性的编辑。

估计的骨骼地图有助于个性化和关注身体的特定区域，例如上臂区域。

该系统最终使用户能够设置参数以改变图像中的人物体重、肌肉质量或体重分布的外观，并且可以对穿着或不穿着衣服的身体部分生成任意变换。

左边是输入图像；中间是导出注意区域的热图；右边是变换后的图像。

左边是输入图像；中间是导出注意区域的热图；右边是变换后的图像。

该工作的动机是开发自动化工作流程，以替代摄影师和生产图形艺术家在媒体各个领域（从时尚到杂志风格输出和宣传材料）中进行的繁琐数字操纵。

一般来说，作者承认，这些变换通常使用Photoshop和其他传统位图编辑器中的“变形”技术应用，并且几乎只用于女性图像。因此，为了促进新的过程，开发了一个自定义数据集，主要由女性照片组成：

“由于身体修饰主要是由女性要求的，我们的收藏主要是女性照片，考虑到年龄、种族（非洲：亚洲：白人 = 0.33：0.35：0.32）、姿势和服装的多样性。”

该论文题为《结构感知流生成用于人体重塑》，由五位与阿里巴巴全球DAMO学院相关的作者撰写。

数据集开发

与图像合成和编辑系统一样，该项目的架构需要一个自定义训练数据集。作者委托三位摄影师从Unsplash库中选择合适的图像，并使用Photoshop进行操纵，生成了一个名为BR-5K*的数据集，包含5000张高质量图像，分辨率为2K。

研究人员强调，在该数据集上训练的目标不是产生“理想化”和普遍的特征，与某种吸引力或理想外观的索引相关，而是提取与专业操纵身体图像相关的中心特征映射。

然而，他们承认，最终的操纵反映了从“真实”到预设的“理想”概念的转化过程：

“我们邀请三位专业艺术家使用Photoshop独立地修饰身体，以实现苗条的身材，符合流行的审美，并选择最好的一个作为基准。”

由于该框架不处理面部，因此在将图像添加到数据集之前，面部被模糊处理。

架构和核心概念

该系统的工作流程涉及输入高分辨率肖像，降低分辨率以适应可用的计算资源，提取估计的骨骼地图姿势（图像中第二个图像从左边开始），以及部分亲和力场（PAF），后者由卡内基梅隆大学机器人学院于2016年提出（见下面嵌入的视频）。

部分亲和力场有助于定义肢体的方向和与更广泛的骨骼框架的关联，为该项目提供了一个额外的注意力/定位工具。

来自2016年部分亲和力场论文的预测PAF编码肢体方向作为2D向量的一部分，包括肢体的一般位置。来源：https://arxiv.org/pdf/1611.08050.pdf

来自2016年部分亲和力场论文的预测PAF编码肢体方向作为2D向量的一部分，包括肢体的一般位置。来源：https://arxiv.org/pdf/1611.08050.pdf

尽管骨骼地图似乎与体重的外观无关，但它们在指导最终的转化过程方面很有用，尤其是在需要修改的身体部位，例如上臂、后背和大腿。

之后，结果被输入到结构亲和力自注意力（SASA）模块，该模块位于流生成器的中心瓶颈（见下图）。

SASA调节流生成器的一致性，流生成器为该过程提供动力，结果然后被传递到变形模块（图像中第二个从右边开始），该模块应用了从数据集中手动修订中学习到的变换。

结构亲和力自注意力（SASA）模块分配注意力到相关的身体部位，帮助避免不必要或不相关的变换。

结构亲和力自注意力（SASA）模块分配注意力到相关的身体部位，帮助避免不必要或不相关的变换。

输出图像随后被上采样回原始的2K分辨率，使用的过程与2017年风格的深度伪造架构类似，也与GAN编辑框架中常见的上采样过程类似。

该架构的注意力网络以《组合去注意力网络》（CODA）为模型，CODA是一个2019年美国/新加坡学术合作项目，参与者包括亚马逊AI和微软。

测试

基于流的框架被测试与之前的流基于方法FAL和通过变形进行动画（ATW），以及图像翻译架构Pix2PixHD和GFLA，使用SSIM、PSNR和LPIPS作为评估指标。

初始测试结果（标题中的箭头方向表示更高或更低的值更好）。

初始测试结果（标题中的箭头方向表示更高或更低的值更好）。

根据这些采用的指标，作者的系统优于之前的架构。

选定的结果。请参考文章中链接的原始PDF以获取更高分辨率的比较。

选定的结果。请参考文章中链接的原始PDF以获取更高分辨率的比较。

除了自动化指标外，研究人员还进行了用户研究（结果表中的最后一列），其中40名参与者各自被随机显示30个问题，这些问题来自一个100个问题的池中，涉及通过各种方法生成的图像。70%的受访者更喜欢新的技术，因为它更“视觉上吸引人”。

挑战

该论文代表了对AI基于身体操纵的罕见尝试。图像合成领域目前更感兴趣的是通过诸如神经辐射场（NeRF）等方法生成可编辑的身体，或者专注于探索GAN的潜在空间和自动编码器在面部操纵中的潜力。

作者的计划目前仅限于产生对感知体重的变化，并且尚未实施任何可以恢复图像中被人“不完美”部分遮挡的背景的插值技术。

然而，他们提议，人像抠图和通过纹理推理的背景融合可以轻松解决由于AI驱动的减肥而暴露的背景问题。

一个用于恢复AI驱动减肥后暴露的背景的提议解决方案。

一个用于恢复AI驱动减肥后暴露的背景的提议解决方案。

* 虽然预印本提到了提供有关数据集和项目其他示例的补充材料，但该材料的位置在论文中没有提供，且对应作者尚未响应我们的访问请求。

首次发布于2022年3月10日。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai