关注我们.

人工智能

用人工智能伪造“更好”的身体

mm
更新 on

阿里巴巴达摩院的新研究提供了一种人工智能驱动的工作流程,用于自动重塑人体图像——这在当前计算机视觉领域是一项罕见的努力 基于面部的操作 例如 Deepfakes 和基于 GAN 的 人脸编辑.

生成的注意力图嵌入“结果”列中,定义了要修改的区域。 资料来源:https://arxiv.org/pdf/2203.04670.pdf

生成的注意力图嵌入“结果”列中,定义了要修改的区域。 资料来源:https://arxiv.org/pdf/2203.04670.pdf

研究人员的架构使用骨架姿势估计来解决图像合成和编辑系统在概念化和参数化现有身体图像时面临的更大复杂性,至少达到实际允许有意义和选择性编辑的粒度水平。

估计的骨骼图有助于个性化并将注意力集中在可能被修饰的身体区域,例如上臂区域。

该系统最终使用户能够设置可以改变人物全身或中长照片中的体重、肌肉质量或体重分布的外观的参数,并且能够对穿衣服或不穿衣服的身体部分产生任意变换。

左,输入图像; 中间,派生关注区域的热图; 右图是变换后的图像。

左,输入图像; 中间,派生关注区域的热图; 右图是变换后的图像。

这项工作的动机是开发自动化工作流程,可以取代摄影师和制作图形艺术家在各个媒体领域(从时尚到杂志风格的输出)所进行的艰苦的数字操作。 宣传资料.

作者承认,总的来说,这些变换通常在 Photoshop 和其他传统位图编辑器中通过“扭曲”技术应用,并且几乎专门用于女性图像。 因此,为促进新流程而开发的自定义数据集主要由女性受试者的照片组成:

“由于身体修饰主要是女性所希望的,考虑到年龄、种族(非洲人:亚洲人:高加索人= 0.33:0.35:0.32)、姿势和服装的多样性,我们收集的大部分照片都是女性照片。”

这个 标题为 用于人体重塑的结构感知流生成,来自阿里巴巴全球达摩院的五位作者。

数据集开发

与图像合成和编辑系统的通常情况一样,该项目的架构需要定制的训练数据集。 作者委托三名摄影师对来自图库摄影网站 Unsplash 的适当图像进行标准 Photoshop 处理,从而生成了一个数据集 - 标题为 BR-5K* – 5,000 张 2K 分辨率的高质量图像。

研究人员强调,对该数据集进行训练的目的不是产生与吸引力或理想外观指数相关的“理想化”和广义特征,而是提取与身体图像专业处理相关的中心特征映射。

然而,他们承认这些操作最终反映了从“真实”到预设的“理想”概念的转变过程:

“我们邀请了三位专业艺术家独立使用Photoshop对身体进行修饰,目标是达到符合流行审美的苗条身材,并选择最好的作为ground-truth。”

由于该框架根本不处理人脸,因此在将其包含到数据集中之前,这些人脸已被模糊化。

架构和核心概念

该系统的工作流程包括输入高分辨率肖像,将其降采样到适合可用计算资源的较低分辨率,并提取估计的骨架图姿势(下图左起第二张图)以及零件亲和力字段(PAF),这是 创新的 2016 年,卡内基梅隆大学机器人研究所(参见下面直接嵌入的视频)。

Realtime Multi-Person 2D Human Pose Estimation using Part Affinity Fields, CVPR 2017 口述

零件亲和力场有助于定义四肢的方向以及与更广泛的骨骼框架的一般关联,为新项目提供额外的关注/定位工具。

根据 2016 年的 Part Affinity Fields 论文,预测的 PAF 将肢体方向编码为 2D 向量的一部分,该向量还包括肢体的一般位置。 资料来源:https://arxiv.org/pdf/1611.08050.pdf

根据 2016 年的 Part Affinity Fields 论文,预测的 PAF 将肢体方向编码为 2D 向量的一部分,该向量还包括肢体的一般位置。 资料来源:https://arxiv.org/pdf/1611.08050.pdf

尽管骨骼图与体重的外观明显无关,但它们对于将最终的变形过程引导到需要修改的身体部位(例如上臂、后部和大腿)非常有用。

之后,结果将被输入到流程中央瓶颈中的结构亲和自注意力(SASA)(见下图)。

SASA 调节为该过程提供燃料的流发生器的一致性,其结果随后传递到变形模块(上图中右数第二个),该模块应用从数据集中包含的手动修订训练中学到的转换。

结构亲和自注意力(SASA)模块将注意力分配到相关的身体部位,有助于避免无关或不相关的转换。

结构亲和自注意力(SASA)模块将注意力分配到相关的身体部位,有助于避免无关或不相关的转换。

随后,输出图像被上采样回原始 2K 分辨率,使用的过程与标准的 2017 年风格的 Deepfake 架构没有什么不同,DeepFaceLab 等流行软件包就是从该架构衍生而来的; 上采样过程在 GAN 编辑框架中也很常见。

该模式的注意力网络建模如下 组合去注意力网络 (CODA),2019 年美国/新加坡与 Amazon AI 和 Microsoft 的学术合作。

检测

基于流程的框架与之前基于流程的方法进行了测试 FAL 并通过变形进行动画处理 (ATW),以及图像翻译架构 像素2像素高清GFLA, SSIM、PSNR 和 LPIPS 作为评价指标。

初始测试结果(标题中的箭头方向指示较低或较高的数字是最佳)。

初始测试结果(标题中的箭头方向指示较低或较高的数字是最佳)。

基于这些采用的指标,作者的系统优于先前的架构。

选定的结果。 请参阅本文中链接的原始 PDF 以进行更高分辨率的比较。

选定的结果。 请参阅本文中链接的原始 PDF 以进行更高分辨率的比较。

除了自动化指标之外,研究人员还进行了一项用户研究(如前图所示的结果表的最后一列),其中向 40 名参与者每人展示了 30 个问题,这些问题是从与通过各种方法生成的图像相关的 100 个问题池中随机选择的。 70% 的受访者赞成这项新技术,因为它“视觉上更有吸引力”。

挑战

这篇新论文代表了对基于人工智能的身体操纵的罕见探索。 图像合成领域目前更感兴趣的是通过神经辐射场 (NeRF) 等方法生成可编辑的身体,或者专注于探索 GAN 的潜在空间和自动编码器用于面部操纵的潜力。

目前,作者的举措仅限于产生感知体重的变化,并且他们还没有实施任何类型的修复技术来恢复当你缩小某人的照片时不可避免地暴露的背景。

然而,他们提出,通过纹理推断进行肖像抠图和背景混合可以轻松解决恢复以前由于人类“不完美”而隐藏在图像中的世界部分的问题。

人工智能驱动的减脂揭示了一种恢复背景的拟议解决方案。

人工智能驱动的减脂揭示了一种恢复背景的拟议解决方案。

 

* 虽然预印本引用了补充材料,提供了有关数据集的更多详细信息以及项目的更多示例,但论文中未提供该材料的位置,并且相应作者尚未回复我们的访问请求。

首次发布于 10 年 2022 月 XNUMX 日。

机器学习作家,人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站: 马丁南德森.ai
联系我们 [电子邮件保护]
推特:@manders_ai