关注我们.

安德森的角度

通过人工智能增肥的优势

mm
合成改变数据的图像,摘自论文《Odo:用于身份保留身体重塑的深度引导扩散》,网址:https://arxiv.org/abs/2508.13065

一款全新的人工智能系统可以逼真地重塑照片中人物的体形,使其变得更胖、更瘦或更强壮,而无需改变面部、衣着或背景。该系统基于一个完全合成的数据集进行训练,该数据集展现了多种体型的人物特征。

 

除了人工智能作为一种 在社交网络上改善体形或(可能)为了视觉特效目的改变体型,使用机器学习来改变个人的外貌可以发挥更重要的作用:帮助患有饮食失调的人 了解 他们对自己外表的畸形解释,以及为更广泛的运动和健身目的提供潜在的激励工具:

摘自论文《使用 3D 虚拟形象对神经性厌食症女性和健康对照者进行体型评估》(Body size estimation in women with anorexia nervosa and healthy control using 41598D avatars),该图展示了一个可视化体形变化的图形用户界面 (GUI)。患有身体畸形恐惧症的人可能难以将自己身体的真实形象与相似的图像联系起来,从而为临床医生提供衡量畸形反应的指标,以及其他用途。来源:https://www.nature.com/articles/s017-15339-XNUMX-z.pdf

摘自论文《使用 3D 虚拟形象对神经性厌食症女性和健康对照者进行体型评估》,该图是一个可视化体形变化的图形用户界面 (GUI)。患有身体畸形恐惧症的人可能难以将自己身体的真实形象与相似的图像联系起来,从而为临床医生提供衡量畸形反应的指标,以及其他用途。 来源:https://www.nature.com/articles/s41598-017-15339-z.pdf

此外,该 备受追捧的时尚试穿 计算机视觉研究的一个分支也对提供各种体型的精确可视化感兴趣。与此同时,像 2024 差异体 来自日本筑波大学的研究人员在该领域创造了一些令人瞠目结舌的功能:

使用先前的 DiffBody 技术可以实现的一些转换。来源:https://arxiv.org/pdf/2401.02804

使用先前的 DiffBody 技术可以实现一些转换。 来源:https://arxiv.org/pdf/2401.02804

由于 AI 基础模型针对传统吸引力或其他常见体型进行了优化,因此“肥胖”等不寻常的尺寸要么在标准模型中最低限度可用,要么 伴随着一些惩罚性偏见.

配对必需品

在创建能够真实地在个人照片中添加或减少脂肪和肌肉的人工智能系统(无需改变其身份、环境或衣服)方面,最大的挑战之一是,这涉及 配对训练其中,AI 系统可以有效地学习“之前”和“之后”的图像,这些图像定义了模型想要执行的任何转换。

由于 Black Forest Labs 的成功,这种培训在夏季再次受到关注。 上下文 一系列图像编辑模型,其中这种配对数据用于教授模型一系列转换:

Flux Kontext 网站上的一个转换示例,反映了训练模型所需的源数据类型,该模型能够在施加重大更改时保持图像完整性。资料来源:https://bfl.ai/models/flux-kontext

来自 Flux Kontext 网站的一个转换示例反映了训练能够在施加重大更改时保持图像完整性的模型所需的源数据类型。 资料来源:https://bfl.ai/models/flux-kontext

显然,在开发一个可以显著改变一个人的外观的模型(而无需重新想象整个图像)的情况下,人们需要一些在现实世界中完全不可能的东西:仅相隔几秒钟拍摄的“之前”和“之后”的彻底照片。

唯一的办法是 综合数据一些此类项目使用了在 Photoshop 中手动创建的单独、高强度的对比对;然而,这在规模上是不现实的,现在人们越来越认为,采用自动化或半自动化、人工智能驱动的流程来生成对比对是更可取的。

麻烦 为基础的和最 SMPL/X基于的方法(其中虚拟 CGI 人物被用作真实图像和所需转换之间的一种交换机制),以及 使用图像扭曲,背景和身份往往会在此过程中受到影响。

参数化、基于矢量的 CGI 模型(例如 SMPL 和 SMPL-X 等)提供了定义明确的常规物理三维坐标,这些坐标可被解读并融入计算机视觉框架。来源:https://files.is.tue.mpg.de/black/papers/SMPL3.pdf

参数化的、基于矢量的 CGI 模型(例如 SMPL 和 SMPL-X(以及其他模型))提供了定义的常规物理 3D 坐标,这些坐标可以被解释并合并到计算机视觉框架中。 资料来源:https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

由于重要的是人工智能学会只改变所需的方面,而不是学习扭曲背景和复制其他不良错误,因此尚未有任何身体改变系统找到完美的解决方案。

然而,印度最近的一篇论文确实提出了通过使用较旧的 助焊剂 扩散模型框架,增强了许多辅助方法,从而实现更优质、更一致的配对数据集:

新项目的数据集示例。来源:https://arxiv.org/pdf/2508.13065

来自新项目的数据集示例。 来源:https://arxiv.org/pdf/2508.13065

该项目包括一个新的、广泛的配对数据集; 里程表,一个基于该数据训练的生成扩散模型;以及一个专门定制的全新基准,旨在定量评估人类形状编辑性能。在测试中,作者声称其在同类可比模型的标准上取得了显著的进步。

这个 新文 标题为 Odo:深度引导扩散,用于身份保留的身体重塑,来自班加罗尔 Fast Code AI Pvt. Ltd 的三名研究人员。

数据与方法

研究人员创建的数据集针对每种目标体型包含 7,615 张高分辨率 (960x1280px) 图像(脂肪, 肌肉发达).

最初通过 FLUX.1-dev 12 亿参数扩散模型,虽然利用了来自 Pexels 和 Unsplash 的未指定数量的免许可参考面孔,但还是增加了多样性。

为了生成包含这些面孔的全身图像,研究人员使用了字节跳动 2024 年推出的 普利德,一个基于 Flux 进行微调的检查点,并具有 对比ID损失 旨在帮助在转变过程中保持面部特征:

PuLID 项目示例。来源:https://arxiv.org/pdf/2404.16022

PuLID 项目的示例。 来源:https://arxiv.org/pdf/2404.16022

模型收到一张面部图像和标准化提示,要求 性别, 衣着, 提出, 现场以及体型 , 脂肪肌肉发达.

每种身份的三种体型图像有时会在背景对齐和感知主体大小方面表现出轻微的变化,这是由于 随机 扩散模型的行为,其中每一代都从一个新的 噪声 种子即使是提示的细微变化,例如修改体型描述,也会影响模型的轨迹 潜在空间,并造成视觉漂移。

为了纠正这种变化,我们采用了四阶段自动后处理流程,其中 每个三元组中的图像被选为参考,因为其较小的轮廓暴露了更多的背景。

人员检测采用 RT-DETRv2,然后进行分割 SAM 2.1 提取所有三种体型的主体蒙版。 然后将参考图像传递给 FLUX.1 Kontext Pro(较新的图像编辑系统)进行背景修复,生成场景的干净版本,并删除主体。

这个 脂肪肌肉发达 使用均匀缩放来调整变体的大小,以匹配薄参考掩模的高度,并以相同的底部对齐方式合成到干净的背景上,确保所有图像的框架一致。

作者指出:

最终得到的变换三元组(瘦、胖、肌)具有相同的背景和统一的主体尺度。这消除了可能对后续训练或评估产生负面影响的无关变量。

瘦、胖、肌肉发达的三重图像允许六种可能的转换对,从而在 45,690 个身份中产生 7,615 种理论组合。

在过滤掉衣着不协调、姿势不自然、肢体扭曲、身份认同偏差或体形变化较小的样本后,最终保留了 18,573 对高质量的样本。尽管仍存在一些细微的姿势差异,但该模型能够很好地应对这些变化。

训练和测试

生成的图像用于训练 Odo 模型 - 一种基于扩散的人体重塑方法,使用蒙皮多人线性模型(SMPL(即中级 CGI)地图。

2024 年 神经定位器 方法,数据根据个体情况与 SMPL 图相符,最终优化的参数能够产生 深度图 改变后的图像由此衍生:

训练流程示意图。左侧展示训练设置,其中目标图像中的 SMPL 深度图通过 ControlNet 引导 ReshapeNet 执行身体变换。ReferenceNet 提取源图像中的特征,并使用空间自注意力机制将其合并到 ReshapeNet 中。右侧展示推理过程,其中 SMPL 参数根据输入图像进行估计,通过语义属性进行修改,并渲染到目标深度图中,该深度图在去噪过程中对 ReshapeNet 进行调节,最终生成最终的变换图像。

训练流程示意图。左侧展示训练设置,其中目标图像中的 SMPL 深度图通过 ControlNet 引导 ReshapeNet 执行身体变换。ReferenceNet 提取源图像中的特征,并使用空间自注意力机制将其合并到 ReshapeNet 中。右侧展示推理过程,其中 SMPL 参数根据输入图像进行估计,通过语义属性进行修改,并渲染到目标深度图中,该深度图在去噪过程中用于调节 ReshapeNet,最终生成最终的变换图像。

该模型(见上图)包括 重塑网络 模块,由三个辅助模块支持:ReferenceNet; IP适配器 模块;以及 基于深度的控制网 模块。

ReferenceNet 从输入图像中提取背景、服装和身份等细节特征,并将其传递给 ReshapeNet。IP-Adapter 提供高级特征引导,而 Depth ControlNet 则应用基于 SMPL 的条件反射来引导身体变换。为了 以前 运作方式,一个 标清线基于 冻结 网络 用于提取中间特征。

对于 IP 适配器模块,它通过以下方式对输入图像进行编码 CLIP,由此得出 嵌入 通过以下方式重新集成到 ReshapeNet 交叉注意力.

至于深度控制网络模块,它使用以下方法指导 ReshapeNet 的中间层和解码器层: 剩余连接随后,它获取从目标 SMPL 参数渲染的深度图,并将其与目标图像对齐。

ReshapeNet 是基于 SDXL UNet 的,是 Odo 的核心网络。在训练过程中,目标图像被编码到潜在空间中, 变分自动编码器,随着时间的推移会产生噪声,然后使用 ControlNet 和 ReferenceNet 的特征通过 ReshapeNet 进行去噪。

添加了特定类别的文本提示,例如“使人变胖”、“使人变瘦”或“使人肌肉发达”,以指导变形。虽然深度图捕捉到了粗略的身体形状,但这些提示提供了肌肉定义等变化所需的语义细节,从而使模型能够进行更准确、更逼真的修改。

培训实施

Odo 接受了该项目合成数据集的训练,并结合了 DeepFashion-多模态 数据集,共计产生 20,000 对图像。

DeepFashion-MultiModal 数据提供了丰富的服装和面部特征,并在训练过程中将图像与自身配对。由于所有 SMPL 深度图均已预先计算以提高效率,训练运行了 60 时代 在具有 100GB VRAM 的单个 NVIDIA A80 GPU 上。

当输入图像调整为 768×1024 时, Adam 优化器被使用, 学习率 1×10⁻⁵。ReshapeNet 使用 SDXL UNet 权重初始化,并且 微调 与 IP 适配器一起从其检查点进行。

ReferenceNet 使用 SDXL 权重初始化并保持冻结,而 Depth ControlNet 使用预先训练的权重并保持冻结。

最终模型需要大约 23GB 的 GPU 内存,单幅图像推理需要 18 秒。

一种新的度量标准

由于缺乏此类项目所需的数据集,现有的指标无法真正应对这一挑战。因此,作者设计了一个全新的基准,包含 3,600 对图像,包含真实的人脸图像和背景描述,以及各种体型变化。

使用的其他指标包括结构相似性指数(SSIM卡); 峰值信噪比 (PSNR);学习感知图像块相似度(LPIPS);以及中性(T-)姿势下尺度校正的每顶点欧几里得误差(PVE-T-SC).

首先,作者针对自然图像(模型在训练期间未看到的图像)对他们的方法进行了定性测试:

定性测试。示例展示了从原始图像到不同姿势(包括坐姿和站姿)的瘦身、超重和肌肉发达体型的转变。

定性测试。示例展示了原始图像在不同姿势(包括坐姿和站姿)下,转化为较瘦、较胖和肌肉发达体型的效果。请参阅原论文以获得更清晰的定义和细节。

关于这些结果,论文指出:

“[我们]的方法可以有效地处理不同的姿势、背景和服饰,同时保留人物的身份。

“除了 SMPL 目标形状外,我们还提供文字提示 - “使人变胖”,“使人变瘦”或“使人肌肉发达” - 以明确指导所需的转变......

…“[下图]进一步展示了我们模型执行各种形状变换的能力。该模型精确地遵循 SMPL 深度图,从参考图像生成多种变薄和变胖的版本。”

进一步的定性测试涵盖了各种目标体型。

进一步的定性测试涵盖了各种目标体型。请参阅原文以获得更清晰的定义和详细信息。

作者进一步评论道:

“我们的结果表明,根据目标体重可以实现更真实的转变,因为我们的模型可以同时调整整体体形、肢体比例和服装,从而实现解剖学上一致且视觉上令人信服的修改。”

在定量测试中,作者将他们的系统与开源 Flux Kontext [dev] 模型、FLUX.1 和 2022 提供 用于人体重塑的结构感知流生成.

对于 FLUX.1 Kontext [dev],提示被设计为指示“使人变胖”,“使人变瘦”或“使人肌肉发达”,并指定目标体重——尽管缺乏细粒度的控制限制了性能:

在测试集上比较了 Odo 与用于人体重塑的结构感知流生成和 FLUX.1 Kontext [dev],以及在 ReshapeNet 中未进行快速条件调节、未使用 ReferenceNet(仅使用 IP-Adapter)训练的模型以及仅限于 BR-5K 数据集训练的模型的消融结果。该表还包含与消融研究 (BR-5K) 相关的材料,我们在此不作介绍。

在测试集上将 Odo 与用于人体重塑的结构感知流生成和 FLUX.1 Kontext [dev] 进行比较,以及在 ReshapeNet 中未进行提示调节、未使用 ReferenceNet(仅使用 IP 适配器)训练的模型以及仅限于 BR-5K 数据集的训练的模型的消融结果(本文未涉及)。

结语

今年 Flux Kontext 的问世,以及最近发布的非量化权重 Qwen 图像编辑,使配对图像数据重新成为业余爱好者和专业人士关注的焦点。在人们对生成式人工智能不精确性的批评和不满日益增多的背景下,这类模型的设计旨在对输入源图像进行更高的保真度处理(尽管小规模模型有时会因其非常具体的训练目标而受到限制)。

在这种情况下,塑身系统的实用性似乎在于心理、医学和时尚领域。尽管如此,这类系统仍有可能获得更高的关注度,或许会发展出更随意、甚至可能令人担忧的用途。

 

首次发布于 25 年 2025 月 XNUMX 日星期一

机器学习作家,人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站: 马丁南德森.ai
联系我们 [电子邮件保护]
推特:@manders_ai