Anderson 视角

通过人工智能获得脂肪的优势

发布于 2025年8月25日

更新于 2026年5月18日

作者

Martin Anderson

Images of synthetically altered data, from the paper 'Odo: Depth-Guided Diffusion for Identity-Preserving Body Reshaping at https://arxiv.org/abs/2508.13065

一种新的人工智能系统可以在照片中将人们的身体重塑为更胖、更瘦或更肌肉发达的样子，而不会改变他们的脸、衣服或背景。该系统是在一个完全合成的数据集上训练的，该数据集显示了每个身份在多个身体类型中的样子。

除了人工智能在社交网络上改善身体形状的日益常见的使用，或者（可能）用于特效目的改变身体类型，使用机器学习来改变个人的外观可以服务于一个更重要的功能：帮助患有进食障碍的人们理解他们自己对外貌的扭曲解读，以及为一般体育和健身目的提供一个潜在的激励工具：

来自论文“使用3D虚拟人物的女性贪食症和健康控制组的身体大小估计”的GUI，以可视化身体形状的变化。患有身体畸形恐惧症的人可能难以将他们的身体的现实解读与类似的图像联系起来，因此为临床医生提供了一种衡量畸形反应的指标，等等。来源：https://www.nature.com/articles/s41598-017-15339-z.pdf

此外，计算机视觉研究中被广泛追求的时尚试穿子领域也对在各种身体形状上提供准确的可视化感兴趣。同时，像日本筑波大学2024年的DiffBody框架等框架已经在这一领域创造了一些令人惊叹的功能：

使用DiffBody技术可以实现的一些转换。来源：https://arxiv.org/pdf/2401.02804

由于人工智能基础模型是针对传统的、有吸引力的或其他常见的身体类型进行优化的，因此不寻常的尺寸，如“肥胖”，要么在标准模型中几乎不存在，要么带有偏见：

配对必要性

创建可以在不改变身份、环境或衣服的情况下将脂肪和肌肉添加到或从图片中的个体身上的人工智能系统的最大挑战之一是，这涉及“配对训练”，其中人工智能系统有效地学习“前”和“后”图像，这些图像定义了模型要执行的转换：

这种训练由于Black Forest Labs的Kontext系列图像编辑模型的成功而重新引起人们的关注，这些模型使用了这种配对数据来教导模型执行一系列转换：

来自Flux Kontext网站的转换示例，反映了训练能够保留图像完整性的模型所需的源数据类型。来源：https://bfl.ai/models/flux-kontext

显然，在开发可以显著改变人外貌（而不重新想象整个图像）的模型时，需要在现实世界中完全不可能实现的东西：在几秒钟内拍摄的激进的“前”和“后”照片。

唯一的解决方案是合成数据。一些此类项目使用手动在Photoshop中创建的个别、高强度的对比性配对；然而，这在大规模上是不现实的，人们越来越认为自动或半自动、由人工智能驱动的配对生成过程是更好的选择。

使用基于GAN的方法和大多数基于SMPL/X的方法（其中使用虚拟的CGI人物作为现实图像和所需转换之间的交换机制）以及使用图像变形的方法存在的问题是，背景和身份往往会受到影响。

诸如SMPL和SMPL-X等参数化、基于矢量的CGI模型提供了定义明确的传统物理3D坐标，可以被解释并纳入计算机视觉框架。来源：https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

由于需要人工智能仅更改所需的方面，而不是学习扭曲背景和复制其他不需要的错误，因此尚未有任何身体改变系统能够达到完美的解决方案。

然而，印度最近的一篇论文提出了一个值得注意的进展，通过使用较旧的Flux扩散模型框架，并增加了几种次要方法，以实现更好的和更一致的配对数据集：

来自新项目的数据集示例。来源：https://arxiv.org/pdf/2508.13065

该项目包括一个新的、广泛的配对数据集；Odo，一种在此数据上训练的生成扩散模型；以及一个专门设计的新基准，以量化地评估人体形状编辑性能。在测试中，作者声称他们的方法比类似的可比模型取得了显著的进步。

该论文题为《Odo：用于身份保留体重重塑的深度引导扩散》，由印度班加罗尔Fast Code AI Pvt. Ltd的三位研究人员撰写。

数据和方法

研究人员创建的数据集包含7,615张高分辨率图像（960x1280px），每种目标身体类型（胖、瘦和肌肉发达）都有相应的图像。

最初，使用FLUX.1-dev 12亿参数扩散模型生成了1,523个人类面部，利用Pexels和Unsplash的未指定数量的免版税参考面部来增加多样性。

为了生成包含这些面部的全身图像，研究人员使用了ByteDance 2024年的PuLID，一个在基础Flux上微调的检查点，采用了对比性ID损失，旨在在转换过程中保留面部身份：

来自PuLID项目的示例。来源：https://arxiv.org/pdf/2404.16022

该模型接受面部图像和标准化提示，询问性别、服装、姿势、场景以及身体类型（瘦、胖或肌肉发达）：

三种身体类型的图像有时会出现背景对齐和感知到的主体大小的轻微偏移，这是由于扩散模型的随机行为，每次生成都会从新的噪声种子开始。即使是对提示的轻微修改，例如修改身体类型的描述，也会影响模型在潜在空间中的轨迹，并导致视觉漂移。

为了纠正这种变化，应用了一个四阶段的自动后处理管道，其中每个三元组中的“瘦”图像被选为参考，因为其较小的剪影暴露了更多的背景。

使用RT-DETRv2进行人体检测，使用SAM 2.1进行分割，以提取所有三个身体类型的主体遮罩。然后将“瘦”参考图像传递给FLUX.1 Kontext Pro（新的图像编辑系统）进行背景插值，生成一个干净的场景版本，主体已被移除。

“胖”和“肌肉”变体使用统一缩放来匹配“瘦”参考遮罩的高度，并在相同的底部对齐上合成到干净的背景中，确保所有图像的构图一致。

作者表示：

‘转换三元组（瘦、胖和肌肉）具有相同的背景和统一的主体比例。这消除了可能对后续训练或评估产生负面影响的不相关变化。’

每个三元组（瘦、胖和肌肉）图像允许六种可能的转换对，总共有45,690种理论组合，涵盖7,615个身份。

在过滤掉具有不匹配的服装、不自然的姿势、畸形的四肢、身份漂移或最小的形状变化的示例后，保留了18,573个高质量的配对。虽然仍然存在一些轻微的姿势差异，但模型对这些变化仍然保持了鲁棒性。

训练和测试

使用这些图像训练了Odo模型，这是一种基于扩散的方法，用于重塑人类，使用了带有皮肤的多人线性模型（SMPL，即中间的CGI）图。

在2024年神经定位器方法的基础上，数据被转换为每个个体的SMPL图，以产生可以从中派生的改变图像的深度图：

训练管道的模式。左侧显示了训练设置，其中SMPL深度图从目标图像引导ReshapeNet通过ControlNet执行身体转换。ReferenceNet从源图像中提取特征，并使用空间自注意力机制合并到ReshapeNet中。右侧显示了推理，其中从输入图像中估计SMPL参数，通过语义属性进行修改，并渲染为条件ReshapeNet在去噪过程中生成最终转换图像的目标深度图。

该模型（见上图）包括ReshapeNet模块，支持三个辅助模块：ReferenceNet；一个IP-Adapter模块；以及一个基于深度的ControlNet模块。

ReferenceNet从输入图像中提取详细的特征，如背景、服装和身份，并将它们传递给ReshapeNet。IP-Adapter提供高级特征指导，而Depth ControlNet应用SMPL-based条件来引导身体转换。与以前的工作一致，使用了SDXL-based的冻结UNet来提取中间特征。

IP-Adapter模块通过CLIP对输入图像进行编码，生成的嵌入通过交叉注意力机制集成回ReshapeNet。

Depth ControlNet模块使用残差连接来引导ReshapeNet的中间和解码器层，然后它接受从目标SMPL参数渲染的深度图，并将其与目标图像对齐。

ReshapeNet是Odo的核心网络，基于SDXL UNet。在训练期间，目标图像被编码到潜在空间中，随着时间的推移被噪声化，然后由ReshapeNet使用ControlNet和ReferenceNet的特征去噪。

类别特定的文本提示，如“让这个人变胖”，“让这个人变瘦”，或“让这个人变肌肉发达”，被添加以指导转换。虽然深度图捕捉了粗糙的身体形状，但提示提供了必要的语义细节，例如肌肉定义的变化，允许模型生成更准确、更真实的修改。

训练实现

Odo是在项目的合成数据集上训练的，结合了DeepFashion-MultiModal数据集的一个子集，总共有20,000对图像。

DeepFashion-MultiModal数据提供了服装和面部特征的多样性，图像与自身配对进行训练。所有SMPL深度图都预先计算以提高效率，训练在单个NVIDIA A100 GPU上运行了60个epoch，具有80GB的VRAM。

输入图像被调整到768×1024的大小，使用Adam优化器，学习率为1×10⁻⁵。ReshapeNet使用SDXL UNet权重初始化，并与IP-Adapter从其检查点一起微调。

ReferenceNet使用SDXL权重初始化并保持冻结状态，而Depth ControlNet使用预训练权重并保持冻结状态。

最终模型需要大约23GB的GPU内存，单图像推理需要18秒。

一种新型的度量标准

由于缺乏此类项目所需的数据集，因此没有现有的度量标准真正解决了这个挑战。因此，作者设计了一个新型的基准，包括3,600对图像，具有真实的面部图像和背景描述，以及多样化的身体形状变化。

其他使用的度量标准包括结构相似性指数（SSIM）；峰值信噪比（PSNR）；学习到的感知图像补丁相似性（LPIPS）；以及在中性（T-）姿势中按顶点欧几里得误差进行纠正的尺度（PVE-T-SC）。

首先，作者使用野外图像（模型在训练期间未见过的图像）对其方法进行了定性测试：

定性测试。示例显示了从原始图像到更瘦、超重和肌肉发达的身体类型的转换，包括坐着和站着的不同姿势。请参阅源论文以获取更好的定义和细节。

关于这些结果，论文指出：

‘我们的方法有效地处理了多种姿势、背景和服装，同时保留了人物的身份。 ‘

‘除了SMPL目标形状外，我们还提供了文本提示——“让这个人变胖”，“让这个人变瘦”，或“让这个人变肌肉发达”——来明确指导所需的转换…’

‘…[下面的图像]进一步展示了我们的模型能够执行多种形状转换的能力。该模型准确地遵循SMPL深度图来生成原始图像的多个变体。’

涵盖目标身体类型范围的进一步定性测试。请参阅源论文以获取更好的定义和细节。

作者进一步评论说：

‘我们的结果演示了更真实的转换，根据目标体重，同时调整整体身体形状、肢体比例和服装，导致解剖学上一致且视觉上令人信服的修改。’

对于量化测试，作者将他们的系统与开源的Flux Kontext [dev]模型、FLUX.1以及2022年的《结构感知流生成用于人体重塑》进行了比较：

对于FLUX.1 Kontext [dev]，提示被设计为指示“让这个人变胖”，“让这个人变瘦”，或“让这个人变肌肉发达”，目标体重被指定；然而，缺乏细粒度的控制限制了性能：

在测试集上比较Odo、结构感知流生成用于人体重塑和FLUX.1 Kontext [dev]，以及模型在没有ReshapeNet中的提示条件、没有ReferenceNet（仅使用IP-Adapter）以及仅在BR-5K数据集上训练的消融研究结果。该表还包括与此处未涉及的消融研究相关的材料。

结论

今年Flux Kontext的出现，以及最近Qwen Image Edit的未量化权重的发布，将配对图像数据带回了业余爱好者和专业人士的社区。考虑到人们对生成人工智能的不精确性日益增长的批评和不耐烦，这些模型的设计目的是具有更高的对输入源图像的保真度（尽管小规模模型有时会因其特定的训练目标而受到限制）。

在这种情况下，身体塑形系统的实用性似乎在于心理、医疗和时尚领域。然而，仍然有可能这种系统将达到更高的知名度，并可能具有更随意的甚至可能令人担忧的一套用途。

首次发布于2025年8月25日星期一