Angle d'Anderson
Les avantages de grossir grâce à l'IA

Un nouveau système d'IA peut remodeler de manière réaliste le corps des personnes sur des photos, les rendant plus grosses, plus minces ou plus musclées, sans modifier leur visage, leurs vêtements ou leur arrière-plan. Le système est entraîné sur un ensemble de données entièrement synthétiques qui illustre chaque identité à travers plusieurs types de corps.
Outre l’utilisation de plus en plus courante de l’IA comme méthode de affiner sa silhouette sur les réseaux sociaux, ou (potentiellement) pour modifier les types de corps à des fins d'effets visuels, l'utilisation de l'apprentissage automatique pour modifier l'apparence des individus peut servir une fonction plus importante : aider les personnes souffrant de troubles alimentaires comprendre leur propre interprétation dysmorphique de leur apparence, tout en offrant un outil de motivation potentiel à des fins sportives et de remise en forme plus générales :

D'après l'article « Estimation de la taille corporelle chez les femmes atteintes d'anorexie mentale et les témoins sains à l'aide d'avatars 3D », une interface graphique permet de visualiser les changements de silhouette. Les personnes souffrant de dysmorphie corporelle peuvent avoir du mal à associer une interprétation réaliste de leur corps à une image similaire, ce qui permet aux cliniciens d'évaluer les réponses dysmorphiques, entre autres. Source : https://www.nature.com/articles/s41598-017-15339-z.pdf
En outre, le essayage de mode très recherché Ce sous-axe de recherche en vision par ordinateur s'intéresse également à la visualisation précise de diverses morphologies. Parallèlement, des cadres tels que 2024 DiffBody proposé par l'Université japonaise de Tsukuba, ont créé des fonctionnalités époustouflantes dans ce domaine :

Certaines des transformations possibles en utilisant la technique DiffBody précédente. Source : https://arxiv.org/pdf/2401.02804
Étant donné que les modèles de base de l'IA sont optimisés pour des formes corporelles conventionnellement attrayantes ou courantes, les tailles inhabituelles telles que « obèses » sont soit peu disponibles dans les modèles standard, soit viennent avec des préjugés punitifs.
Nécessités de la paire
L’un des plus grands défis dans la création de systèmes d’IA capables d’ajouter ou de soustraire de manière réaliste de la graisse et du muscle aux photos d’individus – sans modifier leur identité, leur environnement ou leurs vêtements – est que cela implique entraînement en binôme, où le système d'IA apprend efficacement les images « avant » et « après » qui définissent la transformation que le modèle est censé effectuer.
Ce type de formation est revenu sur le devant de la scène cet été grâce au succès de Black Forest Labs. Kontext série de modèles d'édition d'images, où ce type de données appariées a été utilisé pour enseigner une gamme de transformations aux modèles :

Depuis le site Flux Kontext, un exemple de transformation qui reflète le type de données sources nécessaires pour former un modèle capable de conserver l'intégrité de l'image lors de l'imposition de changements majeurs. Source : https://bfl.ai/models/flux-kontext
De toute évidence, dans le cas du développement d'un modèle capable de modifier de manière significative l'apparence d'une personne (sans réimaginer l'image entière), il faut quelque chose de totalement impossible dans le monde réel : des photos radicales « avant » et « après » prises à quelques secondes d'intervalle seulement.
Le seul recours est données synthétiquesCertains projets de ce type ont utilisé des paires contrastées individuelles et exigeantes créées manuellement dans Photoshop ; cependant, cela n'est pas réaliste à grande échelle, et un processus automatisé ou semi-automatisé, piloté par l'IA pour générer les paires, est désormais de plus en plus considéré comme préférable.
Le problème avec GAN-basé et la plupart SMPL/Xapproches basées sur l'image (où une figure CGI virtuelle est utilisée comme une sorte de mécanisme d'échange entre des images réelles et les transformations souhaitées), et avec des approches qui utiliser la déformation d'image, c'est que l'arrière-plan et l'identité ont tendance à en souffrir dans le processus.

Les modèles CGI paramétriques basés sur des vecteurs tels que SMPL et SMPL-X (entre autres) fournissent des coordonnées physiques 3D conventionnelles définies qui peuvent être interprétées et incorporées dans des cadres de vision par ordinateur. Source : https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf
Puisqu'il est important que l'IA apprenne à modifier uniquement les aspects souhaités, au lieu d'apprendre à déformer les arrière-plans et à reproduire d'autres erreurs indésirables, aucun système de modification du corps n'est encore parvenu à une solution parfaite.
Un article récent en provenance d'Inde propose cependant une avancée notable par rapport à l'état de l'art grâce à l'utilisation de l'ancien Flux cadre de modèle de diffusion, complété par un certain nombre d'approches secondaires qui permettent un ensemble de données appariées supérieur et plus cohérent :

Exemples de jeux de données du nouveau projet. Source : https://arxiv.org/pdf/2508.13065
Le projet comprend un nouvel ensemble de données appariées étendu ; Odo, un modèle de diffusion générative formé à partir de ces données ; et un nouveau benchmark sur mesure conçu pour évaluer quantitativement les performances d'édition de formes humaines. Lors des tests, les auteurs affirment une avancée notable par rapport aux normes obtenues par des modèles comparables.
Les nouveau papier est intitulé Odo : Diffusion guidée en profondeur pour un remodelage corporel préservant l'identité, et provient de trois chercheurs de Fast Code AI Pvt. Ltd à Bangalore.
Données et méthode
L'ensemble de données créé par les chercheurs comprend 7,615 960 images haute résolution (1280 x XNUMX XNUMX px) pour chaque type de corps cible (le gras, mince musclé).
Initialement, 1,523 XNUMX visages humains ont été générés grâce au FLUX.1-dev Modèle de diffusion de 12 milliards de paramètres, bien qu'exploitant un nombre indéterminé de visages de référence sans licence provenant de Pexels et Unsplash, pour augmenter la diversité.
Pour générer des images du corps entier intégrant ces visages, les chercheurs ont utilisé l'offre 2024 de ByteDance PuLID, un point de contrôle optimisé par rapport à la base Flux, et doté d'un perte d'identification contrastive conçu pour aider à préserver l'identité faciale pendant les processus de transformation :

Exemples du projet PuLID. Source : https://arxiv.org/pdf/2404.16022
Le modèle a reçu une image faciale et une invite standardisée demandant le sexe, vêtements, poser, scène, ainsi que le type de corps de mince, le gras, ou musclé.
Les trois images de type corporel pour chaque identité présentaient parfois des changements mineurs dans l'alignement de l'arrière-plan et la taille perçue du sujet, résultant de la stochastique comportement des modèles de diffusion, où chaque génération commence à partir d'un nouveau bruit seed. Même de légères modifications apportées à l'invite, comme la modification de la description du type de corps, peuvent influencer la trajectoire du modèle. espace latent, et provoquer une dérive visuelle.
Pour corriger cette variation, un pipeline de post-traitement automatique en quatre étapes a été appliqué, avec le mince image dans chaque triplet sélectionné comme référence, puisque sa silhouette plus petite exposait davantage d'arrière-plan.
La détection des personnes a été réalisée à l'aide de RT-DETRv2, suivi d'une segmentation avec SAM 2.1 pour extraire des masques de sujets pour les trois types de corps. mince L'image de référence a ensuite été transmise à FLUX.1 Kontext Pro (le système d'édition d'images le plus récent) pour la peinture d'arrière-plan, produisant une version propre de la scène, avec le sujet supprimé.
Les le gras ou musclé les variantes ont été redimensionnées à l'aide d'une mise à l'échelle uniforme pour correspondre à la hauteur du masque de référence fin, et composées sur l'arrière-plan propre avec le même alignement inférieur, garantissant un cadrage cohérent sur toutes les images.
Les auteurs déclarent:
Les triplets de transformation résultants (mince, gras et musculaire) présentent un contexte identique et une échelle de sujets uniforme. Cela élimine les variations non pertinentes qui pourraient nuire à l'entraînement ou à l'évaluation ultérieurs.
Chaque triplet d'images minces, grasses et musclées permettait six paires de transformations possibles, ce qui donnait lieu à 45,690 7,615 combinaisons théoriques sur XNUMX XNUMX identités.
Après avoir filtré les exemples présentant des vêtements dépareillés, des poses non naturelles, des membres déformés, une dérive identitaire ou un changement de forme minime, 18,573 XNUMX paires de haute qualité ont été retenues. Malgré quelques différences mineures de pose, le modèle s'est avéré robuste face à ces variations.
Formation et tests
Les images résultantes ont été utilisées pour former le modèle Odo – une approche basée sur la diffusion pour remodeler les humains, avec l'utilisation du modèle linéaire multi-personnes skinned (SMPL, c'est-à-dire des cartes CGI intermédiaires).
Informé par le 2024 Localisateurs neuronaux méthodes, les données ont été conformes à la figure SMPL sur une base individuelle, avec les paramètres optimisés résultants capables de produire cartes de profondeur à partir de laquelle les images modifiées seraient dérivées :

Schéma du pipeline d'apprentissage. La partie gauche présente la configuration d'apprentissage, où les cartes de profondeur SMPL de l'image cible guident ReshapeNet via ControlNet pour la transformation du corps. Les caractéristiques de l'image source sont extraites par ReferenceNet et fusionnées dans ReshapeNet grâce à l'auto-attention spatiale. La partie droite présente l'inférence, où les paramètres SMPL sont estimés à partir de l'image d'entrée, modifiés par des attributs sémantiques et restitués dans une carte de profondeur cible qui conditionne ReshapeNet lors du débruitage, pour produire l'image transformée finale.
Le modèle (voir schéma ci-dessus) comprend les ReshapeNet module, soutenu par trois modules auxiliaires : ReferenceNet ; un Adaptateur IP module; et un ControlNet basé sur la profondeur module.
Le réseau de référence extrait des caractéristiques détaillées de l'image d'entrée, telles que l'arrière-plan, les vêtements et l'identité, et les transmet à ReshapeNet. L'adaptateur IP fournit des indications de haut niveau sur les caractéristiques, tandis que le réseau de contrôle de profondeur applique un conditionnement basé sur SMPL pour guider la transformation corporelle. Conformément à précédent fonctionne-t-il ?, un SDXL-Base gelé UNet a été utilisé pour extraire des caractéristiques intermédiaires.
Quant au module IP-Adapter, il encode l'image d'entrée via CLIP, avec le résultat plongements réintégré dans ReshapeNet via attention croisée.
Quant au module Depth ControlNet, il guide les couches intermédiaires et décodeurs de ReshapeNet à l'aide connexions résiduelles. Par la suite, il prend une carte de profondeur rendue à partir des paramètres SMPL cibles et l'aligne avec l'image cible.
ReshapeNet, basé sur le réseau SDXL UNet, est le réseau central d'Odo. Lors de l'apprentissage, les images cibles sont codées dans l'espace latent avec un auto-encodeur variationnel, bruité au fil du temps, puis débruité par ReshapeNet à l'aide des fonctionnalités de ControlNet et ReferenceNet.
Des invites textuelles spécifiques à chaque catégorie, telles que « Rendre la personne plus grosse », « Rendre la personne plus mince » ou « Rendre la personne plus musclée », ont été ajoutées pour guider les transformations. Si les cartes de profondeur capturaient les formes corporelles brutes, les invites fournissaient les détails sémantiques nécessaires aux modifications telles que la définition musculaire, permettant au modèle de produire des modifications plus précises et plus réalistes.
Mise en œuvre de la formation
Odo a été formé sur l'ensemble de données synthétiques du projet, combiné à un sous-ensemble de DeepFashion-MultiModal ensemble de données, produisant un total de 20,000 XNUMX paires d'images.
Les données DeepFashion-MultiModal ont fourni une variété de vêtements et de traits du visage, les images étant comparées entre elles lors de l'entraînement. Toutes les cartes de profondeur SMPL étant précalculées pour plus d'efficacité, l'entraînement a duré 60 minutes. époques sur un seul GPU NVIDIA A100 avec 80 Go de VRAM.
Avec les images d'entrée redimensionnées à 768 × 1024, le Adam l'optimiseur a été utilisé, à un taux d'apprentissage de 1×10⁻⁵. ReshapeNet a été initialisé avec les pondérations SDXL UNet, et affiné conjointement avec l'adaptateur IP à partir de son point de contrôle.
ReferenceNet a été initialisé avec des poids SDXL et maintenu gelé, tandis que Depth ControlNet a utilisé des poids pré-entraînés et est également resté gelé.
Le modèle final nécessitait environ 23 Go de mémoire GPU, nécessitant 18 secondes pour l'inférence d'une seule image.
Une nouvelle métrique
L'absence de données nécessaires à ce type de projet empêchait les indicateurs existants de véritablement relever le défi. Les auteurs ont donc conçu un nouveau benchmark, composé de 3,600 XNUMX paires d'images, présentant des visages réels et des descriptions d'arrière-plan, ainsi que diverses variations de morphologie.
D'autres mesures utilisées étaient l'indice de similarité structurelle (SSIM); Rapport signal/bruit maximal (PSNR) ; Similarité des patchs d'images perceptives apprises (LIPS); et erreur euclidienne par sommet corrigée d'échelle dans la pose neutre (T-) (PVE-T-SC).
Dans un premier temps, les auteurs ont testé leur méthode qualitativement sur des images naturelles (images non vues par le modèle pendant l’entraînement) :

Tests qualitatifs. Les exemples illustrent les conversions de l'image originale vers des types de corps plus minces, en surpoids et musclés, selon différentes postures, y compris assises et debout. Veuillez vous référer à l'article source pour plus de détails.
Parmi ces résultats, l'article indique :
« [Notre] méthode gère efficacement diverses poses, arrière-plans et vêtements tout en préservant l'identité de la personne.
« En plus des formes cibles SMPL, nous fournissons des invites textuelles – « Rendre la personne plus grosse », « Rendre la personne plus mince » ou « Rendre la personne musclée » – pour guider explicitement les transformations souhaitées…
… « [L'image ci-dessous] démontre une fois de plus la capacité de notre modèle à réaliser diverses transformations de forme. Le modèle suit avec précision les cartes de profondeur SMPL pour générer de multiples variations de versions plus fines et plus épaisses à partir de l'image de référence. »

Autres tests qualitatifs couvrant la gamme des morphologies cibles. Veuillez vous référer à l'article source pour plus de définitions et de détails.
Les auteurs commentent également :
« Nos résultats démontrent des transformations plus réalistes en fonction du poids cible, car notre modèle ajuste simultanément la forme générale du corps, les proportions des membres et les vêtements, ce qui donne lieu à des modifications anatomiquement cohérentes et visuellement convaincantes. »
Pour les tests quantitatifs, les auteurs ont comparé leur système au modèle open source Flux Kontext [dev], FLUX.1 et au modèle 2022 offrant Génération de flux sensible à la structure pour le remodelage du corps humain.
Pour FLUX.1 Kontext [dev], les invites ont été conçues pour indiquer « Rendre la personne plus grosse », « Rendre la personne plus mince » ou « Rendre la personne musclée », avec des poids cibles spécifiés – bien que le manque de contrôles précis ait limité les performances :
![Comparaison d'Odo avec la génération de flux sensible à la structure pour le remodelage du corps humain et de FLUX.1 Kontext [dev] sur l'ensemble de test, ainsi que les résultats d'ablation pour les modèles entraînés sans conditionnement rapide dans ReshapeNet, sans ReferenceNet (en utilisant uniquement IP-Adapter) et avec un entraînement limité à l'ensemble de données BR-5K. Le tableau inclut également des informations relatives aux études d'ablation (BR-5K), que nous n'abordons pas ici.](https://www.unite.ai/wp-content/uploads/2025/08/table-2-1.jpg)
Comparaison d'Odo avec la génération de flux sensible à la structure pour le remodelage du corps humain et FLUX.1 Kontext [dev] sur l'ensemble de test, ainsi que les résultats d'ablation (non couverts dans cet article) pour les modèles entraînés sans conditionnement rapide dans ReshapeNet, sans ReferenceNet (en utilisant uniquement IP-Adapter) et avec une formation limitée à l'ensemble de données BR-5K.
Conclusion
L'avènement de Flux Kontext cette année, et plus récemment encore la sortie des poids non quantifiés pour Édition d'image Qwen, ont remis les données d'images appariées au premier plan des communautés d'amateurs et de professionnels. Dans un contexte de critiques et d'impatience croissantes face à l'imprécision de l'IA générative, les modèles de ce type sont conçus pour une fidélité bien supérieure aux images sources d'entrée (bien que les modèles à plus petite échelle soient parfois limités par leurs objectifs d'entraînement très spécifiques).
Dans ce cas, l'utilité d'un système de remodelage corporel semble résider dans les domaines psychologique, médical et de la mode. Néanmoins, il est possible que des systèmes de ce type atteignent un niveau de popularité plus élevé et, peut-être, des utilisations plus informelles, voire potentiellement plus préoccupantes.
Première publication le lundi 25 août 2025