Intelligence artificielle
Réaménagement des types de corps humains avec l’IA

Une nouvelle collaboration de recherche en Chine offre une méthode novatrice de réaménagement du corps humain dans les images, en utilisant un réseau de codage neuronal jumeau coordonné, guidé par un modèle paramétrique, qui permet à un utilisateur final de moduler le poids, la taille et la proportion du corps dans une interface graphique interactive.

Modulation paramétrique de la forme du corps, avec des curseurs modifiant les trois fonctionnalités disponibles. Source : https://arxiv.org/pdf/2203.10496.pdf
Le travail offre plusieurs améliorations par rapport à un projet similaire récent d’Alibaba, car il peut modifier de manière convaincante la taille et la proportion du corps, ainsi que le poids, et dispose d’un réseau neuronal dédié pour « retoucher » le fond (non existant) qui peut être révélé par des images de corps « plus minces ». Il améliore également une méthode paramétrique antérieure pour le réaménagement du corps en supprimant la nécessité d’une intervention humaine extensive lors de la formulation de la transformation.
Intitulé NeuralReshaper, la nouvelle architecture ajuste un modèle paramétrique 3D humain à une image source, puis utilise les distorsions du modèle pour adapter l’image originale aux nouveaux paramètres.
Le système est capable de gérer les transformations de corps sur des figures vêtues ainsi que des figures semi-vêtues (c’est-à-dire des maillots de bain).
Des transformations de ce type sont actuellement l’objet d’un intérêt intense pour le secteur de la recherche fashion AI, qui a produit un certain nombre de plateformes de réseaux neuronaux basées sur StyleGAN/CycleGAN et générales pour les essais virtuels qui peuvent adapter les articles de vêtement disponibles à la forme et au type de corps d’une image soumise par l’utilisateur, ou aider à la conformité visuelle.
Le document est intitulé Reconfiguration du corps humain en une seule image avec des réseaux neuronaux profonds, et provient de chercheurs de l’Université de Zhejiang à Hangzhou et de l’École des médias créatifs de la City University de Hong Kong.
Ajustement SMPL
NeuralReshaper utilise le modèle linéaire multi-personnes à peau (SMPL) développé par l’Institut Max Planck pour les systèmes intelligents et la société de VFX réputée Industrial Light and Magic en 2015.

Humains paramétriques SMPL de la collaboration Planck/ILM de 2015. Source : https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf
Dans la première étape du processus, un modèle SMPL est généré à partir d’une image source à laquelle des transformations de corps sont souhaitées. L’adaptation du modèle SMPL à l’image suit la méthodologie de la méthode de récupération de la mesh humaine (HMR) proposée par des universités en Allemagne et aux États-Unis en 2018.
Les trois paramètres de déformation (poids, taille, proportion du corps) sont calculés à ce stade, ainsi que les paramètres de la caméra, tels que la longueur focale. Les points clés 2D et l’alignement du contour généré fournissent l’enclosure pour la déformation sous la forme d’un contour 2D, une mesure d’optimisation supplémentaire qui augmente la précision des limites et permet un retouchage de fond authentique plus loin dans le pipeline.

Étapes d’ajustement SMPL : à gauche, l’image source ; deuxième, le résultat d’optimisation obtenu à partir de la méthode décrite dans la recherche de 2016 ; troisième, un résultat d’inférence directe du modèle pré-entraîné pour la récupération de la forme et de la pose humaine ; quatrième, les résultats obtenus après optimisation des points clés 2D ; et enfin, cinquième, l’ajustement terminé après optimisation du contour (voir ci-dessus).
La déformation 3D est ensuite projetée dans l’espace d’image de l’architecture pour faciliter un champ de déformation dense qui définira la déformation. Ce processus prend environ 30 secondes par image.
Architecture NeuralReshaper
NeuralReshaper exécute deux réseaux neuronaux en tandem : un encodeur de premier plan qui génère la forme du corps transformée, et un encodeur de fond qui se concentre sur le remplissage des régions de fond « dé-occlusives » (dans le cas, par exemple, d’un amincissement d’un corps – voir image ci-dessous).
Le cadre de style U-net intègre la sortie des deux encodeurs de fonctionnalités avant de passer le résultat à un encodeur unifié qui produit finalement une nouvelle image à partir des deux entrées. L’architecture comporte un mécanisme de guidage de déformation novateur pour permettre l’intégration.
Entraînement et expériences
NeuralReshaper est implémenté en PyTorch sur une seule carte graphique NVIDIA 1080ti avec 11 Go de VRAM. Le réseau a été entraîné pendant 100 époques sous l’optimiseur Adam, avec le générateur réglé sur une perte cible de 0,0001 et le discriminateur sur une perte cible de 0,0004. L’entraînement a eu lieu sur un lot de 8 pour un ensemble de données propriétaires en plein air (tiré de COCO, MPII et LSP), et 2 pour l’entraînement sur l’ensemble de données DeepFashion.
Ci-dessous se trouvent des exemples exclusivement issus de l’ensemble de données DeepFashion, tels qu’entraînés pour NeuralReshaper, avec les images originales toujours à gauche.
Les trois attributs contrôlables sont désentrelacés et peuvent être appliqués séparément.
Les transformations sur l’ensemble de données en plein air sont plus difficiles, car elles nécessitent souvent un remplissage de fonds complexes et une délimitation claire et convaincante des types de corps transformés :
Nécessité paramétrique
Comme le note le document, les transformations d’images identiques de ce type représentent un problème mal posé dans la synthèse d’images. De nombreux cadres de GAN et d’encodeurs transformateurs peuvent utiliser des images appariées (tels que les divers projets conçus pour effectuer des transformations esquisse>photo et photo>esquisse).
Cependant, dans le cas présent, cela nécessiterait des images appariées présentant les mêmes personnes dans différentes configurations physiques, telles que les images « avant et après » dans les publicités pour régimes ou la chirurgie plastique – des données difficiles à obtenir ou à générer.
Alternativement, les réseaux de GAN transformateurs peuvent s’entraîner sur des données beaucoup plus diverses et effectuer des transformations en recherchant la direction latente entre l’image source (code latent d’origine) et la classe souhaitée (dans ce cas « gras », « mince », « grand », etc.). Cependant, cette approche est actuellement trop limitée pour les fins de réaménagement du corps affiné.
Les approches de champs de rayonnement neuronal (NeRF) sont beaucoup plus avancées dans la simulation de corps entiers que la plupart des systèmes basés sur GAN, mais restent spécifiques à la scène et gourmands en ressources, avec actuellement une capacité très limitée à éditer les types de corps de manière granulaire (à l’exception de la mise à l’échelle de l’ensemble du corps par rapport à son environnement).
L’espace latent du GAN est difficile à gouverner ; les VAE seuls ne répondent pas encore aux complexités de la reproduction du corps entier ; et la capacité de NeRF à remodeler de manière cohérente et réaliste les corps humains est encore naissante. Par conséquent, l’intégration de méthodologies « traditionnelles » de CGI telles que SMPL semble destinée à continuer dans le secteur de la recherche de synthèse d’images humaines, en tant que méthode pour encadrer et consolider les fonctionnalités, les classes et les codes latents dont les paramètres et l’exploitabilité ne sont pas encore fully compris dans ces technologies émergentes.
Publié pour la première fois le 31 mars 2022.




















