Intelligence Artificielle

Remodeler les types de corps humains avec l'IA

Publié 31 mars 2022

Le kit de préparation mis à jour 9 décembre 2022

Martin Anderson

Une nouvelle collaboration de recherche en provenance de Chine propose une nouvelle méthode de remodelage du corps humain en images, grâce à l'utilisation d'un réseau d'encodeurs neuronaux jumeaux coordonnés, guidé par un modèle paramétrique, qui permet à un utilisateur final de moduler le poids, la taille et la proportion corporelle dans une interface graphique interactive.

Modulation paramétrée de la forme du corps, avec des curseurs modifiant les trois fonctionnalités disponibles. Source : https://arxiv.org/pdf/2203.10496.pdf

L'ouvrage offre plusieurs améliorations sur une projet similaire récent d'Alibaba, car il permet de modifier de manière convaincante la taille, les proportions corporelles ainsi que le poids, et dispose d'un réseau neuronal dédié pour « retoucher » l'arrière-plan (inexistant) révélé par des images de corps « plus minces ». Il améliore également un aspect notable. méthode paramétrique antérieure pour le remodelage du corps en supprimant le besoin d'une intervention humaine importante lors de la formulation de la transformation.

Titré NeuralReshaper, la nouvelle architecture adapte un modèle humain 3D paramétrique à une image source, puis utilise des distorsions dans le modèle pour adapter l'image d'origine aux nouveaux paramètres.

Le système est capable de gérer les transformations corporelles sur des personnages habillés et semi-habillés (c'est-à-dire des vêtements de plage).

Les transformations de ce type suscitent actuellement un vif intérêt pour les mode IA secteur de la recherche, qui a produit un certain nombre de plates-formes de réseaux de neurones basées sur StyleGAN / CycleGAN et générales pour essais virtuels qui peut adapter les vêtements disponibles à la forme du corps et au type d'une image soumise par l'utilisateur, ou autrement aider à la conformité visuelle.

papier est intitulé Remodelage du corps humain à image unique avec des réseaux de neurones profonds, et vient de chercheurs de l'Université du Zhejiang à Hangzhou et de la School of Creative Media de la City University of Hong Kong.

Raccord SMPL

NeuralReshaper utilise le modèle linéaire multi-personnes skinné (SMPL) en réponse par le Max Planck Institute for Intelligent Systems et la célèbre maison VFX Industrial Light and Magic en 2015.

SMPL Humains paramétriques de la collaboration Planck/ILM 2015. Source : https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

Dans la première étape du processus, un modèle SMPL est généré à partir d'une image source sur laquelle on souhaite effectuer des transformations corporelles. L'adaptation du modèle SMPL à l'image suit la méthodologie de la méthode Human Mesh Recovery (HMR) proposée par des universités allemandes et américaines en 2018.

Les trois paramètres de déformation (poids, taille, proportion corporelle) sont calculés à ce stade, ainsi qu'une prise en compte des paramètres de la caméra, tels que la distance focale. Les points clés 2D et l'alignement de silhouette généré fournissent l'enceinte pour la déformation sous la forme d'une silhouette 2D, une mesure d'optimisation supplémentaire qui augmente la précision des limites et permet une peinture d'arrière-plan authentique plus loin dans le pipeline.

Étapes d'ajustement SMPL : à gauche, l'image source ; deuxième à partir de la gauche, le résultat d'optimisation obtenu à partir de la méthode décrite dans la recherche de 2016 menée par l'Institut Max Planck pour les systèmes intelligents ; troisième à partir de la gauche, un résultat d'inférence directe du modèle pré-formé pour la récupération de bout en bout de la forme et de la pose humaines ; deuxième à droite, les résultats obtenus après optimisation des points clés 2D ; et enfin, à droite, l'ajustement terminé après optimisation de la silhouette (voir ci-dessus).

Étapes d'ajustement SMPL : à gauche, l'image source ; deuxièmement, le résultat d'optimisation obtenu à partir de la méthode décrite en 2016 Une étude dirigé par l'Institut Max Planck pour les systèmes intelligents ; troisièmement, un résultat d'inférence directe du modèle pré-formé pour Récupération de bout en bout de la forme et de la pose humaines; quatrièmement, les résultats obtenus après optimisation des points clés 2D ; et enfin, cinquièmement, l'ajustement terminé après l'optimisation de la silhouette (voir ci-dessus).

La déformation 3D est ensuite projetée dans l'espace image de l'architecture afin de créer un champ de déformation dense qui définira la déformation. Ce processus prend environ 30 secondes par image.

Architecture NeuralReshaper

NeuralReshaper exécute deux réseaux neuronaux en tandem : un encodeur de premier plan qui génère la forme du corps transformée et un encodeur d'arrière-plan qui se concentre sur le remplissage des régions d'arrière-plan « désoccluses » (dans le cas, par exemple, de l'amincissement d'un corps - voir l'image ci-dessous).

L'infrastructure de type U-net intègre les sorties des fonctionnalités des deux encodeurs avant de transmettre le résultat à un encodeur unifié qui produit une nouvelle image à partir des deux entrées. L'architecture intègre un mécanisme innovant de guidage par déformation pour permettre l'intégration.

Formation et expériences

NeuralReshaper est implémenté dans PyTorch sur un seul GPU NVIDIA 1080ti avec 11 Go de VRAM. Le réseau a été entraîné pendant 100 époques sous l'optimiseur Adam, le générateur étant réglé sur une perte cible de 0.0001 et le discriminateur sur une perte cible de 0.0004. La formation s'est déroulée sur une taille de lot de 8 pour un jeu de données extérieur propriétaire (tiré de COCOS DE PÂQUES, MPII, et LSP), et 2 pour la formation sur le Mode profonde jeu de données.

A gauche, les images originales, à droite, la sortie reproportionnée de NeuralReshaper.

Vous trouverez ci-dessous quelques exemples provenant exclusivement de l'ensemble de données DeepFashion tel que formé pour NeuralReshaper, avec les images originales toujours à gauche.

Les trois attributs contrôlables sont démêlés et peuvent être appliqués séparément.

Les transformations sur l'ensemble de données extérieur dérivé sont plus difficiles, car elles nécessitent souvent le remplissage d'arrière-plans complexes et une délimitation claire et convaincante des types de corps transformés :

Nécessité paramétrique

Comme l'observe l'article, les transformations d'une même image de ce type représentent un problème mal posé dans la synthèse d'images. De nombreux frameworks GAN et encodeurs transformateurs peuvent utiliser des images jumelées (comme les divers projets conçus pour effectuer croquis>photo et photos>croquis transformations).

Cependant, dans le cas présent, cela nécessiterait des paires d’images présentant les mêmes personnes dans des configurations physiques différentes, comme les images « avant et après » dans les publicités pour les régimes ou la chirurgie plastique – des données difficiles à obtenir ou à générer.

Alternativement, les réseaux GAN transformateurs peuvent s'entraîner sur des données beaucoup plus diverses et effectuer des transformations en recherchant les direction latente entre la source (code latent de l'image originale) et la classe souhaitée (ici « gros », « mince », « grand », etc.). Cependant, cette approche est actuellement trop limitée pour un remodelage corporel précis.

Champs de rayonnement neuronal (Nerf) les approches sont beaucoup plus avancées dans la simulation du corps entier que la plupart des systèmes basés sur GAN, mais restent spécifiques à la scène et gourmandes en ressources, avec une capacité actuellement très limitée à modifier les types de corps de la manière granulaire que NeuralReshaper et les projets antérieurs tentent de résoudre ( à court de réduire tout le corps par rapport à son environnement).

L'espace latent du GAN est difficile à gérer ; les VAE ne permettent pas encore à elles seules de répondre aux complexités de la reproduction du corps entier ; et la capacité du NeRF à remodeler le corps humain de manière cohérente et réaliste est encore balbutiante. Par conséquent, l'intégration de méthodologies CGI « traditionnelles » telles que SMPL semble vouée à se poursuivre dans le secteur de la recherche en synthèse d'images humaines, comme méthode de regroupement et de consolidation de caractéristiques, de classes et de codes latents dont les paramètres et l'exploitabilité ne sont pas encore pleinement compris dans ces technologies émergentes.

Première publication le 31 mars 2022.

Martin Anderson

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai

Unite.AI

Remodeler les types de corps humains avec l'IA

Raccord SMPL

Architecture NeuralReshaper

Formation et expériences

Nécessité paramétrique

Tu peux aimer