Suivez nous sur

Remodeler les types de corps humains avec l'IA

Intelligence Artificielle

Remodeler les types de corps humains avec l'IA

mm

Une nouvelle collaboration de recherche en provenance de Chine propose une nouvelle méthode de remodelage du corps humain en images, grâce à l'utilisation d'un réseau d'encodeurs neuronaux jumeaux coordonnés, guidé par un modèle paramétrique, qui permet à un utilisateur final de moduler le poids, la taille et la proportion corporelle dans une interface graphique interactive.

Modulation paramétrée de la forme du corps, avec des curseurs modifiant les trois fonctionnalités disponibles. Source : https://arxiv.org/pdf/2203.10496.pdf

Modulation paramétrée de la forme du corps, avec des curseurs modifiant les trois fonctionnalités disponibles. Source : https://arxiv.org/pdf/2203.10496.pdf

L'ouvrage offre plusieurs amĂ©liorations sur une projet similaire rĂ©cent d'Alibaba, car il permet de modifier de manière convaincante la taille, les proportions corporelles ainsi que le poids, et dispose d'un rĂ©seau neuronal dĂ©diĂ© pour « retoucher Â» l'arrière-plan (inexistant) rĂ©vĂ©lĂ© par des images de corps « plus minces Â». Il amĂ©liore Ă©galement un aspect notable. mĂ©thode paramĂ©trique antĂ©rieure pour le remodelage du corps en supprimant le besoin d'une intervention humaine importante lors de la formulation de la transformation.

Titré NeuralReshaper, la nouvelle architecture adapte un modèle humain 3D paramétrique à une image source, puis utilise des distorsions dans le modèle pour adapter l'image d'origine aux nouveaux paramètres.

Le système est capable de gérer les transformations corporelles sur des personnages habillés et semi-habillés (c'est-à-dire des vêtements de plage).

Les transformations de ce type suscitent actuellement un vif intérêt pour les mode IA secteur de la recherche, qui a produit un certain nombre de plates-formes de réseaux de neurones basées sur StyleGAN / CycleGAN et générales pour essais virtuels qui peut adapter les vêtements disponibles à la forme du corps et au type d'une image soumise par l'utilisateur, ou autrement aider à la conformité visuelle.

papier est intitulé Remodelage du corps humain à image unique avec des réseaux de neurones profonds, et vient de chercheurs de l'Université du Zhejiang à Hangzhou et de la School of Creative Media de la City University of Hong Kong.

Raccord SMPL

NeuralReshaper utilise le modèle linéaire multi-personnes skinné (SMPL) en réponse par le Max Planck Institute for Intelligent Systems et la célèbre maison VFX Industrial Light and Magic en 2015.

SMPL Humains paramétriques de la collaboration Planck/ILM 2015. Source : https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

SMPL Humains paramétriques de la collaboration Planck/ILM 2015. Source : https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

Dans la première étape du processus, un modèle SMPL est généré à partir d'une image source sur laquelle on souhaite effectuer des transformations corporelles. L'adaptation du modèle SMPL à l'image suit la méthodologie de la méthode Human Mesh Recovery (HMR) proposée par des universités allemandes et américaines en 2018.

Les trois paramètres de déformation (poids, taille, proportion corporelle) sont calculés à ce stade, ainsi qu'une prise en compte des paramètres de la caméra, tels que la distance focale. Les points clés 2D et l'alignement de silhouette généré fournissent l'enceinte pour la déformation sous la forme d'une silhouette 2D, une mesure d'optimisation supplémentaire qui augmente la précision des limites et permet une peinture d'arrière-plan authentique plus loin dans le pipeline.

Étapes d'ajustement SMPL : Ă  gauche, l'image source ; deuxième Ă  partir de la gauche, le rĂ©sultat d'optimisation obtenu Ă  partir de la mĂ©thode dĂ©crite dans la recherche de 2016 menĂ©e par l'Institut Max Planck pour les systèmes intelligents ; troisième Ă  partir de la gauche, un rĂ©sultat d'infĂ©rence directe du modèle prĂ©-formĂ© pour la rĂ©cupĂ©ration de bout en bout de la forme et de la pose humaines ; deuxième Ă  droite, les rĂ©sultats obtenus après optimisation des points clĂ©s 2D ; et enfin, Ă  droite, l'ajustement terminĂ© après optimisation de la silhouette (voir ci-dessus).

Étapes d'ajustement SMPL : Ă  gauche, l'image source ; deuxièmement, le rĂ©sultat d'optimisation obtenu Ă  partir de la mĂ©thode dĂ©crite en 2016 Une Ă©tude dirigĂ© par l'Institut Max Planck pour les systèmes intelligents ; troisièmement, un rĂ©sultat d'infĂ©rence directe du modèle prĂ©-formĂ© pour RĂ©cupĂ©ration de bout en bout de la forme et de la pose humaines; quatrièmement, les rĂ©sultats obtenus après optimisation des points clĂ©s 2D ; et enfin, cinquièmement, l'ajustement terminĂ© après l'optimisation de la silhouette (voir ci-dessus).

La déformation 3D est ensuite projetée dans l'espace image de l'architecture afin de créer un champ de déformation dense qui définira la déformation. Ce processus prend environ 30 secondes par image.

Architecture NeuralReshaper

NeuralReshaper exécute deux réseaux neuronaux en tandem : un encodeur de premier plan qui génère la forme du corps transformée et un encodeur d'arrière-plan qui se concentre sur le remplissage des régions d'arrière-plan « désoccluses » (dans le cas, par exemple, de l'amincissement d'un corps - voir l'image ci-dessous).

L'infrastructure de type U-net intègre les sorties des fonctionnalités des deux encodeurs avant de transmettre le résultat à un encodeur unifié qui produit une nouvelle image à partir des deux entrées. L'architecture intègre un mécanisme innovant de guidage par déformation pour permettre l'intégration.

Formation et expériences

NeuralReshaper est implĂ©mentĂ© dans PyTorch sur un seul GPU NVIDIA 1080ti avec 11 Go de VRAM. Le rĂ©seau a Ă©tĂ© entraĂ®nĂ© pendant 100 Ă©poques sous l'optimiseur Adam, le gĂ©nĂ©rateur Ă©tant rĂ©glĂ© sur une perte cible de 0.0001 et le discriminateur sur une perte cible de 0.0004. La formation s'est dĂ©roulĂ©e sur une taille de lot de 8 pour un jeu de donnĂ©es extĂ©rieur propriĂ©taire (tirĂ© de COCOS DE PĂ‚QUES, MPII, et LSP), et 2 pour la formation sur le Mode profonde jeu de donnĂ©es.

A gauche, les images originales, à droite, la sortie reproportionnée de NeuralReshaper.

A gauche, les images originales, à droite, la sortie reproportionnée de NeuralReshaper.

Vous trouverez ci-dessous quelques exemples provenant exclusivement de l'ensemble de données DeepFashion tel que formé pour NeuralReshaper, avec les images originales toujours à gauche.

Les trois attributs contrôlables sont démêlés et peuvent être appliqués séparément.

Les transformations sur l'ensemble de donnĂ©es extĂ©rieur dĂ©rivĂ© sont plus difficiles, car elles nĂ©cessitent souvent le remplissage d'arrière-plans complexes et une dĂ©limitation claire et convaincante des types de corps transformĂ©s :

Nécessité paramétrique

Comme l'observe l'article, les transformations d'une même image de ce type représentent un problème mal posé dans la synthèse d'images. De nombreux frameworks GAN et encodeurs transformateurs peuvent utiliser des images jumelées (comme les divers projets conçus pour effectuer croquis>photo et photos>croquis transformations).

Cependant, dans le cas présent, cela nécessiterait des paires d’images présentant les mêmes personnes dans des configurations physiques différentes, comme les images « avant et après » dans les publicités pour les régimes ou la chirurgie plastique – des données difficiles à obtenir ou à générer.

Alternativement, les rĂ©seaux GAN transformateurs peuvent s'entraĂ®ner sur des donnĂ©es beaucoup plus diverses et effectuer des transformations en recherchant les direction latente entre la source (code latent de l'image originale) et la classe souhaitĂ©e (ici « gros Â», « mince Â», « grand Â», etc.). Cependant, cette approche est actuellement trop limitĂ©e pour un remodelage corporel prĂ©cis.

Champs de rayonnement neuronal (Nerf) les approches sont beaucoup plus avancées dans la simulation du corps entier que la plupart des systèmes basés sur GAN, mais restent spécifiques à la scène et gourmandes en ressources, avec une capacité actuellement très limitée à modifier les types de corps de la manière granulaire que NeuralReshaper et les projets antérieurs tentent de résoudre ( à court de réduire tout le corps par rapport à son environnement).

L'espace latent du GAN est difficile Ă  gĂ©rer ; les VAE ne permettent pas encore Ă  elles seules de rĂ©pondre aux complexitĂ©s de la reproduction du corps entier ; et la capacitĂ© du NeRF Ă  remodeler le corps humain de manière cohĂ©rente et rĂ©aliste est encore balbutiante. Par consĂ©quent, l'intĂ©gration de mĂ©thodologies CGI « traditionnelles Â» telles que SMPL semble vouĂ©e Ă  se poursuivre dans le secteur de la recherche en synthèse d'images humaines, comme mĂ©thode de regroupement et de consolidation de caractĂ©ristiques, de classes et de codes latents dont les paramètres et l'exploitabilitĂ© ne sont pas encore pleinement compris dans ces technologies Ă©mergentes.

 

Première publication le 31 mars 2022.

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai