Intelligence Artificielle
Simuler de "meilleurs" corps avec l'IA

Une nouvelle recherche de l’académie Alibaba DAMO propose un flux de travail basé sur l’IA pour automatiser le remodelage des images de corps – un effort rare dans un secteur de vision par ordinateur actuellement occupé par manipulations basées sur le visage tels que les deepfakes et les systèmes basés sur le GAN édition de visage.

Insérées dans les colonnes « résultat », les cartes d'attention générées qui définissent les zones à modifier. Source : https://arxiv.org/pdf/2203.04670.pdf
L'architecture des chercheurs utilise l'estimation de la pose du squelette pour faire face à la plus grande complexité à laquelle sont confrontés les systèmes de synthèse et d'édition d'images lors de la conceptualisation et de la paramétrisation des images corporelles existantes, au moins à un niveau de granularité qui permet réellement une édition significative et sélective.

Les cartes de squelette estimées aident à identifier et à concentrer l'attention sur les zones du corps susceptibles d'être retouchées, telles que la partie supérieure du bras.
Le système permet finalement à un utilisateur de définir des paramètres qui peuvent modifier l'apparence du poids, de la masse musculaire ou de la répartition du poids sur des photos de personnes pleine longueur ou mi-longueur, et est capable de générer des transformations arbitraires sur des sections de corps habillées ou non.

A gauche, l'image d'entrée ; au milieu, une carte thermique des zones d'attention dérivées ; à droite, l'image transformée.
La motivation de ce travail est le développement de flux de travail automatisés qui pourraient remplacer les manipulations numériques ardues entreprises par les photographes et les graphistes de production dans diverses branches des médias, de la mode à la production de style magazine et matériel publicitaire.
En général, reconnaissent les auteurs, ces transformations sont généralement appliquées par des techniques de « déformation » dans Photoshop et d'autres éditeurs bitmap traditionnels, et sont presque exclusivement utilisées sur des images de femmes. Par conséquent, le jeu de données personnalisé développé pour faciliter le nouveau processus est principalement composé d'images de femmes :
« Comme la retouche corporelle est principalement souhaitée par les femmes, la majorité de notre collection est constituée de photos féminines, compte tenu de la diversité des âges, des races (Africain : Asiatique : Caucasien = 0.33 : 0.35 : 0.32), des poses et des vêtements. »
papier est intitulé Génération de flux sensible à la structure pour le remodelage du corps humain, et provient de cinq auteurs associés à l'académie mondiale DAMO d'Alibaba.
Développement d'ensembles de données
Comme c'est généralement le cas avec les systèmes de synthèse et d'édition d'images, l'architecture du projet nécessitait un ensemble de données de formation personnalisé. Les auteurs ont chargé trois photographes de produire des manipulations Photoshop standard d'images pertinentes à partir du site de photographie de stock Unsplash, ce qui a abouti à un ensemble de données - intitulé BR-5K* – de 5,000 2 images de haute qualité en résolution XNUMXK.
Les chercheurs soulignent que l’objectif de la formation sur cet ensemble de données n’est pas de produire des caractéristiques « idéalisées » et généralisées relatives à un indice d’attractivité ou d’apparence désirable, mais plutôt d’extraire les mappages de caractéristiques centrales associées aux manipulations professionnelles des images corporelles.
Ils admettent cependant que les manipulations reflètent en fin de compte des processus transformateurs qui tracent une progression du « réel » vers une notion prédéfinie d’« idéal » :
« Nous invitons trois artistes professionnels à retoucher des corps de manière indépendante avec Photoshop, dans le but d'obtenir des silhouettes élancées qui répondent à l'esthétique populaire, et à sélectionner la meilleure comme vérité fondamentale. »
Étant donné que le cadre ne traite pas du tout des visages, ceux-ci ont été floutés avant d'être inclus dans l'ensemble de données.
Architecture et concepts de base
Le flux de travail du système consiste à alimenter un portrait haute résolution, à le sous-échantillonner à une résolution inférieure pouvant s'adapter aux ressources informatiques disponibles et à extraire une pose estimée de la carte squelette (deuxième figure à partir de la gauche dans l'image ci-dessous), ainsi que des champs d'affinité de pièces (PAF), qui ont été innové en 2016 par The Robotics Institute de l'Université Carnegie Mellon (voir la vidéo intégrée directement ci-dessous).
Les champs d'affinité des parties aident à définir l'orientation des membres et l'association générale avec le cadre squelettique plus large, fournissant au nouveau projet un outil d'attention/localisation supplémentaire.

D'après l'article Part Affinity Fields de 2016, les PAF prédits codent l'orientation des membres dans le cadre d'un vecteur 2D qui inclut également la position générale du membre. Source : https://arxiv.org/pdf/1611.08050.pdf
Malgré leur indifférence apparente à l'apparence du poids, les cartes du squelette sont utiles pour diriger les processus de transformation finaux vers les parties du corps à modifier, telles que le haut des bras, l'arrière et les cuisses.
Après cela, les résultats sont transmis à une Structure Affinity Self-Attention (SASA) dans le goulot d'étranglement central du processus (voir l'image ci-dessous).

Le SASA régule la cohérence du générateur de flux qui alimente le processus, dont les résultats sont ensuite transmis au module de déformation (deuxième à droite dans l'image ci-dessus), qui applique les transformations apprises de la formation sur les révisions manuelles incluses dans le jeu de données .

Le module Structure Affinity Self-Attention (SASA) accorde l'attention aux parties pertinentes du corps, aidant à éviter les transformations superflues ou non pertinentes.
L'image de sortie est ensuite suréchantillonnée à la résolution 2K d'origine, en utilisant des processus similaires à l'architecture deepfake standard de style 2017 à partir de laquelle des packages populaires tels que DeepFaceLab ont depuis été dérivés ; le processus de suréchantillonnage est également courant dans les cadres d'édition GAN.
Le réseau d'attention pour le schéma est modélisé d'après Réseaux de désattention compositionnelle (CODA), une collaboration universitaire États-Unis/Singapour en 2019 avec Amazon AI et Microsoft.
Tests
Le cadre basé sur les flux a été testé par rapport aux méthodes précédentes basées sur les flux FAL et Animation par déformation (ATW), ainsi que des architectures de traduction d'images Pix2PixHD et GFL(la prise en charge SSIM, PSNR et LPIPS comme paramètres d'évaluation.

Résultats des tests initiaux (le sens de la flèche dans les en-têtes indique si les chiffres inférieurs ou supérieurs sont les meilleurs).
Sur la base de ces mesures adoptées, le système des auteurs surpasse les architectures précédentes.

Résultats sélectionnés. Veuillez vous référer au PDF original lié dans cet article pour des comparaisons de résolution plus élevée.
En plus des mesures automatisées, les chercheurs ont mené une étude utilisateur (dernière colonne du tableau des résultats illustrée précédemment), dans laquelle 40 participants ont chacun reçu 30 questions sélectionnées au hasard dans un ensemble de 100 questions relatives aux images produites via les différentes méthodes. 70 % des répondants ont préféré la nouvelle technique comme étant plus « attrayante visuellement ».
Défis
Le nouvel article représente une rare excursion dans la manipulation corporelle basée sur l'IA. Le secteur de la synthèse d'images est actuellement beaucoup plus intéressé soit par la génération de corps modifiables via des méthodes telles que Neural Radiance Fields (NeRF), soit par l'exploration de l'espace latent des GAN et du potentiel des auto-encodeurs pour la manipulation faciale.
L'initiative des auteurs se limite actuellement à produire des changements dans le poids perçu, et ils n'ont mis en œuvre aucune sorte de technique de retouche qui restaurerait l'arrière-plan qui est inévitablement révélé lorsque vous affinez une photo de quelqu'un.
Cependant, ils proposent que le matage des portraits et le mélange d'arrière-plan par inférence de texture pourraient résoudre de manière triviale le problème de la restauration des parties du monde qui étaient autrefois cachées dans l'image par « l'imperfection » humaine.

Une solution proposée pour restaurer l'arrière-plan révélé par la réduction de graisse pilotée par l'IA.
* Bien que la prépublication fasse référence à du matériel supplémentaire donnant plus de détails sur l'ensemble de données, ainsi qu'à d'autres exemples du projet, l'emplacement de ce matériel n'est pas disponible dans l'article et l'auteur correspondant n'a pas encore répondu à notre demande d'accès .
Première publication le 10 mars 2022.










