Intelligence artificielle
Faire semblant d’avoir un ‘meilleur’ corps avec l’IA

De nouvelles recherches de l’académie Alibaba DAMO proposent un flux de travail piloté par l’IA pour l’automatisation de la réorganisation d’images de corps – un effort rare dans un secteur de vision par ordinateur actuellement occupé par des manipulations basées sur le visage telles que les deepfakes et les éditions de visage basées sur GAN.

Inset dans les colonnes ‘résultat’, les cartes d’attention générées qui définissent les zones à modifier. Source : https://arxiv.org/pdf/2203.04670.pdf
L’architecture des chercheurs utilise l’estimation de la pose du squelette pour résoudre la complexité accrue que les systèmes de synthèse et d’édition d’images rencontrent lors de la conceptualisation et de la paramétrisation d’images de corps existantes, au moins à un niveau de granularité qui permet une édition significative et sélective.

Les cartes de squelette estimées aident à individualiser et à concentrer l’attention sur les zones du corps susceptibles d’être retouchées, telles que la zone du bras supérieur.
Le système permet finalement à un utilisateur de définir des paramètres qui peuvent modifier l’apparence du poids, de la masse musculaire ou de la répartition du poids dans des photos de personnes en pied ou en demi-longueur, et est capable de générer des transformations arbitraires sur des sections de corps vêtues ou dévêtues.

Gauche, l’image d’entrée ; milieu, une carte de chaleur des zones d’attention dérivées ; droite, l’image transformée.
La motivation de ce travail est le développement de flux de travail automatisés qui pourraient remplacer les manipulations numériques fastidieuses effectuées par les photographes et les artistes graphiques de production dans diverses branches des médias, de la mode à la production de style de magazine et de matériel de publicité.
En général, les auteurs reconnaissent que ces transformations sont généralement appliquées avec des techniques de « déformation » dans Photoshop et d’autres éditeurs de bitmap traditionnels, et sont presque exclusivement utilisées sur des images de femmes. Par conséquent, le jeu de données personnalisé développé pour faciliter le nouveau processus se compose principalement de photos de sujets féminins :
‘Puisque le retouche des corps est principalement souhaité par les femmes, la majorité de notre collection sont des photos de femmes, en tenant compte de la diversité des âges, des races (africaine : asiatique : caucasienne = 0,33 : 0,35 : 0,32), des poses et des vêtements.’
Le document est intitulé Structure-Aware Flow Generation for Human Body Reshaping, et provient de cinq auteurs associés à l’académie mondiale DAMO d’Alibaba.
Développement du jeu de données
Comme c’est généralement le cas avec les systèmes de synthèse et d’édition d’images, l’architecture du projet a nécessité un jeu de données de formation personnalisé. Les auteurs ont commandé à trois photographes de produire des manipulations standard de Photoshop d’images appropriées du site de photographie stock Unsplash, aboutissant à un jeu de données – intitulé BR-5K* – de 5 000 images de haute qualité à une résolution de 2K.
Les chercheurs soulignent que l’objectif de la formation sur ce jeu de données n’est pas de produire des caractéristiques « idéalisées » et généralisées liées à un indice d’attrait ou d’apparence désirable, mais plutôt d’extraire les cartes de fonctionnalités centrales associées aux manipulations professionnelles d’images de corps.
Cependant, ils admettent que les manipulations reflètent finalement des processus de transformation qui cartographient une progression de « réel » à une notion prédéfinie d’« idéal » :
‘Nous invitons trois artistes professionnels à retoucher les corps à l’aide de Photoshop de manière indépendante, dans le but d’obtenir des silhouettes minces qui répondent à l’esthétique populaire, et de sélectionner la meilleure comme référence.’
Puisque le cadre ne traite pas du visage du tout, ceux-ci ont été floutés avant d’être inclus dans le jeu de données.
Architecture et concepts clés
Le flux de travail du système implique d’alimenter une image de portrait haute résolution, de la rééchantillonner à une résolution inférieure qui peut rentrer dans les ressources de calcul disponibles, et d’extraire une carte de pose de squelette estimée (deuxième figure de gauche dans l’image ci-dessous), ainsi que des champs d’affinité de parties (PAF), qui ont été innovés en 2016 par The Robotics Institute à l’Université Carnegie Mellon (voir la vidéo intégrée directement ci-dessous).
Les champs d’affinité de parties aident à définir l’orientation des membres et l’association générale avec le cadre squelettique plus large, fournissant au nouveau projet un outil d’attention/localisation supplémentaire.

À partir du document de 2016 sur les champs d’affinité de parties, les PAF prédits encodent l’orientation des membres dans le cadre d’un vecteur 2D qui inclut également la position générale du membre. Source : https://arxiv.org/pdf/1611.08050.pdf
Malgré leur apparente irrelevance pour l’apparence du poids, les cartes de squelette sont utiles pour diriger les processus de transformation finals vers les parties du corps à modifier, telles que les bras supérieurs, le dos et les cuisses.
Après cela, les résultats sont alimentés dans un module d’auto-attention d’affinité de structure (SASA) dans le goulet d’étranglement central du processus (voir l’image ci-dessous).

Le SASA régule la cohérence du générateur de flux qui alimente le processus, dont les résultats sont ensuite transmis au module de déformation (deuxième à partir de la droite dans l’image ci-dessus), qui applique les transformations apprises à partir de la formation sur les révisions manuelles incluses dans le jeu de données.

Le module d’auto-attention d’affinité de structure (SASA) alloue l’attention aux parties du corps pertinentes, aidant à éviter les transformations superflues ou non pertinentes.
L’image de sortie est ensuite rééchantillonnée à la résolution d’origine de 2K, en utilisant des processus qui ne sont pas très différents de l’architecture de deepfake standard de 2017 à partir de laquelle des packages populaires tels que DeepFaceLab ont été dérivés ; le processus de rééchantillonnage est également courant dans les cadres d’édition GAN.
Le réseau d’attention pour le schéma est modélisé d’après Compositional De-Attention Networks (CODA), une collaboration universitaire américaine/singapourienne de 2019 avec Amazon AI et Microsoft.
Tests
Le cadre basé sur le flux a été testé contre des méthodes de flux antérieures FAL et Animating Through Warping (ATW), ainsi que des architectures de traduction d’images Pix2PixHD et GFLA, avec SSIM, PSNR et LPIPS en tant que métriques d’évaluation.

Résultats des tests initiaux (la direction de la flèche dans les en-têtes indique si les chiffres plus bas ou plus élevés sont les meilleurs).
Sur la base de ces métriques adoptées, le système des auteurs surpasse les architectures antérieures.

Résultats sélectionnés. Veuillez vous référer au PDF original lié dans cet article pour des comparaisons à haute résolution.
En plus des métriques automatisées, les chercheurs ont mené une étude d’utilisateur (dernière colonne du tableau de résultats ci-dessus), dans laquelle 40 participants ont été présentés à 30 questions sélectionnées aléatoirement à partir d’un pool de 100 questions liées aux images produites via les différentes méthodes. 70 % des répondants ont préféré la nouvelle technique comme plus « visuellement attrayante ».
Défis
Le nouveau document représente une rare excursion dans la manipulation de corps basée sur l’IA. Le secteur de la synthèse d’images est actuellement beaucoup plus intéressé par la génération de corps éditables via des méthodes telles que les champs de rayonnement neural (NeRF), ou est fixé sur l’exploration de l’espace latent des GAN et du potentiel des auto-encodeurs pour la manipulation faciale.
L’initiative des auteurs est actuellement limitée à la production de changements dans la perception du poids, et ils n’ont pas mis en œuvre de technique d’inpainting qui restaurerait l’arrière-plan qui est inévitablement révélé lorsqu’on affine une photo de quelqu’un.
Cependant, ils proposent que le masquage de portrait et le mélange d’arrière-plan par inférence texturale pourraient résoudre de manière triviale le problème de restauration des parties du monde qui étaient précédemment cachées dans l’image par « imperfection » humaine.

Une solution proposée pour restaurer l’arrière-plan révélé par la réduction de poids basée sur l’IA.
* Bien que la prépublication fasse référence à des matériaux supplémentaires donnant plus de détails sur le jeu de données, ainsi que d’autres exemples du projet, l’emplacement de ces matériaux n’est pas indiqué dans le document, et l’auteur correspondant n’a pas encore répondu à notre demande d’accès.
Publié pour la première fois le 10 mars 2022.










