Angle d’Anderson

RĂ©tablir et Ă©diter des images humaines avec l’IA

mm
Montage of examples from supplementary material for the paper 'CompleteMe: Reference-based Human Image Completion' (https://liagm.github.io/CompleteMe/pdf/supp.pdf)

Une nouvelle collaboration entre l’Université de Californie à Merced et Adobe propose une avancée sur l’état de l’art dans le domaine de la complétion d’images humaines – la tâche très étudiée de « dévoiler » les parties cachées ou occultées des images de personnes, à des fins telles que l’essayage virtuel, l’animation et la retouche photo.

Outre la rĂ©paration d'images endommagĂ©es ou leur modification selon les dĂ©sirs de l'utilisateur, les systĂšmes de complĂ©tion d'images humaines tels que CompleteMe peuvent imposer de nouveaux vĂȘtements (via une image de rĂ©fĂ©rence, comme dans la colonne du milieu de ces deux exemples) dans des images existantes. Ces exemples proviennent du PDF supplĂ©mentaire Ă©tendu pour le nouveau document.

Outre la réparation d’images endommagées ou leur modification selon les désirs de l’utilisateur, les systèmes de complétion d’images humaines tels que CompleteMe peuvent imposer de nouveaux vêtements (via une image de référence, comme dans la colonne du milieu de ces deux exemples) dans des images existantes. Source: https://liagm.github.io/CompleteMe/pdf/supp.pdf

La nouvelle approche, intitulée CompleteMe: Complétion d’images humaines basée sur des références, utilise des images de référence pour « suggérer » au système ce que le contenu doit remplacer la section cachée ou manquante de la représentation humaine (d’où son applicabilité aux cadres d’essayage basés sur la mode):

Le systÚme CompleteMe peut adapter le contenu de référence à la partie occultée ou cachée d'une image humaine.

Le système CompleteMe peut adapter le contenu de référence à la partie occultée ou cachée d’une image humaine.

Le nouveau système utilise une architecture U-Net double et un bloc d’attention ciblée sur la région (RFA) qui mobilise les ressources vers la zone pertinente de l’instance de restauration d’image.

Les chercheurs proposent également un nouveau système de référence conçu pour évaluer les tâches de complétion basées sur des références (puisque CompleteMe fait partie d’une branche de recherche existante en vision par ordinateur, mais qui n’avait pas de schéma de référence jusqu’à présent).

Dans les tests, et dans une étude d’utilisateurs bien échelonnée, la nouvelle méthode s’est révélée supérieure dans la plupart des métriques, et globalement. Dans certains cas, les méthodes rivales ont été complètement dépassées par l’approche basée sur des références:

Extrait du matériel supplémentaire: la méthode AnyDoor a particuliÚrement de la difficulté à interpréter une image de référence.

Extrait du matériel supplémentaire: la méthode AnyDoor a particulièrement de la difficulté à interpréter une image de référence.

Le document indique:

‘Des expériences approfondies sur notre référence démontrent que CompleteMe surpasse les méthodes actuelles, à la fois basées sur des références et non basées sur des références, en termes de métriques quantitatives, de résultats qualitatifs et d’études d’utilisateurs.

‘En particulier dans des scénarios difficiles impliquant des poses complexes, des motifs de vêtements intriqués et des accessoires distinctifs, notre modèle atteint systématiquement une fidélité visuelle et une cohérence sémantique supérieures.’

Malheureusement, la présence de GitHub du projet contient aucun code, ni ne promet d’en fournir, et l’initiative, qui dispose également d’une modeste page de projet, semble être conçue comme une architecture propriétaire.

Autre exemple de la performance subjective du nouveau systÚme par rapport aux méthodes antérieures. Plus de détails plus tard dans l'article.

Autre exemple de la performance subjective du nouveau système par rapport aux méthodes antérieures.

Méthode

Le cadre CompleteMe repose sur un U-Net de référence qui gère l’intégration du matériel auxiliaire dans le processus, et un U-Net cohérent qui permet une gamme plus large de processus pour obtenir le résultat final, comme illustré dans le schéma conceptuel ci-dessous:

Le schéma conceptuel pour CompleteMe. Source: https://arxiv.org/pdf/2504.20042

Le schéma conceptuel pour CompleteMe. Source: https://arxiv.org/pdf/2504.20042

Le système encode d’abord l’image d’entrée masquée en une représentation latente. Au même moment, le U-Net de référence traite plusieurs images de référence – chacune montrant différentes régions du corps – pour extraire des caractéristiques spatiales détaillées.

Ces caractéristiques passent par un bloc d’attention ciblée sur la région (RFA) intégré dans le U-Net « complet », où elles sont masquées de manière sélective en utilisant des masques de région correspondants, garantissant que le modèle ne prête attention qu’aux zones pertinentes des images de référence.

Les caractéristiques masquées sont ensuite intégrées avec des caractéristiques sémantiques globales dérivées de CLIP à travers une attention croisée déconnectée, permettant au modèle de reconstruire le contenu manquant avec à la fois des détails fins et une cohérence sémantique.

Pour améliorer le réalisme et la robustesse, le processus de masquage de l’entrée combine des occultations aléatoires basées sur une grille avec des masques de forme de corps humain, chacun appliqué avec une probabilité égale, augmentant la complexité des régions manquantes que le modèle doit compléter.

Pour référence seulement

Les méthodes antérieures pour la complétion d’images basée sur des références reposaient généralement sur des encodeurs de niveau sémantique. Les projets de ce type incluent CLIP lui-même et DINOv2, qui extraient des caractéristiques globales à partir d’images de référence, mais perdent souvent les détails spatiaux fins nécessaires pour une préservation d’identité précise.

Extrait du document de publication de l'approche plus ancienne DINOV2, qui est incluse dans les tests de comparaison du nouveau document: Les surimpositions colorées montrent les trois premiers composants principaux de l'analyse en composants principaux (ACP), appliquée aux patches d'images dans chaque colonne, mettant en évidence la façon dont DINOv2 regroupe des parties d'objets similaires ensemble à travers des images variées. Malgré les différences de pose, de style ou de rendu, les régions correspondantes (comme les ailes, les membres ou les roues) sont constamment associées, illustrant la capacité du modÚle à apprendre une structure basée sur les parties sans supervision.. Source: https://arxiv.org/pdf/2304.07193

Extrait du document de publication de l’approche plus ancienne DINOV2, qui est incluse dans les tests de comparaison du nouveau document: Les surimpositions colorées montrent les trois premiers composants principaux de l’analyse en composants principaux (ACP), appliquée aux patches d’images dans chaque colonne, mettant en évidence la façon dont DINOv2 regroupe des parties d’objets similaires ensemble à travers des images variées. Source: https://arxiv.org/pdf/2304.07193

CompleteMe aborde cet aspect grâce à un U-Net de référence spécialisé initialisé à partir de Stable Diffusion 1.5, mais fonctionnant sans l’étape de bruit de diffusion*.

Chaque image de référence, couvrant différentes régions du corps, est encodée en caractéristiques latentes détaillées à travers ce U-Net. Des caractéristiques sémantiques globales sont également extraites séparément à l’aide de CLIP, et les deux ensembles de caractéristiques sont mis en cache pour une utilisation efficace pendant l’intégration basée sur l’attention. Ainsi, le système peut accommoder plusieurs entrées de référence de manière flexible, tout en préservant les informations d’apparence à grain fin.

Orchestration

Le U-Net cohérent gère les dernières étapes du processus de complétion. Adapté de la variante de retouche de Stable Diffusion 1.5, il prend en entrée l’image source masquée sous forme latente, ainsi que des caractéristiques spatiales détaillées tirées des images de référence et des caractéristiques sémantiques globales extraites par l’encodeur CLIP.

Ces différentes entrées sont réunies à travers le bloc RFA, qui joue un rôle critique dans la direction de l’attention du modèle vers les zones les plus pertinentes du matériel de référence.

Avant d’entrer dans le mécanisme d’attention, les caractéristiques de référence sont explicitement masquées pour supprimer les régions non liées, puis concaténées avec la représentation latente de l’image source, garantissant que l’attention est dirigée de manière aussi précise que possible.

Pour améliorer cette intégration, CompleteMe intègre un mécanisme d’attention croisée déconnecté adapté du cadre IP-Adapter:

IP-Adapter, dont une partie est intégrée dans CompleteMe, est l'un des projets les plus réussis et souvent utilisés des trois derniÚres années de développement dans les architectures de modÚles de diffusion latents. Source: https://ip-adapter.github.io/

IP-Adapter, dont une partie est intégrée dans CompleteMe, est l’un des projets les plus réussis et souvent utilisés des trois dernières années de développement dans les architectures de modèles de diffusion latents. Source: https://ip-adapter.github.io/

Cela permet au modèle de traiter des caractéristiques visuelles détaillées et un contexte sémantique plus large à travers des flux d’attention distincts, qui sont ensuite combinés, aboutissant à une reconstruction cohérente qui, selon les auteurs, préserve à la fois l’identité et les détails à grain fin.

Benchmarking

En l’absence d’un ensemble de données approprié pour la complétion d’images humaines basée sur des références, les chercheurs ont proposé le leur. La référence (non nommée) a été construite en sélectionnant des paires d’images du jeu de données WPose conçu pour le projet UniHuman d’Adobe Research en 2023.

Exemples de poses du projet UniHuman d'Adobe Research en 2023. Source: https://github.com/adobe-research/UniHuman?tab=readme-ov-file#data-prep

Exemples de poses du projet UniHuman d’Adobe Research en 2023. Source: https://github.com/adobe-research/UniHuman?tab=readme-ov-file#data-prep

Les chercheurs ont manuellement dessiné des masques source pour indiquer les zones de retouche, aboutissant finalement à 417 groupes d’images tripartites constitués d’une image source, d’un masque et d’une image de référence.

Deux exemples de groupes dérivés initialement du jeu de données WPose de référence, et soigneusement sélectionnés par les chercheurs du nouveau document.

Deux exemples de groupes dérivés initialement du jeu de données WPose de référence, et soigneusement sélectionnés par les chercheurs du nouveau document.

Les auteurs ont utilisé le modèle de langage LLaVA pour générer des invites de texte décrivant les images sources.

Les métriques utilisées étaient plus étendues que d’habitude ; outre le rapport signal-bruit (PSNR), l’indice de similarité structurelle (SSIM) et la similarité d’images perçue apprise (LPIPS, dans ce cas pour évaluer les régions masquées), les chercheurs ont utilisé DINO pour les scores de similarité ; DreamSim pour l’évaluation des résultats de génération ; et CLIP.

Données et tests

Pour tester le travail, les auteurs ont utilisé à la fois le modèle Stable Diffusion V1.5 par défaut et le modèle de retouche 1.5. L’encodeur d’image du système utilisait le modèle Vision CLIP, ainsi que des couches de projection – de petits réseaux de neurones qui reforment ou alignent les sorties CLIP pour correspondre aux dimensions de caractéristiques internes utilisées par le modèle.

La formation a eu lieu pendant 30 000 itérations sur huit GPU NVIDIA A100, supervisée par une erreur quadratique moyenne (MSE), à une taille de lot de 64 et un taux d’apprentissage de 2×10-5. Divers éléments ont été aléatoirement supprimés tout au long de la formation, pour empêcher le système de surapprendre sur les données.

Le jeu de données a été modifié à partir du jeu de données Parts to Whole, lui-même basé sur le jeu de données DeepFashion-MultiModal.

Exemples du jeu de données Parts to Whole, utilisés dans le développement des données ciblées pour CompleteMe. Source: https://huanngzh.github.io/Parts2Whole/

Exemples du jeu de données Parts to Whole, utilisés dans le développement des données ciblées pour CompleteMe. Source: https://huanngzh.github.io/Parts2Whole/

Les auteurs déclarent:

‘Pour répondre à nos besoins, nous [avons reconstruit] les paires de formation en utilisant des images occultées avec plusieurs images de référence qui capturent divers aspects de l’apparence humaine, ainsi que leurs étiquettes textuelles courtes.

‘Chaque échantillon de nos données de formation comprend six types d’apparence: vêtements du haut, vêtements du bas, vêtements du corps entier, cheveux ou couvre-chef, visage et chaussures. Pour la stratégie de masquage, nous appliquons un masquage aléatoire à grille de 50 % entre 1 et 30 fois, tandis que pour les 50 % restants, nous utilisons un masque de forme de corps humain pour augmenter la complexité du masquage.

‘Après le pipeline de construction, nous avons obtenu 40 000 paires d’images pour la formation.’

Les méthodes rivales antérieures non basées sur des références testées étaient la complétion d’images humaines occultées (LOHC) et le modèle de retouche d’images BrushNet ; les méthodes basées sur des références testées étaient Paint-by-Example ; AnyDoor ; LeftRefill ; et MimicBrush.

Les auteurs ont commencé par une comparaison quantitative sur les métriques mentionnées précédemment:

Résultats de la comparaison quantitative initiale.

Résultats de la comparaison quantitative initiale.

En ce qui concerne l’évaluation quantitative, les auteurs notent que CompleteMe atteint les scores les plus élevés sur la plupart des métriques perçues, y compris CLIP-I, DINO, DreamSim et LPIPS, qui visent à capturer l’alignement sémantique et la fidélité d’apparence entre la sortie et l’image de référence.

Cependant, le modèle ne surpasse pas toutes les lignes de base dans tous les cas. Notamment, BrushNet obtient le score le plus élevé sur CLIP-T, LeftRefill mène sur SSIM et PSNR, et MimicBrush surpasse légèrement sur CLIP-I.

Alors que CompleteMe montre des résultats globalement solides, les différences de performances sont modestes dans certains cas, et certaines métriques restent menées par des méthodes rivales antérieures. Peut-être pas injustement, les auteurs présentent ces résultats comme preuve de la force équilibrée de CompleteMe à la fois sur les dimensions structurelles et perçues.

Les illustrations pour les tests qualitatifs entrepris dans l’étude sont trop nombreuses pour être reproduites ici, et nous renvoyons le lecteur non seulement au document source, mais également au PDF supplémentaire étendu, qui contient de nombreux exemples qualitatifs supplémentaires.

Nous mettons en évidence les exemples qualitatifs principaux présentés dans le document principal, ainsi qu’une sélection de cas supplémentaires tirés du pool d’images supplémentaires introduit plus tôt dans cet article:

Résultats qualitatifs initiaux présentés dans le document principal. Veuillez vous référer au document source pour une meilleure résolution.

Résultats qualitatifs initiaux présentés dans le document principal.

Conclusion

Si quelque chose, les résultats qualitatifs de cette étude sont entravés par leur volume, puisque l’examen attentif indique que le nouveau système est une entrée très efficace dans ce domaine relativement spécialisé mais très recherché de l’édition d’images neuronales.

Cependant, cela nécessite un peu plus d’attention et de zoom sur le PDF original pour apprécier à quel point le système adapte le matériel de référence à la zone occultée en comparaison (dans presque tous les cas) avec les méthodes antérieures.

Nous recommandons vivement au lecteur d'examiner soigneusement les résultats présentés dans le matériel supplémentaire.

Nous recommandons vivement au lecteur d’examiner soigneusement les résultats présentés dans le matériel supplémentaire.

 

* Il est intéressant de noter comment la version V1.5, maintenant sévèrement obsolète, reste une favorite des chercheurs – en partie en raison de tests de type legacy, mais aussi parce qu’il s’agit de la version la moins censurée et peut-être la plus facile à former de toutes les itérations de Stable Diffusion, et ne partage pas la limitation censurée des versions FOSS Flux.

La spécification de VRAM n’est pas indiquée – cela serait soit 40 Go, soit 80 Go par carte.

Publié pour la première fois mardi 29 avril 2025

Écrivain sur l'apprentissage automatique, spĂ©cialiste de domaine en synthĂšse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.