Connect with us

Angle d’Anderson

Essayage Virtuel de Nouvelles Tenues à l’Aide de l’IA

mm
Examples of virtual try-on from the Vanast project – source: https://arxiv.org/pdf/2604.04934

Un modèle d’IA peut désormais transformer une seule photo et des images de vêtements en une vidéo animée d’une personne portant de nouvelles tenues, en évitant les erreurs courantes des anciens systèmes en deux étapes.

 

La catégorie « essayage virtuel » (VTON) dans la recherche en vision par ordinateur est l’une des mieux financées et des plus prolifiques dans la littérature – principalement parce que, comme on peut le déduire des fréquentes collaborations industrielles et universitaires publiées chaque année, cet objectif reçoit un financement important de l’industrie de la mode bien dotée :

À partir du document « Image-Based Virtual Try-On : une étude », des exemples de types de représentation de personnes et de certaines des étapes de filtrage et d'affinage que même les images de base doivent subir pour un essayage virtuel. Source - https://arxiv.org/pdf/2311.04811v3

À partir du document ‘Image-Based Virtual Try-On : une étude’, des exemples de types de représentation de personnes et de certaines des étapes de filtrage et d’affinage que même les images de base doivent subir pour un essayage virtuel (VTON). Source

Il existe de nombreuses variations sur cet objectif, telles que l’extraction de vêtements à partir d’images de personnes, et l’adaptation à la silhouette plus généreuse lorsque cela est nécessaire. Certains systèmes basés sur des images ont été mis en œuvre commercialement, sur des plateformes telles que veesual.ai, wanna.fashion et fashn.ai.

Pour la vidéo, l’application expérimentale Doppl de Google Labs a expérimenté cette fonctionnalité, lancée l’été dernier :

Veuillez cliquer pour jouer si la vidéo ne se lance pas automatiquement. Extraits du projet abandonné de Google Doppl d’essayage virtuel. Source

Cependant, Doppl ferme en avril 2026 après une réception tiède, avec des téléspectateurs maintenant renvoyés au service d’essayage d’image uniquement de l’entreprise :

Programme d'essayage d'image uniquement de Google, où les utilisateurs sont renvoyés à partir de la plateforme Doppl abandonnée de l'entreprise. Source - https://www.google.com/shopping/tryon

Programme d’essayage d’image uniquement de Google, où les utilisateurs sont renvoyés à partir de la plateforme Doppl abandonnée de l’entreprise. Source

Bien qu’il existe un petit nombre de plateformes proposant un essayage virtuel avec vidéo, aucune d’entre elles ne semble être affiliée à un détaillant réel ; et elles sont toutes des produits « pointe » marginaux (et souvent « douteux ») avec jetons.

Alors qu’il existe un certain nombre de tentatives intéressantes du secteur de la recherche, elles sont traditionnellement des architectures complexes qui sont difficiles à mettre en œuvre pour une faible latence et une qualité élevée :

Veuillez cliquer pour jouer si la vidéo ne se lance pas automatiquement. À partir du projet Fashion-VDM de 2024, un exemple de transfert de vêtements « sans tête ». Source

La vérité est que la tâche de conformer les vêtements à une personne réelle, sans déformer ni les vêtements ni la personne, tout en maintenant une sorte de mouvement démonstratif utile (qui montre avec précision le dos du produit lorsque la personne tourne le dos), est un défi formidable pour l’état actuel de la technique.

Vanast

C’est un défi que le nouveau document coréen tente de relever, en utilisant une solution intégrée et entièrement nouvelle pour analyser les vêtements + la personne + le mouvement :

Veuillez cliquer pour jouer si la vidéo ne se lance pas automatiquement. Exemples à partir du site de matériel supplémentaire du projet Vanast. Source

Le nouveau système, intitulé Vanast, utilise un ensemble de données personnalisé mettant en œuvre et orchestrant les trois facteurs nécessaires pour accomplir la tâche : les vêtements ; la personne ; et le mouvement :

Cliquez pour jouer. Autres exemples à partir du site du projet Vanast.

Le système utilise des cadres tels que Flux, Qwen et ChatGPT, pour générer un ensemble de données « triplet » capable d’informer une architecture de bout en bout :

À partir du nouveau document, des exemples de points de données de l'ensemble de données utilisés pour la génération et la formation. Source - https://arxiv.org/pdf/2604.04934

À partir du nouveau document, des exemples de points de données de l’ensemble de données utilisés pour la génération et la formation. Source

Le nouveau document est intitulé Vanast : Essayage Virtuel avec Animation d’Image Humaine via Supervision de Triplet Synthétique, et provient de quatre chercheurs de l’Université nationale de Séoul. Il existe également un site de projet avec de nombreuses vidéos.

Méthode

L’objectif déclaré des auteurs dans ce travail est de fusionner les trois aspects mentionnés précédemment dans un cadre à une seule étape – non seulement parce que le processus serait discret, mais également parce que cela donne aux différents aspects plus d’opportunités de s’entrelacer et d’interagir pendant la formation, dans le but d’une génération plus cohérente :

Vanast combine une seule photo humaine, des images de vêtements séparées et une référence de mouvement pour générer une séquence de mouvement dans laquelle la même personne porte la nouvelle tenue, avec une orientation de pose garantissant un mouvement cohérent, tandis que l'identité et les détails des vêtements sont préservés à travers les cadres.

Vanast combine une seule photo humaine, des images de vêtements séparées et une référence de mouvement pour générer une séquence de mouvement dans laquelle la même personne porte la nouvelle tenue, avec une orientation de pose garantissant un mouvement cohérent, tandis que l’identité et les détails des vêtements sont préservés à travers les cadres.

Pour atteindre cet objectif, le système prend des images des articles de vêtement ciblés ; une photo de la personne portant des vêtements différents ; une référence de mouvement vidéo définissant comment la personne doit bouger ; et un texte de prompt décrivant l’action et le paramètre ; et produit une séquence de vidéo complète dans laquelle cette même personne semble porter la nouvelle tenue, tout en suivant le mouvement imposé, avec chaque cadre conservé visuellement cohérent dans le temps.

Plutôt que de séparer l’habillage et l’animation en différentes étapes – ce qui a été l’approche de la plupart des travaux similaires antérieurs – Vanast gère les vêtements, l’identité et le mouvement ensemble dans un seul processus, permettant à ces éléments d’interagir pendant la génération, et réduisant les types de correspondance et d’instabilité évidentes dans les méthodes antérieures.

Ensemble de données

La formation du projet est basée sur des exemples appariés d’une image de personne, des articles de vêtement correspondants et d’une vidéo de cette personne se déplaçant tout en portant ces vêtements, avec le mouvement extrait à l’aide d’une architecture précédente, pour fournir une orientation de pose stable à travers les cadres.

En l’absence d’un ensemble de données publiquement disponible répondant aux exigences du projet, les données ont été extraites de (non spécifiées) plateformes de commerce en ligne, fournissant un cache de vidéos avec des vêtements divers. Cependant, la tâche nécessitait des vidéos de la même personne portant plusieurs tenues, ce qui est rare dans les données sauvages, et qui a nécessité la création de données synthétiques.

Le processus en trois étapes a consisté à sélectionner des cadres candidats appropriés à partir des vidéos extraites, gérés via le modèle de langage vision Qwen2.5-VL (VLM), avec un recadrage et une évaluation appropriés de la convenance (c’est-à-dire pas d’occlusions, sujet dans la bonne position, etc.) ; et à créer des masques de remplissage appropriés pour isoler les zones touchées – ce qui (conformément au travail précédent PERSE) est géré par le modèle de diffusion SDXL maintenant vénéré.

Vue d'ensemble de la pipeline Vanast, où une image humaine, des images de vêtements ciblés et une vidéo de guidage de mouvement sont encodés et traités dans un modèle de diffusion de vidéo unifié. Le système génère une animation qui préserve l'identité, suit la séquence de pose et applique les vêtements ciblés, tandis que la génération de triplet synthétique prend en charge la formation, et une conception à double module sépare l'animation du transfert de vêtements, pour maintenir la cohérence.

Vue d’ensemble de la pipeline Vanast, où une image humaine, des images de vêtements ciblés et une vidéo de guidage de mouvement sont encodés et traités dans un modèle de diffusion de vidéo unifié. Le système génère une animation qui préserve l’identité, suit la séquence de pose et applique les vêtements ciblés, tandis que la génération de triplet synthétique prend en charge la formation, et une conception à double module sépare l’animation du transfert de vêtements, pour maintenir la cohérence.

Dans la troisième étape, Qwen est à nouveau utilisé pour classer les images par sexe, et le cadre d’image de diffusion populaire Flux est ensuite utilisé pour créer des modifications des vêtements dans une image (puisque Flux est capable de combiner plusieurs éléments d’entrée). Les invites de texte de remplissage ont été soigneusement sélectionnées par ChatGPT (version non spécifiée).

Pour augmenter encore la diversité de pose et d’arrière-plan, une pipeline a été introduite pour construire des triplets de formation à partir de vidéos in situ, en utilisant l’ensemble de données HumanVid. Le même processus a été utilisé pour générer l’image humaine à identité préservée.

Puisqu’aucune image de vêtement autonome n’existait dans ces vidéos, les images de vêtements ont été synthétisées directement à partir de la vidéo.

Des cadres ont été échantillonnés à partir de chaque vidéo, et Qwen a été utilisé pour les noter en termes de visibilité frontale, avant de sélectionner le candidat le plus approprié, en fonction de la visibilité du corps entier, de la clarté de l’image, d’une occlusion minimale, de la qualité d’éclairage et de la composition globale.

Une région de vêtement supérieur a été extraite à l’aide de SegFormer, et l’arrière-plan a été supprimé pour isoler le vêtement.

Pour éviter les biais de position, la région du vêtement a été décalée aléatoirement dans sa boîte de délimitation, et Qwen a été utilisé à nouveau pour filtrer les segmentations non fiables. Ce processus a produit des images de vêtements synthétiques appariées avec le mouvement et l’identité, permettant une construction de triplet à grande échelle à partir de données vidéo non structurées, tout en améliorant la robustesse dans des conditions réelles variées.

Architecture

Une architecture à double module a été introduite pour résoudre la convergence lente et l’équilibre de contrôle faible observés dans les méthodes antérieures qui avaient tenté de fusionner toutes les conditions. L’approche a utilisé le transformateur de diffusion de vidéo à texte de Wan, et s’est également appuyé sur le projet VACE (voir ci-dessous).

Le modèle a été divisé en un module d’animation humaine (HAM), qui gère le mouvement et l’identité à partir des entrées humaines et de pose ; et un module de transfert de vêtements (GTM), qui gère les vêtements à partir des images de vêtements. Les deux partagent l’accès au backbone, tout en intégrant les fonctionnalités de manière distribuée et en cascade, pour améliorer la condition.

La formation a été effectuée en figeant le backbone et en optimisant uniquement les paramètres HAM et GTM, avec leurs contributions équilibrées pendant l’intégration des fonctionnalités. Les entrées de l’ensemble de données de triplet synthétique ont été converties en représentations latentes à l’aide de l’auto-encodeur variationnel (VAE) de WAN.

Le contexte de mouvement a été construit en combinant les informations humaines et de pose dans le temps, tandis que les fonctionnalités de vêtements ont été traitées séparément et alignées par projection dans les embeddings de jeton.

Le modèle a également été étendu pour prendre en charge l’interpolation de vêtements. Ici, les représentations de deux vêtements ont été combinées pour générer des transitions lisses, permettant un mélange cohérent et constant entre les articles de vêtement, sans optimisation supplémentaire.

Données et tests

Le modèle a été formé sur 9 135 vidéos, avec des longueurs allant de trois à dix secondes, provenant des sites de centre commercial mentionnés ; l’ensemble de données généré par les auteurs ; et l’ensemble de données HumanVid.

À partir de ceux-ci, deux ensembles de données d’évaluation ont été établis : l’ensemble de données « Internet », présentant des vidéos et des images de produits des centres commerciaux ; et la division de test officielle de l’ensemble de données ViViD d’Alibaba.

Puisque les données ViViD manquent de visages (voir la vidéo ci-dessus, pour un exemple de cela, qui est très courant dans la littérature d’essayage virtuel), ceux-ci ont été ajoutés via Flux outpainting.

Les métriques utilisées étaient L1 loss ; Peak Signal-to-Noise Ratio (PSNR) ; Structural Similarity Index (SSIM) ; Learned Perceptual Image Patch Similarity (LPIPS) ; Fréchet Inception Distance (FID) ; et Fréchet Video Distance†† (FVD)

Les systèmes testés pour le transfert de vêtements étaient OOTDiffusion ; CatVTON ; OmniTry ; et Any2AnyTryon. Les modèles de génération d’image de sujet à image testés étaient VisualCloze ; MOSAIC ; et UNO de ByteDance.

Pour la deuxième étape d’animation d’image humaine, les cadres StableAnimator et DisPose ont été utilisés.

Dans un contexte plus limité (car il ne prend pas en charge directement l’objectif), VACE a également été testé, avec quelques efforts pour équilibrer la fonctionnalité manquante :

Comparaison quantitative avec des combinaisons de modèles de génération d'image de sujet et d'animation sur les ensembles de données Internet et ViViD, où la méthode proposée a obtenu les meilleures performances sur tous les métriques signalés. Les valeurs en gras indiquent le score le plus élevé dans chaque colonne.

Comparaison quantitative avec des combinaisons de modèles de génération d’image de sujet et d’animation sur les ensembles de données Internet et ViViD, où la méthode proposée a obtenu les meilleures performances sur tous les métriques signalés. Les valeurs en gras indiquent le score le plus élevé dans chaque colonne.

Sur les résultats initiaux présentés ci-dessus, les auteurs déclarent :

‘[Notre] modèle obtient les meilleures performances sur tous les métriques lorsqu’il est comparé à des combinaisons de modèles de génération d’image de sujet et d’animation.

‘Les résultats qualitatifs [présentés ci-dessous] confirment en outre que notre approche produit le suivi de pose et le transfert de vêtements les plus précis, tout en préservant l’identité de manière plus fidèle que toutes les lignes de base basées sur le sujet à l’image.’

Comparaison qualitative sur les ensembles de données Internet et ViViD contre les lignes de base de sujet à image et d'animation, où la méthode proposée, selon les auteurs, offre un alignement de pose et un transfert de vêtements plus précis, tout en préservant l'identité de manière plus cohérente que VisualCloze, MOSAIC, UNO et VACE.

Comparaison qualitative sur les ensembles de données Internet et ViViD contre les lignes de base de sujet à image et d’animation, où la méthode proposée, selon les auteurs, offre un alignement de pose et un transfert de vêtements plus précis, tout en préservant l’identité de manière plus cohérente que VisualCloze, MOSAIC, UNO et VACE.

Pour la deuxième catégorie de tests, où des combinaisons de modèles d’essayage virtuel d’image et d’animation ont été testées, le nouveau travail a également pu atteindre le score le plus élevé :

Comparaison quantitative avec des combinaisons de modèles d'essayage virtuel d'image et d'animation sur les ensembles de données Internet et ViViD. La méthode proposée a obtenu les meilleures performances globales sur les métriques, avec un SSIM restant comparable à la ligne de base la plus forte. Les valeurs en gras désignent le score le plus élevé.

Comparaison quantitative avec des combinaisons de modèles d’essayage virtuel d’image et d’animation sur les ensembles de données Internet et ViViD. La méthode proposée a obtenu les meilleures performances globales sur les métriques, avec un SSIM restant comparable à la ligne de base la plus forte. Les valeurs en gras désignent le score le plus élevé.

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.