Connect with us

Intelligence artificielle

Un Nouveau Système pour des Personnages de Vidéo à Diffusion Stable Temporellement Cohérents

mm
A capture from the project page of MIMO (https://menyifang.github.io/projects/MIMO/index.html), depicting a motion-driven wolf creature.

Une nouvelle initiative du groupe Alibaba propose l’une des meilleures méthodes que j’aie vues pour générer des avatars humains complets à partir d’un modèle de base fondé sur Stable Diffusion.

Intitulé MIMO (MIMiquant avec des Objets Interactions), le système utilise une gamme de technologies et de modules populaires, notamment des modèles humains basés sur CGI et AnimateDiff, pour permettre un remplacement de personnages temporellement cohérent dans les vidéos – ou pour animer un personnage avec une pose squelettique définie par l’utilisateur.

Ici, nous voyons des personnages interpolés à partir d’une seule source d’image, et animés par une motion prédéfinie :

[Cliquez sur la vidéo ci-dessous pour la lire]

À partir d’images sources uniques, trois personnages divers sont animés par une séquence de pose 3D (à gauche) à l’aide du système MIMO. Voir le site du projet et la vidéo YouTube accompagnant (intégrée à la fin de cet article) pour plus d’exemples et une résolution supérieure. Source : https://menyifang.github.io/projects/MIMO/index.html

Les personnages générés, qui peuvent également être issus de cadres de vidéos et de diverses autres manières, peuvent être intégrés à des séquences réelles.

MIMO propose un système novateur qui génère trois encodages distincts, chacun pour le personnage, la scène et l’occlusion (c’est-à-dire le matting, lorsque quelque chose ou quelqu’un passe devant le personnage représenté). Ces encodages sont intégrés au moment de l’inférence.

[Cliquez sur la vidéo ci-dessous pour la lire]

MIMO peut remplacer les personnages d’origine par des personnages photoréalistes ou stylisés qui suivent le mouvement de la vidéo cible. Voir le site du projet et la vidéo YouTube accompagnant (intégrée à la fin de cet article) pour plus d’exemples et une résolution supérieure.

Le système est formé sur le modèle Stable Diffusion V1.5, en utilisant un ensemble de données personnalisé créé par les chercheurs, et composé à parts égales de vidéos du monde réel et de simulations.

Le grand problème de la diffusion de vidéo basée sur la diffusion est la stabilité temporelle, où le contenu de la vidéo clignote ou « évolue » de manière non souhaitable pour une représentation de personnage cohérente.

MIMO, en revanche, utilise efficacement une seule image comme carte pour une orientation cohérente, qui peut être orchestrée et contrainte par le modèle CGI SMPL interstitiel.

Puisque la référence source est cohérente, et que le modèle de base sur lequel le système est formé a été amélioré avec des exemples de mouvement représentatifs, les capacités du système pour une sortie temporellement cohérente sont bien au-dessus de la norme générale pour les avatars basés sur la diffusion.

[Cliquez sur la vidéo ci-dessous pour la lire]

Autres exemples de personnages MIMO animés par une pose. Voir le site du projet et la vidéo YouTube accompagnant (intégrée à la fin de cet article) pour plus d’exemples et une résolution supérieure.

Il devient de plus en plus courant d’utiliser des images uniques comme source pour des représentations neuronales efficaces, soit seules, soit de manière multimodale, combinées avec des invites de texte. Par exemple, le système de transfert de visage LivePortrait peut également générer des visages très plausibles à partir d’images de visage uniques.

Les chercheurs pensent que les principes utilisés dans le système MIMO peuvent être étendus à d’autres types de systèmes et de cadres génératifs.

Le nouvel article est intitulé MIMO : Synthèse de Vidéo de Personnages Contrôlables avec Modélisation Décomposée Spatiale, et vient de quatre chercheurs de l’Institut pour l’informatique intelligente du groupe Alibaba. Le travail a une page de projet avec des vidéos et une vidéo YouTube accompagnante, qui est également intégrée à la fin de cet article.

Méthode

MIMO réalise une séparation automatique et non supervisée des trois composants spatiaux mentionnés, dans une architecture de bout en bout (c’est-à-dire que tous les sous-processus sont intégrés au système, et que l’utilisateur n’a besoin de fournir que le matériel d’entrée).

Le schéma conceptuel pour MIMO. Source : https://arxiv.org/pdf/2409.16160

Le schéma conceptuel pour MIMO. Source : https://arxiv.org/pdf/2409.16160

Les objets dans les vidéos sources sont traduits de 2D à 3D, initialement en utilisant l’estimateur de profondeur monocular Depth Anything. L’élément humain dans chaque trame est extrait à l’aide de méthodes adaptées du projet Tune-A-Video.

Ces fonctions sont ensuite traduites en facettes volumétriques basées sur la vidéo via l’architecture Segment Anything 2 de Facebook Research.

La couche de scène elle-même est obtenue en supprimant les objets détectés dans les deux autres couches, fournissant ainsi un masque de type rotoscope de manière automatique.

Pour le mouvement, un ensemble de codes latents extraits pour l’élément humain sont ancrés à un modèle humain CGI de base SMPL, dont les mouvements fournissent le contexte pour le contenu humain rendu.

Une carte de fonction 2D pour le contenu humain est obtenue à l’aide d’un rastérisateur différentiable dérivé d’une initiative 2020 de NVIDIA. En combinant les données 3D obtenues à partir de SMPL avec les données 2D obtenues par la méthode NVIDIA, les codes latents représentant la « personne neuronale » ont une correspondance solide avec leur contexte éventuel.

À ce stade, il est nécessaire d’établir une référence couramment nécessaire dans les architectures qui utilisent SMPL – une pose canonique. Cela est largement similaire à l’« Homme de Vitruve » de Da Vinci, dans la mesure où il représente un modèle de pose zéro qui peut accepter du contenu et ensuite être déformé, en emportant avec lui le contenu (effectivement) texturé.

Ces déformations, ou « déviations par rapport à la norme », représentent le mouvement humain, tandis que le modèle SMPL préserve les codes latents qui constituent l’identité humaine qui a été extraite, et représente ainsi correctement l’avatar résultant en termes de pose et de texture.

Un exemple de pose canonique dans une figure SMPL. Source : https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264

Un exemple de pose canonique dans une figure SMPL. Source : https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264

En ce qui concerne le problème de l’entanglement (la mesure dans laquelle les données formées peuvent se révéler inflexibles lorsqu’elles sont étirées au-delà de leurs limites et associations formées), les auteurs déclarent* :

‘Pour désentangler complètement l’apparence des trames de vidéo posées, une solution idéale consiste à apprendre la représentation humaine dynamique à partir de la vidéo monulaire et à la transformer de l’espace posé à l’espace canonique.

‘Compte tenu de l’efficacité, nous employons une méthode simplifiée qui transforme directement l’image humaine posée en résultat canonique en utilisant un modèle de repose humain préformé. L’image d’apparence canonique synthétisée est alimentée dans les encodeurs d’ID pour obtenir le code [d’identité].

‘Cette conception simple permet une désentanglement complet des attributs d’identité et de mouvement. Suivant [Animate Anyone], les encodeurs d’ID incluent un encodeur d’image CLIP et une architecture de référence pour intégrer les fonctionnalités globales et locales, [respectivement].’

Pour les aspects scène et occlusion, un Autoencodeur Variationnel (VAE – dans ce cas dérivé d’une publication 2013) partagé et fixe est utilisé pour intégrer les éléments de scène et d’occlusion dans l’espace latent. Les incohérences sont gérées par une méthode d’inpainting du projet ProPainter 2023.

Une fois assemblés et retouchés de cette manière, l’arrière-plan et les objets d’occlusion dans la vidéo fourniront un masque pour l’avatar humain en mouvement.

Ces attributs décomposés sont ensuite introduits dans une architecture U-Net basée sur l’architecture Stable Diffusion V1.5. Le code de scène complet est concaténé avec le bruit latent natif du système hôte. Le composant humain est intégré via des couches d’auto-attention et d’attention croisée, respectivement.

Ensuite, le résultat dénuit est sorti via le décodeur VAE.

Données et Tests

Pour la formation, les chercheurs ont créé un ensemble de données vidéo humaines intitulé HUD-7K, qui se compose de 5 000 vidéos de personnages réels et de 2 000 animations synthétiques créées par le système En3D. Les vidéos réelles n’ont pas nécessité d’annotation, en raison de la nature non sémantique des procédures d’extraction de figure dans l’architecture MIMO. Les données synthétiques ont été entièrement annotées.

Le modèle a été formé sur huit GPU NVIDIA A100 (bien que l’article ne spécifie pas si ceux-ci étaient des modèles 40GB ou 80GB VRAM), pendant 50 itérations, en utilisant 24 trames de vidéo et une taille de lot de quatre, jusqu’à convergence.

Le module de mouvement pour le système a été formé sur les poids d’AnimateDiff. Au cours du processus de formation, les poids de l’encodeur VAE/décodeur et de l’encodeur d’image CLIP ont été gelés (par opposition à un affinage complet, qui aurait un effet beaucoup plus large sur un modèle de base).

Bien que MIMO n’ait pas été testé contre des systèmes analogues, les chercheurs l’ont testé sur des séquences de mouvement difficiles en dehors de la distribution provenant de AMASS et Mixamo. Ces mouvements incluaient l’escalade, le jeu et la danse.

Ils ont également testé le système sur des vidéos humaines dans la nature. Dans les deux cas, l’article rapporte une « grande robustesse » pour ces mouvements 3D non vus, provenant de différents points de vue.

Bien que l’article propose de multiples résultats d’images statiques démontrant l’efficacité du système, les performances réelles de MIMO sont mieux évaluées avec les résultats vidéo étendus fournis sur la page du projet, et dans la vidéo YouTube intégrée ci-dessous (à partir de laquelle les vidéos au début de cet article ont été dérivées).

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.