Angle d'Anderson

Une avancée notable dans la vidéo d'IA pilotée par l'humain

Publié le 4 avril 2025

Martin Anderson

Exemples de la page du projet DreamActor.

Note: La page du projet pour ce travail comprend 33 vidéos haute résolution à lecture automatique, totalisant un demi-gigaoctet, ce qui a déstabilisé mon système lors du chargement. Pour cette raison, je ne fournirai pas de lien direct vers cette page. Les lecteurs peuvent trouver l'URL dans le résumé de l'article ou au format PDF s'ils le souhaitent.

L'un des principaux objectifs de la recherche actuelle en synthèse vidéo est de générer une performance vidéo complète pilotée par l'IA à partir d'une seule image. Cette semaine, un nouvel article de Bytedance Intelligent Creation présente ce qui pourrait être le système le plus complet de ce type à ce jour, capable de produire des animations corporelles complètes et partielles combinant détails expressifs du visage et mouvements précis à grande échelle, tout en améliorant la cohérence de l'identité – un domaine où même les systèmes commerciaux leaders sont souvent défaillants.

Dans l'exemple ci-dessous, nous voyons une performance menée par un acteur (en haut à gauche) et dérivée d'une seule image (en haut à droite), qui offre un rendu remarquablement flexible et adroit, sans aucun des défauts habituels. vous aider à faire face aux problèmes qui vous perturbent autour de la création de grands mouvements ou de « devinettes » sur les zones occultées (c'est-à-dire les parties de vêtements et les angles du visage qui doivent être déduits ou inventés car ils ne sont pas visibles sur la photo source unique) :

CONTENU AUDIO. Cliquez pour écouterUne performance naît de deux sources, dont la synchronisation labiale, habituellement réservée à des systèmes auxiliaires dédiés. Il s'agit d'une version réduite du site source (voir note en début d'article – applicable à toutes les autres vidéos intégrées ici).

Bien que nous puissions constater certains défis résiduels concernant la persistance de l'identité à mesure que chaque clip progresse, c'est le premier système que j'ai vu qui excelle généralement (mais pas toujours) à maintenir l'identité sur une période prolongée sans utiliser de LoRA:

CONTENU AUDIO. Cliquez pour écouter. Autres exemples du projet DreamActor.

Le nouveau système, intitulé DreamActor, utilise un système de contrôle hybride en trois parties qui accorde une attention particulière à l'expression du visage, à la rotation de la tête et à la conception du squelette central, permettant ainsi des performances pilotées par l'IA où ni l'aspect du visage ni celui du corps ne souffrent au détriment de l'autre - une capacité rare, sans doute inconnue parmi des systèmes similaires.

Ci-dessous, nous voyons une de ces facettes, rotation de la tête, en action. La boule colorée dans le coin de chaque vignette vers la droite indique une sorte de cardan virtuel qui définit l'orientation de la tête indépendamment du mouvement et de l'expression du visage, qui est ici piloté par un acteur (en bas à gauche).

Cliquez ici pour lireLa boule multicolore visualisée ici représente l'axe de rotation de la tête de l'avatar, tandis que l'expression est alimentée par un module séparé et informée par la performance d'un acteur (vu ici en bas à gauche).

L'une des fonctionnalités les plus intéressantes du projet, qui n'est même pas incluse correctement dans les tests du document, est sa capacité à dériver le mouvement de synchronisation labiale directement à partir de l'audio - une capacité qui fonctionne exceptionnellement bien même sans vidéo d'acteur moteur.

Les chercheurs ont affronté les meilleurs candidats dans cette quête, y compris le très apprécié Acte 1 de la piste et Portrait en direct, et rapportent que DreamActor a pu obtenir de meilleurs résultats quantitatifs.

Étant donné que les chercheurs peuvent définir leurs propres critères, les résultats quantitatifs ne constituent pas nécessairement une norme empirique ; mais les tests qualitatifs qui les accompagnent semblent étayer les conclusions des auteurs.

Malheureusement, ce système n'est pas destiné à être rendu public, et la seule valeur que la communauté peut potentiellement tirer de ce travail est de reproduire potentiellement les méthodologies décrites dans le document (comme cela a été fait avec un effet notable pour le système à code source également fermé). Google Dreambooth en 2022).

Le papier précise* :

L'animation d'images humaines présente des risques sociaux potentiels, notamment son utilisation abusive pour créer de fausses vidéos. La technologie proposée pourrait servir à créer de fausses vidéos de personnes, mais les outils de détection existants…Démamba, Dormant] peut repérer ces contrefaçons.

Pour réduire ces risques, des règles éthiques claires et des directives d'utilisation responsable sont nécessaires. Nous limiterons strictement l'accès à nos modèles et codes de base afin d'éviter toute utilisation abusive.

Naturellement, de telles considérations éthiques sont avantageuses d'un point de vue commercial, car elles justifient l'accès exclusif au modèle par API, monétisable ensuite. ByteDance a déjà réalisé cette opération en 2025, en rendant le OmniHuman, très apprécié Disponible contre des crédits payants sur le site web de Dreamina. DreamActor étant potentiellement un produit encore plus performant, ce résultat semble probable. Reste à voir dans quelle mesure ses principes, tels qu'ils sont expliqués dans le document, pourront aider la communauté open source.

L'espace nouveau papier est intitulé DreamActor-M1 : Animation d'images humaines holistique, expressive et robuste avec guidage hybride, et provient de six chercheurs de Bytedance.

Méthode

Le système DreamActor proposé dans l'article vise à générer une animation humaine à partir d'une image de référence et d'une vidéo de conduite, en utilisant un Transformateur de diffusion Cadre (DiT) adapté pour espace latent (apparemment une sorte de diffusion stable, bien que le document ne cite que le Publication historique de 2022).

Plutôt que de s'appuyer sur des modules externes pour gérer le conditionnement de référence, les auteurs fusionnent les caractéristiques d'apparence et de mouvement directement à l'intérieur de l'épine dorsale DiT, permettant une interaction à travers l'espace et le temps grâce à l'attention :

Schéma du nouveau système : DreamActor encode la pose, les mouvements du visage et l'apparence dans des signaux latents distincts, puis les combine avec des signaux vidéo bruités produits par un VAE 3D. Ces signaux sont fusionnés dans un transformateur de diffusion utilisant l'auto-attention et l'attention croisée, avec des pondérations partagées entre les branches. Le modèle est supervisé en comparant les sorties débruitées aux signaux vidéo latents nettoyés. Source : https://arxiv.org/pdf/2504.01724

Schéma du nouveau système : DreamActor encode la pose, le mouvement du visage et l'apparence dans des signaux latents distincts, puis les combine avec des signaux vidéo latents bruités produits par un VAE 3D. Ces signaux sont fusionnés dans un transformateur de diffusion utilisant l'auto-attention et l'attention croisée, avec des pondérations partagées entre les branches. Le modèle est supervisé en comparant les sorties débruitées aux signaux vidéo latents propres. Source : https://arxiv.org/pdf/2504.01724

Pour ce faire, le modèle utilise un modèle 3D pré-entraîné. auto-encodeur variationnel pour encoder à la fois la vidéo d'entrée et l'image de référence. Ces latentes sont patché, concaténés et introduits dans le DiT, qui les traite conjointement.

Cette architecture s'écarte de la pratique courante consistant à attacher un réseau secondaire pour l'injection de référence, qui était l'approche de l'influent Animer n’importe qui et Animer n'importe qui 2 projets.

Au lieu de cela, DreamActor intègre la fusion au modèle principal, simplifiant ainsi la conception tout en améliorant le flux d'informations entre les signaux d'apparence et de mouvement. Le modèle est ensuite entraîné à l'aide de correspondance de flux plutôt que l'objectif de diffusion standard (la correspondance de flux entraîne les modèles de diffusion en prédisant directement les champs de vitesse entre les données et le bruit, en sautant estimation du score).

Guidage de mouvement hybride

La méthode Hybrid Motion Guidance qui informe les rendus neuronaux combine des jetons de pose dérivés de squelettes corporels 3D et de sphères de tête ; des représentations faciales implicites extraites par un encodeur de visage pré-entraîné ; et des jetons d'apparence de référence échantillonnés à partir de l'image source.

Ces éléments sont intégrés au sein du transformateur de diffusion à l’aide de mécanismes d’attention distincts, permettant au système de coordonner le mouvement global, l’expression faciale et l’identité visuelle tout au long du processus de génération.

Pour le premier d'entre eux, plutôt que de s'appuyer sur des repères faciaux, DreamActor utilise des représentations faciales implicites pour guider la génération d'expressions, permettant apparemment un contrôle plus fin sur la dynamique faciale tout en démêlant l'identité et la pose de la tête de l'expression.

Pour créer ces représentations, le pipeline détecte et recadre d'abord la zone du visage dans chaque image de la vidéo de conduite, la redimensionnant à 224 × 224. Les visages recadrés sont traités par un encodeur de mouvement de visage pré-entraîné sur le PD-FGC ensemble de données, qui est ensuite conditionné par un MLP couche.

La technologie PD-FGC, utilisée dans DreamActor, génère une tête parlante à partir d'une image de référence, avec un contrôle précis de la synchronisation labiale (à partir de l'audio), de la posture de la tête, du mouvement des yeux et de l'expression (à partir de vidéos distinctes), permettant une manipulation précise et indépendante de chaque élément. Source : https://arxiv.org/pdf/2211.14506

PD-FGC, utilisé dans DreamActor, génère une tête parlante à partir d'une image de référence avec un contrôle précis de la synchronisation labiale (à partir de l'audio), de la pose de la tête, du mouvement des yeux et de l'expression (à partir de vidéos séparées), permettant une manipulation précise et indépendante de chacun. Source : https://arxiv.org/pdf/2211.14506

Le résultat est une séquence de jetons de mouvement de visage, qui sont injectés dans le transformateur de diffusion via un attention croisée couche.

Le même cadre prend également en charge un piloté par l'audio Variante : un encodeur distinct est formé pour associer directement les entrées vocales aux jetons de mouvement du visage. Cela permet de générer des animations faciales synchronisées, incluant les mouvements des lèvres, sans vidéo de conduite.

CONTENU AUDIO. Cliquez pour écouterSynchronisation labiale dérivée uniquement de l'audio, sans référence à un acteur moteur. La seule entrée du personnage est la photo statique visible en haut à droite.

Deuxièmement, pour contrôler la pose de la tête indépendamment de l'expression du visage, le système introduit une représentation sphérique de la tête en 3D (voir la vidéo intégrée plus haut dans cet article), qui dissocie la dynamique du visage du mouvement global de la tête, améliorant ainsi la précision et la flexibilité pendant l'animation.

Les sphères de tête sont générées en extrayant des paramètres faciaux 3D – tels que la rotation et la pose de la caméra – à partir de la vidéo de conduite à l'aide de FaceVerse méthode de suivi.

Schéma du projet FaceVerse. Source : https://www.liuyebin.com/faceverse/faceverse.html

Schéma pour le projet FaceVerse. Source : https://www.liuyebin.com/faceverse/faceverse.html

Ces paramètres permettent de restituer une sphère colorée projetée sur le plan de l'image 2D, alignée spatialement avec la tête motrice. La taille de la sphère correspond à la tête de référence et sa couleur reflète son orientation. Cette abstraction simplifie l'apprentissage du mouvement de la tête 3D, contribuant ainsi à préserver les formes stylisées ou exagérées des personnages issus d'animations.

Visualisation de la sphère de contrôle influençant l'orientation de la tête.

Enfin, pour guider les mouvements du corps entier, le système utilise des squelettes 3D avec normalisation adaptative de la longueur des os. Les paramètres du corps et des mains sont estimés à l'aide de 4DHumans et la focalisation sur la main HaMeR, qui fonctionnent tous deux sur le SMPL-X modèle de corps.

SMPL-X applique un maillage paramétrique sur l'ensemble du corps humain dans une image, en s'alignant sur la pose et l'expression estimées pour permettre une manipulation tenant compte de la pose en utilisant le maillage comme guide volumétrique. Source : https://arxiv.org/pdf/1904.05866

À partir de ces résultats, les articulations clés sont sélectionnées, projetées en 2D et connectées à des cartes squelettiques linéaires. Contrairement à des méthodes telles que Champ, qui rendent des maillages du corps entier, cette approche évite d'imposer des formes prédéfinies et, en s'appuyant uniquement sur la structure squelettique, le modèle est ainsi encouragé à déduire la forme et l'apparence du corps directement à partir des images de référence, réduisant ainsi le biais vers des types de corps fixes et améliorant la généralisation sur une gamme de poses et de constructions.

Pendant l'entraînement, les squelettes corporels 3D sont concaténés avec des sphères de tête et transmis via un encodeur de pose, qui génère Caractéristiques qui sont ensuite combinés avec des latents vidéo bruités pour produire les jetons de bruit utilisés par le transformateur de diffusion.

Au moment de l'inférence, le système tient compte des différences squelettiques entre les sujets en normalisant les longueurs osseuses. GraineModifier Le modèle d'édition d'images pré-entraîné transforme les images de référence et de conduite en une image standard configuration canonique. Pose RTMP est ensuite utilisé pour extraire les proportions squelettiques, qui sont utilisées pour ajuster le squelette moteur afin qu'il corresponde à l'anatomie du sujet de référence.

Présentation du pipeline d'inférence. Des pseudo-références peuvent être générées pour enrichir les indices d'apparence, tandis que des signaux de contrôle hybrides – mouvements faciaux implicites et poses explicites provenant des sphères de la tête et des squelettes corporels – sont extraits de la vidéo de conduite. Ceux-ci sont ensuite intégrés à un modèle DiT pour produire une sortie animée, les mouvements faciaux étant découplés de la pose corporelle, permettant ainsi l'utilisation de l'audio comme moteur.

Conseils d'apparence

Pour améliorer la fidélité de l'apparence, en particulier dans les zones occultées ou rarement visibles, le système complète l'image de référence principale avec des pseudo-références échantillonnées à partir de la vidéo d'entrée.

Cliquez ici pour lireLe système anticipe la nécessité de restituer les zones occultées avec précision et cohérence. C'est ce que j'ai pu observer, dans un projet de ce type, comme une approche de texture bitmap de type CGI.

Ces images supplémentaires sont choisies pour la diversité des poses à l'aide de RTMPose et filtrées à l'aide de la similarité basée sur CLIP pour garantir qu'elles restent cohérentes avec l'identité du sujet.

Toutes les images de référence (primaires et pseudo-références) sont encodées par le même encodeur visuel et fusionnées grâce à un mécanisme d'auto-attention, permettant au modèle d'accéder à des indices d'apparence complémentaires. Cette configuration améliore la couverture de détails tels que les vues de profil ou les textures des membres. Les pseudo-références sont systématiquement utilisées lors de l'apprentissage et, éventuellement, lors de l'inférence.

Formation

DreamActor a été formé en trois étapes pour introduire progressivement la complexité et améliorer la stabilité.

Dans la première étape, seuls les squelettes corporels 3D et les sphères crâniennes 3D ont été utilisés comme signaux de contrôle, à l'exclusion des représentations faciales. Cela a permis de générer le modèle de base de la vidéo, initialisé à partir de MMDiT, pour s'adapter à l'animation humaine sans être submergé par des contrôles précis.

Dans la deuxième étape, des représentations faciales implicites ont été ajoutées, mais tous les autres paramètres geléSeuls les calques d'encodeur de mouvement du visage et d'attention du visage ont été formés à ce stade, permettant au modèle d'apprendre les détails expressifs de manière isolée.

Dans la dernière étape, tous les paramètres ont été dégelés pour une optimisation conjointe de l'apparence, de la pose et de la dynamique faciale.

Données et tests

Pour la phase de test, le modèle est initialisé à partir d'un point de contrôle DiT image-vidéo pré-entraîné^† et formé en trois étapes : 20,000 30,000 pas pour chacune des deux premières étapes et XNUMX XNUMX pas pour la troisième.

Pour améliorer généralisation Des clips vidéo de différentes durées et résolutions ont été échantillonnés aléatoirement, avec des longueurs comprises entre 25 et 121 images. Ils ont ensuite été redimensionnés à 960 x 640 pixels, tout en préservant le rapport hauteur/largeur.

La formation a été réalisée sur huit (Axé sur la Chine) GPU NVIDIA H20, chacun avec 96 Go de VRAM, utilisant le AdamW optimiseur avec un (tolérablement élevé) taux d'apprentissage de 5e−6.

Lors de l'inférence, chaque segment vidéo contenait 73 images. Afin de maintenir la cohérence entre les segments, la latente finale d'un segment a été réutilisée comme latente initiale pour le segment suivant, ce qui contextualise la tâche comme une génération séquentielle d'images en vidéos.

Guidage sans classificateur a été appliqué avec un poids de 2.5 pour les images de référence et les signaux de contrôle de mouvement.

Les auteurs ont construit un ensemble de données d'entraînement (aucune source n'est mentionnée dans l'article) comprenant 500 heures de vidéos issues de domaines variés, incluant notamment des exemples de danse, de sport, de cinéma et de prise de parole en public. Cet ensemble de données a été conçu pour capturer un large spectre de mouvements et d'expressions humaines, avec une répartition équilibrée entre les prises de vue du corps entier et celles de la moitié du corps.

Pour améliorer la qualité de la synthèse faciale, Nersemble a été intégré au processus de préparation des données.

Exemples tirés de l'ensemble de données Nersemble, utilisés pour enrichir les données de DreamActor. Source : https://www.youtube.com/watch?v=a-OAWqBzldU

Exemples de l'ensemble de données Nersemble, utilisés pour augmenter les données de DreamActor. Source : https://www.youtube.com/watch?v=a-OAWqBzldU

Pour l’évaluation, les chercheurs ont également utilisé leur ensemble de données comme référence pour évaluer la généralisation dans divers scénarios.

Les performances du modèle ont été mesurées à l’aide de mesures standard issues de travaux antérieurs : Distance de départ de Fréchet (FID); Indice de similarité structurelle (SSIM); Similarité des patchs d'images perceptuelles apprises (LPIPS); et Rapport signal/bruit maximal (PSNR) pour la qualité au niveau de l'image. Distance vidéo Fréchet (FVD) a été utilisé pour évaluer la cohérence temporelle et la fidélité vidéo globale.

Les auteurs ont mené des expériences sur des tâches d’animation corporelle et d’animation de portrait, toutes utilisant une seule image de référence (cible).

Pour l'animation corporelle, DreamActor-M1 a été comparé à Animate Anyone ; Champ ; MimicMotion et Disposer.

Comparaisons quantitatives avec des cadres concurrents.

Bien que le PDF fournisse une image statique à titre de comparaison visuelle, l'une des vidéos du site du projet peut mettre en évidence les différences plus clairement :

CONTENU AUDIO. Cliquez ici pour lireComparaison visuelle des frameworks challengers. La vidéo de démonstration est visible en haut à gauche, et la conclusion des auteurs selon laquelle DreamActor produit les meilleurs résultats semble raisonnable.

Pour les tests d'animation de portrait, le modèle a été évalué par rapport à LivePortrait ; X-Portrait; SkyReels-A1; et Acte-Un.

Comparaisons quantitatives pour l'animation de portraits.

Les auteurs notent que leur méthode l’emporte dans les tests quantitatifs et soutiennent qu’elle est également supérieure sur le plan qualitatif.

CONTENU AUDIO. Cliquez pour écouterExemples de comparaisons d'animations de portraits.

On peut dire que le troisième et dernier des clips présentés dans la vidéo ci-dessus présente une synchronisation labiale moins convaincante par rapport à quelques-uns des cadres rivaux, bien que la qualité générale soit remarquablement élevée.

Conclusion

En anticipant le besoin de textures implicites, mais absentes, dans l'image cible unique alimentant ces recréations, ByteDance a relevé l'un des plus grands défis de la génération vidéo par diffusion : des textures cohérentes et persistantes. Après avoir perfectionné cette approche, la prochaine étape logique serait de créer un atlas de référence à partir du clip initial généré, applicable aux générations suivantes, afin de conserver l'apparence sans LoRA.

Bien qu'une telle approche soit toujours une référence externe, elle n'est pas différente du mappage de texture dans les techniques CGI traditionnelles, et la qualité du réalisme et de la plausibilité est bien supérieure à celle que ces anciennes méthodes peuvent obtenir.

Cela dit, l’aspect le plus impressionnant de DreamActor est le système de guidage combiné en trois parties, qui comble de manière ingénieuse le fossé traditionnel entre la synthèse humaine centrée sur le visage et celle centrée sur le corps.

Il reste seulement à voir si certains de ces principes fondamentaux peuvent être exploités dans des offres plus accessibles ; dans l’état actuel des choses, DreamActor semble destiné à devenir une autre offre de synthèse en tant que service, sévèrement limitée par des restrictions d’utilisation et par l’impraticabilité d’expérimenter de manière approfondie avec une architecture commerciale.

* Ma substitution d'hyperliens pour les auteurs ; citations en ligne

^†Comme mentionné précédemment, la saveur de Stable Diffusion utilisée dans ce projet n'est pas claire.

Première publication le vendredi 4 avril 2025

Rubriques connexes:Vidéo IA Création vidéo IA création vidéo diffusion vidéo