Angle d’Anderson

L’IA parfaite la selfie du chat

Publié le 19 décembre 2025

Mis à jour le 17 mai 2026

Par

Martin Anderson

A still from a demo video for the paper 'Factorized Video Generation: Decoupling Scene Construction and Temporal Synthesis in Text-to-Video Diffusion Models', depicting a POV of a 'cat selfie', while a dog skateboards in the background. Source: https://vita-epfl.github.io/FVG/

Les générateurs de vidéos basés sur l’IA donnent souvent des résultats qui sont proches, mais pas tout à fait, en termes de réalisation de ce que votre texte-prompt voulait. Mais une nouvelle solution de haut niveau fait toute la différence.

Les systèmes de génération de vidéos ont souvent du mal à créer des vidéos vraiment créatives ou insolites et échouent souvent à répondre aux attentes des utilisateurs en termes de textes-prompt.

Partie de la raison pour laquelle cela se produit est l’entanglement – le fait que les modèles de vision/langage doivent compromettre sur la durée de leur formation sur leurs données sources. Trop peu de formation, et les concepts sont flexibles, mais pas entièrement formés – trop de formation, et les concepts sont précis, mais ne sont plus suffisamment flexibles pour être intégrés dans des combinaisons nouvelles.

Vous pouvez vous faire une idée en regardant la vidéo intégrée ci-dessous. À gauche, on voit le type de compromis qui many systèmes d’IA livrent en réponse à une demande exigeante (la demande est en haut de la vidéo dans les quatre exemples) qui demande une juxtaposition d’éléments qui est trop fantaisiste pour avoir été un exemple de formation réel. À droite, on voit une sortie d’IA qui respecte mieux la demande :

Cliquez pour jouer (pas de son). À droite, nous voyons ‘factorized’ WAN 2.2 vraiment livrer sur les demandes, en comparaison avec les interprétations vagues de ‘vanilla’ Wan 2.2., à gauche. Veuillez vous référer aux fichiers vidéo source pour une meilleure résolution et de nombreux exemples, bien que les versions curatoriales vues ici n’existent pas sur le site du projet et aient été assemblées pour cet article. Source

Eh bien, même si nous devons pardonner les mains humaines du canard qui applaudit (!), il est clair que les exemples à droite respectent la demande originale beaucoup mieux que ceux à gauche.

Intéressant, les deux architectures présentées sont essentiellement les mêmes architecture – la populaire et très capable Wan 2.2, une version chinoise qui a gagné du terrain dans les communautés open source et hobbyistes cette année.

La différence est que la deuxième pipeline générative est factorisée, ce qui signifie que un grand modèle de langage (LLM) a été utilisé pour réinterpréter le premier (semence) cadre de la vidéo, de sorte qu’il sera beaucoup plus facile pour le système de livrer ce que l’utilisateur demande.

Cette ‘ancrage visuel’ implique l’injection d’une image créée à partir de ce LLM-amélioré dans la pipeline générative en tant que ‘cadre de départ’, et en utilisant un LoRA modèle d’interprétation pour aider à intégrer le ‘cadre intrus’ dans le processus de création de la vidéo.

Les résultats, en termes de fidélité à la demande, sont tout à fait remarquables, en particulier pour une solution qui semble plutôt élégante :

Cliquez pour jouer (pas de son). D’autres exemples de générations de vidéos ‘factorisées’ qui respectent vraiment le scénario. Veuillez vous référer aux fichiers vidéo source pour une meilleure résolution et de nombreux exemples, bien que les versions curatoriales vues ici n’existent pas sur le site du projet et aient été assemblées pour cet article.

Cette solution vient sous la forme d’un nouveau document Factorized Video Generation: Decoupling Scene Construction and Temporal Synthesis in Text-to-Video Diffusion Models, et son site web de projet accompagnant vidéo-laden.

Alors que de nombreux systèmes actuels tentent d’améliorer la précision de la demande en utilisant des modèles de langage pour réécrire des textes vagues ou sous-spécifiés, le nouveau travail soutient que cette stratégie conduit encore à l’échec lorsque la représentation interne de la scène du modèle est défectueuse.

Même avec une demande réécrite détaillée, les modèles de texte-vidéo échouent souvent à composer des éléments clés ou à générer des états initiaux incompatibles qui brisent la logique de l’animation. Tant que le premier cadre ne reflète pas ce que la demande décrit, la vidéo résultante ne peut pas se rétablir, quelle que soit la qualité du modèle de mouvement.

Le document indique*:

‘[Text-to-video] modèles produisent fréquemment des cadres décalés en termes de distribution, mais atteignent encore [des scores d’évaluation] comparables à ceux des modèles I2V, indiquant que leur modèle de mouvement reste raisonnablement naturel, même lorsque la fidélité de la scène est relativement faible.

‘[Image-to-Video] modèles présentent un comportement complémentaire, de forts [scores d’évaluation] à partir de scènes initiales précises et d’une cohérence temporelle plus faible, tandis que I2V+texte équilibre les deux aspects.

‘Ce contraste suggère un déséquilibre structurel dans les modèles T2V actuels: l’ancrage de la scène et la synthèse temporelle bénéficient de préjugés inductifs distincts, mais les architectures existantes tentent d’apprendre les deux simultanément dans un seul modèle.’

Une comparaison diagnostique des modes de génération a révélé que les modèles sans ancrage de scène explicite obtenaient de bons scores en termes de mouvement, mais compromettaient souvent la disposition de la scène, tandis que les approches conditionnées par image montraient le schéma inverse:

Comparaison des modes de génération de vidéos sur deux ensembles de données, montrant que I2V+texte atteint la meilleure qualité de cadre (FID) et de cohérence temporelle (FVD), mettant en évidence les avantages de la séparation de la construction de la scène et du mouvement. Source

Ces résultats montrent un défaut structurel dans lequel les modèles actuels tentent d’apprendre à la fois la disposition de la scène et l’animation en une seule fois, même si les deux tâches nécessitent des types de préjugés inductifs différents et sont mieux traitées séparément.

Peut-être de plus grand intérêt est que cette ‘astuce’ peut potentiellement être appliquée à des installations locales de modèles tels que Wan 2.1 et 2.2, et des modèles de diffusion de vidéos similaires tels que Hunyuan Video. Anecdotiquement, en comparant la qualité de la sortie des hobbyistes à celle des portails génératifs commerciaux tels que Kling et Runway, la plupart des principaux fournisseurs d’API améliorent les offres open source telles que WAN avec des LoRAs, et – il semble – avec des astuces du type vu dans le nouveau document. Par conséquent, cette approche particulière pourrait représenter un rattrapage pour la communauté FOSS.

Les tests menés pour la méthode indiquent que cette approche simple et modulaire offre un nouvel état de l’art sur le T2V-CompBench benchmark, améliorant considérablement tous les modèles testés. Les auteurs notent en conclusion que même si leur système améliore radicalement la fidélité, il n’aborde pas (ni n’est conçu pour aborder) la dérive d’identité, qui est actuellement la plaie de la recherche en IA générative.

Le nouveau document vient de quatre chercheurs de l’Ecole polytechnique fédérale de Lausanne (EPFL) en Suisse.

Méthode et données

La proposition centrale de la nouvelle technique est que les modèles de diffusion de texte-vidéo (T2V) doivent être ‘ancrés’ à des cadres de départ qui correspondent vraiment à la demande textuelle.

Pour s’assurer que le modèle respecte le cadre de départ, la nouvelle méthode perturbe le processus de diffusion standard en injectant un latent propre à l’image ancre à l’étape zéro, en remplaçant l’une des entrées bruyantes habituelles. Cette entrée inhabituelle déstabilise le modèle au début, mais avec un minimum de finetuning LoRA, il apprend à traiter le cadre injecté comme une ancre visuelle fixe plutôt que comme partie de la trajectoire de bruit:

Méthode à deux étapes pour ancrer la génération de vidéos texte avec une ancre visuelle: à gauche, le modèle est finetuné en utilisant un LoRA léger pour traiter un latent propre injecté comme une contrainte de scène fixe. À droite, la demande est divisée en une légende de cadre de premier plan, qui est utilisée pour générer l’image ancre qui guide la vidéo.

À l’inférence, la méthode réécrit la demande pour décrire uniquement le premier cadre, en utilisant un LLM pour extraire un état de scène initial plausible axé sur la disposition et l’apparence.

Cette demande réécrite est passée à un générateur d’images pour produire un cadre ancre candidat (qui peut être affiné par l’utilisateur). Le cadre sélectionné est encodé en un latent et injecté dans le processus de diffusion en remplaçant la première étape, permettant au modèle de générer le reste de la vidéo tandis qu’il reste ancré à la scène initiale – un processus qui fonctionne sans nécessiter de modifications de l’architecture sous-jacente.

Le processus a été testé en créant des LoRAs pour Wan2.2-14B, Wan2.1-1B, et CogVideo1.5-5B. La formation LoRA a été effectuée à un rang de 256, sur 5000 clips aléatoires de la collection UltraVideo.

La formation a duré 6000 étapes, et a nécessité 48 heures de GPU^† pour Wan-1B et CogVideo-5B, et 96 heures de GPU pour Wan-14B. Les auteurs notent que Wan-5B prend en charge nativement le texte-seul et le texte-image, et n’a donc pas nécessité de finetuning.

Tests

Dans les expériences menées pour le processus, chaque demande textuelle a été réécrite en utilisant Qwen2.5-7B-Instruct, qui a utilisé le résultat pour générer une légende de cadre de premier plan détaillée contenant une description de la scène entière. Cela a ensuite été passé à QwenImage, qui a été chargé de générer l’image ‘magique’ à interposer dans le processus de diffusion.

Les benchmarks utilisés pour évaluer le système comprenaient le T2V-CompBench mentionné plus tôt, pour tester la compréhension compositionnelle en notant à quel point les modèles préservaient les objets, les attributs et les actions dans une scène cohérente ; et VBench 2.0, pour évaluer la raison et la cohérence plus larges sur 18 métriques, regroupées en créativité, raisonnement de bon sens, contrôlabilité, fidélité humaine, et physique:

Sur toutes les sept catégories d’évaluation de T2V-CompBench, la méthode T2V factorisée a surpassé les lignes de base T2V standard et suréchantillonnées pour tous les modèles testés, avec des gains allant jusqu’à 53,25%. Les variantes les mieux notées ont fréquemment égalé ou dépassé le benchmark propriétaire PixVerse-V3.

En ce qui concerne ce premier tour de tests, les auteurs indiquent*:

‘[Sur] tous les modèles, l’ajout d’une image ancre améliore systématiquement les performances compositionnelles. Tous les modèles Factorisés plus petits (CogVideo 5B, Wan 5B et Wan 1B) surpassent le modèle T2V Wan 14B.

‘Notre modèle Factorisé Wan 5B surpasse également la ligne de base commerciale PixVerse-V3, qui est le meilleur modèle rapporté sur le benchmark. Cela démontre que l’ancrage visuel améliore considérablement la compréhension de la scène et de l’action, même dans les modèles de capacité plus faible.

‘Au sein de chaque famille de modèles, la version factorisée surpasse le modèle d’origine. Notamment, notre LoRA léger ancré sur WAN 14B atteint des performances comparables à celles de sa variante I2V 14B préformée (0,661 contre 0,666), sans nécessiter de réformation complète.’

Ensuite est venu le tour de VBench2.0:

L’approche T2V factorisée améliore systématiquement les performances de VBench 2.0 sur la composition, le raisonnement de bon sens, la contrôlabilité et la physique, avec certains gains dépassant 60% – bien que la fidélité humaine soit restée en dessous du benchmark propriétaire Veo 3.

Sur toutes les architectures, l’approche factorisée a amélioré les scores dans toutes les catégories de VBench, sauf la fidélité humaine, qui a légèrement diminué même avec un suréchantillonnage de la demande. WAN 5B a surpassé le plus grand WAN 14B, renforçant les résultats antérieurs de T2V-CompBench qui ont montré que l’ancrage visuel contribuait plus que la taille.

Alors que les gains sur VBench ont été constants, ils étaient plus faibles que ceux observés sur T2V-CompBench, et les auteurs attribuent cela au régime de notation binaire plus strict de VBench.

Pour les tests qualitatifs, le document fournit des images statiques, mais nous renvoyons le lecteur aux vidéos composites intégrées dans cet article, pour une idée plus claire, avec la réserve que les vidéos sources sont plus nombreuses et plus diversifiées, ainsi que plus détaillées. Trouvez-les ici. En ce qui concerne les résultats qualitatifs, le document indique:

‘Les vidéos ancrées présentent systématiquement une composition de scène plus précise, un lien objet-attribut plus fort et une progression temporelle plus claire.’

La méthode factorisée est restée stable même lorsque le nombre d’étapes de diffusion a été réduit de 50 à 15, montrant presque aucune perte de performance sur T2V-CompBench. En revanche, les lignes de base du texte-seul et du suréchantillonnage se sont dégradées nettement dans les mêmes conditions.

Alors que la réduction des étapes pourrait théoriquement tripler la vitesse, la pipeline de génération complète n’est devenue que 2,1 fois plus rapide dans la pratique, en raison de coûts fixes liés à la génération d’images ancre. Néanmoins, les résultats ont indiqué que l’ancrage non seulement améliore la qualité de l’échantillon, mais aide également à stabiliser le processus de diffusion, permettant une génération plus rapide et plus efficace sans perte de précision.

Le site web du projet propose des exemples de générations suréchantillonnées par rapport à la nouvelle méthode, dont nous proposons quelques exemples (résolution plus faible) édités ici:

Cliquez pour jouer (pas de son). Sources de départ suréchantillonnées par rapport à l’approche factorisée des auteurs.

Les auteurs concluent:

‘Nos résultats suggèrent que l’amélioration de l’ancrage, plutôt que l’augmentation de la capacité seule, peut être tout aussi importante. Les progrès récents dans la diffusion T2V ont reposé lourdement sur l’augmentation de la taille du modèle et des données de formation, mais même les grands modèles ont souvent du mal à déduire une scène initiale cohérente à partir du texte seul.

‘Ceci contraste avec la diffusion d’images, où la mise à l’échelle est relativement simple ; dans les modèles de vidéos, chaque amélioration architecturale doit fonctionner sur une dimension temporelle supplémentaire, ce qui rend la mise à l’échelle beaucoup plus gourmande en ressources.

‘Nos résultats indiquent que l’amélioration de l’ancrage peut compléter la taille en abordant un goulet d’étranglement différent: établir la scène correcte avant que la synthèse du mouvement ne commence.

‘En factorisant la génération de vidéos en construction de scène et en modélisation temporelle, nous atténuons plusieurs modes de défaillance courants sans nécessiter des modèles nettement plus grands. Nous considérons cela comme un principe de conception complémentaire qui peut guider les futures architectures vers une synthèse de vidéos plus fiable et structurée.’

Conclusion

Même si les problèmes d’entanglement sont très réels et peuvent nécessiter des solutions dédiées (telles que des évaluations de curation et de distribution améliorées avant la formation), il a été édifiant de voir la factorisation ‘décoller’ plusieurs orchestrations de concepts prompts bloqués en rendus beaucoup plus précis – avec seulement une couche modérée de conditionnement LoRA, et l’intervention d’une image de départ notablement améliorée.

Le fossé en termes de ressources entre l’inférence des hobbyistes locaux et les solutions commerciales peut ne pas être aussi énorme qu’on le suppose, étant donné que presque tous les fournisseurs cherchent à rationaliser leur dépense considérable en ressources GPU pour les consommateurs.

Anecdotiquement, un très grand nombre des fournisseurs de vidéos génératives actuels semblent utiliser des versions marquées et généralement ‘gonflées’ de modèles FOSS chinois. Le principal ‘fossé’ que ces systèmes ‘intermédiaires’ semblent avoir est qu’ils ont pris la peine de former des LoRAs, ou bien – à un coût plus élevé et une récompense légèrement plus grande – de procéder à une formation complète des poids du modèle^††.

Des idées de ce type pourraient aider à combler encore ce fossé, dans le contexte d’une scène de publication où les Chinois semblent déterminés (pas nécessairement pour des raisons altruistes ou idéalistes) à démocratiser l’IA générative, tandis que les intérêts commerciaux occidentaux préféreraient peut-être que l’augmentation de la taille des modèles et les réglementations finissent par cloîtrer les meilleurs modèles derrière des API, et de multiples couches de filtres de contenu.

* Emphases des auteurs, et non moi.

^†Le document ne spécifie pas quel GPU a été choisi, ou combien ont été utilisés.

^†† La voie LoRA est plus probable, à la fois pour la facilité d’utilisation économique et parce que les poids complets, plutôt que les poids quantifiés, ne sont pas toujours mis à disposition.

Publié pour la première fois vendredi 19 décembre 2025

Martin Anderson

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.

Unite.AI

L’IA parfaite la selfie du chat

Méthode et données

Tests

Conclusion

Découvrir plus