Angle d’Anderson
Meilleure intelligence artificielle générative de vidéos en mélangeant les trames pendant l’entraînement

Un nouvel article publié cette semaine sur Arxiv aborde un problème que quiconque ayant adopté le Hunyuan Video ou Wan 2.1 AI video generators aura rencontré jusqu’à présent : les aberrations temporelles, où le processus génératif a tendance à accélérer brusquement, à confondre, à omettre ou à gâcher d’autres moments cruciaux dans une vidéo générée :
Cliquez pour jouer. Certains des glitches temporels qui deviennent familiers aux utilisateurs des nouveaux systèmes de vidéos génératives, mis en évidence dans le nouvel article. À droite, l’effet atténuant de la nouvelle approche FluxFlow. Source : https://haroldchen19.github.io/FluxFlow/
La vidéo ci-dessus présente des extraits de vidéos de test au (soyez averti : plutôt chaotique) site du projet pour l’article. Nous pouvons voir plusieurs problèmes de plus en plus familiers qui sont remédiés par la méthode des auteurs (représentée à droite dans la vidéo), qui est essentiellement une technique de prétraitement de données applicable à n’importe quelle architecture de vidéo générative.
Dans le premier exemple, mettant en scène ‘deux enfants jouant avec un ballon’, généré par CogVideoX, nous voyons (à gauche dans la vidéo de compilation ci-dessus et dans l’exemple spécifique ci-dessous) que la génération native saute rapidement à travers plusieurs micro-mouvements essentiels, accélérant l’activité des enfants à un ‘ton cartoon’. En revanche, la même base de données et la même méthode donnent de meilleurs résultats avec la nouvelle technique de prétraitement, appelée FluxFlow (à droite de l’image dans la vidéo ci-dessous) :
Cliquez pour jouer.
Dans le deuxième exemple (en utilisant NOVA-0.6B) nous voyons qu’un mouvement central impliquant un chat a été corrompu ou échantillonné de manière significative au stade de l’entraînement, au point que le système génératif devient ‘paralysé’ et est incapable de faire bouger le sujet :
Cliquez pour jouer.
Ce syndrome, où le mouvement ou le sujet se ‘coince’, est l’un des problèmes les plus fréquemment signalés de HV et de Wan, dans les divers groupes de synthèse d’images et de vidéos.
Certains de ces problèmes sont liés à des problèmes de légendage de vidéos dans la base de données source, que nous avons examinés cette semaine ; mais les auteurs du nouvel article se concentrent leurs efforts sur les qualités temporelles des données d’entraînement, et font un argument convaincant que résoudre les défis de ce point de vue peut donner des résultats utiles.
Comme mentionné dans l’article précédent sur le légendage de vidéos, certains sports sont particulièrement difficiles à distiller en moments clés, ce qui signifie que les événements critiques (tels qu’un dunk) n’obtiennent pas l’attention dont ils ont besoin au moment de l’entraînement :
Cliquez pour jouer.
Dans l’exemple ci-dessus, le système génératif ne sait pas comment passer à l’étape de mouvement suivante et transite de manière illogique d’une pose à l’autre, en changeant l’attitude et la géométrie du joueur dans le processus.
Ce sont de grands mouvements qui se sont perdus pendant l’entraînement – mais tout aussi vulnérables sont les mouvements beaucoup plus petits mais cruciaux, tels que le battement des ailes d’un papillon :
Cliquez pour jouer.
Contrairement au dunk, le battement des ailes n’est pas un événement ‘rare’ mais plutôt un événement persistant et monotone. Cependant, sa constance se perd dans le processus d’échantillonnage, puisque le mouvement est si rapide qu’il est très difficile de l’établir temporellement.
Ce ne sont pas des problèmes particulièrement nouveaux, mais ils reçoivent une attention accrue maintenant que des modèles de vidéos génératives puissants sont disponibles aux enthousiastes pour une installation locale et une génération gratuite.
Les communautés Reddit et Discord ont initialement traité ces problèmes comme ‘liés à l’utilisateur’. Cette hypothèse est compréhensible, puisque les systèmes en question sont très nouveaux et minimalement documentés. Par conséquent, divers experts ont suggéré diverses (et pas toujours efficaces) solutions pour certains des glitches documentés ici, telles que la modification des paramètres dans divers composants de divers types de flux de travail ComfyUI pour Hunyuan Video (HV) et Wan 2.1.
Dans certains cas, au lieu de produire un mouvement rapide, HV et Wan produisent un mouvement lent. Les suggestions de Reddit et ChatGPT (qui utilise principalement Reddit) incluent la modification du nombre de trames dans la génération demandée, ou la réduction radicale du taux d’images par seconde*.
C’est tout cela du désespoir ; la vérité émergente est que nous ne connaissons pas encore la cause exacte ou le remède exact pour ces problèmes ; clairement, le fait de tourmenter les paramètres de génération pour les contourner (en particulier lorsque cela dégrade la qualité de sortie, par exemple avec un taux d’images par seconde trop bas) n’est qu’une solution temporaire, et il est bon de voir que la scène de la recherche aborde ces problèmes émergents si rapidement.
Donc, outre notre regard sur la façon dont le légendage affecte l’entraînement, jetons un coup d’œil sur le nouvel article sur la régularisation temporelle, et sur les améliorations qu’il pourrait apporter à la scène actuelle de la vidéo générative.
L’idée centrale est plutôt simple et légère, et n’est pas moins bonne pour cela ; néanmoins, l’article est un peu gonflé pour atteindre les huit pages prescrites, et nous allons sauter les parties inutiles.

Le poisson dans la génération native du framework VideoCrafter est statique, tandis que la version modifiée par FluxFlow capture les changements requis. Source : https://arxiv.org/pdf/2503.15417
Le nouvel article est intitulé La régularisation temporelle rend votre générateur de vidéos plus fort, et provient de huit chercheurs issus d’Everlyn AI, de l’Université des sciences et de la technologie de Hong Kong (HKUST), de l’Université de Floride centrale (UCF) et de l’Université de Hong Kong (HKU).
(au moment de la rédaction, il y a certains problèmes avec le site du projet qui accompagne l’article)
FluxFlow
L’idée centrale derrière FluxFlow, le nouveau schéma de pré-entraînement des auteurs, est de surmonter les problèmes répandus de scintillement et incohérence temporelle en mélangeant des blocs et des groupes de blocs dans les commandes de trames temporelles lorsque les données sources sont exposées au processus d’entraînement :

L’idée centrale derrière FluxFlow est de déplacer des blocs et des groupes de blocs dans des positions non temporelles et inattendues, sous forme d’augmentation de données.
L’article explique :
‘[Les artefacts] proviennent d’une limitation fondamentale : malgré l’utilisation de grandes bases de données, les modèles actuels s’appuient souvent sur des modèles temporels simplifiés dans les données d’entraînement (par exemple, des directions de marche fixes ou des transitions de trames répétitives) plutôt que d’apprendre des dynamiques temporelles diverses et plausibles.
‘Ce problème est encore exacerbé par le manque d’augmentation temporelle explicite pendant l’entraînement, laissant les modèles sensibles à la suradaptation aux corrélations temporelles spurieuses (par exemple, « la trame #5 doit suivre #4 ») plutôt que de généraliser à travers divers scénarios de mouvement.’
La plupart des modèles de génération de vidéos, expliquent les auteurs, empruntent encore trop à la synthèse d’images, en se concentrant sur la fidélité spatiale tout en ignorant largement l’axe temporel. Bien que des techniques telles que le recadrage, la symétrie et la variation de couleur aient aidé à améliorer la qualité d’image statique, elles ne sont pas des solutions adéquates lorsqu’elles sont appliquées aux vidéos, où l’illusion de mouvement dépend de transitions cohérentes entre les trames.
Les problèmes résultants incluent des textures scintillantes, des coupures abruptes entre les trames et des modèles de mouvement répétitifs ou trop simplistes.
Cliquez pour jouer.
L’article soutient que même si certains modèles – y compris Stable Video Diffusion et LlamaGen – compensent avec des architectures de plus en plus complexes ou des contraintes ingénieuses, celles-ci se font au prix d’une augmentation de la puissance de calcul et de la flexibilité.
Puisque l’augmentation de données temporelles a déjà prouvé son utilité dans les tâches de compréhension de vidéos (dans des cadres tels que FineCliper, SeFAR et SVFormer) il est surprenant, affirment les auteurs, que cette tactique soit rarement appliquée dans un contexte génératif.
Comportement perturbateur
Les chercheurs soutiennent que de simples perturbations structurées dans l’ordre temporel pendant l’entraînement aident les modèles à généraliser mieux à des mouvements réalistes et divers :
‘En s’entraînant sur des séquences désordonnées, le générateur apprend à récupérer des trajectoires plausibles, régularisant efficacement l’entropie temporelle. FLUXFLOW comble le fossé entre l’augmentation temporelle discriminative et générative, offrant une solution d’amélioration pour la génération de vidéos temporellement plausibles tout en améliorant la qualité globale.
‘Contrairement aux méthodes existantes qui introduisent des changements architecturaux ou s’appuient sur un post-traitement, FLUXFLOW opère directement au niveau des données, introduisant des perturbations temporelles contrôlées pendant l’entraînement.’
Cliquez pour jouer.
Les perturbations au niveau des trames, déclarent les auteurs, introduisent des perturbations fines dans une séquence. Ce type de perturbation n’est pas sans rappeler l’augmentation par masquage, où des sections de données sont bloquées aléatoirement, pour empêcher le système de suradapter aux points de données, et encourageant une meilleure généralisation.
Tests
Bien que l’idée centrale ici ne fasse pas un article complet, en raison de sa simplicité, il y a une section de tests que nous pouvons examiner.
Les auteurs ont testé pour quatre requêtes relatives à la qualité temporelle améliorée tout en maintenant la fidélité spatiale ; la capacité à apprendre la dynamique du mouvement / du flux optique ; le maintien de la qualité temporelle dans la génération extraterm ; et la sensibilité aux hyperparamètres clés.
Les chercheurs ont appliqué FluxFlow à trois architectures génératives : basée sur U-Net, sous la forme de VideoCrafter2 ; basée sur DiT, sous la forme de CogVideoX-2B ; et basée sur AR, sous la forme de NOVA-0.6B.
Pour une comparaison équitable, ils ont affiné les modèles de base des architectures avec FluxFlow comme phase d’entraînement supplémentaire, pour une époque, sur la base de données OpenVidHD-0.4M.
Les modèles ont été évalués par rapport à deux benchmarks populaires : UCF-101 ; et VBench.
Pour UCF, les métriques Fréchet Video Distance (FVD) et Inception Score (IS) ont été utilisées. Pour VBench, les chercheurs se sont concentrés sur la qualité temporelle, la qualité des trames et la qualité globale.

Évaluation quantitative initiale de FluxFlow-Frame. “+ Original” indique l’entraînement sans FLUXFLOW, tandis que “+ Num × 1” montre différentes configurations de FluxFlow-Frame. Les meilleurs résultats sont ombragés ; les deuxièmes meilleurs sont soulignés pour chaque modèle.
En commentant ces résultats, les auteurs déclarent :
‘Les deux FLUXFLOW-FRAME et FLUXFLOW-BLOCK améliorent considérablement la qualité temporelle, comme en témoignent les métriques des Tabs. 1, 2 (c’est-à-dire FVD, Subject, Flicker, Motion et Dynamic) et les résultats qualitatifs dans [l’image ci-dessous].
‘Par exemple, le mouvement de la voiture dérivante dans VC2, le chat poursuivant sa queue dans NOVA, et le surfeur chevauchant une vague dans CVX deviennent nettement plus fluides avec FLUXFLOW. Il est important de noter que ces améliorations temporelles sont obtenues sans sacrifier la fidélité spatiale, comme en témoignent les détails nets des éclaboussures d’eau, des traînées de fumée et des textures d’ondes, ainsi que les métriques de fidélité spatiale et globale.’
Ci-dessous, nous voyons des sélections des résultats qualitatifs auxquels les auteurs font référence (veuillez consulter l’article original pour les résultats complets et une meilleure résolution) :

Sélections des résultats qualitatifs.
L’article suggère que même si les deux perturbations au niveau des trames et des blocs améliorent la qualité temporelle, les méthodes au niveau des trames tendent à performer mieux. Cela est attribué à leur granularité plus fine, qui permet des ajustements temporels plus précis. Les perturbations au niveau des blocs, en revanche, peuvent introduire du bruit en raison de modèles spatiaux et temporels étroitement couplés au sein des blocs, réduisant leur efficacité.
Conclusion
Cet article, ainsi que la collaboration de légendage de Bytedance-Tsinghua publiée cette semaine, m’a fait comprendre que les lacunes apparentes dans la nouvelle génération de modèles de vidéos génératives peuvent ne pas résulter d’erreurs d’utilisateur, de défaillances institutionnelles ou de limitations de financement, mais plutôt d’un focus de recherche qui a compréhensiblement donné la priorité à des défis plus urgents, tels que la cohérence et la consistance temporelles, à ces préoccupations mineures.
Jusqu’à récemment, les résultats des systèmes de vidéos génératives disponibles gratuitement et téléchargeables étaient si compromis que aucun grand effort n’a émergé de la communauté des enthousiastes pour résoudre ces problèmes (ne serait-ce parce que les problèmes étaient fondamentaux et non trivialement résolus).
Maintenant que nous sommes si proches de l’ère prévue de la sortie vidéo photoréaliste entièrement générée par l’IA, il est clair que les communautés de recherche et de loisirs s’intéressent de plus en plus à résoudre les problèmes restants ; avec un peu de chance, ceux-ci ne sont pas des obstacles insurmontables.
* Le taux d’images par seconde natif de Wan est d’une maigre 16fps, et en réponse à mes propres problèmes, je note que les forums ont suggéré de réduire le taux d’images par seconde aussi bas que 12fps, puis d’utiliser FlowFrames ou d’autres systèmes de re-flux basés sur l’IA pour interpoler les intervalles entre un nombre si restreint de trames.
Publié pour la première fois vendredi 21 mars 2025












