Angle d’Anderson
Hors de vue, hors de l’esprit : résoudre le plus grand problème de la vidéo IA

Le plus grand problème des meilleurs générateurs de vidéos IA est qu’ils ont une amnésie chronique – un défi que de nouvelles recherches en Chine sont en train de relever.
Le plus grand problème des meilleurs et des plus récents systèmes de génération de vidéos IA est qu’ils ont tous une amnésie chronique : si la caméra s’éloigne de ce qu’elle filme et puis revient, elle ne retrouvera jamais ce qui était là au début – les personnages auront disparu, changé d’apparence et/ou de type de mouvement, et l’arrière-plan aura probablement également changé.
Ceci est dû au fait que le système de génération basé sur la diffusion a une fenêtre d’attention roulante limitée, et qu’il ne traite que ce qu’il peut voir à ce moment-là ; dans une véritable mise en œuvre du solipsisme, ce qui est hors du cadre est inexistante pour l’IA générative – cela devient littéralement supprimé de la mémoire.
Ceci n’a jamais été un problème dans la CGI traditionnelle, qui peut toujours se référer à et recréer avec précision un sujet, y compris son apparence et son mouvement, à n’importe quel point d’une vidéo rendue où il peut être nécessaire à nouveau :

Les maillages et les textures bitmap de la CGI traditionnelle peuvent toujours être dessinés dans un rendu, offrant une apparence cohérente – un tour de force qui est beaucoup plus difficile à réaliser dans les approches IA, car il n’y a pas d’équivalent de ‘référence plate’ de fichiers, ou de collection de fichiers liés.
Ceci est dû au fait que les éléments constitutifs de la CGI, tels que les maillages et les textures (voir image ci-dessus), ainsi que les fichiers de mouvement et d’autres comportements dynamiques, peuvent vivre de manière discrète sur disque et être dessinés dans une composition à tout moment.
Il n’y a pas de ‘référentiel plat’ dans la vidéo IA générative ; la chose la plus proche de cette fonctionnalité est LoRAs – des fichiers adjacents spécialement formés qui peuvent être formés sur des équipements consommateurs, permettant de nouveaux personnages et des vêtements spécifiques à être ‘forcés’ dans la vidéo :
Cliquez pour jouer. Le problème de solipsisme de la vidéo IA peut être atténué dans une certaine mesure en utilisant LoRAs – mais les résultats peuvent être accablants.
Ceci n’est pas une solution idéale, cependant. Tout d’abord, les LoRAs sont liés à une version spécifique exacte d’un modèle de base (comme Wan2+ ou Hunyuan Video), et besoin d’être recréés chaque fois que le modèle de base change. Deuxièmement, les LoRAs tendent à déformer les poids du modèle de base, de sorte que l’identité formée de la LoRA est imposée à tous les personnages d’une scène. De plus, les méthodes de fine-tuning de ce type sont très sensibles aux ensembles de données mal curés.
Reprises précises
Maintenant, une nouvelle collaboration académique/industrielle en Chine offre la première solution significative qui a attiré mon attention en plus de trois ans de rapport sur ce problème. La méthode utilise ce que les chercheurs appellent mémoire hybride pour maintenir le personnage hors écran et son environnement direct actif et précis dans l’espace latent du modèle, de sorte que lorsque notre point de vue revient à eux, l’effet est cohérent :
Cliquez pour jouer. Deux exemples de personnages générés par IA (WAN) quittant le cadre et réapparaissant avec précision, du site du projet. Source
Il convient de souligner que ceci n’est pas la même chose que d’atteindre la cohérence des personnages à travers différents plans – quelque chose qui a été affirmé avoir été atteint il y a un an dans la version 4 de Runway, et qui reste un poursuite en cours dans la littérature de recherche.
Plutôt, ce qui est résolu ici est quelque chose que aucun cadre commercial ou expérimental que j’ai vu n’a pu accomplir – la réapparition visuellement cohérente de l’apparence antérieure d’un personnage hors écran, de son mouvement et de son environnement :
Cliquez pour jouer. Les deux autres exemples principaux donnés sur le site du projet.
Évidemment, les principes en jeu ici peuvent être appliqués de la même manière à d’autres domaines, tels que l’exploration urbaine, la conduite en POV ou d’autres types de rendus non liés aux personnages.
Il convient de souligner également que cette nouvelle approche ne résout pas ou n’aborde pas le problème que Runway Gen4 et d’autres plateformes fermées prétendent avoir résolu, en recréant des personnages à travers différents plans ; au lieu de cela, elle fait ce que none d’entre eux n’a encore réussi à accomplir – maintenir un personnage et son environnement dans la mémoire, sans avoir besoin qu’ils restent visibles pour le spectateur à tout moment.
Le nouveau travail comprend un ensemble de données dédié généré à l’aide de Unreal Engine, ainsi que des métriques personnalisées pour le problème de solipsisme*, et un cadre génératif personnalisé construit sur WAN. Dans les tests contre les quelques systèmes analogues disponibles, les auteurs affirment des résultats de pointe, et ils commentent :
‘Les mécanismes de mémoire sont devenus une frontière critique pour faire progresser les modèles de monde, car la capacité de mémoire dicte la cohérence spatiale et temporelle du contenu généré.
‘Plus précisément, c’est l’ancre cognitive qui permet au modèle de conserver le contexte historique pendant les changements de point de vue ou l’extrapolation à long terme.
‘Sans une mémoire robuste, un monde simulé se décompose rapidement en des cadres désconnectés et chaotiques.’
Le nouvel article est intitulé Hors de vue mais pas hors de l’esprit : mémoire hybride pour les modèles de monde de vidéo dynamique, et provient de sept chercheurs de l’Université des sciences et de la technologie de Huazhong et de l’équipe Kling de Kuaishou Technology.
Méthode
Le principal élément de la nouvelle étude est la mémoire hybride, qui permet l’extrapolation ‘hors de vue’ – la conservation des personnages et de leurs contextes tandis que le spectateur ‘regarde ailleurs’ (ou tandis que le personnage lui-même quitte le champ de vision). Dans ce scénario, le cadre est requis pour effectuer une découplage spatio-temporel, dans lequel il se concentre simultanément sur la génération visible pour le spectateur et sur l’existence hors écran du personnage qui est maintenant hors de vue.

Exemples de mouvement de caméra d’entrée/sortie. Dans ces cas, c’est le mouvement de la caméra qui fait quitter le personnage du cadre, mais dans des échantillons divers, nous pouvons également observer le personnage lui-même se propulsant temporairement hors de l’écran. Source
Les auteurs notent que dans les embeddings latents de diffusion, les fonctionnalités qui doivent être extraites et utilisées sont fortement entrelacées avec d’autres fonctionnalités et propriétés ; et que tenter de les extraire souvent fait que le sujet ‘gèle’ dans l’arrière-plan. Ils ont donc conçu et curé l’ensemble de données HM-World**, spécifiquement destiné à la formation de la mémoire hybride :

À partir de l’article, des échantillons des quatre catégories contenues dans l’ensemble de données HM-World.
La collection est construite le long de quatre dimensions : trajectoires de sujet, trajectoires de caméra, scènes, et sujets.
Les données synthétiques de HM-World présentent 17 scènes et 49 sujets, y compris des personnes de diverses apparences, ainsi que des animaux de plusieurs espèces. Des combinaisons de ceux-ci sont placées de manière procédurale dans une scène via Unreal Engine, chacun avec une animation de mouvement distincte, puis placés sur une trajectoire aléatoirement sélectionnée.
Les auteurs déclarent qu’un ensemble varié d’événements d’entrée/sortie est représenté dans l’ensemble de données, avec 28 trajectoires de caméra différentes incluses, chacune avec plusieurs points de départ.
L’ensemble de données final compte 59 225 clips vidéo, chacun annoté par le MiniCPM-V Multimodal Large Language Model (MLLM).
Les chercheurs soulignent les avantages statistiques de leur collection par rapport aux ensembles de données antérieurs WorldScore ; Context-As-Memory ; Multi-Cam Video ; et 360° Motion :

Comparaison entre les ensembles de données existants et l’ensemble de données HM-World, où ‘Dynamic Subject’ indique la présence d’entités mobiles, ‘Subject Exit-Enter’ désigne des clips contenant des sujets quittant et réentrant le cadre, et ‘Subject Pose’ fait référence à l’inclusion de poses 3D annotées.
Le chemin moins fréquenté
Étant donné plusieurs cadres précédents et un chemin de caméra connu, la tâche consiste à prédire les vues futures à mesure que le point de vue du spectateur change, tout en tenant compte des sujets qui se déplacent de manière indépendante et peuvent quitter le cadre avant de réapparaître. Cela nécessite plus que de préserver un arrière-plan stable, puisque le modèle doit également conserver un enregistrement interne cohérent de la façon dont chaque sujet mobile a l’air et se comporte, même pendant les périodes où il n’est pas visible.
La méthode Hybrid Dynamic Retrieval Attention (HyDRA) des auteurs aborde cela en introduisant un chemin de mémoire dédié qui sépare les sujets dynamiques de la représentation de scène statique, leur permettant de persister dans le temps et de réapparaître avec une apparence et un mouvement cohérents :

Schéma conceptuel du modèle HyDRA.
HyDRA est construit sur Wan2.1-T2V-1.3B, avec le pipeline de diffusion principal laissé largement intact, tout en introduisant un bloc de transformateur modifié qui intègre l’attention de récupération dynamique. Cela permet au modèle de rappeler sélectivement des indices d’apparence et de mouvement à partir de cadres précédents, plutôt que de s’appuyer sur un contexte fixe ou local.
Ce processus utilise un objectif de formation de Flow Matching adapté à la place de la perte de diffusion standard.
Pour maintenir les scènes alignées avec le mouvement de la caméra, les trajectoires de caméra sont injectées comme un signal de conditionnement explicite, avec chaque cadre dont la pose est définie par rotation et translation, puis convertie en une représentation compacte qui capture la façon dont le point de vue évolue dans le temps.
Conformément à l’initiative antérieure (Kling) ReCamMaster, le résultat est ensuite analysé par un encodeur de caméra, mis en œuvre comme un Multi-Layer Perceptron, puis diffusé et ajouté aux fonctionnalités du Transformateur de diffusion, permettant au modèle de maintenir une disposition d’objet cohérente à mesure que la caméra se déplace.
Tokenisation
Les latents de diffusion bruts mélangent le mouvement du sujet, l’apparence et l’arrière-plan dans une représentation entrelacée unique, et essayer de récupérer directement à partir de cet espace risque d’introduire un contexte non pertinent ou de faire que les sujets mobiles ‘se fondent’ dans le décor.
HyDRA aborde cela avec un 3D-convolution-basé Memory Tokenizer qui traite l’espace et le temps ensemble – plutôt que de transmettre l’histoire latente complète, il la compressé en des jetons de mémoire compacts et sensibles au mouvement qui conservent la façon dont les sujets ont l’air et se déplacent :

Vue d’ensemble de HyDRA. À gauche, le Memory Tokenizer convertit les cadres précédents en des jetons de mémoire compacts et sensibles au mouvement ; à droite, l’attention de récupération dynamique évalue la requête actuelle par rapport à ces jetons, récupère les plus pertinents et les utilise pour restaurer une apparence et un mouvement cohérents dans le cadre généré.
Ces jetons forment une mémoire hybride structurée qui filtre le bruit tout en conservant la dynamique à longue portée. Transmis au module d’attention de récupération dynamique, ceux-ci permettent au modèle de rappeler sélectivement les sujets hors écran, de sorte qu’ils réapparaissent avec une apparence, un mouvement et un contexte cohérents.
Attention de récupération dynamique
Le mécanisme de mémoire double de HyDRA utilise également l’attention de récupération dynamique dans un rôle distinct mais complémentaire dans le cadre.
La tokenisation de la mémoire compressé les représentations latentes passées en des jetons structurés et sensibles au mouvement qui séparent les sujets dynamiques du contenu de scène statique, réduisant l’entrelacement qui souvent fait que les sujets se fondent dans l’arrière-plan. Ces jetons forment une banque de mémoire persistante plutôt qu’une histoire de cadre complet.
L’attention de récupération dynamique opère alors sur cette banque pendant la génération, en évaluant la requête actuelle par rapport aux jetons stockés et en rappelant sélectivement ceux qui sont les plus pertinents pour le cadre en évolution. Cela permet aux sujets hors écran de continuer leur évolution latente (c’est-à-dire de continuer à marcher, à courir, lorsque vous ne pouvez pas les voir), et de réapparaître avec une apparence et un mouvement cohérents lorsqu’ils réapparaissent, plutôt que de réinitialiser ou de se dégrader.
Données et tests
Dans les tests, le système HyDRA basé sur Wan a encodé et échantillonné 77 cadres de contexte avant de les analyser avec un VAE 3D, tandis que le memory tokenizer susmentionné utilisait une 3D convolution à une taille de noyau de 2x4x4.
Le modèle a été formé sur HW-World pendant 10 000 itérations sur 32 (non spécifiés) GPU, à une taille de lot de 32.
Un nombre inhabituellement élevé de métriques a été utilisé dans les tests : outre le rapport signal/bruit de pointe (PSNR) habituel, l’indice de similarité structurelle (SSIM) et les métriques de similarité perçue apprises (LPIPS), les auteurs ont également employé la cohérence des sujets et la cohérence de l’arrière-plan de la suite VBench, pour évaluer la cohérence au niveau du cadre.
En outre, ils ont conçu une métrique personnalisée intitulée cohérence des sujets dynamiques (DSC), qui utilise des boîtes de délimitation de YOLO V11, pour créer des régions découpées présentant des sujets mobiles, à partir desquelles des fonctionnalités sémantiques ont été extraites et leurs similarités calculées.
HyDRA a été comparé à Diffusion Forcing Transformer (DFoT) et Context-As-Memory, sur un modèle de base Wan2.1-T2V-1.3B équipé d’un encodeur de caméra (pour représenter le point de vue subjectif commun à tous les clips). Tous les modèles ont été formés sur HW-World, et WorldPlay a également été utilisé comme une collection de test secondaire sans entraînement :
Dans les comparaisons quantitatives initiales, HyDRA a surpassé toutes les lignes de base, augmentant le PSNR de 18,696 à 20,357, et le SSIM de 0,517 à 0,606. Il a également atteint les scores de Dice les plus élevés, 0,827 et 0,849, avec une cohérence des sujets et de l’arrière-plan de 0,926 et 0,932 :

Résultats de la comparaison quantitative initiale contre les approches antérieures.
DFoT a atteint un PSNR de 17,693 et Context-as-Memory 18,921, avec les gains attribués à la tokenisation de la mémoire combinée à l’attention de récupération dynamique :

Comparaison quantitative mettant en compétition HyDRA contre l’état de l’art actuel.
En ce qui concerne les tests contre WorldPlay, les auteurs déclarent :
‘Notre méthode dépasse WorldPlay dans toutes les métriques, avec un écart de PSNR notable de 5,502. Bien que WorldPlay montre des performances plus faibles sur les métriques de référence GT (par exemple, PSNR de 14,855, DSCGT de 0,832) en raison d’un écart de distribution de domaine et d’un manque de finetuning spécifique, il démontre une robustesse remarquable sur les métriques de référence de contexte en atteignant un DSCctx de 0,822.
‘Cette observation ne confirme pas seulement que les modèles formés de manière extensive possèdent une cohérence hybride équitable, mais valide également indirectement la rationalité de nos métriques DSC proposées pour refléter la cohérence des sujets dynamiques.
‘En fin de compte, ces résultats impressionnants mettent en évidence les capacités exceptionnelles de notre modèle, démontrant sa supériorité même sur les modèles commerciaux établis.’
L’article propose une représentation statique des comparaisons qualitatives entreprises pour les tests :

Comparaison qualitative de la sortie et de la réentrée sous mouvement de caméra. Les auteurs affirment que HyDRA préserve l’identité du sujet, la pose et la continuité du mouvement après avoir quitté et réintégré le cadre, correspondant étroitement à la vérité terrain, tandis que les méthodes concurrentes présentent un dérive, un mouvement incohérent ou une dégradation du sujet, mis en évidence en rouge (les récupérations cohérentes sont marquées en vert).
À propos de ces résultats, les auteurs commentent :
‘Dans le cas d’événements d’entrée/sortie complexes, la ligne de base et Context-as-Memory présentent une distorsion du sujet grave et une incohérence du mouvement. DFoT échoue à maintenir l’intégrité du sujet, conduisant à une disparition complète. Alors que WorldPlay parvient à préserver la cohérence d’apparence du sujet, il souffre de mouvements saccadés et d’actions non naturelles.
‘En revanche, notre méthode maintient avec succès la cohérence hybride, préservant à la fois l’identité du sujet et la cohérence du mouvement après que le sujet réintègre le cadre.’
D’autres résultats peuvent être vus au format vidéo sur le site supplémentaire, dont les quatre premiers exemples ont été assemblés (par nous) dans la vidéo ci-dessous :
Cliquez pour jouer. Quatre des six résultats de test présentés sur le site du projet. Source
Conclusion
Alors que toute tentative pour résoudre l’un des plus gros problèmes de la génération de vidéos IA est la bienvenue, il semble inévitable que la solution optimale pour les problèmes de sortie/réentrée de ce type se révèlera être, comme c’était le cas pour la CGI, sous la forme de matériel de référence distinct qui peut être édité de manière discrète et introduit dans un espace de composition.
Cette affaire de tentative de maintenir un embedding en vie de manière ad hoc et sur le fly semble épuisante, et n’offre pas de voie claire vers la cohérence intra-plan maintenant proposée sur divers portails noirs tels que Runway. Si il s’avère qu’un plan de suivi nécessitera l’accès à l’espace latent du plan précédent, pourquoi ne pas avoir les deux instances placer un embedding de personnage discret et séparé ?
* Personne d’autre ne l’a nommé, et la discussion est difficile sans des termes communs.
** Actuellement signalé comme ‘bientôt disponible’, sur la page du projet.
Publié pour la première fois vendredi 27 mars 2026












