Intelligence artificielle
Préparer la cohérence narrative pour la génération de vidéos longues

La récente publication publique du modèle de génération de vidéos Hunyuan a intensifié les discussions en cours sur le potentiel des grands modèles de vision et de langage multimodaux pour créer un jour des films entiers.
Cependant, comme nous l’avons observé, c’est une perspective très lointaine pour le moment, pour plusieurs raisons. L’une est la fenêtre d’attention très courte de la plupart des générateurs de vidéos, qui luttent pour maintenir la cohérence même dans un seul plan court, et encore moins dans une série de plans.
Une autre raison est que les références cohérentes au contenu vidéo (comme les environnements explorables, qui ne devraient pas changer aléatoirement si vous rétracez vos pas à travers eux) ne peuvent être atteintes dans les modèles de diffusion que par des techniques de personnalisation telles que l’adaptation de faible rang (LoRA), ce qui limite les capacités hors de la boîte des modèles de base.
Par conséquent, l’évolution de la génération de vidéos semble destinée à stagner à moins que de nouvelles approches de continuité narrative ne soient développées.
Recette pour la continuité
Avec cela en tête, une nouvelle collaboration entre les États-Unis et la Chine a proposé l’utilisation de vidéos de cuisine instructives comme modèle possible pour les systèmes de continuité narrative futurs.
Cliquez pour jouer. Le système VideoAuteur systématise l’analyse de parties d’un processus de cuisine pour produire un nouveau jeu de données finement sous-titré et une méthode d’orchestration pour la génération de vidéos de cuisine. Référez-vous au site source pour une meilleure résolution. Source : https://videoauteur.github.io/
Intitulé VideoAuteur, le travail propose un pipeline en deux étapes pour générer des vidéos de cuisine instructives en utilisant des états cohérents combinant des keyframes et des sous-titres, atteignant des résultats de pointe – admettant qu’il s’agit d’un espace sous-inscrit.
La page du projet VideoAuteur comprend également un certain nombre de vidéos plus accrocheuses qui utilisent la même technique, comme une bande-annonce proposée pour un crossover (inexistant) Marvel/DC :
Cliquez pour jouer. Deux super-héros de l’univers alternatif se rencontrent dans une fausse bande-annonce de VideoAuteur. Référez-vous au site source pour une meilleure résolution.
La page comprend également des vidéos de promotion similaires pour une série d’animaux (inexistante) Netflix et une publicité pour une voiture Tesla.
Lors du développement de VideoAuteur, les auteurs ont expérimenté diverses fonctions de perte et d’autres approches nouvelles. Pour développer un flux de travail de génération de recettes, ils ont également créé CookGen, le plus grand jeu de données axé sur le domaine de la cuisine, comprenant 200 000 extraits vidéo avec une durée moyenne de 9,5 secondes.
En moyenne 768,3 mots par vidéo, CookGen est confortablement le jeu de données le plus annoté de son kind. Divers modèles de vision et de langage ont été utilisés, entre autres approches, pour garantir que les descriptions soient aussi détaillées, pertinentes et précises que possible.
Les vidéos de cuisine ont été choisies parce que les didacticiels de cuisine ont une narration structurée et non ambiguë, ce qui rend l’annotation et l’évaluation plus faciles. À l’exception des vidéos pornographiques (qui seront probablement introduites dans cet espace plus tôt que plus tard), il est difficile de penser à un autre genre aussi visuellement et narrativement « formulaire ».
Les auteurs déclarent :
‘Notre pipeline auto-régressif à deux étapes proposé, qui comprend un directeur narratif long et une génération de vidéos conditionnée visuellement, démontre des améliorations prometteuses en termes de cohérence sémantique et de fidélité visuelle dans les vidéos narratives générées.
‘À travers des expériences sur notre jeu de données, nous observons des améliorations de la cohérence spatiale et temporelle à travers les séquences de vidéos.
‘Nous espérons que notre travail peut faciliter d’autres recherches sur la génération de vidéos narratives longues.’
Le nouveau travail est intitulé VideoAuteur : Vers la génération de vidéos narratives longues, et provient de huit auteurs issus de l’Université Johns Hopkins, de ByteDance et de ByteDance Seed.
Curation du jeu de données
Pour développer CookGen, qui alimente un système génératif à deux étapes pour produire des vidéos de cuisine, les auteurs ont utilisé du matériel provenant des YouCook et HowTo100M collections. Les auteurs comparent l’échelle de CookGen à des jeux de données précédents axés sur le développement narratif dans la génération de vidéos, tels que le Flintstones dataset, le Pororo cartoon dataset, StoryGen, Tencent’s StoryStream, et VIST.

Comparaison des images et du texte entre CookGen et les jeux de données similaires les plus peuplés. Source : https://arxiv.org/pdf/2501.06173
CookGen se concentre sur les récits du monde réel, en particulier les activités procédurales comme la cuisine, offrant des histoires plus claires et plus faciles à annoter que les jeux de données basés sur des images de bandes dessinées. Il dépasse le plus grand jeu de données existant, StoryStream, avec 150 fois plus de cadres et 5 fois plus de descriptions textuelles denses.
Les chercheurs ont affiné un modèle de sous-titres en utilisant la méthodologie de LLaVA-NeXT comme base. Les étiquettes de reconnaissance automatique de la parole (ASR) obtenues pour HowTo100M ont été utilisées comme « actions » pour chaque vidéo, puis affinées davantage par des modèles de langage grand (LLM).
Par exemple, ChatGPT-4o a été utilisé pour produire un jeu de données de sous-titres et a été invité à se concentrer sur les interactions sujet-objet (comme les mains manipulant des ustensiles et de la nourriture), les attributs d’objet et la dynamique temporelle.
Puisque les scripts ASR sont susceptibles de contenir des inexactitudes et d’être généralement « bruyants », Intersection-over-Union (IoU) a été utilisé comme mesure pour évaluer à quel point les sous-titres se conformaient à la section de la vidéo qu’ils abordaient. Les auteurs notent que cela a été crucial pour la création de la cohérence narrative.
Les extraits curés ont été évalués en utilisant Fréchet Video Distance (FVD), qui mesure la disparité entre les exemples du monde réel et les exemples générés, avec et sans keyframes de vérité terrain, aboutissant à un résultat performant :

En utilisant FVD pour évaluer la distance entre les vidéos générées avec les nouveaux sous-titres, avec et sans l’utilisation de keyframes capturés à partir des vidéos échantillons.
En outre, les extraits ont été notés à la fois par GPT-4o et six annotateurs humains, suivant LLaVA-Hound‘s définition de « hallucination » (c’est-à-dire la capacité d’un modèle à inventer du contenu spurious).
Les chercheurs ont comparé la qualité des sous-titres à la Qwen2-VL-72B collection, obtenant un score légèrement amélioré.

Comparaison des scores FVD et d’évaluation humaine entre Qwen2-VL-72B et la collection des auteurs.
Méthode
La phase générative de VideoAuteur est divisée entre le Directeur narratif long (LND) et le modèle de génération de vidéos conditionnées visuellement (VCVGM).
LND génère une séquence d’incrustations visuelles ou de keyframes qui caractérisent le flux narratif, similaires à des « points forts essentiels ». Le VCVGM génère des extraits vidéo en fonction de ces choix.

Schéma du pipeline de traitement VideoAuteur. Le Directeur narratif long fait des sélections appropriées pour alimenter le module génératif Seed-X.
Les auteurs discutent longuement des mérites différents d’un directeur d’image-texte entrelacé et d’un directeur de keyframe centré sur le langage, et concluent que la première approche est la plus efficace.
Le directeur d’image-texte entrelacé génère une séquence en entrelaçant des jetons de texte et des incrustations visuelles, en utilisant un modèle auto-régressif pour prédire le jeton suivant, en fonction du contexte combiné du texte et des images. Cela garantit un alignement étroit entre les visuels et le texte.
En revanche, le directeur de keyframe centré sur le langage synthétise des keyframes en utilisant un modèle de diffusion conditionné par le texte basé uniquement sur les sous-titres, sans incorporer d’incrustations visuelles dans le processus de génération.
Les chercheurs ont constaté que tandis que la méthode centrée sur le langage génère des keyframes visuellement attrayants, elle manque de cohérence entre les cadres, en argumentant que la méthode entrelacée atteint des scores plus élevés en termes de réalisme et de cohérence visuelle. Ils ont également constaté que cette méthode était mieux à même d’apprendre un style visuel réaliste grâce à la formation, même si parfois avec certains éléments répétitifs ou bruyants.
De manière inhabituelle, dans une branche de recherche dominée par la co-optation de Stable Diffusion et Flux dans les flux de travail, les auteurs ont utilisé le modèle de langage multimodal à 7 milliards de paramètres de Tencent SEED-X pour leur pipeline génératif (bien que ce modèle utilise la version SDXL de Stability.ai de Stable Diffusion pour une partie limitée de son architecture).
Les auteurs déclarent :
‘Contrairement au pipeline classique Image-to-Video (I2V) qui utilise une image comme cadre de départ, notre approche utilise [regressed visual latents] comme conditions continues tout au long de la [séquence].
‘De plus, nous améliorons la robustesse et la qualité des vidéos générées en adaptant le modèle pour gérer les incrustations visuelles bruyantes, puisque les latents visuels régressés peuvent ne pas être parfaits en raison d’erreurs de régression.’
Bien que les pipelines de génération conditionnée visuelle typiques de ce type utilisent souvent des keyframes initiaux comme point de départ pour la guidance du modèle, VideoAuteur élargit ce paradigme en générant des états visuels multiples dans un espace latent sémantiquement cohérent, en évitant le biais potentiel de baser la génération ultérieure uniquement sur les « cadres de départ ».

Schéma de l’utilisation d’incrustations d’états visuels comme méthode de conditionnement supérieure.
Tests
Conformément aux méthodes de SeedStory, les chercheurs utilisent SEED-X pour appliquer une fine-tuning LoRA sur leur jeu de données narratif, décrivant énigmatiquement le résultat comme un « modèle Sora-like », pré-formé sur de grandes échelles de couplages vidéo/texte, et capable d’accepter à la fois des invites visuelles et textuelles et des conditions.
32 000 vidéos narratives ont été utilisées pour le développement du modèle, avec 1 000 mises de côté comme échantillons de validation. Les vidéos ont été découpées à 448 pixels sur le côté court et puis découpées au centre à 448x448px.
Pour la formation, la génération narrative a été évaluée principalement sur le jeu de validation YouCook2. Le jeu de données Howto100M a été utilisé pour l’évaluation de la qualité des données et également pour la génération d’images à vidéos.
Pour la perte de conditionnement visuel, les auteurs ont utilisé la perte de diffusion de DiT et un travail de 2024 basé autour de Stable Diffusion.
Pour prouver leur affirmation selon laquelle l’entrelacement est une approche supérieure, les auteurs ont opposé VideoAuteur à plusieurs méthodes qui reposent uniquement sur des invites textuelles : EMU-2, SEED-X, SDXL et FLUX.1-schnell (FLUX.1-s).

Étant donné une invite globale, ‘Guide étape par étape pour cuisiner le tofu mapo’, le directeur entrelacé génère des actions, des sous-titres et des incrustations d’images de manière séquentielle pour narrer le processus. Les deux premières rangées montrent des keyframes décodés à partir des espaces latents EMU-2 et SEED-X. Ces images sont réalistes et cohérentes, mais moins polies que celles des modèles avancés comme SDXL et FLUX.
Les auteurs déclarent :
‘L’approche centrée sur le langage en utilisant des modèles d’image à texte produit des keyframes visuellement attrayants mais souffre d’un manque de cohérence entre les cadres en raison d’informations mutuelles limitées. En revanche, la méthode de génération entrelacée utilise des latents visuels alignés sur le langage, atteignant un style visuel réaliste grâce à la formation.
‘Cependant, elle génère parfois des images avec des éléments répétitifs ou bruyants, car le modèle auto-régressif a du mal à créer des incrustations précises en une seule passe.’
L’évaluation humaine confirme davantage l’affirmation des auteurs concernant les performances améliorées de l’approche entrelacée, les méthodes entrelacées atteignant les scores les plus élevés dans un sondage.

Comparaison d’approches à partir d’une étude humaine menée pour le document.
Cependant, nous notons que les approches centrées sur le langage atteignent les meilleurs scores esthétiques. Les auteurs soutiennent cependant que ce n’est pas la question centrale dans la génération de vidéos narratives longues.
Cliquez pour jouer. Segments générés pour une vidéo de construction de pizza, par VideoAuteur.
Conclusion
La branche de recherche la plus populaire en ce qui concerne ce défi, c’est-à-dire la cohérence narrative dans la génération de vidéos longues, est concernée par les images individuelles. Les projets de ce type incluent DreamStory, StoryDiffusion, TheaterGen et ConsiStory de NVIDIA.
Dans un sens, VideoAuteur tombe également dans cette catégorie « statique », puisqu’il utilise des images de graines à partir desquelles des sections de clips sont générées. Cependant, l’entrelacement de contenu vidéo et sémantique amène le processus un peu plus près d’un pipeline pratique.
Publié pour la première fois jeudi 16 janvier 2025












