Intelligence Artificielle
Préparer la cohérence narrative pour la génération de vidéos longues

L'espace publication publique récente Le modèle d'IA générative vidéo Hunyuan a intensifié les discussions en cours sur le potentiel des grands modèles de vision-langage multimodaux pour créer un jour des films entiers.
Cependant, comme nous ont observé, il s'agit d'une perspective très lointaine pour le moment, pour un certain nombre de raisons. L'une d'entre elles est la fenêtre d'attention très courte de la plupart des générateurs de vidéos IA, qui ont du mal à maintenir la cohérence même dans une courte prise de vue unique, sans parler d'une série de prises de vue.
Une autre raison est que les références cohérentes au contenu vidéo (comme les environnements explorables, qui ne devraient pas changer de manière aléatoire si vous revenez sur vos pas à travers eux) ne peuvent être obtenues dans les modèles de diffusion que par des techniques de personnalisation telles que adaptation de bas rang (LoRA), qui limite les capacités prêtes à l'emploi des modèles de fondation.
Par conséquent, l’évolution de la vidéo générative semble vouée à stagner à moins que de nouvelles approches de la continuité narrative ne soient développées.
Recette pour la continuité
Dans cette optique, une nouvelle collaboration entre les États-Unis et la Chine a proposé l’utilisation de vidéos pédagogiques de cuisine comme modèle possible pour les futurs systèmes de continuité narrative.
Cliquez pour jouer. Le projet VideoAuteur systématise l'analyse des différentes étapes d'un processus de cuisson, pour produire un nouvel ensemble de données finement sous-titrées et une méthode d'orchestration pour la génération de vidéos de cuisine. Reportez-vous au site source pour une meilleure résolution. Source : https://videoauteur.github.io/
Titré VidéoAuteur, l'ouvrage propose un pipeline en deux étapes pour générer des vidéos de cuisine pédagogiques à l'aide d'états cohérents combinant des images clés et des légendes, obtenant des résultats de pointe dans un espace - certes - sous-souscrit.
La page du projet de VideoAuteur comprend également un certain nombre de vidéos plus accrocheuses qui utilisent la même technique, comme une bande-annonce proposée pour un crossover Marvel/DC (inexistant) :
Cliquez pour jouer. Deux super-héros d'univers alternatifs se retrouvent face à face dans une fausse bande-annonce de VideoAuteur. Reportez-vous au site source pour une meilleure résolution.
La page présente également des vidéos promotionnelles de style similaire pour une série animale Netflix tout aussi inexistante et une publicité pour une voiture Tesla.
Lors du développement de VideoAuteur, les auteurs ont expérimenté diverses fonctions de perte et d'autres approches novatrices. Pour développer un flux de travail de génération de recettes, ils ont également organisé CookGen, le plus grand ensemble de données axé sur le domaine de la cuisine, comprenant 200 000 clips vidéo d'une durée moyenne de 9.5 secondes.
Avec une moyenne de 768.3 mots par vidéo, CookGen est sans conteste l'ensemble de données le plus annoté de son genre. Divers modèles de vision/langage ont été utilisés, entre autres approches, pour garantir que les descriptions soient aussi détaillées, pertinentes et précises que possible.
Les vidéos de cuisine ont été choisies car les tutoriels culinaires présentent un récit structuré et clair, facilitant l'annotation et l'évaluation. Hormis les vidéos pornographiques (qui devraient bientôt entrer dans ce créneau), il est difficile d'imaginer un autre genre aussi « formulé » visuellement et narrativement.
Les auteurs déclarent:
« Notre pipeline auto-régressif en deux étapes proposé, qui comprend un long réalisateur narratif et une génération de vidéos conditionnées visuellement, démontre des améliorations prometteuses en termes de cohérence sémantique et de fidélité visuelle dans les longues vidéos narratives générées.
Grâce à des expériences sur notre ensemble de données, nous observons des améliorations de la cohérence spatiale et temporelle entre les séquences vidéo.
« Nous espérons que notre travail pourra faciliter de nouvelles recherches sur la génération de vidéos narratives longues. »
L'espace nouveau travail est intitulé VideoAuteur : Vers la génération de vidéos narratives longues, et provient de huit auteurs de l'Université Johns Hopkins, de ByteDance et de ByteDance Seed.
Conservation des ensembles de données
Pour développer CookGen, qui alimente un système génératif en deux étapes pour produire des vidéos de cuisine IA, les auteurs ont utilisé du matériel provenant du Vous cuisinez et Comment100M collections. Les auteurs comparent l'échelle de CookGen à des ensembles de données précédents axés sur le développement narratif dans la vidéo générative, tels que Ensemble de données sur les Pierrafeu, le Pororo ensemble de données de dessins animés, HistoireGen, Tencent StoryStream et VIST.

Comparaison des images et de la longueur du texte entre CookGen et les ensembles de données similaires les plus peuplés. Source : https://arxiv.org/pdf/2501.06173
CookGen se concentre sur les récits du monde réel, en particulier les activités procédurales comme la cuisine, offrant des histoires plus claires et plus faciles à annoter que les ensembles de données de bandes dessinées basées sur des images. Il dépasse le plus grand ensemble de données existant, StoryStream, avec 150 fois plus d'images et des descriptions textuelles 5 fois plus denses.
Les chercheurs a peaufiné un modèle de sous-titrage en utilisant la méthodologie de LLaVA-NeXT comme base. Les pseudo-étiquettes de reconnaissance vocale automatique (ASR) obtenues pour HowTo100M ont été utilisées comme « actions » pour chaque vidéo, puis affinées par grands modèles de langage (LLM).
Par exemple, ChatGPT-4o a été utilisé pour produire un ensemble de données de légendes et a été invité à se concentrer sur les interactions sujet-objet (telles que les mains manipulant des ustensiles et de la nourriture), les attributs des objets et la dynamique temporelle.
Étant donné que les scripts ASR sont susceptibles de contenir des inexactitudes et d'être généralement « bruyants », Intersection sur Union (IoU) a été utilisé comme indicateur pour mesurer la conformité des sous-titres à la section de la vidéo qu'ils abordaient. Les auteurs soulignent que cela était crucial pour la création d'une cohérence narrative.
Les clips sélectionnés ont été évalués à l'aide Distance vidéo Fréchet (FVD), qui mesure la disparité entre les exemples de vérité fondamentale (du monde réel) et les exemples générés, avec et sans images clés de vérité fondamentale, pour arriver à un résultat performatif :

Utilisation de FVD pour évaluer la distance entre les vidéos générées avec les nouvelles sous-titres, avec et sans l'utilisation d'images clés capturées à partir des vidéos d'échantillons.
De plus, les clips ont été évalués à la fois par GPT-4o et par six annotateurs humains, après Chien LLaVAdéfinition de « hallucination » (c'est-à-dire la capacité d'un modèle à inventer un contenu fallacieux).
Les chercheurs ont comparé la qualité des sous-titres à celle des Qwen2-VL-72B collection, obtenant un score légèrement amélioré.

Comparaison des scores d'évaluation FVD et humaine entre Qwen2-VL-72B et la collection des auteurs.
Méthode
La phase générative de VideoAuteur est divisée entre la Réalisateur de longs récits (LND) et le modèle de génération de vidéos conditionnées visuellement (VCVGM).
LND génère une séquence d'images clés ou d'intégrations visuelles qui caractérisent le flux narratif, à l'instar des « points forts essentiels ». Le VCVGM génère des clips vidéo basés sur ces choix.

Schéma du pipeline de traitement de VideoAuteur. Le Long Narrative Video Director effectue des sélections appropriées à alimenter dans le module génératif propulsé par Seed-X.
Les auteurs discutent en détail des différents mérites d'un réalisateur d'images-textes entrelacés et un réalisateur d'images clés centré sur la langue, et concluons que la première est l'approche la plus efficace.
Le réalisateur d'images-textes entrelacés génère une séquence en entrelaçant des jetons de texte et des intégrations visuelles, à l'aide d'un auto-régressif modèle permettant de prédire le prochain jeton, en fonction du contexte combiné du texte et des images. Cela garantit un alignement étroit entre les visuels et le texte.
En revanche, le réalisateur d'images clés centré sur le langage synthétise les images clés à l'aide d'un modèle de diffusion conditionné par le texte basé uniquement sur des légendes, sans incorporer d'intégrations visuelles dans le processus de génération.
Les chercheurs ont constaté que si la méthode centrée sur le langage génère des images clés visuellement attrayantes, elle manque de cohérence entre les images, affirmant que la méthode entrelacée obtient des scores plus élevés en termes de réalisme et de cohérence visuelle. Ils ont également constaté que cette méthode était plus à même d'apprendre un style visuel réaliste par le biais de l'entraînement, bien que parfois avec des éléments répétitifs ou bruyants.
Fait inhabituel, dans un domaine de recherche dominé par la cooptation de Stable Diffusion et Flux dans les flux de travail, les auteurs ont utilisé les outils de Tencent. GRAINE-X Modèle de fondation LLM multimodal à 7 B paramètres pour leur pipeline génératif (bien que ce modèle exploite Stability.ai) SDXL version de Stable Diffusion pour une partie limitée de son architecture).
Les auteurs déclarent:
« Contrairement au pipeline classique Image-to-Video (I2V) qui utilise une image comme trame de départ, notre approche exploite les [latences visuelles régressées] comme conditions continues tout au long de la [séquence].
« De plus, nous améliorons la robustesse et la qualité des vidéos générées en adaptant le modèle pour gérer les intégrations visuelles bruyantes, car les latents visuels régressés peuvent ne pas être parfaits en raison d'erreurs de régression. »
Bien que les pipelines génératifs conditionnés visuellement typiques de ce type utilisent souvent des images clés initiales comme point de départ pour le guidage du modèle, VideoAuteur développe ce paradigme en générant des états visuels en plusieurs parties de manière sémantiquement cohérente. espace latent, évitant ainsi le biais potentiel consistant à baser la génération ultérieure uniquement sur les « trames de départ ».

Schéma d'utilisation des intégrations d'états visuels comme méthode de conditionnement supérieure.
Tests
Conformément aux méthodes de Histoire de semences, les chercheurs utilisent SEED-X pour appliquer le réglage fin LoRA sur leur ensemble de données narratives, décrivant énigmatiquement le résultat comme un « modèle de type Sora », pré-entraîné sur des couplages vidéo/texte à grande échelle, et capable d'accepter des invites et des conditions visuelles et textuelles.
32,000 1,000 vidéos narratives ont été utilisées pour le développement du modèle, dont XNUMX XNUMX ont été mises de côté échantillons de validationLes vidéos ont été recadrées à 448 pixels sur le côté court, puis recadrées au centre à 448x448px.
Pour la formation, la génération de récits a été évaluée principalement sur l'ensemble de validation YouCook2. L'ensemble Howto100M a été utilisé pour l'évaluation de la qualité des données et également pour la génération d'images en vidéos.
Pour la perte de conditionnement visuel, les auteurs ont utilisé la perte par diffusion de DiT , l’aspect économique 2024 travail basé sur la diffusion stable.
Pour prouver leur affirmation selon laquelle l'entrelacement est une approche supérieure, les auteurs ont opposé VideoAuteur à plusieurs méthodes qui reposent uniquement sur une saisie textuelle : UEM-2, SEED-X, SDXL et FLUX.1-rapide (FLUX.1-s).

À partir d'une invite globale, « Guide étape par étape pour la cuisson du tofu mapo », le réalisateur entrelacé génère séquentiellement des actions, des légendes et des images intégrées pour raconter le processus. Les deux premières lignes présentent des images clés décodées à partir des espaces latents EMU-2 et SEED-X. Ces images sont réalistes et cohérentes, mais moins abouties que celles issues de modèles avancés comme SDXL et FLUX..
Les auteurs déclarent:
« L'approche centrée sur le langage, qui utilise des modèles texte-image, produit des images clés visuellement attrayantes, mais souffre d'un manque de cohérence entre les images en raison d'informations mutuelles limitées. En revanche, la méthode de génération entrelacée exploite les latents visuels alignés sur le langage, obtenant un style visuel réaliste grâce à l'entraînement.
« Cependant, il génère parfois des images avec des éléments répétitifs ou bruyants, car le modèle autorégressif a du mal à créer des intégrations précises en un seul passage. »
L’évaluation humaine confirme en outre l’affirmation des auteurs concernant l’amélioration des performances de l’approche entrelacée, les méthodes entrelacées obtenant les scores les plus élevés dans une enquête.

Comparaison des approches issues d’une étude humaine menée pour l’article.
Nous notons cependant que les approches centrées sur la langue obtiennent les meilleurs résultats. esthétique Les auteurs soutiennent cependant que ce n’est pas là le problème central de la génération de longues vidéos narratives.
Cliquez pour jouer. Segments générés pour une vidéo de fabrication de pizza, par VideoAuteur.
Conclusion
Le domaine de recherche le plus populaire concernant ce défi, à savoir la cohérence narrative dans la génération de vidéos de longue durée, s'intéresse aux images individuelles. Les projets de ce type incluent RêveHistoire, HistoireDiffusion, ThéâtreGen et NVIDIA Consistoire.
Dans un certain sens, VideoAuteur tombe également dans cette catégorie « statique », car il utilise des images de départ à partir desquelles des sections de clip sont générées. Cependant, l'entrelacement de contenu vidéo et sémantique rapproche le processus d'un pipeline pratique.
Première publication le jeudi 16 janvier 2025












