Kunstig intelligens

Tilberedning af narrativ konsistens til lang videogenerering

Published January 16, 2025

Updated April 3, 2026

Martin Anderson

ChatGPt 4o: 'an image with a width of 1792px and a height of 1024px. It should depict an orthographic view of an AI factory where rows of white-coated computer analysts are seated in front of PCs, and on the other side of their section is a conveyer belt with multiple stages of a recipe for a cake. Three video cameras are situated equidistant across the conveyer belt, aimed at the food items.'

Den seneste offentlige udgivelse af Hunyuan Video generative AI-model har intensiveret de pågående diskussioner om potentialet for store multimodale vision-language-modeller til en dag at kunne skabe hele film.

Men som vi har observeret, er dette et meget fjernt perspektiv på nuværende tidspunkt, af en række grunde. En af dem er den meget korte opmærksomhedsperiode for de fleste AI-video-genereringsmodeller, der kæmper for at opretholde konsistens, selv i en kort enkelt scene, endsige en række scener.

En anden grund er, at konsistente referencer til videoindhold (såsom gennemgåelige miljøer, der ikke skal ændre sig tilfældigt, hvis du følger dine skridt igennem dem) kun kan opnås i diffusionsmodeller ved hjælp af tilpasningsteknikker såsom low-rank adaptation (LoRA), som begrænser de færdige muligheder for grundlæggende modeller.

Derfor synes udviklingen af generativ video at være sat til at stagnere, medmindre der udvikles nye tilgange til narrativ kontinuitet.

Opskrift på kontinuitet

Med dette i mente, har et nyt samarbejde mellem USA og Kina foreslået at bruge instruktionsvideoer til madlavning som en mulig skabelon for fremtidige narrativ kontinuitetssystemer.

Klik for at afspille. VideoAuteur-projektet systematiserer analysen af dele af en madlavningsproces for at producere en fint-undertitlet ny dataset og en orkestreringsmetode til generering af madlavningsvideoer. Se kildewebsitet for bedre opløsning. Kilde: https://videoauteur.github.io/

Titled VideoAuteur, arbejdet foreslår en to-trins pipeline til at generere instruktionsvideoer til madlavning ved hjælp af samordnede tilstande, der kombinerer nøgleframes og undertekster, og opnår state-of-the-art-resultater i – i det mindste – et under-tilskrevet område.

VideoAueturs projektside indeholder også en række mere opmærksomhedskrævende videoer, der bruger samme teknik, såsom en foreslået trailer for en (ikke-eksisterende) Marvel/DC-crossover:

Klik for at afspille. To superhelte fra alternative universer mødes ansigt til ansigt i en falsk trailer fra VideoAuteur. Se kildewebsitet for bedre opløsning.

Siden indeholder lignende stilpromo-videoer til en lige så ikke-eksisterende Netflix-dyreserie og en Tesla-bilreklame.

I udviklingen af VideoAuteur eksperimenterede forfatterne med diverse tabsfunktioner og andre nytænkende tilgange. For at udvikle en opskrift på, hvordan-man-genereringsarbejdsproces, kuraterede de CookGen, den største dataset fokuseret på madlavningsdomænet, der indeholder 200.000 videoklip med en gennemsnitlig varighed på 9,5 sekunder.

Med en gennemsnit på 768,3 ord per video er CookGen komfortabelt den mest omfattende annoterede dataset af sin art. Diverse vision/sprog-modeller blev brugt, blandt andet for at sikre, at beskrivelserne var så detaljerede, relevante og præcise som muligt.

Madlavningsvideoer blev valgt, fordi madlavningsvejledninger har en struktureret og ubestemt narrativ, hvilket gør annotation og evaluering til en lettere opgave. Undtagen for pornografiske videoer (der sandsynligvis vil indtræde i dette specifikke område før eller senere), er det svært at tænke på noget andet genre, der er lige så visuelt og narrativt ‘formel’.