Kunstig intelligens
Tilbereder narrativ konsistens til lang videogenerering

nylig offentlig udgivelse af Hunyuan Video generative AI-model har intensiveret de igangværende diskussioner om potentialet ved store multimodale vision-sprogmodeller til en dag at skabe hele film.
Men som vi har observeret, dette er en meget fjern udsigt i øjeblikket, af en række årsager. Det ene er det meget korte opmærksomhedsvindue for de fleste AI-videogeneratorer, som kæmper for at bevare konsistensen selv i et kort enkelt skud, endsige en række skud.
En anden er, at konsistente referencer til videoindhold (såsom udforskbare miljøer, som ikke bør ændre sig tilfældigt, hvis du går tilbage gennem dem) kun kan opnås i diffusionsmodeller ved hjælp af tilpasningsteknikker som f.eks. lav rang tilpasning (LoRA), som begrænser basismodellernes out-of-the-box muligheder.
Derfor ser udviklingen af ​​generativ video ud til at gå i stå, medmindre der udvikles nye tilgange til narrativ kontinuitet.
Opskrift pĂĄ kontinuitet
Med dette in mente har et nyt samarbejde mellem USA og Kina foreslĂĄet brugen af madlavningsinstruktionsvideoer som en mulig skabelon for fremtidige narrative kontinuitetssystemer.
Klik for at spille. VideoAuteur-projektet systematiserer analysen af ​​dele af en madlavningsproces for at producere et fint undertekster nyt datasæt og en orkestreringsmetode til generering af madlavningsvideoer. Se kildesiden for bedre opløsning. Kilde: https://videoauteur.github.io/
Med titlen Videoforfatter, værket foreslår en to-trins pipeline til at generere instruktionsvideoer til madlavning ved hjælp af sammenhængende tilstande, der kombinerer keyframes og billedtekster, hvilket opnår state-of-the-art resultater i – indrømmet – en undertegnet plads.
VideoAuteurs projektside indeholder også en række mere opmærksomhedsfangende videoer, der bruger den samme teknik, såsom en foreslået trailer til en (ikke-eksisterende) Marvel/DC crossover:
Klik for at spille. To superhelte fra alternative universer står ansigt til ansigt i en falsk trailer fra VideoAuteur. Se kildesiden for bedre opløsning.
Siden indeholder ogsĂĄ promo-videoer i lignende stil for en lige sĂĄ ikke-eksisterende Netflix-dyreserie og en Tesla-bilannonce.
I udviklingen af ​​VideoAuteur eksperimenterede forfatterne med forskellige tabsfunktioner og andre nye tilgange. For at udvikle en opskrift, how-to generation workflow, kurerede de også CookGen, det største datasæt fokuserede på madlavningsdomænet, med 200 videoklip med en gennemsnitlig varighed på 000 sekunder.
Med et gennemsnit på 768.3 ord pr. video er CookGen komfortabelt det mest omfattende annoterede datasæt af sin art. Der blev blandt andet brugt forskellige visions-/sprogmodeller for at sikre, at beskrivelserne var så detaljerede, relevante og præcise som muligt.
Madlavningsvideoer blev valgt, fordi gennemgange af madlavningsinstruktioner har en struktureret og utvetydig fortælling, hvilket gør annotering og evaluering til en lettere opgave. Bortset fra pornografiske videoer (som sandsynligvis vil komme ind i dette særlige rum før snarere end senere), er det svært at forestille sig nogen anden genre, der er lige så visuelt og narrativt 'formelagtig'.
Forfatterne siger:
'Vores foreslåede to-trins auto-regressive pipeline, som omfatter en lang fortællende instruktør og visuelt betinget videogenerering, demonstrerer lovende forbedringer i semantisk konsistens og visuel troskab i genererede lange fortællende videoer.
Gennem eksperimenter på vores datasæt observerer vi forbedringer i rumlig og tidsmæssig sammenhæng på tværs af videosekvenser.
"Vi hĂĄber, at vores arbejde kan fremme yderligere forskning i generering af lange narrative videoer."
nyt arbejde er titlen Videoforfatter: Mod lang narrativ videogenerering, og kommer fra otte forfattere på tværs af Johns Hopkins University, ByteDance og ByteDance Seed.
Datasætkurering
For at udvikle CookGen, som driver et to-trins generativt system til fremstilling af AI madlavningsvideoer, brugte forfatterne materiale fra YouCook og Sådan 100 mio samlinger. Forfatterne sammenligner CookGens skala med tidligere datasæt fokuseret på narrativ udvikling i generativ video, som f.eks. Flintstones datasæt, Pororo tegneseriedatasæt, StoryGen, Tencents StoryStreamog VIST.

Sammenligning af billeder og tekstlængde mellem CookGen og de nærmeste-mest folkerige lignende datasæt. Kilde: https://arxiv.org/pdf/2501.06173
CookGen fokuserer på fortællinger fra den virkelige verden, især proceduremæssige aktiviteter som madlavning, og tilbyder klarere og nemmere at kommentere historier sammenlignet med billedbaserede tegneseriedatasæt. Det overgår det største eksisterende datasæt, StoryStream, med 150x flere rammer og 5x tættere tekstbeskrivelser.
Forskerne finjusteret en billedtekstmodel ved hjælp af metoden LLaVA-NeXT som base. De automatiske talegenkendelses (ASR) pseudo-labels, der blev opnået for HowTo100M, blev brugt som 'handlinger' for hver video og derefter yderligere forfinet ved store sprogmodeller (LLM'er).
For eksempel blev ChatGPT-4o brugt til at producere et billedtekstdatasæt og blev bedt om at fokusere på interaktioner mellem emne og objekt (såsom hænder, der håndterer redskaber og mad), objektattributter og tidsmæssig dynamik.
Da ASR-scripts sandsynligvis indeholder unøjagtigheder og generelt er 'støjende', Kryds-over-union (IoU) blev brugt som en metrik til at måle, hvor tæt underteksterne stemte overens med den del af videoen, de adresserede. Forfatterne bemærker, at dette var afgørende for skabelsen af ​​narrativ konsistens.
De kuraterede klip blev evalueret ved hjælp af Fréchet Video Distance (FVD), som måler forskellen mellem eksempler på grundsandhed (virkelig verden) og genererede eksempler, både med og uden grundsandhed-keyframes, og når frem til et performativt resultat:

Brug af FVD til at evaluere afstanden mellem videoer genereret med de nye billedtekster, bĂĄde med og uden brug af keyframes optaget fra eksempelvideoerne.
Derudover blev klippene bedømt både af GPT-4o og seks menneskelige annotatorer, som følger LLaVA-Hound's definition af 'hallucination' (dvs. en models evne til at opfinde falsk indhold).
Forskerne sammenlignede kvaliteten af ​​billedteksterne med Qwen2-VL-72B indsamling, hvilket opnår en lidt forbedret score.

Sammenligning af FVD- og humane evalueringsscorer mellem Qwen2-VL-72B og forfatternes samling.
Metode
VideoAuteurs generative fase er opdelt mellem Lang fortællende instruktør (LND) og visuelt betinget videogenereringsmodel (VCVGM).
LND genererer en sekvens af visuelle indlejringer eller keyframes, der karakteriserer narrativets flow, svarende til 'essentielle højdepunkter'. VCVGM genererer videoklip baseret på disse valg.

Skema for VideoAuteurs behandlingspipeline. The Long Narrative Video Director foretager passende valg til at sende til det Seed-X-drevne generative modul.
Forfatterne diskuterer indgående de forskellige fordele ved en interleaved billed-tekst-instruktør og en sprogcentreret keyframe-instruktør, og konkluderer, at førstnævnte er den mere effektive tilgang.
Den sammenflettede billedtekst-instruktør genererer en sekvens ved at flette tekst-tokens og visuelle indlejringer ved hjælp af en auto-regressiv model til at forudsige det næste token, baseret på den kombinerede kontekst af både tekst og billeder. Dette sikrer en stram tilpasning mellem billeder og tekst.
I modsætning hertil syntetiserer den sprogcentrerede keyframe-instruktør keyframes ved hjælp af en tekstbetinget diffusionsmodel, der udelukkende er baseret på billedtekster, uden at inkorporere visuelle indlejringer i genereringsprocessen.
Forskerne fandt ud af, at mens den sprogcentrerede metode genererer visuelt tiltalende keyframes, mangler den konsistens på tværs af frames, idet de argumenterer for, at den interleaved-metode opnår højere score i realisme og visuel konsistens. De fandt også ud af, at denne metode var bedre i stand til at lære en realistisk visuel stil gennem træning, dog nogle gange med nogle gentagne eller støjende elementer.
Usædvanligt nok brugte forfatterne Tencents i en forskningsstreng domineret af integrationen af ​​stabil diffusion og flux i arbejdsgange. SEED-X 7B-parameter multimodal LLM-grundmodel til deres generative pipeline (selvom denne model udnytter Stability.ais) SDXL frigivelse af Stable Diffusion for en begrænset del af dens arkitektur).
Forfatterne siger:
'I modsætning til den klassiske Image-to-Video (I2V) pipeline, der bruger et billede som startramme, udnytter vores tilgang [regresserede visuelle latenter] som kontinuerlige betingelser gennem hele [sekvensen].
"Derudover forbedrer vi robustheden og kvaliteten af ​​de genererede videoer ved at tilpasse modellen til at håndtere støjende visuelle indlejringer, da de regresserede visuelle latenter muligvis ikke er perfekte på grund af regressionsfejl."
Selvom typiske visuelle betingede generative pipelines af denne art ofte bruger indledende keyframes som udgangspunkt for modelvejledning, udvider VideoAuteur dette paradigme ved at generere flerdelte visuelle tilstande i en semantisk sammenhængende latent rum, hvilket undgår den potentielle bias ved at basere yderligere generation udelukkende på 'startrammer'.

Skema til brug af visuelle tilstandsindlejringer som en overlegen konditioneringsmetode.
Tests
På linje med metoderne til SeedStoryForskerne bruger SEED-X til at anvende LoRA-finjustering på deres narrative datasæt og beskriver gådefuldt resultatet som en 'Sora-lignende model', der er præ-trænet i store video/tekst-koblinger og i stand til at acceptere både visuelle og tekstlige prompts og betingelser.
32,000 fortællende videoer blev brugt til modeludvikling, hvoraf 1,000 blev holdt til side som valideringsprøver. Videoerne blev beskåret til 448 pixels på den korte side og derefter beskåret i midten til 448x448px.
Til træning blev den narrative generation primært evalueret på YouCook2-valideringssættet. Howto100M-sættet blev brugt til datakvalitetsevaluering og også til billed-til-video-generering.
For visuelt konditioneringstab brugte forfatterne diffusionstab fra DiT og en 2024 arbejde baseret pĂĄ stabil diffusion.
For at bevise deres påstand om, at interleaving er en overlegen tilgang, stillede forfatterne VideoAuteur op imod flere metoder, der udelukkende er afhængige af tekstbaseret input: EMU-2, SEED-X, SDXL og FLUX.1-schnell (FLUX.1-s).

Med en global prompt, 'Trin-for-trin guide til madlavning af mapo tofu', genererer den interleaved instruktør handlinger, billedtekster og billedindlejringer sekventielt for at fortælle processen. De første to rækker viser keyframes dekodet fra latente EMU-2 og SEED-X rum. Disse billeder er realistiske og konsistente, men mindre polerede end dem fra avancerede modeller som SDXL og FLUX..
Forfatterne siger:
'Den sprogcentrerede tilgang ved hjælp af tekst-til-billede-modeller producerer visuelt tiltalende keyframes, men lider af mangel på konsistens på tværs af rammer på grund af begrænset gensidig information. I modsætning hertil udnytter interleaved-genereringsmetoden sproglige visuelle latenter og opnår en realistisk visuel stil gennem træning.
"Den genererer dog lejlighedsvis billeder med gentagne eller støjende elementer, da den autoregressive model kæmper med at skabe præcise indlejringer i en enkelt gennemgang."
Menneskelig evaluering bekræfter yderligere forfatternes påstand om den forbedrede ydeevne af den sammenflettede tilgang, hvor sammenflettede metoder opnår de højeste scorer i en undersøgelse.

Sammenligning af tilgange fra en menneskelig undersøgelse udført for papiret.
Vi bemærker dog, at sprogcentrerede tilgange opnår det bedste æstetisk scoringer. Forfatterne hævder dog, at dette ikke er det centrale spørgsmål i genereringen af ​​lange fortællende videoer.
Klik for at spille. Segmenter genereret til en pizzabyggende video af VideoAuteur.
Konklusion
Det mest populære forskningsområde i forbindelse med denne udfordring, dvs. narrativ konsistens i lang-form videogenerering, handler om enkeltbilleder. Projekter af denne art omfatter bl.a DreamStory, Historiediffusion, TheaterGen og NVIDIAs ConsiStory.
På en måde falder VideoAuteur også ind under denne 'statiske' kategori, da den gør brug af frøbilleder, hvorfra klip-sektioner genereres. Men sammenfletningen af ​​video og semantisk indhold bringer processen et skridt nærmere en praktisk pipeline.
Først offentliggjort torsdag den 16. januar 2025