Connect with us

Kunstig intelligens

Tilberedning af narrative konsistens til lang videogenerering

mm
ChatGPt 4o: 'an image with a width of 1792px and a height of 1024px. It should depict an orthographic view of an AI factory where rows of white-coated computer analysts are seated in front of PCs, and on the other side of their section is a conveyer belt with multiple stages of a recipe for a cake. Three video cameras are situated equidistant across the conveyer belt, aimed at the food items.'

Den seneste offentlige udgivelse af Hunyuan Video generative AI-model har intensiveret de pågående diskussioner om potentialet for store multimodale vision-language-modeller til en dag at skabe hele film.

Men som vi har observeret, er dette et meget fjernt perspektiv på nuværende tidspunkt, af en række grunde. En af dem er den meget korte opmærksomhedsperiode for de fleste AI-videogenereringsmodeller, som kæmper for at opretholde konsistens, selv i en kort enkelt scene, endsige en række scener.

En anden grund er, at konsistente referencer til videoinhold (såsom gennemgåelige miljøer, som ikke bør ændre sig tilfældigt, hvis du følger dine skridt igennem dem) kun kan opnås i diffusionsmodeller ved hjælp af tilpasningsteknikker såsom low-rank adaptation (LoRA), som begrænser de færdige modellers funktioner.

Derfor synes udviklingen af generative video at være sat til at stagnere, medmindre der udvikles nye tilgange til narrative kontinuitet.

Opskrift på kontinuitet

Med dette i mente, har et nyt samarbejde mellem USA og Kina foreslået at bruge instruktionsvideoer til madlavning som en mulig skabelon for fremtidige narrative kontinuitetssystemer.

Klik for at afspille. VideoAuteur-projektet systematiserer analysen af dele af en madlavningsproces for at producere en fint-underskrevet ny dataset og en orkestreringsmetode til generering af madlavningsvideoer. Se kildewebsite for bedre opløsning.  Kilde: https://videoauteur.github.io/

Titled VideoAuteur, arbejdet foreslår en to-trins pipeline til at generere instruktionsvideoer til madlavning ved hjælp af samordnede tilstande, der kombinerer nøgleframes og undertekster, og opnår state-of-the-art-resultater i – i det mindste – et under-tilskrevet område.

VideoAuteurs projektside indeholder også en række mere opmærksomhedskrævende videoer, der bruger samme teknik, såsom en foreslået trailer for en (ikke-eksisterende) Marvel/DC-crossover:

Klik for at afspille. To superhelte fra alternative universer mødes ansigt til ansigt i en falsk trailer fra VideoAuteur. Se kildewebsite for bedre opløsning.

Siden indeholder lignende stilpromo-videoer for en lige så ikke-eksisterende Netflix-dyreserie og en Tesla-bilreklame.

I udviklingen af VideoAuteur eksperimenterede forfatterne med diverse tabsfunktioner og andre nytænkende tilgange. For at udvikle en opskrift på, hvordan-man-gør-det-genereringsarbejdsgang, kuraterede de CookGen, den største dataset fokuseret på madlavningsdomænet, med 200.000 videoklip med en gennemsnitlig varighed på 9,5 sekunder.

Med en gennemsnit på 768,3 ord per video er CookGen komfortabelt den mest omfattende annoterede dataset af sin art. Diverse vision/sprog-modeller blev brugt, blandt andet for at sikre, at beskrivelserne var så detaljerede, relevante og præcise som muligt.

Madlavningsvideoer blev valgt, fordi madlavningsvejledninger har en struktureret og ubestridt fortælling, hvilket gør annotation og evaluering til en lettere opgave. Bortset fra pornografiske videoer (som sandsynligvis vil indtræde i dette specifikke område før eller senere) er det svært at tænke på noget andet genre, der er lige så visuelt og narrativt ‘formel’.

Forfatterne skriver:

‘Vores foreslåede to-trins auto-regressive pipeline, som inkluderer en lang narrativ direktør og visuelt betinget videogenerering, demonstrerer lovende forbedringer i semantisk konsistens og visuel troværdighed i genererede lange narrative videoer.

‘Gennem eksperimenter på vores dataset observerer vi forbedringer i rumlig og tidsmæssig kohærens over videosekvenser.

‘Vi håber, at vores arbejde kan facilitere yderligere forskning i lange narrative videogenerering.’

Det nye arbejde er titlen VideoAuteur: Towards Long Narrative Video Generation, og kommer fra otte forfattere på tværs af Johns Hopkins University, ByteDance og ByteDance Seed.

Dataset-kurering

For at udvikle CookGen, som driver en to-trins genereringsmodel til at producere AI-madlavningsvideoer, brugte forfatterne materiale fra YouCook og HowTo100M-samlinger. Forfatterne sammenligner omfanget af CookGen med tidligere datasets fokuseret på narrative udvikling i generative video, såsom Flintstones-dataset, Pororo-tegneserie-dataset, StoryGen, Tencents StoryStream og VIST.

Sammenligning af billeder og tekstlængde mellem CookGen og den nærmest-mest befolkede lignende datasets. Kilde: https://arxiv.org/pdf/2501.06173

Sammenligning af billeder og tekstlængde mellem CookGen og den nærmest-mest befolkede lignende datasets. Kilde: https://arxiv.org/pdf/2501.06173

CookGen fokuserer på virkelige narrative, især procedurer som madlavning, og tilbyder klarere og lettere-at-annotere historier i forhold til billedbaserede tegneserie-datasets. Det overgår den største eksisterende dataset, StoryStream, med 150 gange flere rammer og 5 gange tættere tekstbeskrivelser.

Forskere finede en undertitelingsmodel ved hjælp af LLaVA-NeXT’s metode som grund. De automatiske talegenkendelses- (ASR) pseudo-mærker, der blev opnået for HowTo100M, blev brugt som ‘handling’ for hvert video, og derefter yderligere forfinet af store sprogmodeller (LLM’er).

For eksempel blev ChatGPT-4o brugt til at producere en undertitel-dataset, og blev bedt om at fokusere på subjekt-objekt-interaktioner (såsom hænder, der håndterer redskaber og mad), objektagenskaber og tidsdynamik.

Da ASR-manuskripter sandsynligvis indeholder uøjeblikkeligheder og generelt er ‘støjende’, blev Intersection-over-Union (IoU) brugt som en metode til at måle, hvor tæt underteksterne svarede til den del af videoen, de var rettet mod. Forfatterne bemærker, at dette var afgørende for skabelsen af narrative konsistens.

De kuraterede klip blev evaluaret ved hjælp af Fréchet Video Distance (FVD), som måler forskellen mellem grundsandhed (virkelige verden) eksempler og genererede eksempler, både med og uden grundsandhed nøgleframes, og opnåede et performant resultat:

Brug af FVD til at evaluere afstanden mellem videoer genereret med de nye undertekster, både med og uden brug af nøgleframes fanget fra eksempelvideoerne.

Brug af FVD til at evaluere afstanden mellem videoer genereret med de nye undertekster, både med og uden brug af nøgleframes fanget fra eksempelvideoerne.

Derudover blev klipene vurderet både af GPT-4o og seks menneskelige annotatorer, efter LLaVA-Hound‘s definition af ‘hallucination’ (dvs. evnen til at opfinde spurious indhold).

Forskere sammenlignede kvaliteten af underteksterne med Qwen2-VL-72B-samlingen og opnåede en lidt forbedret score.

Sammenligning af FVD- og menneskevurderingsscores mellem Qwen2-VL-72B og forfatternes samling.

Sammenligning af FVD- og menneskevurderingsscores mellem Qwen2-VL-72B og forfatternes samling.

Metode

VideoAuteurs genereringsfase er inddelt mellem Long Narrative Director (LND) og visuelt betinget videogenereringsmodel (VCVGM).

LND genererer en sekvens af visuelle indlejninger eller nøgleframes, der karakteriserer narrative flow, lignende ‘essentielle highlights’. VCVGM genererer videoklip baseret på disse valg.

Schema for VideoAuteurs procespipeline. Long Narrative Video Director foretager passende valg til at føde til Seed-X-drevet genereringsmodul.

Schema for VideoAuteurs procespipeline. Long Narrative Video Director foretager passende valg til at føde til Seed-X-drevet genereringsmodul.

Forfatterne diskuterer omfattende de forskellige fortjenester af en interleaved image-text direktør og en sprog-centreret nøgleframedirektør, og konkluderer, at den førstnævnte er den mere effektive tilgang.

Den interleavede image-text direktør genererer en sekvens ved at interpolere teksttoken og visuelle indlejninger, ved hjælp af en auto-regressiv model til at forudsige den næste token, baseret på den kombinerede kontekst af både tekst og billeder. Dette sikrer en tæt tilknytning mellem visuelt og tekst.

I modsætning hertil syntetiserer den sprog-centrerede nøgleframedirektør nøgleframes ved hjælp af en tekst-betinget diffusionsmodel baseret kun på undertekster, uden at inkorporere visuelle indlejninger i genereringsprocessen.

Forskere fandt, at mens den sprog-centrerede metode genererer visuelt tiltalende nøgleframes, mangler den konsistens over frames, og argumenterer for, at den interleavede metode opnår højere scores i realisme og visuel konsistens. De fandt også, at denne metode var bedre i stand til at lære en realistisk visuel stil gennem træning, selvom det nogle gange medførte repetitive eller støjende elementer.

Usædvanligt, i en forskningsstræng, der er domineret af optagelse af Stable Diffusion og Flux i arbejdsprocesser, brugte forfatterne Tencents SEED-X 7B-parameter multi-modal LLM grundmodel for deres genereringspipeline (omend denne model udnytter Stability.ai’s SDXL-udgave af Stable Diffusion for en begrænset del af dens arkitektur).

Forfatterne skriver:

‘I modsætning til den klassiske Image-to-Video (I2V)-pipeline, der bruger et billede som startframe, udnytter vores tilgang [regressede visuelle latenter] som kontinuerlige betingelser på tværs af [sekvensen].

‘Desuden forbedrer vi robustheden og kvaliteten af de genererede videoer ved at tilpasse modellen til at håndtere støjende visuelle indlejninger, da de regressede visuelle latenter ikke behøver at være perfekte på grund af regressionsfejl.’

Selvom typiske visuelt betingede genereringspipelines af denne type ofte bruger startnøgleframes som et udgangspunkt for modelguidning, udvider VideoAuteur på denne paradigm ved at generere flerdelte visuelle tilstande i en semantisk kohærent latent rum, og undgår dermed den potentielle bias af at basere yderligere generering kun på ‘startframes’.

Schema for brug af visuelle tilstandsindlejninger som en overlegen betingelsesmetode.

Schema for brug af visuelle tilstandsindlejninger som en overlegen betingelsesmetode.

Tests

I overensstemmelse med SeedStory’s metoder brugte forskerne SEED-X til at anvende LoRA-fine-tuning på deres narrative dataset, og beskrev resultatet som en ‘Sora-lignende model’, forudtrænet på store skala video/titel-par, og i stand til at acceptere både visuelle og tekstprompt og betingelser.

32.000 narrative videoer blev brugt til modeludvikling, med 1.000 sat til side som valideringsprøver. Videoerne blev beskåret til 448 pixel på den korte side og derefter center-beskåret til 448x448px.

Til træning blev den narrative generering primært vurderet på YouCook2-valideringssettet. Howto100M-sættet blev brugt til datakvalitetsvurdering og også til billed-til-video-generering.

Til visuelt betinget tab brugte forfatterne diffusions-tab fra DiT og en 2024-arbejde baseret på Stable Diffusion.

For at bevise deres påstand om, at interleaving er en overlegen tilgang, satte forfatterne VideoAuteur op imod flere metoder, der kun afhænger af tekstbaseret input: EMU-2, SEED-X, SDXL og FLUX.1-schnell (FLUX.1-s).

Givet en global prompt, 'Trin-for-trin-vejledning i at lave mapo-tofu', genererer den interleavede direktør handlinger, undertekster og billedindlejninger sekventielt for at fortælle processen. De første to rækker viser nøgleframes dekodet fra EMU-2 og SEED-X latente rum. Disse billeder er realistiske og konsistente, men mindre polerede end dem fra avancerede modeller som SDXL og FLUX.

Givet en global prompt, ‘Trin-for-trin-vejledning i at lave mapo-tofu’, genererer den interleavede direktør handlinger, undertekster og billedindlejninger sekventielt for at fortælle processen. De første to rækker viser nøgleframes dekodet fra EMU-2 og SEED-X latente rum. Disse billeder er realistiske og konsistente, men mindre polerede end dem fra avancerede modeller som SDXL og FLUX.

Forfatterne skriver:

‘Den sprog-centrerede tilgang, der bruger tekst-til-billede-modeller, producerer visuelt tiltalende nøgleframes, men lider under en mangel på konsistens over frames på grund af begrænset gensidig information. I modsætning hertil udnytter den interleavede generationsmetode sprog-til-pas-visuelle latenter, og opnår en realistisk visuel stil gennem træning.

‘Men den genererer af og til billeder med repetitive eller støjende elementer, da den auto-regressive model kæmper for at skabe præcise indlejninger i en enkelt omgang.’

Menneskelig evaluering bekræfter yderligere forfatternes påstand om den forbedrede præstation af den interleavede tilgang, med interleavede metoder, der opnår de højeste scores i en undersøgelse.

Sammenligning af tilgange fra en menneskeundersøgelse gennemført for artiklen.

Sammenligning af tilgange fra en menneskeundersøgelse gennemført for artiklen.

Men vi bemærker, at sprog-centrerede tilgange opnår de bedste æstetiske scores. Forfatterne fastslår dog, at dette ikke er det centrale problem i genereringen af lange narrative videoer.

Klik for at afspille. Segmenter genereret til en pizzabuilding-video af VideoAuteur.

Konklusion

Den mest populære forskningsstræng i forhold til denne udfordring, dvs. narrative konsistens i lang-forms videogenerering, er beskæftiget med enkeltbilleder. Projekter af denne type inkluderer DreamStory, StoryDiffusion, TheaterGen og NVIDIAs ConsiStory.

I en vis forstand falder VideoAuteur også ind i denne ‘statiske’ kategori, da det udnytter seed-billeder, fra hvilke klip-sektioner genereres. Men den interleaving af video og semantisk indhold bringer processen et skridt nærmere en praktisk pipeline.

 

Først udgivet torsdag, 16. januar 2025

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.