Connect with us

Artificiell intelligens

Matning av berättande konsekvens för lång videogenerering

mm
ChatGPt 4o: 'an image with a width of 1792px and a height of 1024px. It should depict an orthographic view of an AI factory where rows of white-coated computer analysts are seated in front of PCs, and on the other side of their section is a conveyer belt with multiple stages of a recipe for a cake. Three video cameras are situated equidistant across the conveyer belt, aimed at the food items.'

Den nyliga offentliga utgåvan av Hunyuan Video generativ AI-modell har intensifierat pågående diskussioner om potentialen för stora multimodala vision-språkmodeller att en dag skapa hela filmer.

Men som vi har observerat, är detta ett mycket avlägset perspektiv just nu, av flera skäl. Ett är den mycket korta uppmärksamhetsfönstret för de flesta AI-videogenererare, som kämpar för att upprätthålla konsekvens även i en kort enskild bild, än mindre en serie bilder.

Ett annat är att konsekventa referenser till videoinnehåll (såsom utforskbara miljöer, som inte bör ändras slumpmässigt om du går tillbaka genom dem) endast kan uppnås i diffusionsmodeller med anpassningstekniker som low-rank adaptation (LoRA), som begränsar de färdiga funktionerna i grundmodellerna.

Därför verkar utvecklingen av generativ video vara på väg att stanna av om inte nya tillvägagångssätt för berättande kontinuitet utvecklas.

Recept för kontinuitet

Med detta i åtanke har ett nytt samarbete mellan USA och Kina föreslagit användningen av instruktionsvideor för matlagning som en möjlig mall för framtida system för berättande kontinuitet.

Klicka för att spela. VideoAuteur-projektet systematiserar analysen av delar av en matlagningsprocess för att producera en fint annoterad ny dataset och en orkestreringsmetod för generering av matlagningsvideor. Se källsidan för bättre upplösning. Källa: https://videoauteur.github.io/

Arbetet, med titeln VideoAuteur, föreslår en tvåstegspipeline för att generera instruktionsvideor för matlagning med sammanhängande tillstånd som kombinerar nyckelbilder och undertexter, och uppnår toppmoderna resultat i – medgett – en underanskrevet utrymme.

VideoAuteurs projektsida innehåller också ett antal mer uppmärksammade videor som använder samma teknik, som till exempel en föreslagen trailer för en (icke-existerande) Marvel/DC-crossover:

Klicka för att spela. Två superhjältar från alternativa universum möter varandra i en falsk trailer från VideoAuteur. Se källsidan för bättre upplösning.

Sidans innehåller också liknande promo-videor för en lika icke-existerande Netflix-djurserie och en Tesla-bilannons.

Under utvecklingen av VideoAuteur experimenterade författarna med olika förlustfunktioner och andra nya tillvägagångssätt. För att utveckla en recept-genereringsarbetsflöde, curerade de också CookGen, den största datamängden fokuserad på matlagningsdomänen, med 200 000 videoklipp med en genomsnittlig varaktighet på 9,5 sekunder.

Med i genomsnitt 768,3 ord per video är CookGen bekvämt den mest omfattande annoterade datamängden av sitt slag. Diverse vision/språkmodeller användes, bland annat, för att säkerställa att beskrivningarna var så detaljerade, relevanta och precisa som möjligt.

Matlagningsvideor valdes eftersom matlagningsinstruktionsgenomgångar har en strukturerad och entydig berättelse, vilket gör annotering och utvärdering till en lättare uppgift. Utom för pornografiska videor (som sannolikt kommer att gå in i detta utrymme ganska snart) är det svårt att tänka på någon annan genre som är lika visuellt och berättarmässigt ‘formelbunden’.

Författarna skriver:

‘Vår föreslagna tvåstegsautoregressiva pipeline, som innehåller en lång berättelsedirektör och visuellt villkorsstyrd videogenerering, demonstrerar lovande förbättringar i semantisk konsekvens och visuell trohet i genererade långa berättarvideor.

‘Genom experiment på vår datamängd observerar vi förbättringar i rumslig och tidsmässig sammanhängighet över videosekvenser.

‘Vi hoppas att vårt arbete kan underlätta ytterligare forskning i långa berättarvideogenereringar.’

Det nya arbetet har titeln VideoAuteur: Mot långa berättarvideogenereringar, och kommer från åtta författare på Johns Hopkins University, ByteDance och ByteDance Seed.

Dataset Curation

För att utveckla CookGen, som driver ett tvåstegssystem för produktion av AI-matlagningsvideor, använde författarna material från YouCook och HowTo100M-samlingarna. Författarna jämför omfattningen av CookGen med tidigare datamängder fokuserade på berättandeutveckling i generativ video, som Flintstones-datasetet, Pororo-tecknad datamängd, StoryGen, Tencents StoryStream och VIST.

Jämförelse av bilder och textlängd mellan CookGen och den närmast mest befolkade liknande datamängderna. Källa: https://arxiv.org/pdf/2501.06173

Jämförelse av bilder och textlängd mellan CookGen och den närmast mest befolkade liknande datamängderna. Källa: https://arxiv.org/pdf/2501.06173

CookGen fokuserar på verkliga berättelser, särskilt proceduraktiviteter som matlagning, och erbjuder tydligare och lättare annoterade berättelser jämfört med bildbaserade seriealbum. Den överträffar den största existerande datamängden, StoryStream, med 150 gånger fler ramar och 5 gånger tätare textbeskrivningar.

Forskarna finjusterade en undertextningsmodell med metodologin från LLaVA-NeXT som bas. De automatiska taligenkänningspseudo-etiketterna (ASR) som erhölls för HowTo100M användes som ‘åtgärder’ för varje video, och sedan raffinerades ytterligare med stora språkmodeller (LLM).

Till exempel användes ChatGPT-4o för att producera en undertextningsdatamängd, och bads fokusera på subjekt-objektinteraktioner (såsom händer som hanterar redskap och mat), objektegenskaper och tidsdynamik.

Eftersom ASR-manuskript sannolikt innehåller fel och är allmänt ‘bullriga’, användes Intersection-over-Union (IoU) som en måttstock för att mäta hur nära undertexterna överensstämde med den del av videon de behandlade. Författarna noterar att detta var avgörande för skapandet av berättande konsekvens.

De kuraterade klippen utvärderades med Fréchet Video Distance (FVD), som mäter skillnaden mellan grundtruth (verklighetsbaserade) exempel och genererade exempel, både med och utan grundtruth-nyckelbilder, och nådde ett presterande resultat:

Användning av FVD för att utvärdera avståndet mellan videor genererade med de nya undertexterna, både med och utan användning av nyckelbilder fångade från exempelvideor.

Användning av FVD för att utvärdera avståndet mellan videor genererade med de nya undertexterna, både med och utan användning av nyckelbilder fångade från exempelvideor.

Dessutom utvärderades klippen både av GPT-4o och sex mänskliga annotatorer, enligt LLaVA-Hounds definition av ‘hallucination’ (dvs. förmågan hos en modell att uppfinna påhittat innehåll).

Forskarna jämförde kvaliteten på undertexterna med Qwen2-VL-72B-samlingen, och erhöll en något förbättrad poäng.

Jämförelse av FVD och mänsklig utvärderingsscore mellan Qwen2-VL-72B och författarnas samling.

Jämförelse av FVD och mänsklig utvärderingsscore mellan Qwen2-VL-72B och författarnas samling.

Metod

VideoAuteurs genereringsfas är uppdelad mellan Lång Berättelsedirektör (LND) och visuellt villkorsstyrd videogenereringsmodell (VCVGM).

LND genererar en sekvens av visuella inbäddningar eller nyckelbilder som karakteriserar berättelsens flöde, liknande ‘essentiella höjdpunkter’. VCVGM genererar videoklipp baserat på dessa val.

Schema för VideoAuteurs bearbetningspipeline. Lång Berättelsedirektör gör lämpliga val för att mata till Seed-X-driven genereringsmodul.

Schema för VideoAuteurs bearbetningspipeline. Lång Berättelsedirektör gör lämpliga val för att mata till Seed-X-driven genereringsmodul.

Författarna diskuterar utförligt de olika förtjänsterna med en växelvis bild-textdirektör och en språkcentrerad nyckelbildsdirektör, och drar slutsatsen att den förra är den mer effektiva tillvägagångssättet.

Den växelvisa bild-textdirektören genererar en sekvens genom att växelvis lägga till texttoken och visuella inbäddningar, med användning av en autoregressiv modell för att förutsäga nästa token, baserat på den kombinerade kontexten av både text och bilder. Detta säkerställer en tät anpassning mellan visuella och textbaserade element.

I kontrast syntheserar den språkcentrerade nyckelbildsdirektören nyckelbilder med en textvillkorsstyrd diffusionsmodell baserad enbart på undertexter, utan att inkorporera visuella inbäddningar i genereringsprocessen.

Forskarna fann att medan den språkcentrerade metoden genererar visuellt tilltalande nyckelbilder, saknar den konsekvens över bildrutor, och hävdar att den växelvisa metoden uppnår högre poäng i realism och visuell konsekvens. De fann också att denna metod var bättre på att lära sig en realistisk visuell stil genom träning, även om den ibland genererade bilder med upprepade eller bullriga element.

Ovanligt, i en forskningssträng som domineras av inkorporering av Stable Diffusion och Flux i arbetsflöden, använde författarna Tencents SEED-X 7B-parametrars multimodala LLM-grundmodell för sin genereringspipeline (även om denna modell utnyttjar Stability.ai:s SDXL-utgåva av Stable Diffusion för en begränsad del av dess arkitektur).

Författarna skriver:

‘Till skillnad från den klassiska Image-to-Video (I2V)-pipelinen som använder en bild som startbild, utnyttjar vår metod [regresserade visuella latenter] som kontinuerliga villkor throughout [sekvensen].

‘Dessutom förbättrar vi robustheten och kvaliteten på de genererade videorna genom att anpassa modellen för att hantera bullriga visuella inbäddningar, eftersom de regresserade visuella latenterna inte är perfekta på grund av regressionsfel.’

Även om typiska visuellt villkorsstyrda genereringspipeliner av detta slag ofta använder initiala nyckelbilder som en startpunkt för modellguidning, utökar VideoAuteur detta paradigm genom att generera flerdelade visuella tillstånd i ett semantiskt sammanhängande latentsrum, och undviker den potentiella partiskheten av att basera ytterligare generering enbart på ‘startbilder’.

Schema för användning av visuella tillstånds-inbäddningar som en överlägsen villkorsmetod.

Schema för användning av visuella tillstånds-inbäddningar som en överlägsen villkorsmetod.

Tester

I linje med metoderna i SeedStory, använder forskarna SEED-X för att tillämpa LoRA-fine-tuning på sin berättelsedatamängd, och beskriver resultatet som en ‘Sora-liknande modell’, förtränad på storskaliga video/text-par, och kapabel att acceptera både visuella och textbaserade prompter och villkor.

32 000 berättarvideor användes för modellutveckling, med 1 000 som hölls åt sidan som valideringsprover. Videorna beskars till 448 pixlar på den korta sidan och sedan centrerbeskars till 448x448px.

För träning utvärderades den berättande generationen primärt på YouCook2-valideringsuppsättningen. Howto100M-uppsättningen användes för datakvalitetsutvärdering och även för bild-till-video-generering.

För visuellt villkorsbaserad förlust använde författarna diffusionsförlust från DiT och ett 2024-arbete baserat kring Stable Diffusion.

För att bevisa sin påstående att den växelvisa metoden är ett överlägset tillvägagångssätt, ställde författarna VideoAuteur mot flera metoder som enbart förlitar sig på textbaserad inmatning: EMU-2, SEED-X, SDXL och FLUX.1-schnell (FLUX.1-s).

Givet en global prompt, 'Steg-för-steg-guide till matlagning av mapo-tofu', genererar den växelvisa direktören åtgärder, undertexter och bildinbäddningar sekventiellt för att berätta processen. De två första raderna visar nyckelbilder dekoderade från EMU-2 och SEED-X latentsrum. Dessa bilder är realistiska och konsekventa men mindre polerade än de från avancerade modeller som SDXL och FLUX.

Givet en global prompt, ‘Steg-för-steg-guide till matlagning av mapo-tofu’, genererar den växelvisa direktören åtgärder, undertexter och bildinbäddningar sekventiellt för att berätta processen. De två första raderna visar nyckelbilder dekoderade från EMU-2 och SEED-X latentsrum. Dessa bilder är realistiska och konsekventa men mindre polerade än de från avancerade modeller som SDXL och FLUX.

Författarna skriver:

‘Den språkcentrerade metoden som använder text-till-bild-modeller producerar visuellt tilltalande nyckelbilder men lider av brist på konsekvens över bildrutor på grund av begränsad ömsesidig information. I kontrast utnyttjar den växelvisa generationsmetoden språk-alignment visuella latenter, och uppnår en realistisk visuell stil genom träning.

‘Men den genererar ibland bilder med upprepade eller bullriga element, eftersom den autoregressiva modellen kämpar för att skapa precisa inbäddningar i en enda passage.’

Mänsklig utvärdering bekräftar ytterligare författarnas påstående om den förbättrade prestationen av den växelvisa metoden, med växelvisa metoder som uppnår de högsta poängen i en undersökning.

Jämförelse av tillvägagångssätt från en mänsklig studie som genomfördes för artikeln.

Jämförelse av tillvägagångssätt från en mänsklig studie som genomfördes för artikeln.

Men vi noterar att språkcentrerade metoder uppnår de bästa estetiska poängen. Författarna hävdar dock att detta inte är den centrala frågan i genereringen av långa berättarvideor.

Klicka för att spela. Segment genererade för en pizzabyggnadsvideo, av VideoAuteur.

Slutsats

Den mest populära forskningssträngen i fråga om denna utmaning, dvs. berättande konsekvens i långformad videogenerering, är fokuserad på enskilda bilder. Projekt av detta slag inkluderar DreamStory, StoryDiffusion, TheaterGen och NVIDIAs ConsiStory.

På sätt och vis faller VideoAuteur också in i denna ‘statiska’ kategori, eftersom den använder sig av seed-bilder från vilka klippsektioner genereras. Men den växelvisa metoden för video och semantiskt innehåll bringar processen ett steg närmare en praktisk pipeline.

 

Publicerad första gången torsdag, 16 januari 2025

Författare på maskinlärande, domänspecialist inom mänsklig bildsyntes. Före detta chef för forskningsinnehåll på Metaphysic.ai.