Tekoäly

Ruokaresepti kerrontansaikamuodon luomiseksi pitkien videoiden luontiin

Published January 16, 2025

Updated April 26, 2026

Martin Anderson

ChatGPt 4o: 'an image with a width of 1792px and a height of 1024px. It should depict an orthographic view of an AI factory where rows of white-coated computer analysts are seated in front of PCs, and on the other side of their section is a conveyer belt with multiple stages of a recipe for a cake. Three video cameras are situated equidistant across the conveyer belt, aimed at the food items.'

Äskettäinen julkaisu Hunyuan Video -generatiivisesta tekoälymallista on lisännyt keskustelua suurten multimodaalisten visuaalisen kielen mallien mahdollisuuksista luoda kokonaisia elokuvia.

Kuitenkin, kuten me olemme havainneet, tämä on erittäin etäinen näkymä tällä hetkellä, useista syistä johtuen. Yksi syy on useimpien tekoälyvideoiden generoijien hyvin lyhyt huomioikkuna, joka kamppailee yhden lyhyen otteen jatkuvuuden ylläpitämisen kanssa, saati usean otteen sarjan.

Toinen syy on, että video sisällön (kuten tutkimuskelpoisten ympäristöjen) johdonmukaiset viittaukset voidaan saavuttaa vain diffuusiomalleissa mukauttamistekniikoiden avulla, kuten alhaisen sijan mukauttaminen (LoRA), mikä rajoittaa perusmallien valmiiden ominaisuuksien toimintaa.

Siksi generatiivisen videon kehitys näyttää olevan pysähtyneenä, ellei uusia lähestymistapoja kerrontajatkuvuuden kehittämiseen kehitetä.

Resepti jatkuvuudelle

Tästä syystä Yhdysvaltain ja Kiinan välinen uusi yhteistyö on ehdottanut ohjeistusvideoita mahdollisena mallina tuleville kerrontajatkuvuusjärjestelmille.

Paina toistamaan. VideoAuteur-projekti järjestelmällistää osien analyysin ruoanlaittoprosessissa, tuottaen hienosti otsikoitu uuden tietojoukon ja orkesterointimenetelmän ruoanvalmistusvideoiden luontiin. Viittaa lähdeverkkosivustoon paremman resoluution vuoksi. Lähde: https://videoauteur.github.io/

Titled VideoAuteur, työ ehdottaa kahden vaiheen putkea generoimaan ohjeistusvideoita yhdistetyillä tiloilla, jotka yhdistävät avainkehykset ja otsikot, saavuttaen huipputuloksia – myöntäen, että se on alihaltuun tila.

VideoAuteur-projektisivulla on myös joukko muita, huomattavasti kiinnostavampia videoita, jotka käyttävät samaa tekniikkaa, kuten ehdotettu traileri (olematon) Marvel/DC -yhteistyö:

Paina toistamaan. Kaksi supersankaria vaihtoehtoisista universumeista kohtaa toisensa väärässä trailerissa VideoAuteurista. Viittaa lähdeverkkosivustoon paremman resoluution vuoksi.

Sivulla on myös samanlainen promo-videoita yhtä olemattomalle Netflix-eläinsarjalle ja Tesla-automainokselle.

Kehittäessään VideoAuteuria, kirjoittajat kokeilivat monia eri tappiofunktioita ja muita uusia lähestymistapoja. Kehittääkseen ruoanvalmistusohjeiden työvirran, he myös keräsivät CookGen, suurimman tietojoukon ruoanlaittoalalle, joka sisältää 200 000 videoleikettä, joista keskimääräinen kestoaika on 9,5 sekuntia.

Keskimäärin 768,3 sanaa videota kohden, CookGen on mukavasti laajimmin annotoitu tietojoukko laatuaan. Monet visuaaliset/kielimalleja käytettiin muun muassa varmistamaan, että kuvaukset olisivat yksityiskohtaisia, merkityksellisiä ja mahdollisimman tarkkoja.

Ruoanvalmistusvideot valittiin, koska ruoanvalmistusohjeiden kävelyt ovat rakenteisia ja epäambiiguista kerrontaa, mikä tekee annotoinnin ja arvioinnin helpommaksi tehtäväksi. Lukuun ottamatta pornovideoita (jotka todennäköisesti tulevat tähän tilaan pian), on vaikea ajatella mitään muuta lajia, joka on visuaalisesti ja kerronnallisesti yhtä ‘kaavamaisen’ muodollinen.

Kirjoittajat toteavat:

‘Meidän ehdottamamme kahden vaiheen itsestään riippuva putki, joka sisältää pitkän kerrontajohtajan ja visuaalisiin ehtoihin perustuvan videoiden luontimallin, osoittaa lupaavia parannuksia semanttisessa jatkuvuudessa ja visuaalisessa uskottavuudessa luoduissa pitkissä kerronnallisissa videoissa.

‘Kokeilujen kautta meidän tietojoukkoomme, havaitsemme parannuksia spatiaalisessa ja ajallisessa koherenssissa videoiden sekvensseissä.

‘Toivomme, että työmme voi helpottaa edelleen tutkimusta pitkien kerronnallisten videoiden luomisessa.’

Uusi työ on nimeltään VideoAuteur: Kohti pitkien kerronnallisten videoiden luontia, ja se tulee kahdeksalta kirjoittajalta Johns Hopkinsin yliopistosta, ByteDancen ja ByteDancen siemenistä.

Tietojoukon kokoaminen

Kehittääkseen CookGenin, joka mahdollistaa kahden vaiheen generatiivisen järjestelmän tekoälyruoanvalmistusvideoille, kirjoittajat käyttivät materiaalia YouCook ja HowTo100M -kokoelmista. Kirjoittajat vertaavat CookGenin mittakaavaa aiempiin tietojoukkoihin, jotka keskittyvät kerronnan kehittämiseen generatiivisissa videoissa, kuten Flintstones-tietojoukko, Pororo -piirroselokuva, StoryGen, Tencentin StoryStream ja VIST.

Vertailu kuvien ja tekstin pituuden välillä CookGenin ja lähimpänä olevan samanlaisen tietojoukon välillä. Lähde: https://arxiv.org/pdf/2501.06173

CookGen keskittyy todellisiin kerrontoihin, erityisesti proseduraalisiin toimintoihin, kuten ruoanlaittoon, tarjoaa selkeämmän ja helpommin annotoituja tarinoita verrattuna kuvaan perustuviin sarjakuva-aineistoihin. Se ylittää suurimman olemassa olevan tietojoukon, StoryStreamin, 150-kertaisella enemmän kehyksillä ja 5-kertaisella tiheämmillä tekstikuvauksilla.

Tutkijat hienosäätelivät otsikointimallin käyttäen LLaVA-NeXTin metodologiaa perustana. HowTo100M:stä saatujen automaattisten puhetunnistus (ASR) pseudo-merkkien käytettiin ‘toimintoina’ kullekin videolle, ja sitten edelleen jalostettiin suurten kielimallien (LLM) avulla.

Esimerkiksi ChatGPT-4o käytettiin luomaan otsikkotietojoukko, ja pyydettiin keskittymään aihe-esinevuorovaikutuksiin (kuten käsien käsittelyyn astioita ja ruokaa), esineen ominaisuuksiin ja ajallisiin dynamiikkaan.

Koska ASR-käsikirjoitukset ovat todennäköisesti epätarkkoja ja yleensä ‘meluisia’, Intersection-over-Union (IoU) käytettiin mitatakseen, kuinka läheisesti otsikot vastasivat videon osaa, jota ne käsitelivät. Kirjoittajat toteavat, että tämä oli olennainen kerrontajatkuvuuden luomisessa.

Kokoamiset leikkeet arvioitiin Fréchet Video Distance (FVD) avulla, joka mittaa epäilyä maailmanlaajuisten (todellisen maailman) esimerkkien ja luotujen esimerkkien välillä, sekä avainkehyksillä että ilman, päätyen suorituskykyiseen tulokseen:

FVD:n käyttäminen videoiden arvioimiseen, jotka on luotu uusilla otsikoilla, sekä avainkehyksillä että ilman, näytetyistä videoleikkeistä.

Lisäksi leikkeet arvioitiin sekä GPT-4o:lla että kuudella ihmiskohtaisella annotoijalla, seuraten LLaVA-Houndin määritelmää ‘hallusinaatiosta’ (ts. mallin kyky keksintään).

Tutkijat vertasivat otsikoiden laatua Qwen2-VL-72B -kokoelmaan, saavuttaen hieman parannetun tuloksen.

Vertailu FVD- ja ihmisen arviointituloksien välillä Qwen2-VL-72B ja kirjoittajien kokoelmassa.

Menetelmä

VideoAuteuren generatiivinen vaihe on jaettu Pitkän kerronnan johtaja (LND) ja visuaalisiin ehtoihin perustuva videoiden luontimalli (VCVGM) välillä.

LND luo jonoa visuaalisten upotusten tai avainkehyksien, jotka luonnehtivat kerronnan virtausta, samanlaisina kuin ‘olennaiset korkeakohdat’. VCVGM luo videoleikkeitä näiden valintojen perusteella.

Schema VideoAuteuren prosessiputkesta. Pitkän kerronnan johtaja tekee sopivat valinnat syöttämiseksi Seed-X -generatiiviseen moduuliin.

Kirjoittajat keskustelivat laajasti erilaisten vuorovaikutteisen kuva-teksti johtajan ja kieli-keskeisen avainkehyksen johtajan eroista, ja päättelivät, että entinen on tehokkaampi lähestymistapa.

Vuorovaikutteinen kuva-teksti johtaja luo jonon vuorovaikuttaen tekstin symboleja ja visuaalisten upotuksia, käyttäen autoregressiivista mallia ennustamaan seuraavaa symbolia, perustuen sekä tekstin että kuvien yhdistetyille konteksteille. Tämä varmistaa visuaalisen ja tekstin tiukan yhdenmukaisuuden.

Toisaalta kieli-keskeinen avainkehyksen johtaja syntetisoi avainkehyksiä käyttäen tekstiin perustuvaa diffuusiomallia, joka perustuu ainoastaan otsikoihin, ilman visuaalisten upotusten sisällyttämistä generointiprosessiin.

Tutkijat totesivat, että vaikka kieli-keskeinen menetelmä luo visuaalisesti miellyttäviä avainkehyksiä, se puuttuu jatkuvuudessa kehyksien välillä, väittäen, että vuorovaikutteinen menetelmä saavuttaa korkeammat tulokset realismissa ja visuaalisessa jatkuvuudessa. He myös totesivat, että tämä menetelmä oli paremmin kykenevä oppimaan realistisen visuaalisen tyylin koulutuksen kautta, vaikka joskus joidenkin toistuvien tai meluisien elementtien kera.

Epätavallisesti, tutkimussuunnassa, jota hallitsee Stable Diffusionin ja Fluxin käyttäminen työvirroissa, kirjoittajat käyttivät Tencentin SEED-X 7B-parametrin monimodaalista LLM-perusmallia generatiivisessa putkessa (vaikka tämä malli hyödyntää Stability.ai:n SDXL -julkaisua Stable Diffusionista rajoitetussa osassa sen arkkitehtuuria).

Kirjoittajat toteavat:

‘Toisin kuin perinteinen Kuva-Videolle (I2V) -putki, joka käyttää kuvaa aloitusskeleena, lähestymistapamme hyödyntää [regressoituja visuaalisia latentteja] jatkuvina ehdoina koko [jono]ssa.

‘Lisäksi parannamme luotujen videoiden luotettavuutta ja laatua sopeuttamalla mallin käsittelemään meluisia visuaalisia upotuksia, koska regressoidut visuaaliset latentit eivät välttämättä ole täydellisiä regressiovirheiden vuoksi.’

Vaikka tyypilliset visuaalisiin ehtoihin perustuvat generatiiviset putket tämän kaltaiset usein käyttävät aloitusavainkehyksiä mallin ohjaamiseen, VideoAuteur laajentaa tätä paradigmaa luomalla moniosaisia visuaalisia tiloja semanttisesti johdonmukaisessa latenttiavaruudessa, välttäen mahdollisen aloitusskeleiden perusteella tapahtuvan edelleen generoinnin.

Schema visuaalisen tilan upotusten käytöstä parempana ehtona.

Schema visuaalisen tilan upotusten käytöstä parempana ehdona.

Testit

SeedStoryn menetelmien mukaisesti, tutkijat käyttävät SEED-X:ää soveltamaan LoRA-hienosäätöä kerrontatietojoukoissaan, kuvaamalla tulosta ‘Sora-tyyliseksi’ malliksi, joka on esikoulutettu laajamittaisiin video- ja tekstiyhdistelmiin, ja pystyy hyväksymään sekä visuaalisen että tekstin ohjausmerkkejä ja ehtoja.

32 000 kerronnallista videota käytettiin mallin kehittämiseen, ja 1 000 pidettiin erillään validaatio-näytteitä varten. Videot leikattiin 448 pikseliin lyhyellä puolella ja sitten keskileikattiin 448x448px.

Koulutuksessa kerronnan generointi arvioitiin pääasiassa YouCook2 -validaatiotietojoukossa. Howto100M -joukkoa käytettiin tietojen laadun arvioimiseen ja myös kuvasta videolle -generointiin.

Visuaalisen ehtojen tappiofunktiota varten kirjoittajat käyttivät diffuusiotaappiofunktiota DiT:stä ja 2024 työstä, joka perustuu Stable Diffusioniin.

Todistamaan väitettään, että vuorovaikkaus on parempi lähestymistapa, kirjoittajat asettivat VideoAuteuren useita menetelmiä vastaan, jotka riippuvat ainoastaan tekstipohjaisesta syötteestä: EMU-2, SEED-X, SDXL ja FLUX.1-schnell (FLUX.1-s).

Kun annetaan globaali ohje, ‘Vaiheittainen opas mapo-tofun valmistamiseen’, vuorovaikutteinen johtaja luo toimintoja, otsikkoja ja kuva-upotuksia peräkkäin kerronnan prosessin kertomiseksi. Ensimmäiset kaksi riviä näyttävät avainkehyksiä, jotka on dekoodattu EMU-2- ja SEED-X -latenttiavaruudesta. Nämä kuvat ovat realistisia ja johdonmukaisia, mutta vähemmän hiotuja kuin ne, jotka ovat edistyneistä malleista, kuten SDXL ja FLUX.

Kirjoittajat toteavat:

‘Kieli-keskeinen lähestymistapa, joka käyttää teksti-kuva -malleja, luo visuaalisesti miellyttäviä avainkehyksiä, mutta kärsii jatkuvuuden puutteesta kehyksissä johtuen rajoitettua vastavuoroista tietoa. Toisaalta vuorovaikutteinen generointimenetelmä hyödyntää kieli-yhdenmukaisia visuaalisia latentteja, saavuttaen realistisen visuaalisen tyylin koulutuksen kautta.

‘Kuitenkin se luo joskus kuvia, joissa on toistuvia tai meluisia elementtejä, koska autoregressiivinen malli kamppailee luodakseen tarkat upotukset yhdessä kulkuessa.’

Ihmisen arviointi vahvistaa myös kirjoittajien väitettä vuorovaikutteisen lähestymistavan parantuneesta suorituskyvystä, vuorovaikutteisten menetelmien saavuttaessa korkeimmat tulokset kyselyssä.

Lähestymistapojen vertailu ihmisten tutkimuksesta, joka tehtiin kirjoituksessa.

Kuitenkin kieli-keskeiset lähestymistavat saavuttavat parhaat esteettiset tulokset. Kirjoittajat väittävät kuitenkin, että tämä ei ole keskeinen asia pitkien kerronnallisten videoiden luomisessa.

Paina toistamaan.VideoAuteurilla luodut osat pizzan rakentamisesta.

Johtopäätös

Suosituin tutkimussuunta, joka liittyy tähän haasteeseen, eli kerrontajatkuvuus pitkän videon luomisessa, on yksittäisiä kuvia. Tällaisia projekteja ovat DreamStory, StoryDiffusion, TheaterGen ja NVIDIA:n ConsiStory.

Jossain mielessä VideoAuteur kuuluu myös tähän ‘staattiseen’ kategoriaan, koska se käyttää siemenkuvia, joista leikkeet luodaan. Kuitenkin vuorovaikutuksen visuaalisen ja semanttisen sisällön kanssa tuo prosessin lähemmäs käytännön putkea.

Julkaistu ensimmäisen kerran torstaina, 16. tammikuuta 2025

Martin Anderson

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]

Unite.AI

Ruokaresepti kerrontansaikamuodon luomiseksi pitkien videoiden luontiin

Resepti jatkuvuudelle

Tietojoukon kokoaminen

Menetelmä

Testit

Johtopäätös

You may like