Andersonin kulma

AI-videot tekee kissan itsestään täydelliseksi

Julkaistu 19. joulukuuta 2025

Päivitetty 17. toukokuuta 2026

Tekijä

Martin Anderson

A still from a demo video for the paper 'Factorized Video Generation: Decoupling Scene Construction and Temporal Synthesis in Text-to-Video Diffusion Models', depicting a POV of a 'cat selfie', while a dog skateboards in the background. Source: https://vita-epfl.github.io/FVG/

AI-videogeneraattorit antavat usein tuloksia, jotka ovat lähellä, mutta eivät aivan oikein, kun on kyse siitä, mitä tekstiprompt haluaa. Mutta uusi korkean tason korjaus tekee kaiken eron.

Generatiiviset videosysteemit usein kärsivät siitä, että ne eivät pysty luomaan todella luovia tai villiä videoita, ja usein epäonnistuvat täyttämään käyttäjien tekstipromptien odotuksia.

Osasyy tähän on entanglement – se, että visio/kielimallit joutuvat tinkimään siitä, kuinka kauan ne koulutetaan lähdemateriaalilla. Liian vähän koulutusta, ja käsitteet ovat joustavia, mutta eivät täysin muodostuneita – liian paljon, ja käsitteet ovat tarkkoja, mutta eivät enää joustavia tarpeeksi uusien yhdistelmien luomiseen.

Voit saada idean videosta, joka on upotettu alla. Vasemmalla on tyyppi kompromissi, jota monet AI-järjestelmät toimittavat vaativan promptin (prompt on videon yläreunassa kaikissa neljässä esimerkissä) vastauksena, joka pyytää jotain elementtien yhdistämistä, joka on liian fantastinen ollakseen ollut todellinen koulutusesimerkki. Oikealla on AI-tulos, joka noudattaa promptia paljon paremmin:

Klikkaa toistaa (ei ääntä). Oikealla näemme ‘factorized’ WAN 2.2:n toimivan promptien mukaan, verrattuna ‘vanillan’ Wan 2.2:een vasemmalla. Viittaa alkuperäisiin videoihin paremman resoluution ja enemmän esimerkkejä, vaikka kuratoidut versiot, jotka näkyvät täällä, eivät ole olemassa projekti-sivustolla, ja ne on koottu tätä artikkelia varten. Lähde

Hyvin, vaikka meidän on annettava anteeksi taputtava ankan ihmiskädet (!), on selvää, että oikeanpuoleiset esimerkit noudattavat alkuperäistä tekstipromptia paljon paremmin kuin vasemmanpuoleiset.

Mielenkiintoista on, että molemmat arkkitehtuurit ovat käytännössä samat – suosittu ja erittäin kykyinen Wan 2.2, kiinalainen julkaisu, joka on saavuttanut merkittävää menestystä avoimen lähdekoodin ja harrastajayhteisöissä tänä vuonna.

Erillisyyttä on se, että toinen generatiivinen putki on factorized, mikä tarkoittaa, että suuri kielen malli (LLM) on käytetty uudelleen tulkkaamaan ensimmäistä (siemen) kehykstä videosta, jotta se olisi paljon helpompi järjestelmälle toimittaa, mitä käyttäjä pyytää.

Tämä ‘visuaalinen ankkurointi’ sisältää kuvan, joka on tehty tästä LLM-parannetusta promptista, generatiiviseen putkeen ‘alkukehys’ -muodossa, ja käyttää LoRA -tulkkausmallia auttamaan ‘intrusiivisen’ kehyksen integroimisessa video-luomisprosessiin.

Tulokset ovat melko merkittäviä prompt-uskollisuuden suhteen, erityisesti ratkaisu, joka näyttää melko elegantilta:

Klikkaa toistaa (ei ääntä). Lisää esimerkkejä ‘factorized’ videoista, jotka todella noudattavat käsikirjoitusta. Viittaa alkuperäisiin videoihin paremman resoluution ja enemmän esimerkkejä, vaikka kuratoidut versiot, jotka näkyvät täällä, eivät ole olemassa projekti-sivustolla, ja ne on koottu tätä artikkelia varten.

Tämä ratkaisu tulee uuden tutkimuksen muodossa Factorized Video Generation: Decoupling Scene Construction and Temporal Synthesis in Text-to-Video Diffusion Models, ja sen videoilla täydentävän projektisivuston.

Vaikka useat nykyiset järjestelmät yrittävät parantaa prompt-tarkkuutta käyttämällä kielen malleja uudelleenkirjoittamaan epämääräisiä tai alimääräisiä tekstipromptteja, uusi tutkimus väittää, että tämä strategia johtaa edelleen epäonnistumiseen, kun mallin s sisäinen kohteen esitys on viallinen.

Even with a detailed rewritten prompt, text-to-video-mallit usein miscompose avain elementtejä tai generoivat epäyhteensopivia alkutiloja, jotka rikkovat animaation logiikkaa. Kunnes ensimmäinen kehys ei heijasta, mitä prompt kuvailee, tuloksena oleva video ei voi palautua, riippumatta siitä, kuinka hyvä liikemalli on.

Tutkimus toteaa*:

‘[Text-to-video] -mallit tuottavat usein jakautuneita kehyksiä, mutta saavuttavat silti [arviointipisteet] verrattavissa I2V-malleihin, osoittaen, että heidän liikemallinsa on edelleen kohtuullisen luonnollinen, vaikka kohteen uskollisuus on suhteellisen huono.

‘[Image-to-Video] -mallit osoittavat vastakkaisen käyttäytymisen, vahvat [arviointipisteet] tarkoista alkukohtauksista ja heikompi aikasuhteellinen yhdenmukaisuus, kun taas I2V + teksti tasapainottaa molempia näkökohtia.

‘Tämä kontrasti viittaa struktuuriseen epäilyyn nykyisissä T2V-malleissa: kohteen kiinnittäminen ja aikasuhteellinen synteesi hyötyvät erillisistä induktiivisista vinoumista, mutta olemassa olevat arkkitehtuurit yrittävät oppia molemmat samanaikaisesti yhden mallin sisällä.’

Diagnostinen vertailu generoimistiloja osoitti, että mallit ilman eksplisiittistä kohteen kiinnittämistä saavuttivat hyvät tulokset liikkeessä, mutta usein tinkivät kohteen asettelussa, kun taas kuva-ehtoiset lähestymistavat osoittivat vastakkaisen mallin:

Vertailu video-generoimistiloja kahdessa tietokannassa, osoittaen, että I2V + teksti saavuttaa parhaan kehyslaadun (FID) ja aikasuhteellisen yhdenmukaisuuden (FVD), korostaen erottelun hyötyä kohteen rakentamisesta ja liikkeen synteesistä. Lähde

Nämä tulokset osoittavat, että nykyiset mallit yrittävät oppia sekä kohteen asettelun että animaation samanaikaisesti, vaikka nämä tehtävät vaativat erilaisia induktiivisia vinoumia ja ovat paremmin hoidettavissa erikseen.

On mielenkiintoista, että tämä ‘temppu’ voidaan soveltaa paikallisiin asennuksiin malleja, kuten Wan 2.1 ja 2.2, ja samankaltaisiin video-diffuusiomalleihin, kuten Hunyuan Video. Anekdoottisesti, vertaamalla harrastajien tuotosten laatua kaupallisiin generatiivisiin portaalien, kuten Klingin ja Runwayn, useimmat suuret API-toimittajat parantavat avoimen lähdekoodin tarjoajia, kuten WAN:ia, LoRA:illa, ja – näyttää siltä – temppujen avulla, joita nähdään uudessa tutkimuksessa. Tämä lähestymistapa voi edustaa tasapainoa vapaan ja avoimen lähdekoodin osapuolelle.

Kokeet, jotka tehtiin menetelmällä, osoittivat, että tämä yksinkertainen ja modulaarinen lähestymistapa tarjoaa uuden tilanhuipun T2V-CompBench -mittauksessa, parantaen kaikkia testattuja malleja merkittävästi. Tutkijat toteavat johtopäätöksessään, että vaikka heidän järjestelmänsä radikaalisti parantaa uskollisuutta, se ei koske (eikä ole tarkoitettu koskemaan) identiteetin siirtymistä, joka on tällä hetkellä generatiivisen AI-tutkimuksen ongelmia.

Uusi tutkimus tulee neljältä tutkijalta Ecole Polytechnique Fédérale de Lausannessa (EPFL) Sveitsissä.

Menetelmä ja data

Uuden tekniikan keskeinen väite on, että teksti-videodiffuusiomalleja on “ankkuroida” aloituskohdaksi, joka vastaa todella tekstipromptia.

Jotta malli kunnioittaa aloituskohdaksi, uusi menetelmä keskeyttää standardin diffuusioprosessin injektoimalla puhdas latentin ankkurikuvasta aikavälillä nolla, korvaamalla yhden tavallisen meluisan syötteen. Tämä outo syöte hämmästyttää mallia aluksi, mutta vähäisellä LoRA hienosäätöllä se oppii kohdellemaan injektoidun kehyksen kiinteänä visuaalisena ankkurina eikä osana meluisaa polkua:

Kaksivaiheinen menetelmä teksti-videon generoimiseen visuaalisella ankkurilla: Vasemmalla malli on hienosäätelty kevyellä LoRA:lla, jotta se kohdeltaisi injektoidun puhdaslatentin kiinteänä kohteen rajoituksena. Oikealla prompt on jaettu ensimmäisen kehyksen kuvaukseksi, jota käytetään ankkurikuvan luomiseen, joka ohjaa videota.

Johtopäätöksessä menetelmä kirjoittaa promptin uudelleen kuvaamaan vain ensimmäistä kehystä, käyttäen LLM:ää, jotta se poistaa uskottavan alkutilan, joka keskittyy asettelun ja ulkonäön.

Tämä uudelleenkirjoitettu prompt on välitetty kuvaluojalle, jotta se voi tuottaa ehdokasankkurikehyksen (jota voidaan valinnaisesti parantaa käyttäjän toimesta). Valittu kehys on koodattu latenteiksi ja injektoida diffuusioprosessiin korvaamalla ensimmäisen aikavälin, jolloin malli voi generoida loput videosta pysyen ankkurissa alkutilassa – prosessi, joka toimii ilman, että perusrakennetta on muutettu.

Prosessi testattiin luomalla LoRA:ja Wan2.2-14B:lle, Wan2.1-1B:lle ja CogVideo1.5-5B:lle. LoRA-koulutus suoritettiin sijalla 256, 5000:lle satunnaisesti näytteille otetulle klipille UltraVideo -kokoelmasta.

Koulutus kesti 6000 askelta, ja vaati 48 GPU-tuntia^† Wan-1B:lle ja CogVideo-5B:lle, ja 96 GPU-tuntia Wan-14B:lle. Tutkijat toteavat, että Wan-5B tukee luonnostaan teksti-vain ja teksti-kuva -ehtoja (joita tässä tapauksessa pakotetaan vanhempiin kehyksiin), ja siksi ei vaadi mitään hienosäätöä.

Kokeet

Kokeissa, jotka suoritettiin prosessille, jokainen tekstiprompt on aluksi parannettu Qwen2.5-7B-Instruct:lla, joka käytti tulosta luomaan yksityiskohtaisen ‘siemenkuva’ -kuvauksen, joka sisälsi koko kohteen kuvauksen. Tämä kuvauksen osa välitettiin QwenImage:lle, joka sai tehtäväkseen generoida ‘taikakehyksen’, joka sitten interposoidaan diffuusioprosessiin.

Vertailumittareina, joilla arvioitiin järjestelmää, olivat mainittu T2V-CompBench, joka testasi kohteen ymmärtämistä pisteyttämällä, kuinka hyvin mallit säilyttivät objekteja, attribuutteja ja toimintoja yhdenmukaisessa kohtauksessa; ja VBench 2.0, joka arvioi laajempaa päättelyä ja johdonmukaisuutta 18 mittarilla, jotka on ryhmitelty luovuuden, yhteisenä päättely, ohjattavuuden, ihmisen uskollisuuden ja fysiikan osalta:

Kaikissa seitsemässä T2V-CompBenchin arviointiluokassa factorisoitu T2V-menetelmä ylitti sekä standardin että ylösotetun T2V-vertailuversion kaikissa testatuissa malleissa, saavuttaen jopa 53,25 prosentin parannuksen. Korkeimmin pisteytetyt variantit usein vastasivat tai ylittivät PixVerse-V3-benchmarkin.

Tutkijat toteavat tästä alkuvaiheesta*:

‘Kaikissa malleissa ankkurikuvan lisääminen parantaa johdonmukaisuutta. Kaikki pienemmät factorisoidut mallit (CogVideo 5B, Wan 5B ja Wan 1B) ylittävät suuremman Wan 14B T2V-mallin.

‘Meidän factorisoitu Wan 5B ylittää myös kaupallisen PixVerse-V3-vertailuversion, joka on paras ilmoitettu malli benchmarkissa. Tämä osoittaa, että visuaalinen ankkurointi parantaa merkittävästi kohteen ja toiminnan ymmärtämistä, jopa pienempiä kapasiteettia olevissa malleissa.

‘Jokaisen malliperheen sisällä factorisoitu versio ylittää alkuperäisen mallin. Huomattavaa on, että meidän kevyt ankkuriohjattu LoRA WAN 14B:llä saavuttaa suorituskyvyn, joka on verrattavissa sen esikoulutetun I2V 14B -variantin kanssa (0,661 vs. 0,666), vaikka se ei vaadi täydellistä uudelleenkoulutusta.’

Seuraava oli VBench2.0-kierros:

Factorisoitu T2V-lähestymistapa parantaa johdonmukaisesti VBench 2.0 -suorituskykyä koostumuksen, yleisen päättelyn, ohjattavuuden ja fysiikan osalta, joidenkin parannusten ylittäessä 60 prosenttia – vaikka ihmisen uskollisuus säilyi alempana kuin Veo 3 -vertailuversiossa.

Kaikissa arkkitehtuureissa factorisoitu lähestymistapa paransi pisteitä jokaisessa VBench-luokassa paitsi ihmisen uskollisuudessa, joka laski hieman, vaikka promptia ylösotettiin. WAN 5B ylitti suuremman WAN 14B:n, vahvistaen aiempia T2V-CompBench-tuloksia, jotka osoittivat, että visuaalinen ankkurointi vaikuttaa enemmän kuin skaala.

Vaikka VBench-parannukset olivat johdonmukaisia, ne olivat pienempiä kuin ne, jotka havaittiin T2V-CompBenchissa, ja tutkijat pitävät tätä johtuvan VBenchin tiukemmasta binäärisestä pisteytysjärjestelmästä.

Laadullisissa kokeissa tutkimus tarjoaa statisia kuvia, mutta viittaa lukijaa tarkastelemaan tämän artikkelin upotettuja videoita, joista saa selkeämmän käsityksen, varoitellen, että alkuperäiset videot ovat monipuolisempia ja tarkempia. Löydät ne täältä. Laadullisten tuloksien osalta tutkimus toteaa:

‘Ankkuroidut videot osoittavat johdonmukaisesti tarkemman kohteen asettelun, vahvemman objektin-attribuutin sitoutumisen ja selkeämmän aikasuhteellisen etenemisen.’

Factorisoitu menetelmä säilyi vakaana, vaikka diffuusioprosessin askelten määrää laskettiin 50:stä 15:een, osoittaen lähes olemattoman suorituskyvyn menetyksen T2V-CompBenchissa. Toisaalta sekä teksti-vain että ylösotetut vertailuversiot heikkenivät terävästi samojen olosuhteiden vallitessa.

Vaikka askelten vähentäminen voi teoriassa kolminkertaistaa nopeuden, täysi generoimisprosessi muuttui vain 2,1-kertaiseksi käytännössä, johtuen kiinteistä kustannuksista ankkurikuvan generoimisesta. Kuitenkin tulokset osoittivat, että ankkurointi ei ainoastaan parantanut näytenlaatuja vaan myös auttoi stabiloimaan diffuusioprosessin, tukeakseen nopeampaa ja tehokkaampaa generointia ilman tarkkuuden menetystä.

Projektisivusto tarjoaa esimerkkejä ylösotetusta ja uuden menetelmän generoimisista, joista tarjoamme muutamia (alempaa resoluutiota) editoituja esimerkkejä:

Klikkaa toistaa (ei ääntä). Ylösotetut alkulähteet vs. tekijöiden factorisoitu lähestymistapa.

Tutkijat johtavat:

‘Tulokset osoittavat, että parannettu ankkurointi, eikä ainoastaan kapasiteetin lisääminen, voi olla yhtä tärkeää. Viimeaikaiset edistysaskelet T2V-diffuusioprosessissa ovat riippuvaisia suuresti mallin kokoon ja koulutusaineiston määrästä, mutta jopa suuret mallit usein kärsivät siitä, että ne eivät pysty johtamaan ymmärrettävää alkutilaa tekstistä yksin.

‘Tämä on vastakohtainen kuva kuvalle, jossa skaalautuminen on suhteellisen suoraviivaista; videomalleissa jokainen arkkitehtoninen parannus on toimittava yhden lisäaikadimension ylitse, mikä tekee skaalautumisesta huomattavasti resursseja vaativampaa.

‘Tutkimuksemme osoittaa, että parannettu ankkurointi voi täydentää skaalautumista osoittamalla toisen pullonkaulan: kohteen oikean asettelun perustamisen ennen liikkeen synteesin aloittamista.

‘Videogeneroinnin factorisointi kohteen rakentamiseen ja aikasuhteelliseen mallintamiseen lievittää useita yleisiä epäonnistumisen muotoja ilman, että olisi tarvetta merkittävästi suuremmille malleille. Me näemme tämän komplementaarisen suunnitteluperiaatteen, joka voi ohjata tulevia arkkitehtuureja kohti luotettavampaa ja rakenteellisempaa videosynteesiä.’

Johtopäätös

Vaikka sekaannuksen ongelmat ovat hyvin todellisia ja saattavat vaatia omia ratkaisuja (kuten parannettua kuraattorin arviointia ja jakelua ennen koulutusta), on ollut silmänavaus katsella, kuinka factorisointi ‘irrottaa’ useita sitkeitä ja ‘jumissa olevia’ konseptiprompt-asetteluja paljon tarkemmin – vain kohtuullisella LoRA-konditionoinnilla ja huomattavasti parannetun aloitus/alkuvalokuvan avustuksella.

Resurssien kuilu paikallisten harrastajien inference- ja kaupallisten ratkaisujen välillä ei välttämättä ole yhtä valtava kuin oletetaan, koska lähes kaikki tarjoajat pyrkivät järkeistämään merkittävät GPU-resurssinsa kuluttajille.

Anekdoottisesti, suuri osa nykyisistä generatiivisista video-palveluntarjoajista näyttää käyttävän brändättyjä ja yleensä ‘parannettuja’ versioita kiinalaisista avoimen lähdekoodin malleista. Pääasiallinen ‘linnoitus’, jonka nämä ‘välittäjäjärjestelmät’ näyttävät omistavan, on se, että he ovat vaivautuneet kouluttamaan LoRA:ja tai – suuremmalla kustannuksella ja hieman suuremmalla hyödylä – suorittamaan täydellisen mallipainojen hienosäätöä^††.

Näistä oivalluksista voisi olla apua sulkemassa tätä kuilua edelleen, kontekstissa, jossa kiinalaiset näyttävät olevan määrätietoisia demokratisoimaan gen. AI:ta, kun taas länsimaiset liiketoimintaintresseet saattavat mieluummin haluta, että kasvava mallikoko ja sääntely lopulta eristävät hyvät mallit API:iden ja useiden sisällön suodattimien taakse.

* Tutkijoiden korostukset, eivät minun.

^†Tutkimus ei mainitse, mikä GPU valittiin tai kuinka monta käytettiin.

^†† Vaikka LoRA-reitti on todennäköisempi, sekä taloudellisen helppokäyttöisyyden vuoksi, että siksi, että täydelliset painot, eivät aina ole saatavilla, eivät kvantitoidut painot.

Julkaistu ensimmäisen kerran perjantaina, 19. joulukuuta 2025

Martin Anderson

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]

Unite.AI

AI-videot tekee kissan itsestään täydelliseksi

Menetelmä ja data

Kokeet

Johtopäätös

You may like