Andersonin kulma

Näkemättömät, muistamattomat: Ratkaisemalla suurimman ongelman AI-videossa

Published March 27, 2026

Updated May 16, 2026

Martin Anderson

Detail from the first page of the March 2026 paper 'Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models'. Source - https://arxiv.org/pdf/2603.25716

Suurin ongelma jopa parhaimmilla AI-videogeneraattoreilla on, että niillä on krooninen muistiheitto – haaste, jota Kiinasta tuleva uusi tutkimus nyt ratkaisee.

Suurin ongelma jopa parhaimmilla ja kehittyneimmillä AI-videogeneraattorijärjestelmillä on, että niillä kaikilla on krooninen muistiheitto: jos kamera kääntyy pois siitä, mihin se on keskittynyt, ja sitten kääntyy takaisin, se ei koskaan löydä sitä, mitä siinä oli aluksi – hahmot ovat kadonneet, muuttaneet ulkonäköään ja/tai liikkeen tyyppiä, ja tausta on todennäköisesti myös muuttunut.

Tämä johtuu siitä, että diffuusiopohjainen generointijärjestelmällä on rajoitettu liukuvien ikkunoiden huomio, ja koska se on aina tekemisissä siitä, mitä se näkee tuossa hetkessä; todellisessa solipsismin toteutuksessa generatiiviselle AI:lle kaikki, mikä on ulkopuolella kehyksestä, on olematonta – se hävitetään kirjaimellisesti muistista.

Tämä ei ole koskaan ollut ongelma perinteisessä CGI:ssä, joka voi aina viitata ja toistaa kohteen, mukaan lukien ulkonäön ja liikkeen, missä tahansa kohtaa renderöidystä videossa, jossa se saattaa olla tarpeen uudelleen:

Perinteiset CGI-verkkomeshit ja bittikartat voidaan aina piirtää renderöintiin, tarjoten johdonmukaisen ulkonäön – temppu, joka on paljon vaikeampi saavuttaa AI-lähestymistavoissa, koska siinä ei ole vastaavaa ‘tasainen viite’ -tiedostoa tai liittyvien tiedostojen kokoelmaa.

Tämä johtuu siitä, että CGI:n komponentit, kuten verkkomesh ja tekstuuri (ks. yllä oleva kuva), sekä liikkeen tiedostot ja muut dynaamiset käyttäytymiset, voivat olla erillään levylle ja piirtää koostumukseen milloin tahansa.

AI-videogeneraattorissa ei ole vastaavaa ‘tasainen viite’ -tiedostoa; lähin, mihin se voi päästä, on LoRAt – erityisesti koulutetut liitännäistiedostot, jotka voidaan kouluttaa kuluttajalaitteilla, mahdollistaen uusien hahmojen ja tietyn vaatetusvälineen ‘pakottamisen’ videoon:

Klikkaa toistamaan. AI-videon solipsismin ongelmaa voidaan lieventää tiettyyn ääripäätteeseen käyttämällä LoRA:ja – mutta tulokset voivat olla hämmästyttäviä.

Tämä ei kuitenkaan ole ihanteellinen ratkaisu. Yhtäältä LoRAt ovat sidottu tietyn perusmallin tiettyyn versioon (kuten Wan2+ tai Hunyuan Video), ja tarvitsevat uudelleenkoulutusta jokaisella perusmallin muutoksella. Toisaalta LoRAt taipuvat vääristämään perusmallin painoja, jotta LoRA:n koulutettu identiteetti määrätään kaikille kohteille kohtauksessa. Lisäksi hienosäätömenetelmät tällaisia ovat erittäin herkkä huonosti kuriatuihin tietokantoihin.

Tarkat toistot

Nyt Kiinasta tuleva uusi akateeminen/teollinen yhteistyö tarjoaa ensimmäisen merkittävän lääkkeen, josta olen huomannut viimeisen kolmen vuoden aikana raportoidessani tästä ongelmasta. Menetelmä käyttää hybridi-muistia pitämään näkymättömän hahmon ja sen suoran ympäristön aktiivisena ja tarkkana mallin latentin tilassa, jotta kun näkymämme palautuu siihen, vaikutus on johdonmukainen:

Klikkaa toistamaan. Uuden tutkimuksen projektisivuilta kaksi esimerkkiä AI-generoituista (WAN) -hahmoista, jotka poistuvat kehyksestä ja palautuvat tarkasti. Lähde

Tämän tulisi korostaa, että tämä ei ole sama asia kuin saavuttaa hahmojen johdonmukkuus eri otoksissa – jotain, jota väitettiin saavutetun vuosi sitten Runwayn Gen 4 -julkaisussa, ja jota edelleen jaetaan jatkuva tutkimus tutkimuskirjallisuudessa.

Sen sijaan mitä tässä ratkaistaan, on visuaalisesti johdonmukkainen uudelleenilmentyminen näkymättömän hahmon aiemmasta ulkonäöstä, liikkeestä ja ympäristöstä:

Klikkaa toistamaan. Uuden aloitteen projektisivun kaksi muuta pääesimerkkiä.

Ilmeisesti periaatteet, jotka tässä toimivat, voidaan soveltaa myös muihin aloihin, kuten kaupunkitutkimukseen, POV-ajoon tai muihin ei-hahmojen renderöintiin.

Tämän uuden lähestymistavan ei pitäisi myöskään korostaa, että se ei ratkaise tai osoita ongelmaa, jonka Runway Gen4 ja muut suljetut alustat väittävät olevan ratkaistu, luomalla hahmot eri otoksissa; sen sijaan se tekee sitä, mitä kukaan heistä ei ole vielä onnistunut – säilyttää hahmon ja ympäristön muistissa ilman, että ne tarvitsevat olla näkyvissä katsojalle kaiken aikaa.

Uusi työ koostuu omasta tietokannasta, joka on luotu Unreal Engine:n avulla, sekä mukautetuista mittareista solipsismin ongelmaan*, ja erityisesti generatiiviselle kehykselle, joka on rakennettu WAN:in yläpuolelle. Testeissä harvoja vastaavia järjestelmiä vastaan, kirjoittajat väittävät saavuttaneensa huipputulokset, ja he kommentoivat:

‘[Muisti]mekanismit ovat nousseet kriittiseksi eturintamaksi maailmanmallien kehittämisessä, koska muistikapasiteetti määrää generoitu sisällön avaruudellisen ja ajallisen johdonmukaisuuden.

‘Nimenomaan se on kognitiivinen ankkuri, joka sallii mallin säilyttää historiallisen kontekstin näkökulman siirtymien tai pitkän aikavälin extrapoloinnin aikana.

‘Ilman vankkaa muistia simuloitu maailma hajoaa nopeasti yhteenliittyvistä, kaoottisista kehyksistä.’

Uusi tutkimus on nimeltään Näkemättömät, muistamattomat: Hybridi-muisti dynaamisille videomaailman malleille, ja se tulee seitsemältä tutkijalta Huazhongin tiede- ja teknologiayliopistosta ja Kuaishou Technologyn Kling-tiimistä.

Menetelmä

Uuden työn keskeinen osa on hybridi-muisti, joka mahdollistaa ‘näkymättömän extrapoloinnin’ – hahmojen ja niiden kontekstien säilyttämisen, kun katsoja ‘kääntyy pois’ (tai kun hahmo itse poistuu näkyvistä). Tässä skenaariossa kehykselle on vaadittava avaruudellis-aikainen irtautuminen, jossa se on samanaikaisesti keskittynyt näkyvään generointiin ja näkymättömän hahmon ulkopuolelle.

Kameraliikkeen esimerkkejä. Nämä tapauksissa kameran liike aiheuttaa hahmon poistumisen kehyksestä, mutta moninaisissa näytteissä voidaan myös havaita, että hahmo itse väliaikaisesti poistuu ruudulta. Lähde

Kirjoittajat huomauttavat, että diffuusiolatenttisissa upotusten piirteet, jotka on poistettava ja käytettävä, ovat voimakkaasti sekoittuneita muiden piirteiden ja ominaisuuksien kanssa; ja että yrittäessään poistaa niitä usein aiheuttaa kohteen ‘jäätymisen’ taustaan. Sen vuoksi he keksivät ja kuratoivat HM-World -tietokannan*, joka on tarkoitettu erityisesti hybridi-muistin kouluttamiseen:

Tutkimuksesta otteita neljästä luokasta, jotka sisältyvät HM-World -tietokantaan.

Kokoelma on rakennettu neljä ulottuvuutta: aiheiden trajektoriat, kameran trajektoriat, kohtaukset ja aiheet.

Synthetic data HM-Worldissa sisältää 17 kohtausta ja 49 aihetta, mukaan lukien moninaisia ihmisiä ja eläimiä useista lajeista. Nämä yhdistetään proseduraalisesti kohtaukseen Unreal Enginen avulla, kullekin on annettu erillinen liikkeen animaatio, ja sitten asetetaan satunnaisesti valittuun trajektoriaan.

Kirjoittajat toteavat, että tietokannassa on moninaisia poistumis- ja paluutapahtumia, ja siinä on 28 erilaista kameran trajektoriaa, kullekin on useita aloituspisteitä.

Lopullinen kokoelma käsittää 59 225 videoleikettä, ja kullekin on annettu MiniCPM-V Multimodal Large Language Model (MLLM) -merkintä.

Tutkijat korostavat kokoelmansa tilastollisia etuja aiempiin tietokantoihin WorldScore; Context-As-Memory; Multi-Cam Video; ja 360° Motion verrattuna:

Vertailu olemassa olevien tietokantojen ja HM-World -tietokannan välillä, jossa ‘Dynamiikka-aihe’ osoittaa liikkuvien kohteiden läsnäoloa, ‘Aiheen poistuminen ja paluu’ tarkoittaa leikkeitä, joissa aihe poistuu ja palaa kehyksestä, ja ‘Aiheen asento’ viittaa 3D-asentojen merkintöihin.

Vähemmän kuljettu polku

Annetaan useita edellisiä kehyksiä ja tunnettu kamerapolku, tehtävänä on ennustaa tulevia näkymiä, kun katsojan näkökulma siirtyy, ja ottaa huomioon aiheet, jotka liikkuvat itsenäisesti ja voivat poistua kehyksestä ennen paluuta. Tämä vaatii enemmän kuin vain vakaan taustan säilyttämistä, koska mallin on myös säilytettävä johdonmukkainen sisäinen tieto siitä, miten kunkin liikkuvan aiheen ulkonäkö ja käyttäytyminen on, myös silloin, kun se ei ole näkyvissä.

Kirjoittajien Hybrid Dynamic Retrieval Attention (HyDRA) -menetelmä ratkaisee tämän esittämällä omistetun muistireitin, joka erottaa dynaamiset aiheet staattisesta kohtauksen esityksestä, sallien niiden säilymisen ajan, ja uudelleenilmentymisen johdonmukkaisella ulkonäöllä ja liikkeellä:

HyDRA-mallin konseptuaalinen kaavio.

HyDRA on rakennettu Wan2.1-T2V-1.3B:n yläpuolelle, ja siinä on muutettu transformer -lohko, joka sisältää dynaamisen hakuvälinmuistin. Tämä mahdollistaa mallille valikoivasti muistaa liikkeen ja ulkonäön vihjeitä aiemmista kehyksistä, sen sijaan, että se riippuisi kiinteästä tai paikallisesta kontekstista.

Tämä prosessi käyttää sovellettuja Flow Matching -koulutusohjelmaa standardin diffuusiokatteen sijaan.

Pitääkseen kohtaukset kameraliikkeen mukana, kameran polut syötetään eksplisiittisenä ehdollistamismerkkinä, ja kunkin kehyksen asento määritetään rotaation ja translaation avulla, ja sitten muunnetaan tiiviiksi edustukseksi, joka havaitsee, miten näkökulma kehittyy ajan myötä.

Tokenisointi

Raakadiffuusiolatentit sekoittavat aiheen liikkeen, ulkonäön ja taustan yhdeksi sekoitetuksi edustukseksi, ja yrittäessään poistaa ne suoraan tästä tilasta aiheuttaa usein epäolennaisen kontekstin tai saa liikkuvat aiheet ‘sekoittumaan’ taustaan.

HyDRA ratkaisee tämän 3D-convolution-pohjaisella Memory Tokenizer:lla, joka prosessoi avaruutta ja aikaa yhdessä – sen sijaan, että se eteenpäin lähettäisi koko latenttihistorian, se pakkaa ne tiiviiksi, liikkeenherkkiksi muistitokeneiksi, jotka säilyttävät aiheiden ulkonäön ja liikkeen:

HyDRA:n yleiskatsaus. Vasemmalla, Memory Tokenizer muuttaa aiemmat kehykset tiiviiksi, liikkeenherkkiksi muistitokeneiksi; oikealla, Dynamic Retrieval Attention arvioi nykyistä kyselyä näiden tokeneiden suhteen, noutaa merkityksellisimmät niistä ja käyttää niitä palauttaakseen johdonmukkaisen ulkonäön ja liikkeen generoituun kehykseen.

Nämä tokenit muodostavat rakenteellisen hybridi-muistin, joka suodattaa melun ja säilyttää pitkän aikavälin dynamiikkaa. Dynamic Retrieval Attention -moduuliin välitetty, nämä sallivat mallille valikoivasti muistaa näkymättömiä aiheita, jotta ne ilmestyvät uudelleen johdonmukkaisella ulkonäöllä, liikkeellä ja kontekstilla.

Dynaaminen hakuvälimuisti

HyDRA:n kaksinkertainen muistimekanismi käyttää myös dynaamista hakuvälimuistia erillisenä, mutta täydentävänä roolissa kehyksessä.

Memory tokenisointi pakkaa aiemmat latenttiedustukset tiiviiksi, liikkeenherkkiksi tokeneiksi, jotka erottavat dynaamiset aiheet staattisesta kohtauksen sisällöstä, vähentäen sekoittumista, joka usein aiheuttaa aiheiden ‘sekoittumisen’ taustaan. Nämä tokenit muodostavat pysyvän muistipankin, ei täydellisen kehyshistorian.

Dynaaminen hakuvälimuisti toimii tämän pankin yli generoinnin aikana, arvioi nykyistä kyselyä tallennettujen tokeneiden suhteen ja valikoivasti noutaa ne, jotka ovat merkityksellisimpiä kehittyvään kehykseen. Tämä mahdollistaa näkymättömien aiheiden jatkaa latenttista evoluutiota (ts. jatkaa kävelyä, juoksemista, kun niitä ei voida nähdä), ja ilmestyä uudelleen johdonmukkaisella ulkonäöllä ja liikkeellä, kun ne palaavat näkyviin, sen sijaan, että ne resetoituvat tai heikentyvät.

Tiedot ja testit

Testeissä Wan-pohjainen HyDRA-järjestelmä koodasi ja pienensi 77 kontekstikehyksiä ennen kuin parsitti ne 3D-variational VAE:n avulla, kun taas mainittu muistitokenisaattori käytti 3D-convolutionia ytimenkoon 2x4x4.

Malli koulutettiin HW-Worldissa 10 000 iteraatiolla 32 (määrittelemättömällä) GPU:lla, eräkoko 32.

Testeissä käytettiin epätavallisen suuri määrä mittareita: lisäksi tavanomaisia Peak Signal-to-Noise Ratio (PSNR), Structural Similarity Index (SSIM) ja Learned Perceptual Similarity Metrics (LPIPS), kirjoittajat käyttivät myös aiheen johdonmukkuutta ja taustan johdonmukkuutta VBench -sarjasta, arvioidakseen kehyksen johdonmukaisuutta.

Lisäksi he keksivät mukautetun Dynaaminen aiheen johdonmukkuus (DSC) -mittarin, joka käyttää YOLO V11:stä saatavia rajattuja alueita, joista poistetaan semanttisia piirteitä ja lasketaan niiden samankaltaisuus.

HyDRA asetettiin Diffusion Forcing Transformer (DFoT) ja Context-As-Memory vastaan, ja vertailtiin WorldPlay:n kanssa, joka oli myös toissijainen testikokoelma:

Alkuvaiheisissa määrällisissä vertailuissa HyDRA ylitti kaikki vertailukohteet, nosti PSNR:n 18,696:sta 20,357:aan, ja SSIM:n 0,517:stä 0,606:een. Se saavutti myös korkeimmat kontekstuaaliset ja perustodelliset Dice-pisteet, 0,827 ja 0,849, ja aiheen ja taustan johdonmukkuus oli 0,926 ja 0,932:

Tulokset alkuvaiheisesta määrällisestä vertailusta aiempiin lähestymistapoihin.

DFoT saavutti 17,693 PSNR:n ja Context as Memory 18,921, ja edut liitettiin muistitokenisointiin ja dynaamiseen hakuvälimuistiin:

Määrällinen vertailu, jossa HyDRA asetetaan nykyisen tilan huipulle.

WorldPlay-taustatutkimuksissa kirjoittajat toteavat:

‘Menetelmämme ylittää WorldPlayn kaikilla mittareilla, ja huomattava PSNR-ero on 5,502. Vaikka WorldPlay osoittaa alempaa suorituskykyä GT-viite-mittareilla (kuten PSNR 14,855, DSCGT 0,832) johtuen tietokannan jakautumisesta ja puutteellisesta hienosäätöön, se osoittaa merkittävää luotettavuutta kontekstiin viittaavilla mittareilla saavutettuaan DSCctx 0,822.

‘Tämä havainto vahvistaa, että laajasti koulutetut mallit omistavat reilun hybridijohdonmukaisuuden, ja vahvistaa myös järkevyyden, jonka olemme ehdottaneet DSC-mittareille dynaamisen aiheen johdonmukaisuuden heijastamiseksi.

‘Lopulta, nämä vaikuttavat tulokset korostavat mallimme poikkeuksellisia kykyjä, osoittaen sen ylivoimaisuuden, jopa vakiintuneiden kaupallisten mallien yläpuolella.’

Tutkimus tarjoaa staattisen esityksen toteutetuista laadullisista vertailuista:

Laadullinen vertailu kameran liikkeen alla tapahtuvasta poistumisesta ja paluusta. Kirjoittajat väittävät, että HyDRA säilyttää aiheen identiteetin, asennon ja liikkeen jatkuvuuden poistumisen ja paluun jälkeen, ja se vastaa läheisesti perustodellisuutta, kun taas vertailumetodit osoittavat aiheen vääristymistä, epäjohdonmukaisia liikkeitä tai aiheen heikentymistä, punaisella korostettuna (johdonmukkaiset palautukset on merkitty vihreällä).

Näistä tuloksista kirjoittajat toteavat:

‘Tapauksessa, jossa on monimutkaisia poistumis- ja paluutapahtumia, vertailumalli ja Context-as-Memory osoittavat vakavaa aiheen vääristymistä ja liikkeen epäjohdonmukaisuutta. DFoT epäonnistuu aiheen säilyttämisessä, mikä johtaa aiheen täydelliseen katoamiseen. Vaikka WorldPlay onnistuu säilyttämään aiheen ulkonäön johdonmukaisuuden, se kärsii tahmeista liikkeistä ja epäluonnollisista toimista.

‘Sen sijaan menetelmämme onnistuu säilyttämään hybridijohdonmukaisuuden, säilyttäen sekä aiheen identiteetin että liikkeen johdonmukaisuuden aiheen palattua kehykseen.’

Lisätietoja voidaan nähdä videomuodossa täydentävällä sivustolla, josta on koottu (meidän toimesta) seuraava video:

Klikkaa toistamaan. Neljä kuudesta testituloksesta, jotka on esitetty projektisivulla. Lähde

Johtopäätös

Vaikka mikä tahansa yritys ratkaista yksi suurimmista AI-videon ongelmista on tervetullut, vaikuttaa minusta välttämättömältä, että optimaalinen ratkaisu tähän ongelmaan tulee olemaan, kuten CGI:ssä, erillisten viiteaineistojen muodossa, joita voidaan muokata erikseen ja tuoda koostumukseen.

Tämä yritys pitää muistiin alive ad hoc – ja tilapäisesti tuntuu uupuneelta, ja tarjoaa myös selvää eteenpäinviittausta intra-otoksen johdonmukaisuuteen, jota tarjotaan joissakin mustan laatikon portaalissa, kuten Runway. Jos seuraava otos edellyttää pääsyä edellisen otoksen latenttiin avaruuteen, miksi ei voi olla kaksi erillistä hahmo-upotusta?

* Kukaan muu ei ole nimeänyt tätä, ja keskustelu on vaikeaa ilman yhteisiä termejä.

** On ilmoitettu olevan ‘tulossa pian’ projektisivulla.

Julkaistu ensimmäisen kerran perjantaina 27. maaliskuuta 2026

Martin Anderson

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]