Andersons vinkel

Uden syn, uden sind: Løsning af det største problem i AI-video

Published March 27, 2026

Updated May 16, 2026

Martin Anderson

Detail from the first page of the March 2026 paper 'Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models'. Source - https://arxiv.org/pdf/2603.25716

Det største problem med selv de bedste AI-video-genererings-systemer er, at de alle har kronisk hukommelsessvigt: hvis kameraet zoomer væk fra det, det fokuserer på, og derefter zoomer tilbage, vil det aldrig finde det, der var der til at begynde med – karaktererne vil være forsvundet, ændret udseende og/eller bevægelse, og baggrunden vil sandsynligvis også være ændret.

Dette skyldes, at diffusion-baseret genererings-system har en begrænset rullende vindue af opmærksomhed, og fordi det altid beskæftiger sig med det, det kan se i det øjeblik; i en sand udgave af solipsisme, er det, der er uden for rammen, ikke-eksisterende for generativ AI – det bliver bogstaveligt talt dumpet fra hukommelsen.

Dette har aldrig været et problem i traditionel CGI, som kan referere til og nøjagtigt genskabe et emne, herunder udseende og bevægelse, på ethvert punkt i en renderet video, hvor de måske er nødvendige igen:

Traditionel CGI-mesh og bitmapped teksturer kan altid tegnes ind i en render, hvilket giver en konsekvent udseende – en trick, der er meget sværere at opnå i AI-tilgange, fordi der ikke er nogen tilsvarende ‘flad reference’-fil eller samling af relaterede filer.

Dette skyldes, at CGI-komponenter, såsom mesh og teksturer (se billedet ovenfor), samt bevægelsesfiler og andre dynamiske beteende, kan eksistere separat på disk og tegnes ind i en komposition når som helst.

Der er ingen sådan ‘flad repository’ i generativ video-AI; det nærmeste, det kan komme til denne funktionalitet, er LoRAs – særligt trænet hjælpefiler, der kan trænes på forbrugerudstyr, hvilket tillader nye karakterer og bestemt tøj at blive ‘tvunget’ ind i videoen:

Klik for at afspille. AI-videos solipsismeproblem kan mildnes til en vis udstrækning ved at bruge LoRAs – men resultaterne kan være overvældende.

Dette er ikke en ideal løsning, dog. For det første er LoRAs knyttet til en eksakt specifik version af en grundmodel (såsom Wan2+ eller Hunyuan Video), og behøver genskabes hver gang grundmodellen ændres. For det andet tenderer LoRAs til at forvrænge vægtningerne af grundmodellen, så LoRA’s trænede identitet påføres alle karakterer i en scene. Derudover er fine-tuning-metoder af denne type meget følsomme over for dårligt kuraterede datasæt.

Præcise gentagelser

Nu tilbyder et nyt akademisk/industrielt samarbejde fra Kina det første betydelige middel, der er kommet til min opmærksomhed i over tre år med rapportering om dette problem. Metoden bruger, hvad forskerne kalder hybrid hukommelse, til at holde karakteren uden for skærmen og dens direkte omgivelser aktive og præcise i latent rummet af modellen, så når vores synspunkt returnerer til dem, er effekten konsekvent:

Klik for at afspille. Fra projektets side for den nye artikel, to eksempler på AI-genererede (WAN) karakterer, der forlader rammen og genindtræder præcist. Kilde

Det skal understreges, at dette ikke er det samme som at opnå karakterkonsistens på tværs af forskellige skud – noget, der blev hævdet at være opnået for et år siden i Runways Gen 4-udgave, og som stadig er en pågående forfølgelse i forskningssammenhæng.

Snarere er det, der er løst her, noget, som ingen kommerciel eller eksperimentel ramme, jeg har set, har kunnet opnå – den visuelt-konsistente genindtræden af en karakters tidligere udseende, bevægelse og kontekst:

Klik for at afspille. De andre to hovedeksempler, der er givet på det nye initiativs projektside.

Det er tydeligt, at principperne, der er i gang her, kan lige så godt anvendes på andre områder, såsom byudforskning, POV-kørsel eller andre former for ikke-karakterskildring.

Det skal også understreges, at denne nye tilgang løser ikke eller berører ikke problemet, som Runway Gen4 og andre lukkede platforme hævder at have løst, ved at genskabe karakterer over forskellige skud; i stedet gør den, hvad ingen af dem endnu har formået – at fastholde en karakter og omgivelser i hukommelsen, uden at kræve, at de skal forblive synlige for betragteren hele tiden.

Det nye arbejde består af en dedikeret datasæt genereret gennem Unreal Engine, samt brugerdefinerede metrikker for solipsismeproblemet*, og en særlig generativ ramme bygget over WAN. I tests mod de få tilgængelige systemer, hævder forfatterne state-of-the-art-resultater og kommenterer:

‘[Hukommelses]mekanismer er dukket op som en kritisk grænse i udviklingen af verdensmodeller, da hukommelseskapacitet bestemmer den rumlige og tidsmæssige konsistens af det genererede indhold.

‘Specifikt er det den kognitive anker, der tillader modellen at fastholde historisk kontekst under synspunktsændringer eller langsigtede ekstrapoleringer.

‘Uden robust hukommelse, falder en simuleret verden hurtigt fra hinanden i ikke-tilknyttede, kaotiske rammer.’

Den nye artikel er tituleret Uden syn, uden sind: Hybrid hukommelse til dynamiske video-verdensmodeller, og kommer fra syv forskere på Huazhong University of Science and Technology og Kling-holdet på Kuaishou Technology.

Metode

Den centrale del af det nye arbejde er hybrid hukommelse, der faciliterer ‘udenfor-syn-ekstrapolering’ – fastholdelsen af karakterer og deres kontekster, mens betragteren ‘ser væk’ (eller mens karakteren selv forlader synsfeltet). I denne situation skal rammen udføre rum-tid-dekobling, hvor den samtidigt fokuserer på betragter-synlig generering og karakters eksistens uden for synsfeltet.

Eksempler på kamera-bevægelse ved ind- og udkørsel. I disse tilfælde er det kameraets bevægelse, der får karakteren til at forlade rammen, men i diverse prøver kan vi også observere, at karakteren selv midlertidigt driver sig selv uden for skærmen. Kilde

Forfatterne bemærker, at i diffusion-latente indlejninger, er funktionerne, der skal udtrækkes og bruges, tungt entangled med andre funktioner og egenskaber; og at forsøget på at udtrække dem ofte får karakteren til at ‘fryse’ ind i baggrunden. Derfor udviklede og kuraterede de HM-Verden-datasættet**, specifikt rettet mod træning af hybrid hukommelse:

Fra artiklen, prøver fra de fire kategorier i HM-Verden-datasættet.

Samlingen er konstrueret langs fire dimensioner: karakterspor, kamerabevægelser, scener og karakterer.

Den synthetiske data i HM-Verden indeholder 17 scener og 49 karakterer, herunder mennesker med forskelligt udseende samt dyr af flere arter. Kombinationer af disse er procedurally placeret i en scene via Unreal Engine, hver med en unik bevægelsesanimation, og derefter sat på en tilfældigt valgt spor.

Forfatterne angiver, at en varieret samling af udkørsel-indkørsel-begivenheder er afbildet i datasættet, med 28 forskellige kamerabevægelser inkluderet, hver med flere startpunkter.

Den endelige samling kommer til 59.225 video-klip, hver enkelt annoteret af MiniCPM-V Multimodal Large Language Model (MLLM).

Forskerne påpeger de statistiske fordele ved deres samling i forhold til tidligere datasæt Verdensscore; Kontekst-som-hukommelse; Flere-kamera-video; og 360°-bevægelse:

Sammenligning mellem eksisterende datasæt og HM-Verden-datasættet, hvor ‘Dynamisk karakter’ indikerer tilstedeværelsen af bevægelige enheder, ‘Karakter udkørsel-indkørsel’ betegner klip, der indeholder karakterer, der forlader og genindtræder rammen, og ‘Karakter-pose’ henviser til inklusionen af annoterede 3D-poser.

Den mindre befærdede vej

Givet flere tidligere rammer og en kendt kameravej, er opgaven at forudsige fremtidige visninger, mens man tager hensyn til karakterer, der bevæger sig uafhængigt og kan forlade rammen, før de returnerer. Dette kræver mere end at fastholde en stabil baggrund, da modellen også skal fastholde en samlet intern optegnelse over, hvordan hver enkelt karakter ser ud og opfører sig, selv under perioder, hvor den ikke er synlig.

Forfatternes Hybrid Dynamisk Hentning af Opmærksomhed (HyDRA) metode løser dette ved at introducere en dedikeret hukommelsesvej, der adskiller dynamiske karakterer fra den statiske scene-repræsentation, hvilket tillader dem at bestå over tid og at genindtræde med konsekvent udseende og bevægelse:

Konceptuel skema for HyDRA-modellen.

HyDRA er bygget over Wan2.1-T2V-1.3B, med den centrale diffusion-pipeline efterladt stort set intakt, mens en modificeret transformator-blok introduceres, der inkorporerer dynamisk hentning af opmærksomhed. Dette tillader modellen at selektivt genkalde bevægelses- og udseendekoder fra tidligere rammer, snarere end at stole på faste eller lokale kontekster.

Dette proces anvender en tilpasset Flow Matching-træningsmål i stedet for standard diffusion-tab.

For at holde scenerne alignet med kamerabevægelse, indsprøjtes kameravej som en eksplicit betinget signal, hvor hver rammes pose er defineret af rotation og translation, og derefter omdannet til en kompakt repræsentation, der fanger, hvordan synspunktet udvikler sig over tid.

I overensstemmelse med den tidligere (Kling) ReCamMaster-initiativ, er resultatet derefter parseret af kamera-encoder, implementeret som en Multi-Layer Perceptron, derefter broadcastet og tilføjet til Diffusion Transformer-funktioner, hvilket tillader modellen at fastholde konsekvent objekt-placering, mens kameraet bevæger sig.

Tokning

Rå diffusion-latente blandinger karakterbevægelse, udseende og baggrund i en enkelt sammenflettet repræsentation, og forsøget på at hente direkte fra dette rum risikerer at introducere irrelevant kontekst eller få karakteren til at ‘blende ind’ i baggrunden.

HyDRA løser dette med en 3D-konvolutionsbaseret Hukommelse-Tokning, der behandler rum og tid sammen – snarere end at fremme fulde latente historier, komprimerer den dem til kompakte, bevægelses-bevidste hukommelsestok, der fastholder, hvordan karakterer ser ud og bevæger sig:

Oversigt over HyDRA. Venstre, Hukommelse-Tokningen konverterer tidligere rammer til kompakte, bevægelses-bevidste hukommelsestok; højre, Dynamisk Hentning af Opmærksomhed vurderer den aktuelle forespørgsel mod disse tok, henter de mest relevante og bruger dem til at genskabe konsekvent udseende og bevægelse i den genererede ramme.

Disse tok danner en struktureret hybrid hukommelse, der filtrerer støj, mens den fastholder langsigtede dynamik. Overført til Dynamisk Hentning af Opmærksomhed-modulen, tillader disse modellen at selektivt genkalde karakters, der er uden for skærmen, så de genindtræder med konsekvent udseende, bevægelse og kontekst.

Dynamisk Hentning af Opmærksomhed

HyDRAs dobbelt hukommelsesmekanisme bruger også dynamisk hentning af opmærksomhed i en distinkt, men komplementær rolle inden for rammen.

Hukommelse-Tokning komprimerer tidligere latente repræsentationer til strukturerede, bevægelses-bevidste tok, der adskiller dynamiske karakterer fra statisk scene-indhold, reducerer den sammenfletning, der ofte får karakterer til at ‘blende ind’ i baggrunden. Disse tok danner en varig hukommelsesbank snarere end en fuld ramme-historie.

Dynamisk Hentning af Opmærksomhed fungerer derefter over denne bank under generering, hvor den vurderer den aktuelle forespørgsel mod lagrede tok og selektivt genkalder de mest relevante. Dette tillader karakters, der er uden for skærmen, at fortsætte deres latente udvikling (dvs. at fortsætte med at gå, løbe, når de ikke kan ses), og at genindtræde med konsekvent udseende og bevægelse, når de returnerer til synsfeltet, snarere end at nulstille eller forringe.

Data og tests

I tests, blev Wan-baseret HyDRA-system kodificeret og nedsamplet 77 kontekst-rammer, før de blev parseret med en 3D Variational Autoencoder (VAE), mens den ovennævnte Hukommelse-Tokning brugte 3D-konvolution med en kernel-størrelse på 2x4x4.

Modellen blev trænet på HW-Verden i 10.000 iterationer på 32 (uspecificerede) GPU’er, med en batch-størrelse på 32.

Et usædvanligt højt antal metrikker blev brugt i testene: ud over den sædvanlige Peak Signal-to-Noise Ratio (PSNR), Structural Similarity Index (SSIM) og Learned Perceptual Similarity Metrics (LPIPS), brugte forfatterne også karakter-konsistens og baggrund-konsistens fra VBench-suiten, for at evaluere ramme-niveau-kohærens.

Dertil udviklede de en brugerdefineret metrik kaldet Dynamisk Karakter-Konsistens (DSC), der bruger begrænsningsbokse fra YOLO V11, for at skabe beskåret regioner med bevægelige karakterer, hvorfra semantiske funktioner blev udtrukket og deres ligheder derefter beregnet.

HyDRA blev sammenlignet med Diffusion Forcing Transformer (DFoT) og Kontekst-som-Hukommelse, over en baseline Wan2.1-T2V-1.3B-model udstyret med en kamera-encoder (for at repræsentere det subjektive synspunkt, der er fælles for alle klipene). Alle modeller blev trænet på HW-Verden, og WorldPlay blev også brugt som en zero-shot, sekundær test-samling:

I de første kvantitative sammenligninger, overgik HyDRA alle baseline-modeller, og forbedrede PSNR fra 18.696 til 20.357, og SSIM fra 0.517 til 0.606. Det opnåede også den højeste kontekstuelle og grund-sandhed Dice-scores, 0.827 og 0.849, med Karakter- og Baggrund-Konsistens, der nåede 0.926 og 0.932:

Resultater af den første kvantitative sammenligning mod tidligere tilgange.

DFoT nåede 17.693 PSNR, og Kontekst-som-Hukommelse 18.921, med forbedringerne tilskrevet hukommelse-tokning kombineret med dynamisk hentning af opmærksomhed:

Kvantitativ sammenligning, der sammenligner HyDRA med den aktuelle tilstand af kunsten.

Med hensyn til testene mod WorldPlay, angiver forfatterne:

‘Vores metode overgår WorldPlay på alle metrikker, med en bemærkelsesværdig PSNR-afstand på 5.502. Selv om WorldPlay viser lavere præstation på GT-henvisningsmetrikker (f.eks. PSNR på 14.855, DSCGT på 0.832) på grund af domænefordelingsgap og manglende specifik finjustering, viser det imponerende robusthed på kontekst-henvisningsmetrikker ved at opnå en DSCctx på 0.822.

‘Dette iagttagelse bekræfter ikke kun, at omfattende trænede modeller besidder rimelig hybrid-konsistens, men validerer også indirekte rationaliteten af vores foreslåede DSC-metrikker i at reflektere dynamisk karakter-konsistens.

‘Til sidst fremhæver disse imponerende resultater den exceptionelle kapacitet af vores model, og demonstrerer dets overlegenhed, selv over etablerede kommercielle modeller.’

Artiklen tilbyder en statisk repræsentation af kvalitative sammenligninger, der er foretaget i testerne:

Kvalitativ sammenligning af udkørsel og genindtræden under kamerabevægelse. Forfatterne hævder, at HyDRA fastholder karakter-identitet, pose og bevægelses-kontinuitet efter at have forladt og genindtrådt rammen, og matcher grund-sandheden tæt, hvorimod konkurrerende metoder viser drift, inkohærent bevægelse eller karakter-forringelse, markeret med rød (konsekvente genskabelser er markeret med grøn).

Om disse resultater kommenterer forfatterne:

‘I tilfælde af komplekse udkørsel- og genindtrædelsesbegivenheder, viser baseline og Kontekst-som-Hukommelse alvorlig karakter-forvrængning og bevægelses-inkohærens. DFoT mislykkes med at fastholde karakter-integritet, hvilket får karakteren til at forsvinde fuldstændigt. Mens WorldPlay formår at fastholde karakterens udseende-konsistens, lider det under stuttering-bevægelser og unaturlige handlinger.

‘I modsætning hertil lykkes vores metode med at fastholde hybrid-konsistens, og fastholder både karakter-identitet og bevægelses-kohærens efter, at karakteren genindtræder rammen.’

Yderligere resultater kan ses i videoformat på det supplerende websted, hvoraf de første fire eksempler er samlet (af os) i videoen nedenfor:

Klik for at afspille. Fire af de seks testresultater, der er fremhævet på projektets websted. Kilde

Konklusion

Selv om ethvert forsøg på at løse et af de største problemer med AI-video-generering er velkommen, synes det uundgåeligt for mig, at den optimale løsning for udkørsel/genindtrædelses-problemer af denne type vil vise sig at være, som det var med CGI, i form af distinkte reference-materialer, der kan redigeres og bringes ind i en komponerings-rum.

Dette forsøg på at fastholde en indlejring levende på en ad-hoc og på-the-fly måde synes udmattende, og tilbyder også ingen klar vej frem til den intra-skud-konsistens, der nu er tilgængelig på forskellige sorte-boks-portaler som Runway. Hvis det viser sig, at en efterfølgende skud vil kræve adgang til det latente rum af den foregående skud, hvorfor ikke have begge instanser placerer en diskret og separat karakter-indlejring?

* Ingen andre har navngivet det, og diskussion er vanskeligt uden fælles termer.

** Det rapporteres for nuværende at være ‘kommer snart’, på projektets side.

Først udgivet fredag, 27. marts 2026