Andersons vinkel

Hvorfor konseptuell sammenfletting betyr at du ikke kan ha AI-video “din måte”

Published March 23, 2026

Updated May 16, 2026

Martin Anderson

AI-generated image (GPT-1.5) depicting a man trying to fit disparate Legos together.

AI-videoverktøy lover full kontroll, men skjult ‘konseptuell sammenfletting’ limter identiteter, uttrykk og atferd sammen, og tvinger til hakkerier og mal-tricks som ødelegger myten om bekvemmelig GenAI-magi.

Mening Siden jeg sist gikk dypt inn i emnet for fem år siden, har problemet med konseptuell sammenfletting i trenede AI-systemer utvidet seg til en langt bredere gruppe brukere, uten å bli bedre forstått på egne premisser.

Da var autoencoder deepfake-systemer (dvs. de nå avviklede DeepFaceLab og den mindre pornografiske FaceSwap, begge avledet fra den vanærede og nesten umiddelbart forbudte 2017 Reddit kodeutgivelse) de eneste spillere i byen for å lage relativt fotorealistiske deepfakes av mennesker.

Disse systemene var avhengige av omfattende ansiktsdatamengder som var ment å gi AI-modellen informasjon om A) hvordan personen så ut i ro (en kanonisk referanse-embedding) og B) hvordan de så ut under de ulike situasjonene som et ansikt kan reflektere, fra søvn til le, skrekk, kjedsomhet, kynisme, sorg, osv.

Identitet kommer ikke alene, men sammen med ansiktsuttrykk. I tillegg kan visse emosjoner bare ha tilgjengelig ansiktsdata fra bestemte, ekstreme vinkler, som vil assosiere vinkelen med emosjon og vice versa.

Problemet var at den kanoniske identiteten vanligvis måtte sluttes fra ansiktsfang som ikke i seg selv var ‘nøytrale’, så at fordelingen av data ville skje mot en ‘smilende standard’. Dette skyldtes den store mengden røde teppe-paparazzibilder i webskrapede treningsdata som vanligvis informerer disse modellene, samt enhver annen like tvilsom grunn til at en datamengde kan være forvrengt mot en bestemt type bilde.

Med andre ord, måtte autoencoder-systemet prøve å trekke ut en ‘nøytral’ identitetskonsept fra tusenvis av bilder hvor ansiktsuttrykkene var forvrengt av normale ansiktsuttrykk.

Det måtte også prøve å løse semantiske ansiktskonsepter av ulike emosjoner fra vinklene som ansiktene ble tatt fra. Dette betød at hvis de eneste ‘redd’ ansiktsuttrykkene som var tilgjengelige, ble tatt fra en profilvinkel, ville det trenede systemet bare være i stand til å gjenskape denne emosjonen optimalt fra denne vinkelen.

Framover

Da difusjonsbaserte tilnærminger overtok generativ AI-bilde- (og senere video-) scenen fra 2022, ble generative systemer mye bedre til å ekstrapolere nøyaktige ansiktsuttrykk når de ble forsynt med begrensede ansiktsdata.

Even den svært torne utfordringen å lage overbevisende profilvyer har nesten blitt overvunnet, på dagens stand, mens uttrykksdata har blitt ganske effektivt fjernet fra identitet – i den grad at den type live deepfake-puppettering som ble banebrytende av autoencoder-drevne DeepFaceLive strømmingssystem, har mange effektive offline difusjonsapplikasjoner, med sanntidsoppføring en sannsynlig fremtidig utvikling:

Klikk for å spille. Fra ‘FlashPortrait’-prosjektet, diverse eksempler på å drive avatarer gjennom kildevideoer. I dette tilfellet har det ingen betydning hvilken side den ‘realistiske’ domenen sitter på, hvis noen. Kilde

Men, da GenAI-kanvaset har blitt utvidet og utgangen har blitt mer sofistikert, har problemet med sammenfletting bare spredt seg til flere områder – og blir for tiden ‘fikset’ med noen ganske billige og gamle triks. Hvis du ikke vet hva disse triksene er, kan du ha en mer positiv vurdering av hvor raskt video- og bilde-AI utvikler seg og overvinner sine gamle feil.

Snakkende katter

Håper det er tydelig hvorfor identitet og emosjon viste seg å være vanskelige å skille for de gamle 2017-års autoencoder-systemene. Det var fordi a) Det var for mye data av en type, eller for spesifik en versjon av en viktig datatype, noe som ville føre til en fordelingsforvrengning; og/eller B) modellarkitekturen ikke var i stand til å skille ut disse kvalitetene, og tenderte til å ‘lime dem sammen’ på inferenstid, med mindre brukeren tok ekstraordinær omsorg for å sikre balanse i datamengden.

For eksakt samme grunn, har lignende problemer oppstått i en rekke åpne kilde- og proprietære videomodeller de siste årene, selv om de har blitt overskygget av større kritikk rundt hallusinasjoner, mangel på sensur, og diverse andre emner.

For eksempel, i Wan2.+ systemet, har mange brukere funnet det svært vanskelig å hindre at deres genererte karakterer snakker uavbrutt, og ofte også vanskelig å hindre at de ser på kameraet.

Den siste problemstillingen (å se på kameraet, eller bryte den fjerde veggen) forekommer før video-syntese-systemene, ettersom den oppstod i diverse bilde-difusjonssystemer, på grunn av forekomsten av ‘å se på kameraet’-fotografier i webskrapede datamengder som LAION.

Problemstillingen rundt ‘snakkende’ karakterer kommer fra den lette overfloden av ‘influencer’-videoer på YouTube, som naturlig tilbyr tusenvis av timer med rett-til-linsen-diskurs, ofte kuratert inn i datamengder hvor forskningsscientister kan vask webskrapingen ved å gi en akademisk kontekst.

Men med mindre de opprinnelige eller påfølgende kuratorene tar omsorg for å begrense antallet videoer av denne typen, og balansere dem mot flere forskjellige typer film, utvikler det seg en alvorlig forvrengning i videomodellen, som vil trenge å bli behandlet gjennom prompt-baserte midler og diverse tredjeparts-tilleggsystemer.

Faced with Wan’s ‘snakkende’ problem, Reddit-bruker u/Several-Estimate-681 kom opp med en midlertidig løsning som utnytter en innstilling i Wan 2.1 Infinite Talk V2V system – et rammeverk designet for å oppmuntre influencer-liknende snakkesalighet – som tillater brukeren å stille av den rendrete karakteren:

Klikk for å spille: Bare lytt – en midlertidig løsning for å oppnå karakteroppmerksomhet i Wan2+. Kilde

Det er tydelig at slike midlertidige løsninger ikke representerer lav-nivå arkitektoniske løsninger, og, i fravær av sanne løsninger som blir funnet og implementert av skaperne av grunnmodellene (fordi tilfeldige hobbyister vanligvis ikke har millioner av dollar for å rekreere eller finjustere slike arbeider), dette betyr at spillet med sammenfletting ‘whack a mole’ sannsynligvis vil bli tilbakestilt til null ved neste versjonsutgivelse.

Billig og skjør

Det er ingenting i difusjonsarkitekturen selv som gjør disse problemene uunngåelige; faktisk, hvis det var noen måte å anvende virkelig effektiv kurering, triage og høykvalitets teksting og annotering til hyperskale-datamengder med datapunkter som teller i millioner, ville nesten alle disse problemene sannsynligvis forsvinne.

Men, en slik grad av oppmerksomhet til detaljer ville være likt Manhattan-prosjektet når det gjelder logistikk, omfang, nødvendige ressurser og ren, langvarig innsats. I en klima hvor en ny arkitektur, eller selv en ny arkitektur versjon kunne omgjøre hele omfanget av en slik innsats, er det ingen nåværende vilje til å gjøre en slik forpliktelse.

Følgelig, så lenge som det er i overensstemmelse med å få brukbare modeller, forblir de billigste tilnærmingene foretrukket. Et eksempel på ‘nøysomhet’ er data-forstørrelse, som, når den anvendes ubegrenset og på feil typen datamengde-videoklipp, kan ha mororiske resultater:

Fordi data-forstørrelse ofte reverserer retningen av kildevideoer i datamengden, kan AI-modellen noen ganger lære noen ‘umulige’ bevegelser. – Kilde

Men, i det store og hele, tenderer steiner som ruller oppover og mennesker som bryter karakter ved å gå på ‘influencer-modus’ å bli betraktet som eksempler på skadevirkninger i generative systemer som likevel kan, til tross for slike vedvarende feil og akilleshæler, bli overtalt til å produsere imponerende resultater og tilstrekkelig imponerende overskrifter.

Kjeden løsninger

I den nåværende perioden, nyter hundrevis av generative video-domener, nesten alle av dem på en eller annen måte bryter den nye rekken av lover og motbakke mot GenAI, sin tid ved hodet før loven, blocklister eller andre typer avplattformering fjerner disse kommersielle tjenestene.

De større og bedre kjente nettstedene av denne typen, som Kling og Grok, tenderer å enten holde seg til en form for selv-sensur (til slutt), eller å reagere på kritikk ved å endre typen innhold deres plattformer muliggjør for brukerne.

Men bak disse store navnene er det hundrevis av andre fly-by-night-operasjoner, som konstant møter etterspørselen etter nye (og ofte mer ekstreme) typer innhold.

Dette type lav-innsats tilbud prekluderer den ekstremt høye kostnaden og innsatsen ved å trene grunnmodeller fra scratch. Selv finjustering, som koster betraktelig mindre, er ofte prekludert.

Følgelig tilbyr disse nettstedene ‘mal’, som oppfører seg 100% identisk i praksis til tilpassede LoRAs, som har blitt brukt av AI-hobbyister i over fire år nå, for å trene enhver ønsket identitet, stil, objekt og (i tilfelle av video-LoRAs) bevegelse eller handling inn i en dedikert LoRA-tillegg.

Med LoRA plassert mellom brukeren og grunnmodellen, vil resultater som oppnås være svært spesifikke for hva LoRA ble trent på, og vanligvis vil den videre ytelsen til modellen bli underminert av vekt-bøynings-påvirkningen av LoRA, som vil gjenskape sitt eget emne svært godt, men også ville interponere dette materialet i enhver forespørsel som helst (hvis fly-by-night GenAI-video-nettsteder tillot denne typen kontroll – de gjør ikke; de tilbyr bare en [AKSJON AV DITT VALG] mal, og tolker din tekst/bilde/video-inndata på en måte som sannsynligvis vil resultere i en vellykket anvendelse av malen).

For åpenbare grunner, kan jeg ikke innebygge nettsted-eksempler i denne artikkelen; men forskningslitteraturen har nylig tilbudt noen analoge eksempler. Her, for eksempel, viser EffectMaker-prosjektet prinsippet i aksjon, hvor en spesifikk handling blir anvendt på en bruker-tilbudt bilde:

Klikk for å spille. I EffectMaker, kan finjusterte spesifikke effekter bli anvendt på tilpassede inndata. Kilde

Even i disse høyt kurerte og målrettede omstendigheter, klager brukerne ofte over at multiple, token-forbrennende forsøk må gjøres for å oppnå et godt resultat, og vi bør kanskje ikke tilskrive leverandør-årgjerrighet eller skarpe praksiser hva som er mer sannsynlig feilen til congenitally ‘hit-and-miss’ DiT GenAI-rammeverk.

Den videre offentligheten, kan det hevdes, får sin inntrykk av GenAIs evner fra cherry-picked eksempler som ikke er representative for hva en tilfeldig, nybegynner-bruker ville være sannsynlig å oppnå. Hvis en bruker brenner gjennom seks forsøk på en mal (dvs. en LoRA tilbudt av AI-nettstedet), vil de tendere til å publisere og lovprise det beste av disse, og overføre inntrykket av at man kunne oppnå slike resultater ved å spørre grunnmodellen – og overføre inntrykket av at generative grunnmodeller er langt mer disentangled enn de faktisk er.

Konklusjon

Litteraturen fortsetter å undersøke problemet med sammenfletting, som først kom seriøst i sikte rundt 2020, i Max Planck/Google samarbeid En beskjeden titt på den usammenhengende læring av disentangled representasjoner og deres evaluering.

Ekstra diverse etterfølgere til Disentanglement via Contrast (DisCo) oppstår periodisk, og scenariet forblir livlig med en bevissthet om problemet som langt overstiger offentlig bevissthet om hva AI ikke kan gjøre, i denne sammenhengen.

En kinesisk studie fra 2024 antyder at en løsning på sammenfletting ikke er nødvendig for å løse problemene det bringer. Historisk sett, ringer dette sant, ettersom mange uovervinnelige problemer i datavisualisering ble overvunnet ikke ved å bli løst, men ved å bli overgått av helt nye teknikker og tilnærminger.

Før en slik diskret utfordrer oppstår, ser det ut til at vi vil fortsette å måtte anvende midlertidige løsninger og plaster på GenAIs mangler og begrensninger, og tåle offentlig overvurdering av fleksibiliteten og ductiliteten til grunnmodellene.

Først publisert mandag, 23. mars 2026