Connect with us

Andersons vinkel

IP-Washing Metoder i AI

mm
An AI-generated image of Lady Justice surrounded by 'laundered' data. GPT-1.5.

Om det finns en juridisk uppgörelse som kommer att ske över användningen av immateriella rättigheter i utbildning av AI, finns det också flera metoder för att dölja en sådan användning.

 

Åsikt Den nuvarande, snabbt framskridande revolutionen inom generativ AI utvecklas i den mest rättsligt prekära miljön som har åtföljt någon transformerande teknisk utveckling sedan 1800-talet.

För 3-4 år sedan njöt maskinläringsforskningsgemenskapen en tyst (ofta uttrycklig) tillåtelse att utnyttja IP-skyddat material i utvecklingen av nya system; eftersom dessa system inte var mogna eller kommersiellt livskraftiga, var resultaten, i alla avseenden, akademiska.

Under denna period signalerade den plötsliga framgången för en ny generation av diffusionsbaserade stora språkmodeller (LLM, såsom ChatGPT och Claude) och vision-språkmodeller (VLM, såsom Sora) att dessa abstrakta och tidigare “ofarliga” forskningssträngar hade utvecklats till kommersiell livskraft och växt ur sin “fri passage”, så långt som utnyttjandet av andras immateriella rättigheter var bekymrat.

Från och med nu skulle rättighetshavare söka en andel i frukterna av AI-system som tränats till stor del eller delvis på deras upphovsrättsskyddade eller på annat sätt skyddade data, vilket ledde till en pågående lavin av rättsfall som kräver någon ansträngning för att ens hålla koll på.

Begränsat endast till fall som väckts i USA, nya fall uppkommer i en febril takt i USA och utanför.

Här begränsat endast till fall som väckts i USA, nya fall uppkommer i en febril takt i USA och utanför. Källa

Kräver en “kostnadsfri lunch”

Den finansiella åtagandet som för närvarande sker i fråga om AI-tjänsteinfrastruktur har beskrivits av vissa röster som en ansträngning att etablera ‘upphovsrättsfarlig’ AI så djupt i samhällets ekonomi att den blir inte bara ‘för stor för att misslyckas’, utan också ‘för kraftfull för att stämmas’ – eller för kraftfull, åtminstone, att framgångsrika stämningsanspråk kunde tillåtas att störa revolutionen.

Mot denna allmänna inställning är den nuvarande presidenten i USA engagerad i att förverkliga sin uppfattning i policy att ‘Du kan inte förväntas ha ett framgångsrikt AI-program när varje enskild artikel, bok eller annat som du har läst eller studerat, förväntas betalas för’.

Verkligen? Ingenting liknande eller jämförbart har inträffat i den västerländska industriella eran, och detta representerar en rörelse som gnider kraftigt mot den traditionella amerikanska kulturen av stämningar och skadestånd; kanske den närmaste liknande positionen är den obligatoriska utgången av medicinska patent efter 20 år (vilket i sig ofta är under attack), och begränsningen av förväntningar på sekretess på offentliga platser.

Men tider förändras; i avsaknad av någon garanti för att den nuvarande trenden mot “utmätning” mot IP-skydd inte kommer att svikta, eller annars vändas senare, finns det flera sekundära tillvägagångssätt som blir standardpraxis i utvecklingen av AI-system och behandlingen av den mycket omstridda träningsdata som driver det.

Dataset via ombud

En av dessa tillvägagångssätt tar en remarkabelt liknande tillvägagångssätt som den (inte alltid lyckade) försvar som torrent-listningssidor använder, att de inte faktiskt värdar något omstritt material – eller något material alls.

Förutom att undvika behovet av att lagra och leverera stora mängder minimalt komprimerbar bild- eller videodata, tillåter samlingar av denna typ snabb uppdatering – såsom borttagning av material efter upphovsrättshavares begäran – och versionering.

Liksom torrents endast är vägvisare till var IP-skyddat material kan hittas, är en mängd högt inflytelserika dataset endast “pekare”-liknande listor över befintlig data; om slutanvändaren vill använda dessa listor som en nedladdningslista för sitt eget dataset, är det på dem, så långt som kuratorernas ansvar verkar vara bekymrat.

Bland sådana är Google Researchs Conceptual 12M-dataset, som tillhandahåller bildtexter, men endast pekar på platser på webben där dessa bilder finns (eller fanns vid tidpunkten för kurering):

Två exempel från Google Researchs Conceptual 12M-kurering.

Två exempel från Google Researchs Conceptual 12M-kurering. Källa

Ett annat framstående exempel, och ett som nu har ett giltigt anspråk på vördnad i AI-historien, är LAION-datasetet som möjliggjorde framväxten av den generativa Stable Diffusion-systemet 2022 – det första sådana ramverk som erbjöd kraftfulla öppen källkodsgenererande bilder till slutanvändare, just som proprietära system tycktes vara på väg att etablera sådana tjänster som en renodlad, kommersiell domän:

En av de många varianterna av LAION-projektet, med moderna och upphovsrättsskyddade konstverk.

En av de många varianterna av LAION-projektet, med moderna och upphovsrättsskyddade konstverk. Källa

I många fall indikerar de stora filstorlekarna för dessa “pekare”-samlingar att bildinnehåll ingår i en nedladdningsbar och värd fil; dock beror de icke-triviala nedladdningsstorlekarna ofta på den höga volymen textinnehåll och ibland inklusionen av extraherade inbäddningar eller funktioner – derivat sammanfattningar eller noder av annars tillämpligt innehåll som extraheras från källdata under utbildningsprocessen.

Video-premium

Videodataset presenterar ett ännu starkare fall för “dataset-via-ombud”- eller pekare-tillvägagångssättet, eftersom den stora mängden lagringsdata som krävs för att samla en meningsfull och användbar mängd videor i en enda nedladdningsbar samling är förbjudande, och en “distribuerad” metod är önskvärd.

Men, i båda fallen – men särskilt med video – representerar de nedladdningsbara käll-URL:erna data som kommer att behöva betydande ytterligare uppmärksamhet innan de används i utbildningsprocesser. Både bilder och videor kommer att behöva ändras i storlek, eller så måste beslut om beskärning fattas, för att skapa prover som kommer att passa in i tillgängligt GPU-utrymme. Även allvarligt nedsmalnade videor kommer att kräva skärning till mycket korta längder, såsom 3-5 sekunder, vanligtvis.

Anmärkningsvärda videodataset som använder referenser till online-videor (i stället för kurering och direkt paketering av video) inkluderar Googles Kinetics Human Action Video Dataset, och sökjättens YouTube-8M-samling, som använder segmentannotation för att ange hur man ska behandla varje video när den har laddats ned – men som återigen lämnar slutanvändaren att erhålla videorna från de tillhandahållna URL:erna.

Stängd och öppen

Slutligen, i denna kategori, kan “öppen” VFX-data genereras med stängda plattformar som sedan publicerar och gör tillgänglig den resulterande dataseten. Det är rimligt att undra varför detta händer, och att överväga om det kan bero på att det ursprungliga företaget vill sanera en IP-ovänlig uppströmsmodell för sitt eget bruk; eller att en “tvättad” uppsättning begärdes utifrån.

Ett sådant fall av “generations-TVätt” är, kanhända, Omni-VFX-datasetet, som inkorporerar många datapunkter från Open-VFX-datasetet (som i sig refererar till många stängda och semi-stängda plattformar, såsom Pika och PixVerse).

För att vara ärlig, Omni-VFX försöker inte ens riktigt:

I det öppna källkods-VFX-datasetet Omni-VFX, ett välbekant ansikte.

I det öppna källkods-VFX-datasetet Omni-VFX, ett välbekant ansikte. Källa

Arvslig ansvar

Den andra stora tillvägagångssättet för IP-TVätt är genom användning av upphovsrättsskyddat material på ett eller flera steg.

En av metoderna i denna kategori är användning av syntetisk data som har tränats, vid någon punkt uppströms, på upphovsrättsskyddat data. I sådana fall, särskilt där syntetisk data kan erhålla autentiskt utseende resultat, tillhandahåller upphovsrättsskyddat arbete transformationer som inte rimligen kunde gissas eller approximeras av allmänna världsmodeller eller icke-specialiserade modeller.

Detta är särskilt fallet där generativa videosystem krävs för att generera “omöjliga” händelser, och händelser som skulle falla allmänt in i kategorin “visuella effekter” (VFX).

I själva verket var det vad som fick mig att tänka på detta ämne som var den senaste i en serie forskningsartiklar som erbjuder förmågan att “abstrahera” olika typer av visuella effekter, såsom att producera laserstrålar från osannolika delar av kroppen, antingen genom att ha tränats på beställda eller “öppen källkod”-VFX-klipp (i stället för den mer uppenbara källan, såsom de mycket dyra VFX-skotten som finns i utdata från Marvel Cinematic Universe):

Exempel från EffectMaker-webbplatsen, där “aktionen” i källklippet (längst till vänster) appliceras på en källbild (mitten). Källa

Ovanstående exempel kommer från projektsidan för EffectMaker-projektet. EffectMaker är inte ens det första erbjudandet i år som syftar till att extrahera VFX-dynamik från en videoklipp och transponera den till en ny klipp, och det är faktiskt på väg att bli en diskret underuppgift i AI-VFX-forskning*.

Medveten om att mediejättar som Marvel har en högre än genomsnittlig chans att vinna rättsfall över IP (även i den ovannämnda klimatet av “tvingad tolerans”), går visuella effektföretag och startups för närvarande till betydande längder för att säkerställa att deras generativa VFX-ramverk är fria från andra företags företags-IP.

Främst bland dessa är Meta, som har rapporterats på r/vfx-subreddit att ha gått på en välavlönad vinterrekryteringsrunda in i 2026, och erbjuder VFX-artister arbete med att träna AI-modeller för att producera Hollywood-nivå visuella effekter. Även om lönen inte specificerades över olika inlägg, beskrevs den av en som “pensionspengar”.

Följ pengarna

Men man måste undra hur mycket pengar till och med jättar som Meta är villiga att betala för en sann diversitet och överflöd av ad hoc-VFX-skott, med tanke på att den genomsnittliga enskilda VFX-skottet för en blockbuster-film är runt 42 000 USD – och många kommer in för mycket högre.

Förutom det faktum att “resterande” VFX-proffs kan hamna i att återskapa skott som de arbetade på för en befintlig filmkatalog – vilket i sig kontextualiserar det “anpassade” dataset-arbetet som imitativt – finns det ingen garanti för att dessa dyra nya prover kommer att tränas “från scratch” i en helt ny arkitektur.

Faktum är att om sådana rekreations avleds till adjunktsmoduler som LoRAs, som förlitar sig på en basmodell, då är processen endast så försvarbar som basmodellen är “IP-ren” – och inte många är.

På samma sätt, om den “nya” processen använder andra “hybrida” tekniker som finjustering, där värdet av den visuella effekten beror på modeller, priorer, eller inbäddningar från äldre samlingar eller modeller av tvivelaktig integritet, är originaliteten i arbetet kosmetisk, och föremål för utmaning.

Omöjliga uppdrag

Domänen för VFX-utdata är ett särskilt intressant fallstudie i fråga om potentiell IP-TVätt i AI-dataset, eftersom visuella effekter ofta avbildar “omöjliga” saker för vilka det kommer att finnas inga öppna källkodsalternativ tillgängliga.

Till exempel, medan rivningen av en byggnad kunde tränas in i en generativ modell från olika allmänna domäner eller på annat sätt billiga aktieklipp, om du vill träna en modell för att producera mänskliga laserstrålar, kommer du att behöva träna på VFX-klipp, stulna eller beställda; sådant händer inte någon annanstans.

Även i fallet med andra typer av naturkatastrofer, såsom dramatisk översvämning, är tillgängligt källmaterial i verkligheten osannolikt att kunna reproducera dramatiska perspektiv på katastrofala händelser, eftersom (med några undantag) människor inte vanligtvis live-streamar från katastrofala platser. Därför är “svala vyer” på katastrofer sällsynta i verkliga dataset, och varje AI-modell som kan generera dem troligen fick informationen någon annanstans.

De flesta önskvärda AI-uppgiftsflöden har inte denna tydliga nivå av specificitet, och i sådana fall kan döljandet av fördelarna med IP-skyddat data inte kräva nästan så mycket ansträngning.

Slutsats: En invecklad webb

Endast de som har använt generativ AI omfattande och under en lång tid kommer instinktivt att förstå att sådana system kämpar för att kombinera flera koncept när inga jämförbara exempel finns i deras träningsdata.

Denna begränsning kallas inveckling, där de olika aspekterna av tränade koncept tenderar att klustra ihop med relaterade element, snarare än att bryta ned i användbara, Lego-liknande byggstenar som kan arrangeras i vilken ny konfiguration som helst som användaren kan önska.

Inveckling är en arkitektonisk tyngdkraft som är ganska omöjlig att undkomma, åtminstone för de diffusionsbaserade tillvägagångssätten som kännetecknar alla stora nuvarande genAI-ramverk. Men det kan hända att nya tillvägagångssätt utvecklas under de kommande åren som är bättre på att diskretisera tränade koncept så att de kan klistras ihop mer skickligt, och erbjuda färre indikationer på deras ursprung.

 

* Jag gör inga anklagelser mot EffectMaker, men kommenterar här på det generella tillvägagångssättet i en framväxande praxis inom AI-videoforskning.

Eftersom dessa skott, i dessa typer av filmer, har genererat och fortsätter att generera pengar.

Publicerad första gången måndagen den 16 mars 2026

Författare på maskinlärande, domänspecialist inom mänsklig bildsyntes. Före detta chef för forskningsinnehåll på Metaphysic.ai.