Connect with us

Andersons vinkel

IP-Washing Metoder i AI

mm
An AI-generated image of Lady Justice surrounded by 'laundered' data. GPT-1.5.

Hvis der er en juridisk afregning på vej over brugen af immaterielle rettigheder i træning af AI, er der også flere metoder til at skjule sådan brug.

 

Opinion Den nuværende, hurtigt fremadskridende revolution i generativ AI udvikler sig i den mest juridisk usikre omgang, der har ledsaget nogen transformerende teknologisk udvikling siden det nittende århundrede.

Indtil 3-4 år siden nød maskinlæringsforskningsfællesskabet en tavs (ofte eksplizit) tilladelse til at udnytte IP-beskyttet materiale i udviklingen af nye systemer; da disse systemer ikke endnu var succesfulde, i terms af at være modne eller kommercielt levedygtige, var resultaterne, i enhver forstand, akademiske.

I denne periode signalerede den pludselige succes for en ny generation af diffusion-baserede Large Language Models (LLMs, såsom ChatGPT og Claude) og Vision-Language Models (VLMs, såsom Sora) at disse abstrakte og hidtil ‘harmløse’ strømme af forskning havde udviklet sig til kommerciel levedygtighed og var vokset ud af deres ‘fri pas’, så langt som udnyttelsen af andres immaterielle rettigheder var bekymret.

Fra nu af ville rettighedshavere søge en andel i frugterne af AI-systemer, der er trænet overvejende eller delvist på deres ophavsretligt beskyttede data, hvilket førte til en pågående lavine af retssager, der kræver nogen indsats for blot at holde trit.

Begrænset kun til sager, der er indgivet i USA, nye sager opstår i en frenetisk takt i USA og andre steder. Kilde - https://copyrightalliance.org/artificial-intelligence-copyright/court-cases/

Begrænset kun til sager, der er indgivet i USA, nye sager opstår i en frenetisk takt i USA og andre steder. Kilde

Mandating a ‘Free Lunch’

Den finansielle forpligtelse der i øjeblikket finder sted i forhold til AI-serveringsinfrastruktur er blevet forslagt af nogle stemmer som et forsøg på at etablere ‘copyright-hazardous’ AI så dybt i samfundets økonomi, at det bliver ikke kun ‘for stort til at fejle’, men også ‘for kraftfuldt at sagsøge’ – eller i hvert fald så kraftfuldt, at succesfulde retssager ikke kan tillades at vælte revolutionen.

Mod denne generelle holdning er den nuværende præsident for USA engageret i at implementere sin holdning til, at ‘Du kan ikke forventes at have et succesfuldt AI-program, når hver enkelt artikel, bog eller andet, du har læst eller studeret, skal betales for’.

Virkelig? Intet lignende eller sammenligneligt er sket i den vestlige industrielle æra, og dette repræsenterer en bevægelse, der skurer kraftigt mod den traditionelle amerikanske kultur af retssager og erstatning; måske er den nærmeste lignende position den obligatoriske udløb af medicinske patenter efter 20 år (i sig selv ofte under angreb), og begrænsningen af forventninger til privatliv i offentlige steder.

Men tiderne skifter; i mangelen på nogen garanti for, at den nuværende trend mod ’eminent domain’ mod IP-beskyttelse ikke vil svigte eller blive omvendt senere, er der flere sekundære tilgange, der bliver standardpraksis i udviklingen af AI-systemer og behandlingen af den meget omdiskuterede træningsdata, der driver det.

Datasets-by-Proxy

En af disse tilgange tager en bemærkelsesværdigt lignende tilgang til forsvaret fra torrent-listing-sites, der ikke altid er succesfulde, som påstår, at de ikke faktisk hoster noget kontroversielt materiale – eller noget materiale overhovedet.

Ud over at undgå behovet for at gemme og servere store mængder minimalt komprimerbar billed- eller video-data, tillader samlinger af denne type hurtig opdatering – såsom fjernelse af materiale på ophavsretshavernes anmodning – og versionering.

Ligesom torrents kun er vejvisere til, hvor IP-beskyttet materiale kan findes, er en række meget indflydelsesrige datasets i sig selv kun ‘pointer’-lignende lister over eksisterende data; hvis slutbrugeren ønsker at bruge disse lister som en download-liste til deres egen dataset, er det på dem, så langt som kuratorernes ansvar synes at være bekymret.

Blandt disse er Google Research’s Conceptual 12M-dataset, der giver billeder med undertekster, men kun peger på lokationer på nettet, hvor disse billeder findes (eller fandtes på tidspunktet for kurering):

To eksempler fra Google Research's Conceptual 12M-kurering. Kilde - https://github.com/google-research-datasets/conceptual-12m/blob/main/images/cc12m_1.jpg

To eksempler fra Google Research’s Conceptual 12M-kurering. Kilde

En anden fremtrædende eksempel, og en, der nu har en gyldig krav på respekt i historien om AI, er LAION-datasettet, der muliggjorde opkomsten af det generative Stable Diffusion-system i 2022 – det første sådanne framework, der tilbød kraftfulde åbne kildesystemer til generering af billeder til slutbrugere, ligesom proprietære systemer syntes at etablere sådanne tjenester som en ren kommerciel domæne:

En af de mange varianter af LAION-projektet, der viser moderne og ophavsretligt beskyttede kunstværker. Kilde - https://huggingface.co/datasets/laion/relaion-pop/viewer/default/train

En af de mange varianter af LAION-projektet, der viser moderne og ophavsretligt beskyttede kunstværker. Kilde

I mange tilfælde indikerer de store filstørrelser af disse ‘pointer’-samlinger, at billedindhold er inkluderet i en downloadbar og hostet fil; dog er de ikke-trivielle download-størrelser ofte på grund af den høje mængde af tekstindhold og undertiden inklusion af udtrådte embeddings eller funktioner – resumerede eller knuder af andenvis anvendeligt indhold, der er udtrukket fra kilde-data under træningsprocessen.

Den Video-Premium

Video-datasets præsenterer endnu en stærkere sag for ‘dataset-by-proxy’- eller pointer-tilgange, da den store mængde lagringsdata, der kræves for at samle en meningsfuld og nyttig mængde videoer i en enkelt downloadbar samling, er prohibitiv, og en ‘distribueret’ metode er ønskværdig.

Men i begge tilfælde – men især med video – repræsenterer de downloadbare kilde-URL’er data, der vil kræve betydelig yderligere opmærksomhed, før de kan bruges i træningsprocesser. Både billeder og videoer vil kræve omstilling eller beskæring, for at skabe prøver, der kan passe ind i tilgængeligt GPU-rum. Selv alvorligt nedsamplede videoer vil også kræve beskæring til meget korte længder, såsom 3-5 sekunder, typisk.

Bemærkelsesværdige video-datasets, der bruger henvisninger til online-videoer (i stedet for kurering og direkte pakning af video), omfatter Google’s Kinetics Human Action Video Dataset og søgejættens YouTube-8M-samling, der bruger segment-annotation til at angive, hvordan hver video skal behandles, når den er downloadet – men som igen efterlader slutbrugeren at få videoerne fra de leverede URL’er.

Lukket og Åben

Endelig, i denne kategori, kan ‘åben’ VFX-data genereres med lukkede platforme, der herefter offentliggør og gør det resulterende dataset tilgængeligt. Det er rimeligt at undre sig over, hvorfor dette sker, og at overveje, om det måske er, fordi den oprindelige virksomhed ønsker at sanere en IP-ufvenlig upstream-model til deres egen brug; eller at en ‘vasket’ sæt blev anmodet fra udenfor.

En sådan sag af ‘generational washing’ er, kan man argumentere, Omni-VFX-datasettet, der inkorporerer mange data punkter fra Open-VFX-datasettet (der i sig selv henviser til mange lukkede og semi-lukkede platforme, såsom Pika og PixVerse).

For at være ærlig, Omni-VFX forsøger ikke engang rigtigt:

I det åbne kildesæt Omni-VFX, et velkendt ansigt. Kilde - https://huggingface.co/datasets/GD-ML/Omni-VFX/blob/main/Harley/pixverse%252Fmp4%252Fmedia%252Fweb%252F15e45744-64b1-4a41-84de-626225cf017b_seed734716767.mp4

I det åbne kildesæt Omni-VFX, et velkendt ansigt. Kilde

Ancestral Liability

Den anden store tilgang til IP-washing er gennem brugen af ophavsretligt beskyttet materiale på ét eller flere niveauer. En af metoderne i denne kategori er brugen af synthetisk data, der er trænet, på et eller flere punkter opstrøms, på ophavsretligt beskyttet data. I sådanne tilfælde, især hvor synthetisk data kan opnå autentisk-udseende resultater, leverer ophavsretligt beskyttet arbejde transformationer, der ikke rimeligt kan gættes eller approksimeres af generelle verdensmodeller eller ikke-specialiserede modeller.

Dette er absolut tilfældet, hvor generative videosystemer kræves for at generere ‘umulige’ begivenheder, og begivenheder, der generelt falder ind under kategorien ‘visuelle effekter’ (VFX).

I virkeligheden var det, der fik dette emne til at komme i tanke, den seneste i en række af forskningsartikler, der tilbyder evnen til at ‘abstrahere’ forskellige typer visuelle effekter, såsom at producere laserstråler fra usandsynlige dele af kroppen, enten ved at være trænet på brugerbestemte eller ‘åbne kildes’ VFX-klip (i stedet for den mere åbenlyse kilde, såsom de meget dyre VFX-skud fundet i output fra Marvels filmunivers):

Eksempler fra EffectMaker-website, hvor ‘aktionen’ i kildeklippet (langt til venstre) anvendes på et kildebillede (center). Kilde

De ovennævnte eksempler kommer fra projektsiden for EffectMaker-projektet. EffectMaker er ikke engang det første tilbud i år, der søger at udtrække VFX-dynamik fra en video-klip og overføre det til en ny klip, og i virkeligheden er dette ved at blive til en diskret underopgave i AI-VFX-forskning*.

Ved at være klar over, at medie-kæmper som Marvel har en højere end gennemsnitlig chance for at vinde retssager over IP (selv i den nævnte klima af ‘tvunget tolerance’), er visuelle effekt-virksomheder og startups i øjeblikket gået til bemærkelsesværdige længder for at sikre, at deres generative VFX-rammer er fri for andres virksomheds-IP.

Fremfor alt er det Meta, der er blevet rapporteret på r/vfx-subreddit at have gået på en velbetalt vinter-hyreenetur ind i 2026, og tilbød VFX-kunstnere arbejde med at træne AI-modeller til at producere Hollywood-niveau visuelle effekter. Selv om lønnen ikke var specificeret på tværs af flere indlæg, beskrev en det som ‘pensionspenge’.

Følg Pengene

Men man må undre sig over, hvor meget penge, selv en virksomhed som Meta, er villig til at betale for en sand diversitet og overflod af ad hoc VFX-skud, givet at den gennemsnitlige enkelt VFX-skud for en blockbuster-film er omkring 42.000 USD – og mange kommer i langt højere.

Desuden er det rimeligt at antage, at brugerdefinerede VFX-genererende AI-modeller vil efterkomme populær efterspørgsel, herunder forskellige standard-effekter fra de mest populære og dyreste kategorier af film.

Uden for synspunktet, at ‘resterende’ VFX-fagfolk kan ende med at genskabe skud, de har arbejdet på for en eksisterende filmkatalog – hvilket i sig selv kontekstualiserer ‘brugerdefineret’ dataset-arbejde som imitativt – er der i hvert fald ingen garanti for, at disse dyre nye prøver vil ende med at blive trænet ‘fra zero’ i en helt ny arkitektur.

I virkeligheden, hvis sådanne rekreations bliver omdirigeret til bifag som LoRAs, der afhænger af en basis-model, er processen kun så forsvarlig, som basis-modellen er ‘IP-ren’ – og ikke mange er.

Ligesom, hvis den ‘nye’ proces bruger andre ‘hybrid’-teknikker som fine-tuning, hvor værdien af den visuelle effekt afhænger af modeller, priorer, eller embeddings fra ældre samlinger eller modeller af usikker integritet, er originaliteten af arbejdet kosmetisk og underlagt udfordring.

Umulige Missioner

Domænet for VFX-udgang er en særligt interessant case-study i forhold til potentiel IP-washing i AI-datasets, da visuelle effekter ofte afbilder ‘umulige’ ting, for hvilke der vil være ingen åbne kildesalternativer tilgængelige.

For eksempel, hvis man ønsker at træne en model til at producere menneskelige laserstråler, skal man træne på VFX-klip, stjålet eller bestilt; sådanne ting sker ikke andre steder.

Selv i tilfælde af andre typer naturkatastrofer, såsom dramatisk oversvømmelse, er tilgængeligt kilde-materiale i virkeligheden ikke i stand til at reproducere dramatiske synspunkter på katastrofale begivenheder, fordi (med nogle undtagelser) mennesker ikke normalt live-streamer fra katastrofale lokaliteter. Derfor er ‘cool views’ på katastrofer sjældne i virkelige datasets, og enhver AI-model, der kan generere dem, fik sandsynligvis informationen et andet sted.

De fleste ønskede AI-opgaver har ikke dette niveau af specifikation, og i sådanne tilfælde kan forkortelsen af fordelene ved ophavsretligt beskyttet data ikke kræve næsten så megen indsats.

Konklusion: En Indviklet Netværk

Kun de, der har brugt generativ AI omfattende og over en længere periode, vil instinktivt forstå, at sådanne systemer kæmper med at kombinere multiple koncepter, når der ikke findes sammenlignelige eksempler i deres træningsdata.

Denne begrænsning er kendt som entanglement, hvor de forskellige aspekter af trænede koncepter tenderer til at klumpe sammen med relaterede elementer, snarere end at dekomponere i håndige, Lego-lignende byggeklodser, der kan arrangeres i enhver ny konfiguration, brugeren måtte ønske.

Entanglement er en arkitektonisk tyngdekraft, der er næsten umulig at undslippe, i hvert fald for de diffusion-baserede tilgange, der kendetegner alle de større nuværende genAI-rammer. Men det kan være, at nye tilgange opstår i de næste par år, der er bedre til at diskretisere trænede koncepter, så de kan samles mere behændigt, og tilbyde færre indikationer om deres proveniens.

 

* Jeg retter ingen anklager mod EffectMaker, men kommenterer her på generelheden af en opkomende praksis i AI-video-forskning.

Fordi disse skud, i disse typer film, har genereret og fortsætter med at generere penge.

Først udgivet mandag, den 16. marts 2026

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.