Andersons vinkel

Nuværende AI-praktikker kan være med til at enable en ny generation af ophavsrets-tyranner

mm

En ny forskningssamarbejde mellem Huawei og akademiet antyder, at en stor del af den vigtigste nuværende forskning i kunstig intelligens og maskinlæring kan være udsat for retsliggørelse, så snart det bliver kommercielt fremtrædende, fordi de datasets, der gør gennembruddene mulige, distribueres med ugyldige licenser, der ikke respekterer de oprindelige vilkår for de offentlige domæner, fra hvilke dataene blev erhvervet.

I virkeligheden har dette to næsten uundgåelige mulige resultater: at meget succesfulde, kommercielle AI-algoritmer, der er kendt for at have brugt sådanne datasets, vil blive fremtidens mål for opportunistiske ophavsrets-tyranner, hvis ophavsrettigheder ikke blev respekteret, da deres data blev hentet; og at organisationer og individer vil kunne bruge disse samme juridiske sårbarheder til at protestere mod udrulning eller diffusion af maskinlærings-teknologier, som de finder forkastelige.

Den rapport er titlen Can I use this publicly available dataset to build commercial AI software? Most likely not, og er et samarbejde mellem Huawei Canada og Huawei Kina, sammen med York University i Storbritannien og University of Victoria i Canada.

Fem af seks (populære) åbne kildedatasets er ikke juridisk brugbare

For forskningen bad forfatterne afdelingerne hos Huawei om at vælge de mest ønskede åbne kildedatasets, som de ville ønske at udnytte i kommercielle projekter, og valgte de seks mest anmodede datasets fra svarene: CIFAR-10 (en undermængde af 80 millioner små billeder-datasettet, siden tilbagetrukket på grund af ‘nedsættende vendinger’ og ‘offensive billeder’, selvom dets afledte former spreder sig); ImageNet; Cityscapes (som indeholder eksklusivt originalt materiale); FFHQ; VGGFace2, og MSCOCO.

Til at analysere, om de valgte datasets var egnede til juridisk brug i kommercielle projekter, udviklede forfatterne en ny pipeline til at spore tilbage licenskæden så langt som muligt for hver sæt, selvom de ofte måtte ty til webarkiv-optagelser for at lokalisere licenser fra nu udløbede domæner, og i visse tilfælde måtte “gætte” licensstatus fra den nærmeste tilgængelige information.

Arkitektur for proveniens-sporsystemet udviklet af forfatterne. Kilde: https://arxiv.org/pdf/2111.02374.pdf

Arkitektur for proveniens-sporsystemet udviklet af forfatterne. Kilde: https://arxiv.org/pdf/2111.02374.pdf

Forfatterne fandt, at licenserne for fem af de seks datasets ‘indeholder risici forbundet med mindst en kommerciel brugs kontekst’:

‘[Vi] observerer, at, bortset fra MS COCO, ingen af de studerede licenser giver praktikerne retten til at kommercialisere en AI-model trænet på data eller endda outputtet af den trænede AI-model. En sådan resultat forhindrer også effektivt praktikerne i at bruge forudtrænede modeller trænet på disse datasets. Offentligt tilgængelige datasets og AI-modeller, der er forudtrænet på dem, bliver bredt brugt kommercielt.’ *

Forfatterne bemærker yderligere, at tre af de seks studerede datasets også kan resultere i licensovertrædelse i kommercielle produkter, hvis datasettet ændres, da kun MS-COCO tillader dette. Dog er dataforstærkning og undermængder og overmængder af indflydelsesrige datasets en almindelig praksis.

I tilfældet med CIFAR-10 skabte de oprindelige kompilatorer ikke nogen konventionel form for licens, kun krævede, at projekter, der brugte datasettet, inkluderede en henvisning til den oprindelige artikel, der fulgte med udgivelsen af datasettet, og præsenterer en yderligere hindring for at etablere den juridiske status for data.

Yderligere indeholder kun CityScapes-datasettet materiale, der er eksklusivt genereret af datasettets oprindelige skabere, snarere end at være ‘kurateret’ (hentet) fra netværkskilder, med CIFAR-10 og ImageNet, der bruger multiple kilder, hver af hvilke ville kræve at blive undersøgt og sporet tilbage for at etablere en form for ophavsretsmekanisme (eller endda en meningsfuld disclaimer).

Ingen vej ud

Der er tre faktorer, som kommercielle AI-virksomheder synes at være afhængige af for at beskytte sig selv mod retsliggørelse omkring produkter, der har brugt ophavsretsligt beskyttet indhold fra datasets frit og uden tilladelse til at træne AI-algoritmer. Ingen af disse faktorer giver megen (eller nogen) pålidelig langsigtsbeskyttelse:

1: Laissez Faire National Love
Selvom regeringer verden over er tvunget til at løsne love omkring data-høstning i et forsøg på ikke at falde bagud i kapløbet mod performant AI (som afhænger af store mængder af virkelige data, hvorved regulær ophavsretssikring og licensering ville være urealistisk), tilbyder kun USA fuldstændig immunitet på dette punkt, under Fair Use-doktrinen – en politik, der blev ratificeret i 2015 med afslutningen af Authors Guild v. Google, Inc., som fastslog, at søgemaskinen kunne frit indtage ophavsretsligt beskyttet materiale til sin Google Books-projekt uden at blive anklaget for krænkelse.

Hvis Fair Use-doktrinens politik nogensinde ændres (f.eks. som svar på en anden banebrydende sag, der involverer tilstrækkeligt magtfulde organisationer eller selskaber), ville det sandsynligvis blive betragtet som en a priori-tilstand i forhold til at udnytte nuværende ophavsretskrænkende databaser, beskyttende tidligere brug; men ikke fortsat brug og udvikling af systemer, der blev enabled gennem ophavsretskrænkende materiale uden aftale.

Dette sætter den nuværende beskyttelse af Fair Use-doktrinen på en meget provisorisk basis og kunne potentielt, i så fald, kræve etablerede, kommercielle maskinlæringsalgoritmer til at stoppe driften i tilfælde, hvor deres oprindelse blev enabled af ophavsretskrænkende materiale – selv i tilfælde, hvor modellens vægte nu kun omhandler tilladte indhold, men blev trænet på (og gjort brugbar af) ulovligt kopieret indhold.

Uden for USA, som forfatterne bemærker i den nye rapport, er politikkerne generelt mindre velvillige. Storbritannien og Canada dækker kun brugen af ophavsretsligt beskyttet data til ikke-kommercielle formål, mens EU’s Lov om tekst- og dataudvinding (som ikke er blevet fuldstændigt erstattet af nye forslag til mere formel AI-regulering) også udelukker kommerciel udnyttelse for AI-systemer, der ikke overholder ophavsretskravene for den oprindelige data.

Disse sidstnævnte arrangementer betyder, at en organisation kan opnå store resultater med andres data, op til – men ikke inklusive – det punkt, hvor man begynder at tjene penge på det. På det tidspunkt ville produktet enten blive juridisk udsat eller kræve aftaler med millioner af ophavsretshavere, mange af hvilke nu er utilgængelige på grund af internettets skiftende natur – en umulig og urimelig opgave.

2: Caveat Emptor
I tilfælde, hvor krænkende organisationer håber at udskyde skylden, observerer den nye rapport også, at mange licenser for de mest populære åbne kildedatasets selv-indemnisere sig mod enhver krænkelse af ophavsret:

‘For eksempel kræver ImageNets licens, at praktikerne skal indemnisere ImageNet-holdet mod enhver krænkelse, der opstår fra brugen af datasettet. FFHQ, VGGFace2 og MS COCO-datasets kræver, at datasettet, hvis det distribueres eller ændres, skal præsenteres under samme licens.’

Effektivt tvinger dette dem, der bruger FOSS-datasets, til at absorbere skylden for brugen af ophavsretsligt beskyttet materiale i tilfælde af eventuel retsliggørelse (selvom det ikke nødvendigvis beskytter de oprindelige kompilatorer i et tilfælde, hvor den nuværende klima af ‘sikkert havn’ er kompromitteret).

3: Indemnity Through Obscurity
Den samarbejdende natur af maskinlæringsfællesskabet gør det ret svært at bruge korporativ okkultisme til at skjule nærværet af algoritmer, der har nydt godt af ophavsretskrænkende datasets. Lange kommersielle projekter begynder ofte i åbne FOSS-miljøer, hvor brugen af datasets er en sag af optegnelse, på GitHub og andre offentligt tilgængelige fora, eller hvor projektets oprindelse er blevet offentliggjort i preprint eller peer-reviewed artikler.

Selv hvor dette ikke er tilfældet, er model-inversion i stigende grad i stand til at afsløre de typiske karakteristika af datasets (eller endda udtrykkeligt output nogle af kildematerialet), enten som bevis i sig selv eller tilstrækkelig mistanke om krænkelse til at enable retsligt bestilt adgang til algoritmens udviklingshistorie og detaljer om de datasets, der blev brugt i denne udvikling.

Konklusion

Rapporten tegner et kaotisk og ad hoc-billede af brugen af ophavsretsligt beskyttet materiale, der er erhvervet uden tilladelse, og af en række licenskæder, der, følges logisk så langt tilbage som muligt til den oprindelige kilde til data, ville kræve forhandlinger med tusinder af ophavsretshavere, hvis arbejde blev præsenteret under auspiciernes af sites med en bred vifte af licensbetingelser, mange af hvilke udelukker kommercielle afledte værker.

Forfatterne konkluderer:

‘Offentligt tilgængelige datasets bliver bredt brugt til at bygge kommercielt AI-software. Man kan gøre det, hvis [og] kun hvis licensen, der er knyttet til det offentligt tilgængelige dataset, giver ret til at gøre det. Men det er ikke let at verificere rettighederne og forpligtelserne, der er fastsat i licensen, der er knyttet til det offentligt tilgængelige dataset. Fordi licensen af og til er enten uklar eller potentielt ugyldig.’

En anden ny rapport, med titlen Bygning af juridiske datasets, udgivet den 2. november fra Centre for Computational Law ved Singapore Management University, understreger også behovet for, at datavidenskabsmænd erkender, at ‘wild west’-æraen for ad hoc-dataindsamling er på vej til at blive afsluttet, og spejler anbefalingerne i Huawei-rapporten om at antage mere strenge vaner og metoder for at sikre, at dataset-brugen ikke udsætter et projekt for juridiske rammer, da kulturen ændrer sig over tid, og da den nuværende globale akademiske aktivitet i maskinlæringssektoren søger en kommerciel afkast på års investering. Forfatteren observerer*:

‘[Den] samling af lovgivning, der påvirker ML-datasets, er sat til at vokse, midt i bekymringer over, at nuværende love tilbyder utilstrækkelige safeguards. Det foreslåede AIA [EU Artificial Intelligence Act], hvis og når det bliver vedtaget, ville ændre AI- og datastyringslandskabet betydeligt; andre jurisdiktioner kan følge trop med deres egne love. ‘

 

* Min konvertering af inline-citationer til hyperlinks

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.