Connect with us

Nåværende AI-praksis kan muligens aktivere en ny generasjon av opphavsrettstroll

Etikk

Nåværende AI-praksis kan muligens aktivere en ny generasjon av opphavsrettstroll

mm

En ny forskningsamarbeid mellom Huawei og akademia antyder at mye av den viktigste nåværende forskningen i kunstig intelligens og maskinlæring kan være utsatt for rettslige aksjoner så snart det blir kommersielt fremtredende, fordi datamengdene som gjør gjennombrudd mulig, distribueres med ugyldige lisenser som ikke respekterer de opprinnelige betingelsene for de offentlige domenene som dataene ble hentet fra.

I virkeligheten har dette to nesten uunngåelige mulige resultater: at svært suksessfulle, kommersialiserte AI-algoritmer som er kjent for å ha brukt slike datamengder, vil bli fremtidens mål for opportunistiske patenttroll hvis opphavsrett ikke ble respektert når deres data ble skrapt; og at organisasjoner og personer vil kunne bruke disse samme juridiske svakheter til å protestere mot utrullingen eller spredningen av maskinlærings-teknologier som de finner uakseptable.

Den artikkelen har tittelen Kan jeg bruke denne offentlig tilgjengelige datamengden til å bygge kommersiell AI-programvare? Sannsynligvis ikke, og er et samarbeid mellom Huawei Canada og Huawei Kina, sammen med York University i Storbritannia og University of Victoria i Canada.

Fem av seks (populære) åpne kilde-datamengder er ikke lovlig brukbare

For forskningen, ba forfatterne avdelinger i Huawei om å velge de mest ønskede åpne kilde-datamengdene som de ville like å utnytte i kommersielle prosjekter, og valgte de seks mest ønskede datamengdene fra svarene: CIFAR-10 (en undermengde av 80 millioner små bilder-datamengden, siden trukket tilbake på grunn av ‘nedsiktende termer’ og ‘støtende bilder’, selv om dens derivater fortsatt er utbredt); ImageNet; Cityscapes (som inneholder eksklusivt originalmateriale); FFHQ; VGGFace2, og MSCOCO.

For å analysere om de valgte datamengdene var egnet for lovlig bruk i kommersielle prosjekter, utviklet forfatterne en ny pipeline for å spore tilbake lisenskjeden så langt det var mulig for hver mengde, selv om de ofte måtte ty til web-arkiv-kopier for å finne lisenser fra nå utgåtte domener, og i visse tilfeller måtte ‘gjette’ lisensstatusen fra den nærmeste tilgjengelige informasjonen.

Arkitektur for proveniens-sporsystemet utviklet av forfatterne. Kilde: https://arxiv.org/pdf/2111.02374.pdf

Arkitektur for proveniens-sporsystemet utviklet av forfatterne. Kilde: https://arxiv.org/pdf/2111.02374.pdf

Forfatterne fant at lisensene for fem av de seks datamengdene ‘inneholder risiko forbundet med minst en kommersiell brukskontekst’:

‘[Vi] observerer at, unntatt MS COCO, ingen av de studerte lisensene tillater praktikerne retten til å kommersialisere en AI-modell trent på dataene eller selv utgangen av den trenede AI-modellen. Slike resultater forhindrer også effektivt praktikerne fra å bruke forhånds-trente modeller trent på disse datamengdene. Offentlig tilgjengelige datamengder og AI-modeller som er forhåndstrent på dem, brukes kommersielt i stor utstrekning.’ *

Forfatterne påpeker videre at tre av de seks studerte datamengdene kunne føre til lisensbrudd i kommersielle produkter hvis datamengden modificeres, siden bare MS-COCO tillater dette. Likevel er data-forbedring og undermengder og overmengder av innflytelsesrike datamengder en vanlig praksis.

I tilfelle CIFAR-10, skapte de opprinnelige kompilatorene ikke noen konvensjonell form for lisens, bare krevde at prosjekter som brukte datamengden inkluderte en henvisning til den opprinnelige artikkelen som fulgte med utgivelsen av datamengden, og presenterer en ytterligere hindring for å etablere den juridiske statusen for dataene.

Videre inneholder bare CityScapes-datamengden materiale som er eksklusivt generert av opphavspersonene til datamengden, og ikke ‘kurert’ (skrapt) fra nett-kilder, mens CIFAR-10 og ImageNet bruker flere kilder, hver av dem må undersøkes og spores tilbake for å etablere noen form for opphavsrett-mekanisme (eller en meningsfull disclaimer).

Ingen Veien Ut

Det finnes tre faktorer som kommersielle AI-selskaper synes å stole på for å beskytte seg mot rettslige aksjoner rundt produkter som har brukt opphavsrettslig beskyttet innhold fra datamengder fritt og uten tillatelse, for å trene AI-algoritmer. Ingen av disse tilbyr noen (eller noen) pålitelig langtidsbeskyttelse:

1: Laissez Faire Nasjonale Lover
Selv om regjeringer over hele verden er tvunget til å løsne lover rundt data-skraping i et forsøk på ikke å falle tilbake i kappløpet mot performant AI (som avhenger av store volumer av virkelige data, hvorvan vanlig opphavsrett-samsvar og lisensiering ville være urealistisk), tilbyr bare USA fullstendig immunitet i denne hensikt, under Fair Use Doctrine – en politikk som ble ratifisert i 2015 med konklusjonen av Authors Guild v. Google, Inc., som fastslo at søkegiganten kunne fritt innta opphavsrettslig beskyttet materiale for sin Google Books-prosjekt uten å bli anklaget for krenkelse.

Hvis Fair Use Doctrine-politikken noen gang endres (dvs. i respons til en annen milepæl-sak som involverer tilstrekkelig kraftfulle organisasjoner eller selskaper), ville det sannsynligvis bli betraktet som en a priori-tilstand i forhold til å utnytte nåværende opphavsrett-krenkende databaser, beskytte tidligere bruk; men ikke kontinuerlig bruk og utvikling av systemer som ble muliggjort gjennom opphavsrettslig beskyttet materiale uten avtale.

Dette plasserer den nåværende beskyttelsen av Fair Use Doctrine på en meget provisorisk basis, og kunne potensielt, i den situasjonen, kreve etablerte, kommersialiserte maskinlærings-algoritmer å slutte å fungere i tilfeller hvor deres opphav var muliggjort av opphavsrettslig beskyttet materiale – selv i tilfeller hvor modellens vekt nå omhandler eksklusivt tillatt innhold, men ble trent på (og gjort nyttig av) ulovlig kopiert innhold.

Utenfor USA, som forfatterne påpeker i den nye artikkelen, er politikken generelt mindre liberal. Storbritannia og Canada dekker bare bruk av opphavsrettslig beskyttet data for ikke-kommersielle formål, mens EU’s Tekst- og Data-mining-lov (som ikke har blitt fullstendig erstattet av nye forslag for mer formell AI-regulering) også ekskluderer kommersiell utnyttelse for AI-systemer som ikke samarbeider med opphavsrett-kravene til den opprinnelige dataen.

Disse sistnevnte ordningene betyr at en organisasjon kan oppnå store ting med andres data, opp til – men ikke inkludert – punktet hvor de gjør penger av det. På det stadium ville produktet enten bli juridisk utsatt, eller avtaler ville måtte inngås med bokstavelig talt millioner av opphavsrettshavere, mange av dem er nå usporbare på grunn av internettets skiftende natur – en umulig og uaffordérbar prospekt.

2: Caveat Emptor
I tilfeller hvor krenkende organisasjoner håper å utsette skyld, observerer den nye artikkelen også at mange lisenser for de mest populære åpne kilde-datamengdene auto-indemnisere seg selv mot noen krav om opphavsrett-misbruk:

‘For eksempel, krever ImageNet-lisensen uttrykkelig at praktikerne skal indemnere ImageNet-teamet mot noen krav som oppstår fra bruk av datamengden. FFHQ, VGGFace2 og MS COCO-datasett krever at datamengden, hvis den distribueres eller modificeres, skal presenteres under samme lisens.’

Effektivt, dette tvinger de som bruker FOSS-datamengder til å absorbere skyld for bruk av opphavsrettslig beskyttet materiale, i møte med eventuell rettslig aksjon (selv om det ikke nødvendigvis beskytter de opprinnelige kompilatorene i en situasjon hvor den nåværende klimaet av ‘sikker havn’ er kompromittert).

3: Indemnitet Gjennom Ukjent
Det samarbeidende naturen til maskinlærings-samfunnet gjør det ganske vanskelig å bruke korporativ okkultisme til å skjule tilstedeværelsen av algoritmer som har nytt av opphavsrett-krenkende datamengder. Langsiktige kommersielle prosjekter begynner ofte i åpne FOSS-miljøer hvor bruk av datamengder er en sak som er offentlig kjent, på GitHub og andre offentlig tilgjengelige forum, eller hvor opphavet til prosjektet har blitt publisert i preprint eller fagfellevurderte artikler.

Selv om dette ikke er tilfelle, er modell-inversjon økende kapabel til å avsløre typiske karakteristika til datamengder (eller selv uttrykkelig utgang noen av kilde-materialet), enten som bevis i seg selv, eller nok mistanke om krenkelse til å muliggjøre rettslig bestemt tilgang til historien om algoritmens utvikling, og detaljer om datamengdene brukt i den utviklingen.

Konklusjon

Artikkelen skildrer en kaotisk og ad hoc bruk av opphavsrettslig beskyttet materiale som er hentet uten tillatelse, og en rekke lisens-kjeder som, følgt logisk så langt tilbake som mulig til den opprinnelige kilden til dataene, ville kreve forhandlinger med tusenvis av opphavsrettshavere hvis arbeid ble presentert under auspisene av nettsteder med en stor variasjon av lisens-betingelser, mange som forbyr deriverte kommersielle verk.

Forfatterne konkluderer:

‘Offentlig tilgjengelige datamengder brukes i stor utstrekning til å bygge kommersiell AI-programvare. En kan gjøre det hvis [og] bare hvis lisensen assosiert med den offentlig tilgjengelige datamengden gir retten til å gjøre det. Likevel er det ikke lett å verifisere rettighetene og forpliktelsene som er gitt i lisensen assosiert med den offentlig tilgjengelige datamengden. Fordi, av og til, er lisensen enten uklar eller potensielt ugyldig.’

En annen ny artikkel, med tittelen Bygging av juridiske datamengder, utgitt 2. november fra Centre for Computational Law ved Singapore Management University, understreker også behovet for data-vitenskapsmenn til å erkjenne at ‘vilde vesten’-æraen for ad hoc-data-innsamling er på vei mot slutten, og speiler anbefalingene i Huawei-artikkelen om å adoptere mer strenge vaner og metoder for å sikre at datamengde-bruk ikke utsatte et prosjekt for juridiske ramifikasjoner når kulturen endrer seg over tid, og når den nåværende globale akademiske aktiviteten i maskinlærings-sektoren søker en kommersiell avkastning på årevis av investering. Forfatteren observerer*:

‘[Den] samlingen av lovgivning som berører ML-datamengder, er satt til å vokse, blant bekymringer om at nåværende lover tilbyr utilstrekkelig beskyttelse. Utkastet til AIA [EU Artificial Intelligence Act], hvis og når det blir vedtatt, ville betydelig endre AI- og data-styrings-landskapet; andre jurisdiksjoner kan følge suit med sine egne lover. ‘

 

* Min konvertering av inline-citater til hyperlenker

Forfatter på maskinlæring, domeneekspert på menneskesynthese. Tidligere leder for forskningsinnhold på Metaphysic.ai.