Stumm Aktuell AI Praktiken kéinten eng nei Generatioun vun Copyright Trolls erméiglechen - Unite.AI
Connect mat eis

Ethik

Aktuell AI Praktiken kéinten eng nei Generatioun vun Copyright Trolls erméiglechen

mm
aktualiséiert on

Eng nei Fuerschungszesummenaarbecht tëscht Huawei an der Akademie suggeréiert datt vill vun der wichteger aktueller Fuerschung an der kënschtlecher Intelligenz a Maschinnléiere fir Prozesser ausgesat ka ginn soubal et kommerziell prominent gëtt, well d'Datesätz, déi Duerchbréch méiglech maachen, mat ongülteg verdeelt ginn. Lizenzen déi d'ursprénglech Bedéngungen vun den ëffentleche Beräicher net respektéieren, aus deenen d'Donnéeën kritt goufen.

Tatsächlech huet dëst zwee bal inévitabel méiglech Resultater: datt ganz erfollegräich, kommerzialiséiert AI Algorithmen, déi bekannt sinn esou Datesätz ze benotzen, wäerten zukünfteg Ziler vun opportunistesche Patentrollen ginn, deenen hir Urheberrechter net respektéiert goufen wann hir Donnéeën geschrauft goufen; an datt Organisatiounen an Individuen fäeg sinn dës selwescht gesetzlech Schwachstelle ze benotzen fir géint d'Deployment oder d'Diffusioun vu Maschinnléierentechnologien ze protestéieren, déi se beonrouegend fannen.

d' Pabeier heescht Kann ech dës ëffentlech verfügbar Dataset benotze fir kommerziell AI Software ze bauen? Wahrscheinlech net, an ass eng Zesummenaarbecht tëscht Huawei Kanada an Huawei China, zesumme mat der York University a Groussbritannien an der University of Victoria a Kanada.

Fënnef vu sechs (populär) Open Source Datesets net legal benotzbar

Fir d'Fuerschung hunn d'Autoren d'Departementer bei Huawei gefrot fir déi wënschenswäert Open Source Datesätz ze wielen déi se a kommerziellen Projeten ausnotzen wëllen, an déi sechs am meeschte gefroten Datesätz aus den Äntwerten ausgewielt hunn: CIFAR-10 (en Ënnerdeel vun der 80 Millioune kleng Biller dataset, zënter entzunn fir 'derogatory Begrëffer' an 'offensiv Biller', obwuel seng Derivate proliferéieren); IMAGEnet; Stadbild (déi exklusiv original Material enthält); FFHQ; VGGFace2, an MSCOCO.

Fir z'analyséieren ob déi gewielte Datesätz gëeegent waren fir legal Notzung a kommerziellen Projeten, hunn d'Auteuren eng nei Pipeline entwéckelt fir d'Kette vun de Lizenzen sou wäit wéi méiglech fir all Set zréckzeféieren, obwuel se dacks op Webarchiv-Fangen hu missen zréckgräifen fir d'Lizenzen vun elo ofgelaaften Domainen ze lokaliséieren, an a bestëmmte Fäll hu missen de Lizenzstatus aus der noosten verfügbaren Informatioun 'rieden'.

Architektur fir de Provenance-Tracing System entwéckelt vun den Autoren. Source: https://arxiv.org/pdf/2111.02374.pdf

Architektur fir de Provenance-Tracing System entwéckelt vun den Autoren. Source: https://arxiv.org/pdf/2111.02374.pdf

D'Auteuren hu festgestallt datt d'Lizenzen fir fënnef vun de sechs Datesätz 'Enthält Risiken verbonne mat mindestens engem kommerziellen Benotzungskontext':

'[Mir] beobachten datt, ausser MS COCO, keng vun de studéierte Lizenzen d'Praktiker d'Recht erlaben en AI Modell ze kommerzialiséieren deen op den Daten trainéiert gëtt oder souguer d'Ausgab vum trainéierten AI Modell. Esou e Resultat verhënnert och effektiv Praktiker aus souguer pre-trainéiert Modeller ze benotzen, déi op dësen Datesets trainéiert sinn. Ëffentlech verfügbar Datesätz an AI Modeller déi viraus trainéiert sinn vill kommerziell benotzt.' *

D'Autoren bemierken weider datt dräi vun de sechs studéierte Datesätz zousätzlech zu enger Lizenzverletzung a kommerziellen Produkter kéinte féieren, wann d'Dateset geännert gëtt, well nëmmen MS-COCO dëst erlaabt. Awer Datenvergréisserung an Ënner-Sets a Super-Sets vun beaflosst Datesätz sinn eng allgemeng Praxis.

Am Fall vun CIFAR-10 hunn d'Original Compilers guer keng konventionell Form vu Lizenz erstallt, erfuerderlech nëmmen datt Projete mat der Datasetze eng Zitatioun zum Originalpabeier enthalen, deen d'Verëffentlechung vum Dataset begleet huet, eng weider Hindernis fir d'Etablissement ze presentéieren. de legale Status vun den Donnéeën.

Weider, nëmmen de CityScapes Dataset enthält Material dat exklusiv vun den Originatoren vun der Dataset generéiert gëtt, anstatt aus Netzwierkquellen "curated" (geschrauft) ze ginn, mat CIFAR-10 an ImageNet mat multiple Quellen, déi jidderee misst ënnersicht ginn an zréckverfollegt fir all Zort Copyright Mechanismus (oder souguer e sënnvoll Verzichterklärung) opzebauen.

Keen Auswee

Et ginn dräi Faktoren, op déi kommerziell AI Firmen schéngen ze vertrauen fir se vu Streidereien ronderëm Produkter ze schützen, déi auteursrechtlech Inhalter aus Datesätz fräi an ouni Erlaabnis benotzt hunn, fir AI Algorithmen ze trainéieren. Keen vun dësen leeschte vill (oder iergendeng) zouverlässeg laangfristeg Schutz:

1: Laissez Faire National Gesetzer
Och wann Regierunge ronderëm d'Welt gezwongen sinn Gesetzer ronderëm Dateschrauwen ze relaxen an engem Effort net zréck an d'Course Richtung performant AI ze falen (déi op héije Volumen vun real Weltdaten hänkt fir déi regelméisseg Copyright Konformitéit an Lizenz onrealistesch wieren), nëmmen d'USA bidden vollwäerteg Immunitéit an dësem Respekt, ënner dem Fair Use Doktrin – eng Politik déi 2015 mat der Conclusioun komm of Authors Guild v. Google, Inc., déi bestätegt huet datt de Sichgigant fräi auteursrechtlech geschützt Material fir säi Google Books-Projet kéint ophuelen ouni vu Verstéiss beschëllegt ze ginn.

Wann d'Fair Use Doctrine Politik jeemools ännert (dh als Äntwert op en anere Landmark Fall mat genuch héich-powered Organisatiounen oder Firmen), wier et méiglecherweis als eng priori Staat am Sënn vun der Ausbeutung vun aktuellen Copyright-verletzenden Datenbanken, Schutz vum fréiere Gebrauch; awer net Dräierkoalitioun Notzung an Entwécklung vu Systemer, déi duerch Copyright Material ouni Accord aktivéiert goufen.

Dëst stellt den aktuellen Schutz vun der Fair Use Doctrine op eng ganz provisoresch Basis, a kéint potenziell, an deem Szenario, etabléiert, kommerzialiséiert Maschinnléiere Algorithmen erfuerderen fir d'Operatioun opzehalen a Fäll wou hir Originen duerch auteursrechtlech geschützt Material aktivéiert goufen - och a Fäll wou de de Modell Gewiichter beschäftegt sech elo exklusiv mat erlaabten Inhalt, awer goufen trainéiert (an nëtzlech gemaach duerch) illegal kopéiert Inhalter.

Ausserhalb vun den USA, wéi d'Auteuren am neie Pabeier bemierken, sinn d'Politik allgemeng manner mëll. Groussbritannien a Kanada indemnifies nëmmen d'Benotzung vun urheberrechtlechen Donnéeën fir net-kommerziell Zwecker, während d'EU Text an Data Mining Gesetz (wat net ganz vun der rezent Propositioune fir méi formell AI Regulatioun) schléisst och kommerziell Ausbeutung fir AI Systemer aus, déi net de Copyright Ufuerderunge vun den originelle Donnéeën entspriechen.

Dës lescht Arrangementer bedeiten datt eng Organisatioun grouss Saache ka mat anere Leit hir Donnéeën erreechen, bis - awer net abegraff - de Punkt fir Sue draus ze maachen. Deemools géif de Produit entweder gesetzlech exponéiert ginn, oder Arrangementer misste mat wuertwiertlech Millioune vun Urheberrechter ausgeschafft ginn, vill vun deenen elo net tracéierbar sinn wéinst der verréckter Natur vum Internet - eng onméiglech an onbezuelbar Perspektiv.

2: Caveat Emptor
A Fäll wou verletzend Organisatiounen hoffe fir d'Schold auszetauschen, bemierkt den neie Pabeier och datt vill Lizenzen fir déi populärste Open Source Datesätz sech selwer géint all Fuerderunge vu Copyrightmëssbrauch automatesch indemnéieren:

"Zum Beispill, d'Lizenz vum ImageNet erfuerdert explizit datt d'Praktiker d'ImageNet Team géint all Fuerderungen entstinn, déi aus der Benotzung vum Datesaz entstinn. FFHQ, VGGFace2an MS COCO Datesätz erfuerderen datt d'Dateset, wa verdeelt oder geännert gëtt, ënner der selwechter Lizenz presentéiert gëtt.'

Effektiv zwéngt dëst déi, déi FOSS-Datesätz benotzen, Schold fir d'Benotzung vun auteursrechtlech geschützte Material ze absorbéieren, am Gesiicht vun eventuellen Prozesser (och wann et net onbedéngt d'Original Compiler schützt an engem Fall wou dat aktuellt Klima vum 'Safe Harbor' besteet).

3: Indemnitéit duerch Obscuritéit
Déi kollaborativ Natur vun der Maschinnléieregemeinschaft mécht et zimmlech schwéier fir Firmenokkultismus ze benotzen fir d'Präsenz vun Algorithmen ze verstoppen, déi vun Urheberrechtsverletzungen Datesätz profitéiert hunn. Laangfristeg kommerziell Projete fänken dacks an oppen FOSS Ëmfeld un, wou d'Benotzung vun Datesätz eng Saach vu Rekord ass, bei GitHub an aner ëffentlech zougänglech Foren, oder wou d'Origine vum Projet a Preprint oder Peer-reviewed Pabeieren publizéiert goufen.

Och wou dat net de Fall ass, Modell Inversioun is ëmmer méi kapabel fir déi typesch Charakteristike vun Datesätz z'entdecken (oder souguer explizit erausginn e puer vum Quellmaterial), entweder e Beweis u sech selwer liwweren, oder genuch Verdacht op Verstéissung fir Geriichtsbestallt Zougang zu der Geschicht vun der Entwécklung vum Algorithmus z'erméiglechen, an Detailer vun den Datesets, déi an där Entwécklung benotzt ginn.

Konklusioun

D'Pabeier weist eng chaotesch an ad hoc Notzung vun urheberrechtlech geschützt Material dat ouni Erlaabnis kritt gëtt, a vun enger Serie vu Lizenzketten déi, logesch sou wäit zréck wéi d'Original Quell vun den Donnéeën gefollegt sinn, Verhandlunge mat Dausende vun Urheberrechter erfuerderen, deenen hir Aarbecht presentéiert gouf. ënner der Aegis vu Siten mat enger grousser Villfalt vu Lizenzbedéngungen, vill ausgeschloss derivéiert kommerziell Wierker.

D'Auteuren ofgeschloss ginn:

'Ëffentlech verfügbar Datesätz gi wäit benotzt fir kommerziell AI Software ze bauen. Et kann een dat maachen wann [an] nëmmen wann d'Lizenz verbonne mat dem ëffentlech verfügbaren Datesaz d'Recht gëtt dat ze maachen. Wéi och ëmmer, et ass net einfach d'Rechter an d'Verpflichtungen ze verifizéieren, déi an der Lizenz mat den ëffentlech verfügbaren Datesets assoziéiert sinn. Well heiansdo ass d'Lizenz entweder onkloer oder potenziell ongëlteg.'

En anert neit Wierk, mam Titel Bauen juristesch DatesetsNovember verëffentlecht vum Centre for Computational Law op der Singapore Management University, ënnersträicht och d'Noutwendegkeet fir Datewëssenschaftler ze erkennen datt d'"wëll Westen" Ära vun der ad hoc Datensammlung op en Enn kënnt, a spigelt d'Empfehlungen vum Huawei. Pabeier fir méi streng Gewunnechten a Methodologien ze adoptéieren fir sécherzestellen datt d'Datebankverbrauch e Projet net u legale Konsequenzen aussetzt wéi d'Kultur an der Zäit ännert, a wéi déi aktuell global akademesch Aktivitéit am Maschinnléiere Secteur e kommerziellen Rendement op Joeren vun Investitiounen sicht. . Den Auteur observéiert *:

'[De] Corpus vu Gesetzgebung déi ML Datesätz beaflosst ass agestallt fir ze wuessen, ënner Bedenken déi aktuell Gesetzer bidden net genuch sécher Schutz. Den Entworf AIA [EU Artificial Intelligence Act], wann a wann et passéiert, géif d'AI an d'Date Gouvernance Landschaft wesentlech änneren; aner Juridictioune kënne mat hiren eegene Akte verfollegen. '

 

* Meng Konversioun vun Inline Zitater op Hyperlinks