Etiikka

Nykyiset tekoälykäytännöt voivat mahdollistaa uuden sukupolven tekijänoikeustrollit

Published November 5, 2021

Updated April 28, 2026

Martin Anderson

Uusi tutkimusyhteistyö Huawei ja akatemioiden välillä viittaa siihen, että suuri osa tärkeimmistä nykyisistä tekoäly- ja koneoppimistutkimuksista voi olla altis oikeudellisille toimille, kun ne tulevat kaupallisesti merkittäviksi, koska datat, jotka mahdollistavat läpimurrot, jaetaan kelvottomilla lisensseillä, jotka eivät kunnioita alkuperäisiä ehtoja, joilla data on haettu julkisilta verkkosivuilta.

Tämän vaikutukset ovat käytännössä kaksi: hyvin onnistuneet, kaupallistetut tekoälyalgoritmit, jotka on tiedetty käyttäneen tällaisia tietoja, tulevat tulevaisuudessa kohteiksi oportunistisille patenttienhaltijoille, joiden tekijänoikeuksia ei kunnioitettu, kun heidän tietonsa kerättiin; ja organisaatiot ja yksityishenkilöt voivat käyttää näitä oikeudellisia heikkouksia vastustaakseen koneoppimisteknologioiden käyttöä tai leviämistä, joita he pitävät vastustamisen arvoisina.

Tutkimus on nimeltään Voinko käyttää tätä julkisesti saatavilla olevaa tietojoukkoa kaupallisen tekoälyohjelmiston kehittämiseen? Todennäköisesti ei, ja se on yhteistyö Huawei Kanadan ja Huawei Kiinan, Yorkin yliopiston Iso-Britanniassa ja Victorian yliopiston Kanadassa välillä.

Vain yksi kuudesta (suositusta) avoimen lähdekoodin tietojoukosta on laillisesti käytettävissä

Tutkimuksessa pyydettiin Huaweiin kuuluvia osastoja valitsemaan heidän toivomansa avoimen lähdekoodin tietojoukot, joita he haluaisivat hyödyntää kaupallisissa projekteissa, ja valittiin kuusi eniten toivottua tietojoukkoa: CIFAR-10 (80 miljoonan pienen kuvan tietojoukon alajoukko, jonka peruutettiin ‘halventavien termejä’ ja ‘loukkaavia kuvia’ vuoksi, vaikka sen johdannaiset ovat yleisiä); ImageNet; Cityscapes (joka sisältää vain alkuperäistä materiaalia); FFHQ; VGGFace2, ja MSCOCO.

Tutkijat kehittivät uuden putken seurataksesi lisenssien ketjua niin pitkälle kuin mahdollista kullekin tietojoukolle, vaikka heidän oli usein turvauduttava verkkosivujen arkistointiin vanhentuneiden verkkosivujen lisenssien sijaintitietojen löytämiseksi, ja joissain tapauksissa heidän oli ‘arvioitava’ lisenssin tila lähimmän saatavilla olevan tiedon perusteella.

Arkkitehtuuri tutkijoiden kehittämälle provenienssijäljitysjärjestelmälle. Lähde: https://arxiv.org/pdf/2111.02374.pdf

Tutkijat totesivat, että viidellä kuudesta tietojoukosta sisältää riskejä, jotka liittyvät vähintään yhteen kaupalliseen käyttökontekstiin:

‘Havaitsemme, että lukuun ottamatta MS COCO:ta, mikään tutkituista lisensseistä ei anna käyttäjille oikeutta kaupallistaa tekoälymallia, joka on koulutettu tietojen avulla tai jopa koulutetun tekoälymallin tulostetta. Tämä estää käytännössä myös käyttämästä esikoulutettuja malleja, jotka on koulutettu näillä tietojoukoilla. Julkisesti saatavilla olevat tietojoukot ja esikoulutetut tekoälymallit, jotka on koulutettu niiden avulla, ovat laajasti kaupallisesti käytössä.’ *

Tutkijat huomauttavat myös, että kolme kuudesta tutkitusta tietojoukosta voi johtaa lisenssirikkomukseen kaupallisissa tuotteissa, jos tietojoukkoa muokataan, koska vain MS-COCO sallii tämän. Tietojen täydentäminen ja alijoukot ja ylijoukot vaikuttavista tietojoukoista ovat yleinen käytäntö.

CIFAR-10:n kohdalla alkuperäiset kokoajat eivät luoneet mitään perinteistä lisenssimuotoa, vaan vaativat ainoastaan, että projektit, jotka käyttävät tietojoukkoa, sisälsivät viittauksen alkuperäiseen tutkimukseen, joka oli julkaistu tietojoukon julkaisun yhteydessä, mikä aiheuttaa edelleen esteen oikeudellisen aseman määrittelylle.

Lisäksi vain CityScapes-tietojoukko sisältää aineistoa, jota on tuottanut tietojoukon luoja, eikä se ole ‘kuratoitu’ (haettu) verkkolähteistä, kun taas CIFAR-10 ja ImageNet käyttävät useita lähteitä, joita jokaisen olisi tutkittava ja jäljitetty, jotta voitaisiin määrittää tekijänoikeusjärjestelmä (tai merkittävä varoitus).

Ei Uloskäyntiä

On kolme tekijää, joihin kaupalliset tekoälyyritykset näyttävät turvautuvan suojelemaan itseään oikeudellisilta seuraamuksilta, jotka liittyvät tuotteisiin, jotka ovat käyttäneet tekijänoikeuksien alaista sisältöä tietojoukoista vapaasti ja ilman lupaa tekoälyalgoritmien kouluttamiseen. Mikään näistä ei tarjoa luotettavaa pitkäaikaista suojaa:

1: Laissez Faire Kansalliset Lait
Vaikka hallitukset ympäri maailmaa pyrkivät rentouttamaan lakeja tietojen keräämisestä estääkseen jäämästä jälkeen tekoälyn kehityksessä (joka riippuu suurista määristä todellista dataa, jolle säännöllinen tekijänoikeuden noudattaminen ja lisensointi olisivat epärealistisia), ainoastaan Yhdysvallat tarjoaa täydellisen immunitetin tässä suhteessa Fair Use -doktriinin nojalla – politiikka, joka vahvistettiin vuonna 2015 Authors Guild v. Google, Inc. -tapauksen päättymisen myötä, jossa vahvistettiin, että hakukonejätti voi vapaasti käyttää tekijänoikeuden alaista materiaalia Google Books -projektissaan ilman syytettä tekijänoikeuden rikkomisesta.

Jos Fair Use -doktriinin politiikka koskaan muuttuu (esim. toisen merkittävän oikeustapauksen seurauksena, jossa on mukana voimakkaita organisaatioita tai yrityksiä), se olisi luultavasti a priori -tila nykyisten tekijänoikeusrikkomusten hyödyntämiseksi; mutta ei jatkuva käyttö ja kehitys järjestelmiä, jotka mahdollistettiin tekijänoikeusrikkomusten kautta – vaikka mallin painot käsittelevät nyt ainoastaan sallittua sisältöä, mutta ne olivat koulutettu laittomasti kopioituun sisältöön ja teki niistä hyödyllisiä.

Yhdysvaltojen ulkopuolella, kuten tutkijat huomauttavat uudessa tutkimuksessa, politiikat ovat yleensä vähemmän myöntäviä. Iso-Britannia ja Kanada antavat vain vakuutuksen tekijänoikeuden suojasta ei-kaupalliseen tarkoitukseen, kun taas EU:n Teksti- ja Data Mining -laki (jota ei ole kokonaan kumottu viimeaikaisilla ehdotuksilla tekoälyn sääntelylle) sulkee myös kaupallisen hyödyntämisen tekoälyjärjestelmille, jotka eivät noudata alkuperäisen datan tekijänoikeusvaatimuksia.

Nämä järjestelyt tarkoittavat, että organisaatio voi saavuttaa suuria asioita muiden ihmisten datan avulla, mutta ei saa tehdä niistä rahaa. Tuote joutuisi joko oikeudelliseen vaaraan tai järjestelyt olisi tehtävä kirjaimellisesti miljoonien tekijänoikeuden haltijoiden kanssa, joista monet ovat nyt jäljittämättömiä internetin muuttuvan luonteen vuoksi – mahdoton ja kallista asia.

2: Caveat Emptor
Tapauksissa, joissa rikkomuksista toipuvat organisaatiot toivovat viivästyttää syytöksiä, uusi tutkimus huomauttaa myös, että monien avoimen lähdekoodin tietojoukkojen lisenssit itsepuolustautuvat itseään vastaan kaikkia tekijänoikeuden väärinkäytön vaatimuksia vastaan:

‘Esimerkiksi ImageNetin lisenssi edellyttää käyttäjiltä, että he korvaavat ImageNet-tiimille kaikki vaatimukset, jotka johtuvat tietojoukon käytöstä. FFHQ, VGGFace2 ja MS COCO -tietojoukot vaativat tietojoukon jakamista tai muokkaamista saman lisenssin alaisena.’

Käytännössä tämä pakottaa ne, jotka käyttävät avoimen lähdekoodin tietojoukkoja, ottamaan vastuun tekijänoikeuden rikkomisesta, kunnes oikeudellinen toimi alkaa (vaikka se ei välttämättä suojaa alkuperäisiä kokoajia tapauksessa, jossa nykyinen ‘turvapaikan’ ilmapiiri on vaarantunut).

3: Vakuutus Epäselvyyden Kautta
Tekoälyyhteisön yhteistyöllinen luonne tekee siitä melko vaikeaa käyttää yrityssalaisuutta peittääkseen algoritmien läsnäolon, jotka ovat hyötyneet tekijänoikeusrikkomusten tietojoukoista. Pitkäaikaiset kaupalliset projektit usein alkavat avoimissa FOSS-ympäristöissä, joissa tietojoukon käyttö on kirjattu, GitHubissa ja muissa julkisesti saatavilla olevissa foorumeissa, tai joissa projektien alkuperä on julkaistu esitutkimuksena tai tarkastettuna paperina.

Vaikka tämä ei välttämättä olisi tapauksessa, mallin kääntäminen on yhä enemmän kykenevä paljastamaan tyypillisiä tietojoukon ominaisuuksia (tai jopa selkeästi tulostamaan joitain lähdemateriaaleja), joko tarjoamalla todisteita tai riittävästi epäilyä rikkomuksesta, jotta voitaisiin pyytää oikeudessa pääsyä algoritmin kehityshistoriaan ja tietojoukkoihin, joita kehityksessä käytettiin.

Johtopäätös

Tutkimus kuvaa kaoottista ja epäjärjestelmällistä tekijänoikeuden alaista materiaalin käyttöä ja sarjan lisenssiketjuja, jotka, jos seurataan logiikkaa alkuperäiseen tietojen lähdekohtaan, vaatisivat neuvotteluja tuhansien tekijänoikeuden haltijoiden kanssa, joiden työtä esitettiin verkkosivuilla, joilla on monia eri lisenssiehtoja, monet estävät johdannaisia kaupallisia teoksia.

Tutkijat toteavat:

‘Julkisesti saatavilla olevat tietojoukot ovat laajasti käytössä kaupallisen tekoälyohjelmiston kehittämiseen. Voit tehdä niin, jos (ja vain, jos) lisenssi, joka liittyy julkisesti saatavilla olevaan tietojoukkoon, antaa oikeuden siihen. On kuitenkin vaikea varmistaa oikeudet ja velvollisuudet, jotka on annettu lisenssissä, joka liittyy julkisesti saatavilla oleviin tietojoukkoihin. Koska lisenssi on toisinaan epäselvä tai mahdollisesti mitätön.’

Toinen uusi tutkimus, Laillisten tietojoukkojen rakentaminen, joka julkaistiin 2. marraskuuta Singaporen johtavan yliopiston laskennallisen oikeuden keskukselta, korostaa myös tarvetta sille, että data-analyytikot tunnustavat, että ‘villien lännen’ aika epäjärjestelmällisestä datan keräämisestä on päättymässä, ja heijastaa Huawei-tutkimuksen suosituksia omaksua tiukemmat tavat ja menetelmät varmistamaan, että tietojoukon käyttö ei altista projektin oikeudellisille seuraamuksille, kun kulttuuri muuttuu ajan myötä ja kun nykyinen globaali akateeminen toiminta tekoälysektorilla etsii kaupallista tuottoa vuosien sijoittamisesta. Tutkija toteaa*:

‘[T]ekojärjestelmien tietojoukkoihin vaikuttava lainsäädäntö on kasvamassa, koska nykyiset lait tarjoavat riittämättömiä suojauksia. Luonnos AIA [EU:n tekoälyasetus], jos se hyväksytään, muuttaisi merkittävästi tekoälyn ja datan hallinnon maisemaa; muut hallinnot voivat seurata omilla lakien kanssa. ‘

* Minun muunnokseni sisäkkäisistä viittauksista hyperlinkkeihin

Martin Anderson

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]