Liity verkostomme!

Tekoäly

Plagiointiongelma: Kuinka generatiiviset tekoälymallit toistavat tekijänoikeudella suojattua sisältöä

mm

Julkaistu

 on

plagiointi tekoälyssä

Generatiivisen tekoälyn nopea kehitys on herättänyt innostusta tekniikan luovasta potentiaalista. Nämä tehokkaat mallit aiheuttavat kuitenkin myös riskejä, jotka liittyvät tekijänoikeudella suojatun tai plagioidun sisällön toistamiseen ilman asianmukaista merkintää.

Kuinka hermoverkot absorboivat harjoitustietoja

Nykyaikaiset tekoälyjärjestelmät, kuten GPT-3, koulutetaan siirtooppimisprosessin kautta. He nielevät valtavia tietojoukkoja, jotka on kerätty julkisista lähteistä, kuten verkkosivustoista, kirjoista, akateemisista julkaisuista ja muista. Esimerkiksi GPT-3:n opetusdata sisälsi 570 gigatavua tekstiä. Harjoittelun aikana tekoäly etsii kuvioita ja tilastollisia suhteita tästä valtavasta tietojoukosta. Se oppii korrelaatiot sanojen, lauseiden, kappaleiden, kielen rakenteen ja muiden ominaisuuksien välillä.

Tämän ansiosta tekoäly voi luoda uutta yhtenäistä tekstiä tai kuvia ennustamalla sekvenssejä, jotka todennäköisesti seuraavat tiettyä syötettä tai kehotetta. Mutta se tarkoittaa myös sitä, että nämä mallit imevät sisältöä ottamatta huomioon tekijänoikeuksia, tekijänoikeuksia tai plagiointiriskejä. Tämän seurauksena generatiiviset tekoälyt voivat vahingossa toistaa sanatarkkoja kohtia tai muuntaa tekijänoikeudella suojattua tekstiä koulutusaineistostaan.

Keskeisiä esimerkkejä tekoälyn plagioinnista

Tekoälyn plagiointia koskevat huolet nousivat esiin selvästi vuodesta 2020 lähtien GPT:n julkaisun jälkeen.

Viimeaikaiset tutkimukset ovat osoittaneet, että suuret kielimallit (LLM), kuten GPT-3, voivat toistaa merkittäviä sanatarkkoja kohtia harjoitustiedoistaan ​​ilman viittausta (Nasr et al., 2023; Carlini et al., 2022). Esimerkiksi The New York Timesin oikeusjuttu paljasti OpenAI-ohjelmiston, joka luo New York Timesin artikkeleita lähes sanatarkasti (New York Times, 2023).

Nämä havainnot viittaavat siihen, että jotkin generatiiviset tekoälyjärjestelmät voivat tuottaa ei-toivottuja plagiointituloksia, mikä saattaa aiheuttaa tekijänoikeusloukkauksen. Levinneisyys on kuitenkin edelleen epävarmaa LLM-yritysten "mustan laatikon" luonteen vuoksi. New York Timesin oikeusjuttu väittää, että tällaiset tuotokset ovat loukkauksia, joilla voi olla merkittäviä vaikutuksia generatiiviseen tekoälykehitykseen. Kaiken kaikkiaan todisteet osoittavat, että plagiointi on olennainen ongelma suurissa hermoverkkomalleissa, mikä vaatii valppautta ja suojatoimia.

Nämä tapaukset paljastavat kaksi keskeistä tekijää, jotka vaikuttavat tekoälyn plagiointiriskiin:

  1. Mallin koko – Suuremmat mallit, kuten GPT-3.5, ovat alttiimpia luomaan uudelleen sanatarkkoja tekstikohtia pienempiin malleihin verrattuna. Heidän isommat koulutustietojoukot lisäävät altistumista tekijänoikeudella suojatulle lähdemateriaalille.
  2. Harjoittelutiedot – Mallit, jotka on koulutettu kerättyyn Internet-dataan tai tekijänoikeudella suojattuihin teoksiin (vaikka niillä olisi lisensointi), plagioivat todennäköisemmin kuin mallit, jotka on koulutettu huolellisesti kuratoiduilla tietojoukoilla.

Plagiaattisten tulosten esiintyvyyden mittaaminen suoraan on kuitenkin haastavaa. Neuraaliverkkojen "mustan laatikon" luonne tekee vaikeaksi jäljittää tätä koulutusdatan ja mallitulosteiden välistä yhteyttä. Hinnat riippuvat todennäköisesti suuresti mallin arkkitehtuurista, tietojoukon laadusta ja nopeasta muotoilusta. Mutta nämä tapaukset vahvistavat, että tällaista tekoälyplagiointia tapahtuu yksiselitteisesti, millä on kriittisiä oikeudellisia ja eettisiä seurauksia.

Kehittyvät plagioinnin havaitsemisjärjestelmät

Vastauksena tutkijat ovat alkaneet tutkia tekoälyjärjestelmiä tunnistaakseen automaattisesti mallien ja ihmisten luoman tekstin ja kuvat. Esimerkiksi Milan tutkijat ehdottivat GenFacea, joka analysoi tekoälyn kirjoittamaa tekstiä viittaavia kielimalleja. Startup Anthropic on myös kehittänyt sisäisiä plagioinnin havaitsemisominaisuuksia keskustelupalstojen tekoälylle Claudelle.

Näillä työkaluilla on kuitenkin rajoituksia. GPT-3:n kaltaisten mallien massiiviset harjoitustiedot tekevät plagioidun tekstin alkuperäisten lähteiden tunnistamisen vaikeaksi, ellei mahdottomaksi. Tarvitaan vahvempia tekniikoita, kun generatiiviset mallit kehittyvät edelleen nopeasti. Siihen asti manuaalinen tarkistus on välttämätöntä mahdollisesti plagioitujen tai loukkaavien tekoälytulosteiden seulomiseksi ennen julkista käyttöä.

Parhaat käytännöt generatiivisen tekoälyn plagioinnin lieventämiseksi

Tässä on joitain parhaita käytäntöjä, joita sekä tekoälykehittäjät että -käyttäjät voivat ottaa käyttöön plagiointiriskin minimoimiseksi:

AI-kehittäjille:

  • Harkitse koulutustietolähteitä huolellisesti, jotta voit sulkea pois tekijänoikeudella suojatun tai lisensoidun materiaalin ilman asianmukaisia ​​lupia.
  • Kehitä tiukat tietodokumentaatiot ja alkuperän seurantamenettelyt. Tallenna metatiedot, kuten lisenssit, tunnisteet, sisällöntuottajat jne.
  • Ota käyttöön plagioinnin havaitsemistyökalut suuren riskin sisällön ilmoittamiseksi ennen julkaisua.
  • Tarjoa läpinäkyvyysraportteja, joissa kerrotaan koulutustietolähteistä, lisensseistä ja tekoälytulosten alkuperästä, kun huolenaiheita ilmenee.
  • Salli sisällöntuottajien kieltäytyä koulutustietojoukoista helposti. Noudata poisto- tai poissulkemispyyntöjä nopeasti.

Generatiivisille tekoälykäyttäjille:

  • Tarkista tulosteet perusteellisesti mahdollisten plagioitujen tai mainitsemattomien kohtien varalta ennen laajaa käyttöönottoa.
  • Vältä käsittelemästä tekoälyä täysin itsenäisinä luovina järjestelminä. Pyydä arvioijia tutkimaan lopullinen sisältö.
  • Favor AI auttoi ihmisen luomista kokonaan uuden sisällön luomisen sijaan. Käytä sen sijaan malleja parafrasointiin tai ideointiin.
  • Tutustu tekoälyn tarjoajan käyttöehtoihin, sisältökäytäntöihin ja plagiointisuojakeinoihin ennen käyttöä. Vältä läpinäkymättömiä malleja.
  • Mainitse lähteet selvästi, jos tekijänoikeudella suojattua materiaalia esiintyy lopputuloksessa parhaimmista yrityksistä huolimatta. Älä esitä tekoälytyötä täysin alkuperäisenä.
  • Rajoita tulosten jakamista yksityisesti tai luottamuksellisesti, kunnes plagiointiriskejä voidaan arvioida ja käsitellä tarkemmin.

Myös tiukemmat harjoitustietomääräykset voivat olla perusteltuja generatiivisten mallien lisääntyessä. Tämä voi tarkoittaa sitä, että sisällöntuottajilta vaaditaan suostumus ennen kuin heidän teoksensa lisätään tietokokonaisuuksiin. Sekä kehittäjillä että käyttäjillä on kuitenkin velvollisuus käyttää eettisiä tekoälykäytäntöjä, jotka kunnioittavat sisällöntuottajien oikeuksia.

Plagiointi Midjourneyn V6 Alphassa

Rajoitetun kehotteen jälkeen Midjourneyn V6 malli Jotkut tutkijat pystyivät luomaan lähes identtisiä kuvia tekijänoikeudella suojattujen elokuvien, TV-ohjelmien ja videopelien kuvakaappausten kanssa, jotka todennäköisesti sisältyvät harjoitustietoihin.

Midjourneyn luomat kuvat, jotka muistuttavat kohtauksia kuuluisista elokuvista ja videopeleistä

Midjourneyn luomat kuvat, jotka muistuttavat kohtauksia kuuluisista elokuvista ja videopeleistä

Nämä kokeet vahvistavat edelleen, että jopa huippuluokan visuaaliset tekoälyjärjestelmät voivat tietämättään plagioida suojattua sisältöä, jos harjoitustietojen hankintaa ei valvota. Se korostaa valppauden, suojatoimien ja inhimillisen valvonnan tarvetta, kun generatiivisia malleja käytetään kaupallisesti rikkomisriskien rajoittamiseksi.

Tekoälyyritykset reagoivat tekijänoikeudella suojattuun sisältöön

Ihmisen ja tekoälyn luovuuden rajat hämärtyvät ja aiheuttavat monimutkaisia ​​tekijänoikeuskysymyksiä. Teokset, joissa yhdistetään ihmisen ja tekoälyn syöttö, voivat olla tekijänoikeudella suojattuja vain ihmisen suorittamissa osissa.

Yhdysvaltain tekijänoikeusvirasto kielsi äskettäin tekijänoikeudet useimpiin tekoäly-ihmisen graafisen romaanin osiin pitäen tekoälytaidetta ei-inhimillisenä. Se julkaisi myös ohjeita tekoälyjärjestelmien jättämisestä "tekijän" ulkopuolelle. Liittovaltion tuomioistuimet vahvistivat tämän kannan tekoälyn taiteen tekijänoikeusasiassa.

Sillä välin oikeusjutut väittävät generatiivisen tekoälyn loukkaamisen, kuten Getty v. Stability AI ja artists v. Keskimatka/Stability AI. Mutta ilman tekoälyn "tekijöitä", jotkut kyseenalaistavat, voidaanko loukkausvaatimuksia soveltaa.

Vastauksena suuret tekoälyyritykset, kuten Meta, Google, Microsoft ja Apple, väittivät, että heidän ei pitäisi tarvita lisenssejä tai maksaa rojalteja kouluttaakseen tekoälymalleja tekijänoikeudella suojatulla tiedolla.

Tässä on tiivistelmä suurten tekoälyyritysten tärkeimmistä argumenteista vastauksena mahdollisiin uusiin tekoälyä koskeviin Yhdysvaltain tekijänoikeussääntöihin ja lainauksia:

Meta väittää Lisenssien määrääminen nyt aiheuttaisi kaaosta ja vain vähän hyötyä tekijänoikeuksien haltijoille.

Google vaatimukset Tekoälyharjoittelu vastaa oikeuksia loukkaamattomia tekoja, kuten kirjan lukemista (Google, 2022).

Microsoft varoittaa Tekijänoikeuslain muuttaminen voisi olla epäedullinen pienille tekoälykehittäjille.

omena haluaa tekijänoikeudella suojattu tekoälyn luoma koodi, jota hallitsevat ihmisen kehittäjät.

Kaiken kaikkiaan useimmat yritykset vastustavat uusia lisensointivaltuuksia ja vähättelevät huolta tekoälyjärjestelmistä, jotka toistavat suojattuja teoksia ilman merkintää. Tämä kanta on kuitenkin kiistanalainen, kun otetaan huomioon viimeaikaiset tekoälyn tekijänoikeusjutut ja keskustelut.

Polkuja vastuulliseen generatiiviseen tekoälyinnovaatioon

Kun nämä tehokkaat generatiiviset mallit kehittyvät jatkuvasti, plagiointiriskien poistaminen on kriittistä yleisen hyväksynnän kannalta. Tarvitaan monipuolinen lähestymistapa:

  • Koulutusdatan läpinäkyvyyttä, lisensointia ja sisällöntuottajien suostumusta koskevat käytäntöuudistukset.
  • Vahvemmat plagioinnin havaitsemistekniikat ja kehittäjien sisäinen hallinto.
  • Lisää käyttäjien tietoisuutta riskeistä ja eettisten tekoälyperiaatteiden noudattamista.
  • Selkeät oikeudelliset ennakkotapaukset ja oikeuskäytäntö tekoälyn tekijänoikeuskysymyksistä.

Oikeilla suojatoimilla tekoälyavusteinen luominen voi kukoistaa eettisesti. Mutta hallitsemattomat plagiointiriskit voivat heikentää yleisön luottamusta merkittävästi. Tämän ongelman suora ratkaiseminen on avainasemassa, kun halutaan toteuttaa generatiivisen tekoälyn valtava luova potentiaali ja samalla kunnioittaa tekijöiden oikeuksia. Oikean tasapainon saavuttaminen vaatii aktiivisesti kohtaamista hermoverkkojen luonteeseen sisäänrakennetun plagioinnin sokean pisteen kanssa. Mutta näin varmistat, että nämä tehokkaat mallit eivät heikennä sitä inhimillistä kekseliäisyyttä, jota niillä pyritään lisäämään.

Olen viettänyt viimeiset viisi vuotta uppoutuen koneoppimisen ja syväoppimisen kiehtovaan maailmaan. Intohimoni ja asiantuntemukseni ovat saaneet minut osallistumaan yli 50:een erilaiseen ohjelmistosuunnitteluprojektiin keskittyen erityisesti tekoälyyn/ML:ään. Jatkuva uteliaisuuteni on myös vetänyt minut kohti luonnollisen kielen käsittelyä, alaa, jota olen innokas tutkimaan lisää.