Tekoäly

Plagiaatin ongelma: Kuinka generatiiviset AI-mallit jäljittelevät tekijänoikeudella suojattua sisältöä

Published January 9, 2024

Updated April 4, 2026

Aayush Mittal Mittal

Nopean edistymisen generatiivisessa tekoälyssä on herättänyt innostusta teknologian luovasta potentiaalista. Kuitenkin nämä voimakkaat mallit myös asettavat huolestuttavia riskejä tekijänoikeudella suojatun tai plagioituneen sisällön jäljittelemiseen ilman asianmukaista merkintää.

Kuinka neuroverkkomallit absorboida koulutusdataa

Modernit tekoälyjärjestelmät kuten GPT-3 koulutetaan prosessin kautta, jota kutsutaan siirtymällä oppimiseksi. Ne nielevät massiivisia tietokantoja, jotka on poimittu julkisista lähteistä, kuten verkkosivuilta, kirjoista, akateemisista artikkeleista ja muista. Esimerkiksi GPT-3:n koulutusdata käsittää 570 gigatavua tekstiä. Koulutuksen aikana tekoäly etsii kuvioita ja tilastollisia suhteita tässä laajassa tietopoolissa. Se oppii sanojen, lauseiden, kappaleiden, kieliopin ja muiden ominaisuuksien korrelaatiot.

Tämä mahdollistaa tekoälylle uuden, johdonmukaisen tekstin tai kuvan generoimisen ennustamalla sekvenssejä, jotka todennäköisesti seuraavat annettua syötettä tai ohjelmaa. Mutta se myös tarkoittaa, että nämä mallit absorboida sisältöä ilman huomiota tekijänoikeuksien, merkintöjen tai plagiaatin riskejä. Tämän seurauksena generatiiviset tekoälyt voivat vahingossa jäljitellä sanasta sanaan kaikki koulutusaineistosta peräisin olevat kappaleet tai parafrasoida tekijänoikeudella suojattua tekstiä.

Avain esimerkit AI-plagiaatista

Huolenaiheita AI-plagiaatista nousi esiin erityisesti vuonna 2020 GPT:n julkaisun jälkeen.

Viimeaikaiset tutkimukset ovat osoittaneet, että suuret kielen mallit (LLM) kuten GPT-3 voivat jäljitellä merkittäviä sanasta sanaan kappaleita koulutusdatastaan ilman lainausta (Nasr et al., 2023; Carlini et al., 2022). Esimerkiksi The New York Timesin haastehakemus paljasti OpenAI-ohjelmiston, joka tuottaa New York Timesin artikkeleita lähes sanasta sanaan (The New York Times, 2023).

Nämä löydökset osoittavat, että jotkut generatiiviset tekoälyjärjestelmät voivat tuottaa pyydettävissä olevia plagioituneita tulosteita, jotka vaarantavat tekijänoikeuksien rikkomisen. Kuitenkin yleisyys on epävarma johtuen LLM:n “mustan laatikon” luonteesta. The New York Timesin haastehakemus väittää, että tällaiset tulosteet muodostavat rikkomuksen, mikä voi johtaa merkittäviin seurauksiin generatiivisen tekoälyn kehitykselle. Kokonaisuutena näyttää siltä, että plagiaatti on sisäänrakennettu ongelma suurissa neuroverkkomalleissa, joka vaatii valppautta ja suojaustoimia.

Nämä tapaukset paljastavat kaksi avaintekijää, jotka vaikuttavat AI-plagiaatin riskeihin:

Mallin koko – Suuremmat mallit kuten GPT-3.5 ovat alttiimpia uudelleenluomiselle sanasta sanaan tekstin kappaleita verrattuna pienempiin malleihin. Niiden suuremmat koulutusdatat lisäävät alttiutta tekijänoikeudella suojatulle alkuperäismateriaalille.
Koulutusdata – Mallit, jotka on koulutettu poimittujen internet-tietojen tai tekijänoikeudella suojattujen teosten (jopa lisensoitujen) avulla, ovat todennäköisemmin plagioimaan verrattuna malleihin, jotka on koulutettu huolellisesti kuratoiduilla tietokannoilla.

Kuitenkin suoran plagioituneiden tulosteiden määrän mittaaminen on haasteellista. Neuroverkkojen “mustan laatikon” luonne tekee vaikeaksi jäljittää täydellisesti yhteyttä koulutusdatasta mallin tulosteisiin. Todennäköisyydet riippuvat todennäköisesti mallin arkkitehtuurista, tietokannan laadusta ja ohjelman muotoilusta. Mutta nämä tapaukset vahvistavat, että tällainen AI-plagiaatti ilmenee epäilyksettä, mikä on kriittisiä oikeudellisia ja eettisiä implikaatioita.

Uudet plagiaatin havaitsemisjärjestelmät

Vastauksena tutkijat ovat alkaneet kehittää tekoälyjärjestelmiä, jotka havaitsevat automaattisesti tekstin ja kuvan, jotka on luotu mallien avulla verrattuna ihmisten luomiin. Esimerkiksi Mila-tutkimuslaitoksen tutkijat esittivät GenFace-nimisen järjestelmän, joka analysoi kielellisiä kuvioita, jotka ovat ominaisia tekoälytekstille. Startup-yritys Anthropic on myös kehittänyt sisäisiä plagiaatin havaitsemisominaisuuksia omalle keskusteluaikeensa Claudelle.

Kuitenkin näillä työkaluilla on rajoituksia. Suurten mallien kuten GPT-3:n massiiviset koulutusdatat tekevät alkuperäisten plagioituneiden tekstin lähteiden paikantamisen vaikeaksi, ellei mahdottomaksi. Tarvitaan kehittyneempiä tekniikoita, kun generatiiviset mallit jatkavat nopeaa kehitystään. Siihen asti manuaalinen tarkastelu on välttämätöntä suodattamaan mahdollisesti plagioituneita tai rikkomuksia sisältäviä tekoälytulosteita ennen niiden julkista käyttöä.

Parhaat käytännöt generatiivisen AI-plagiaatin vähentämiseksi

Tässä ovat joitakin parhaita käytäntöjä, joita sekä tekoälykehittäjät että -käyttäjät voivat omaksua plagiaatin riskien vähentämiseksi:

Tekoälykehittäjille:

Tarkastakaa huolellisesti koulutusdatan lähteet, jotta voidaan estää tekijänoikeudella suojatun tai lisensoimattoman aineiston sisällyttäminen ilman lupaa.
Kehittäkää tiukat tietokannan dokumentaatio- ja alkuperäisyysten seurantamenetelmät. Merkitkää metadata kuten lisensointitiedot, tunnisteet, luojat jne.
Toteutakaa plagiaatin havaitsemistyökalut, jotta voidaan merkitä korkean riskin sisältö ennen julkaisua.
Tarjoakaa avoimuusraportteja, jotka sisältävät tietoja koulutusdatan lähteistä, lisensoinnista ja tekoälytulosteiden alkuperästä, kun huolenaiheita herää.
Sallikaa sisällönluojille helppo poistuminen koulutusdatatietokannoista. Tottele nopeasti poistopyyntöjä tai poistamispyyntöjä.

Generatiivisen AI:n käyttäjille:

Tarkastakaa tulokset perusteellisesti mahdollisten plagioituneiden tai merkintöjen puutteen varalta ennen niiden käyttöä laajassa mittakaavassa.
Vältäkää käsittelyä tekoälyä täysin itsenäisinä luovina järjestelminä. Anna ihmisarvioijoiden tarkastella lopullista sisältöä.
Suosikaa ihmisten avustamaa luomista yksinomaan uuden sisällön luomisen sijaan. Käytä malleja uudelleenmuokkaamiseen tai ideoinnissa.
Konsultoi tekoälytoimittajan palveluehdot, sisällönkäytäntöjä ja plagiaatinsuojausten varalta ennen käyttöä. Vältä epäselviä malleja.
Merkitkää lähteet selkeästi, jos tekijänoikeudella suojattua materiaalia ilmenee lopullisessa tuloksessa huolimatta parhaista pyrkimyksistä. Älkää esittäkä tekoälytyötä täysin alkuperäisenä.
Rajoitkaa tulosteiden jakamista yksityisesti tai luottamuksellisesti, kunnes plagiaatin riskit voidaan arvioida ja ratkaista.

Tiukemmat koulutusdatan säännökset saattavat olla myös aiheellisia, kun generatiiviset mallit jatkavat lisääntymistään. Tämä voisi vaatia luojilta suostumusta ennen kuin heidän työnsä lisätään tietokantoihin. Kuitenkin vastuu on sekä kehittäjillä että käyttäjillä soveltaa eettisiä tekoälykäytäntöjä, jotka kunnioittavat sisällönluojien oikeuksia.

Plagiaatti Midjourneyn V6 Alfa -versiossa

Rajoitettujen ohjelmien jälkeen Midjourneyn V6-malli joitakin tutkijoita pystyi generoimaan lähes identtisiä kuvia tekijänoikeudella suojatuille elokuville, TV-ohjelmille ja videopelien ruutukaappauksille, jotka olivat todennäköisesti osa heidän koulutusdataa.

Kuvat, jotka Midjourney on tuottanut ja jotka muistuttavat kuvia tunnetuista elokuvista ja videopeleistä

Nämä kokeet vahvistavat, että jopa viimeisimmät visuaaliset tekoälyjärjestelmät voivat tietämättään plagioida suojattua sisältöä, jos koulutusdatan lähteiden valvonta jää huonoon tilaan. Se korostaa tarvetta valppauteen, suojaustoimiin ja ihmisten valvontaan, kun generatiivisia malleja otetaan kaupalliseen käyttöön rikkomisen riskien rajoittamiseksi.

Tekoälyyritysten vastaus tekijänoikeudelliseen sisältöön

Tekoälytaiteen ja ihmisten luovuuden rajat hämärtävät, mikä luo monimutkaisia tekijänoikeuskysymyksiä. Teokset, jotka yhdistävät ihmisen ja tekoälynhengen, saattavat olla tekijänoikeudella suojattuja vain niissä osissa, jotka on toteutettu yksinomaan ihmisvoimin.

Yhdysvaltain tekijänoikeustoimisto on kieltänyt tekijänoikeuden suurimmalle osalle tekoäly- ja ihmisten yhteistyönä luotua graafista romaania, pitäen tekoälytaidetta epäinhimillisenä. Se on myös antanut ohjeistuksen, jossa tekoälyjärjestelmät on poistettu “tekijyydestä”. Liittovaltion tuomioistuimet ovat vahvistaneet tämän kannan tekoälytaiteen tekijänoikeusjutussa.

Samaan aikaan haastehakemukset väittävät generatiivisen tekoälyn rikkomuksia, kuten Getty v. Stability AI ja taiteilijat v. Midjourney/Stability AI. Mutta ilman tekoäly-“tekijöitä” jotkut kyseenalaistavat, sovelletaanko rikkomisväitteitä.

Vastauksena suuret tekoälyyritykset kuten Meta, Google, Microsoft ja Apple ovat väittäneet, etteivät heidän tarvitse hankkia lupa- tai maksaa rojalteja kouluttaakseen tekoälymalleja tekijänoikeudella suojatussa datasta.

Tässä on yhteenveto suurten tekoälyyritysten avainargumenteista vastauksena mahdollisiin uusiin Yhdysvaltain tekijänoikeussääntöihin tekoälystä, ja viitteet:

Meta väittää lisensointien asettaminen nyt aiheuttaisi kaaosta ja antaisi vain vähän hyötyä tekijänoikeuden haltijoille.

Google väittää tekoälyn koulutus on verrattavissa ei-rikkoaviin teoihin, kuten kirjan lukemiseen (Google, 2022).

Microsoft varoittaa tekijänoikeuden lakien muuttaminen voisi haitata pieniä tekoälykehittäjiä.

Apple haluaa tekijänoikeuden tekoälyllä generoituun koodiin, jota ihmiskehittäjät ohjaavat.

Kaiken kaikkiaan useimmat yritykset vastustavat uusia lisensointivaatimuksia ja vähättelivät huolenaiheita tekoälyjärjestelmien toistamisesta suojatuista teoksista ilman merkintöjä. Kuitenkin tämä kannanotto on kiistanalainen ottaen huomioon viimeaikaiset tekoälytekijänoikeuskanne ja keskustelut.

Reitit vastuulliseen generatiiviseen tekoälyinnovaatioon

Kun nämä voimakkaat generatiiviset mallit jatkavat kehittymistään, on tärkeää estää plagiaatin riskejä laajan hyväksymisen vuoksi. Moniauhanen lähestymistapa vaaditaan:

Lainsäädäntöuudistukset koulutusdatan avoimuudesta, lisensoinnista ja luojien suostumuksesta.
Vahvemmat plagiaatin havaitsemistechnologiat ja kehittäjien sisäinen hallinto.
Käyttäjien tietoisuuden lisääminen riskeistä ja sitoutuminen eettisiin tekoälyperiaatteisiin.
Selkeät oikeudelliset edeltävät tapaukset ja oikeustapaukset tekoälytekijänoikeuskysymyksistä.

Oikeiden suojausten avulla tekoälyavusteinen luominen voi kukoistaa eettisesti. Mutta valvomattomat plagiaatin riskit voivat heikentää merkittävästi julkista luottamusta. Suoran plagiaatin ongelman ratkaiseminen on avain generatiivisen tekoälyn valtavan luovan potentiaalin toteuttamiseksi kunnioittaen luojien oikeuksia. Oikean tasapainon saavuttaminen vaatii aktiivista kamppailua plagiaatin sokeuden kanssa, joka on sisäänrakennettu neuroverkkoihin. Mutta tekemällä niin, nämä voimakkaat mallit eivät heikennä sitä ihmisten älykkyyttä, jonka ne pyrkivät täydentämään.

Related Topics:GPT Midjourney Plagiarism

Aayush Mittal

Olen viettänyt viimeiset viisi vuotta uppoutumassa kiinnostavaan koneoppimisen ja syväoppimisen maailmaan. Intohimoni ja asiantuntemukseni ovat johtaneet minun osallistumiseen yli 50:een monipuoliseen ohjelmistosuunnitteluhankkeeseen, joissa on erityisesti painottunut tekoäly/ML. Jatkuva uteliaisuuteni on myös ohjannut minua kohti luonnollisen kielen prosessointia, alaa jota haluan tutkia tarkemmin.