Kunstmatige intelligentie
Het plagiaatprobleem: hoe generatieve AI-modellen gecopyrighteerd materiaal reproduceren

De snelle vooruitgang in generatieve AI heeft enthousiasme gewekt over het creatieve potentieel van de technologie. Toch vormen deze krachtige modellen ook risico’s rond het reproduceren van gecopyrighteerd of geplagieerde inhoud zonder adequate toewijzing.
Hoe neurale netwerken trainingsgegevens absorberen
Moderne AI-systemen zoals GPT-3 worden getraind via een proces genaamd transfer learning. Ze nemen enorme datasets in zich op die zijn gescraped van openbare bronnen zoals websites, boeken, academische artikelen en meer. Zo omvatte de trainingsgegevens van GPT-3 570 gigabyte aan tekst. Tijdens de training zoekt de AI naar patronen en statistische relaties in deze enorme hoeveelheid gegevens. Het leert de correlaties tussen woorden, zinnen, alinea’s, taalstructuur en andere kenmerken.
Dit stelt de AI in staat om nieuwe, samenhangende tekst of afbeeldingen te genereren door voorspellingen te doen over de sequenties die waarschijnlijk volgen op een bepaalde invoer of prompt. Maar het betekent ook dat deze modellen inhoud absorberen zonder rekening te houden met auteursrechten, toewijzing of plagiaatrisk’s. Als gevolg kunnen generatieve AI’s onbewust letterlijke passages of parafrases van gecopyrighteerd materiaal uit hun trainingscorpora reproduceren.
Sleutelforbeelden van AI-plagiaat
Zorgen over AI-plagiaat kwamen prominent naar voren sinds 2020, na de release van GPT.
Recent onderzoek heeft aangetoond dat grote taalmodellen (LLM’s) zoals GPT-3 aanzienlijke letterlijke passages uit hun trainingsgegevens kunnen reproduceren zonder citatie (Nasr et al., 2023; Carlini et al., 2022). Zo onthulde een rechtszaak van The New York Times dat OpenAI-software artikelen van The New York Times nagenoeg letterlijk genereerde (The New York Times, 2023).
Deze bevindingen suggereren dat sommige generatieve AI-systemen ongevraagde plagiaatrisico’s kunnen produceren, waardoor het risico op auteursrechtinbreuk toeneemt. Echter, de prevalentie blijft onzeker vanwege de ‘black box’-aard van LLM’s. De rechtszaak van The New York Times stelt dat dergelijke uitvoer inbreuk vormt, wat grote gevolgen kan hebben voor de ontwikkeling van generatieve AI. Over het algemeen duiden de bewijzen erop dat plagiaat een inherente kwestie is in grote neurale netwerkmodellen die waakzaamheid en waarborgen vereisen.
Deze gevallen onthullen twee sleutelfactoren die de risico’s van AI-plagiaat beïnvloeden:
- Modelgrootte – Grotere modellen zoals GPT-3.5 zijn meer geneigd om letterlijke tekstpassages te reproduceren in vergelijking met kleinere modellen. Hun grotere trainingsdatasets verhogen de blootstelling aan gecopyrighteerd bronmateriaal.
- Trainingsgegevens – Modellen die getraind zijn op gescrapede internetgegevens of gecopyrighteerd materiaal (zelfs als het is gelicentieerd) zijn meer geneigd om te plagiaat dan modellen die getraind zijn op zorgvuldig gecureerde datasets.
Echter, het direct meten van de prevalentie van plagiaatuitvoer is moeilijk. De ‘black box’-aard van neurale netwerken maakt het moeilijk om de link tussen trainingsgegevens en modeluitvoer volledig te traceren. Tarieven hangen waarschijnlijk sterk af van modelarchitectuur, datasetkwaliteit en promptformulering. Maar deze gevallen bevestigen dat dergelijk AI-plagiaat onmiskenbaar voorkomt, wat kritische juridische en ethische implicaties heeft.
Opkomende plagiaatdetectiesystemen
Als reactie zijn onderzoekers begonnen met het onderzoeken van AI-systemen om tekst en afbeeldingen gegenereerd door modellen versus door mensen gemaakt te detecteren. Zo stelde het onderzoeksinstituut Mila GenFace voor, dat linguïstische patronen analyseert die indicatief zijn voor AI-tekst. Het startupbedrijf Anthropic heeft ook interne plagiaatdetectiecapaciteiten ontwikkeld voor zijn conversational AI Claude.
Echter, deze tools hebben beperkingen. De enorme trainingsgegevens van modellen zoals GPT-3 maken het moeilijk om de oorspronkelijke bronnen van geplagieerde tekst te traceren, als dat al mogelijk is. Krachtigere technieken zullen nodig zijn naarmate generatieve modellen blijven evolueren. Tot die tijd blijft handmatige controle essentieel om potentieel geplagieerde of inbreukmakende AI-uitvoer te screenen voordat deze openbaar wordt gemaakt.
Beste praktijken om generatief AI-plagiaat te mitigeren
Hier zijn enkele beste praktijken die zowel AI-ontwikkelaars als gebruikers kunnen volgen om plagiaatrisico’s te minimaliseren:
Voor AI-ontwikkelaars:
- Zorgvuldig controleren van trainingsgegevensbronnen om gecopyrighteerd of gelicentieerd materiaal uit te sluiten zonder adequate toestemming.
- Ontwikkelen van strenge gegevensdocumentatie- en herkomsttraceerprocedures. Record metadata zoals licenties, tags, makers, enz.
- Implementeren van plagiaatdetectietools om hoogrisicogegevens te markeren voordat ze worden vrijgegeven.
- Transparanterapporten verstrekken over trainingsgegevensbronnen, licenties en oorsprong van AI-uitvoer wanneer twijfels rijzen.
- Mogelijk maken voor contentmakers om gemakkelijk uit trainingsdatasets te worden verwijderd. Snel voldoen aan verzoeken tot verwijdering of uitsluiting.
Voor generatieve AI-gebruikers:
- Grondig screenen van uitvoer op potentieel geplagieerde of ongeciteerde passages voordat ze op grote schaal worden ingezet.
- Verwerpen van de behandeling van AI als volledig autonome creatieve systemen. Menselijke reviewers moeten de definitieve inhoud onderzoeken.
- Voorkeur geven aan AI-ondersteunde menselijke creatie boven het genereren van volledig nieuwe inhoud van scratch. Gebruik modellen voor parafraseren of ideatie in plaats daarvan.
- Raadplegen van de servicevoorwaarden, inhoudsbeleid en plagiaatsafweringen van de AI-aanbieder voordat ze worden gebruikt. Transparante modellen vermijden.
- Citeren van bronnen duidelijk als enig gecopyrighteerd materiaal in de definitieve uitvoer verschijnt, ondanks de beste inspanningen. AI-werk niet presenteren als volledig origineel.
- Beperken van het delen van uitvoer tot privé of vertrouwelijke kanalen totdat plagiaatrisico’s verder kunnen worden beoordeeld en aangepakt.
Strengere regelgeving van trainingsgegevens kan ook gerechtvaardigd zijn naarmate generatieve modellen blijven evolueren. Dit kan het vereisen van expliciete toestemming van makers voordat hun werk aan datasets wordt toegevoegd. Echter, de verantwoordelijkheid ligt bij zowel ontwikkelaars als gebruikers om ethische AI-praktijken te hanteren die de rechten van contentmakers respecteren.
Plagiaat in Midjourney’s V6 Alpha
Na beperkte prompting Midjourney’s V6-model konden sommige onderzoekers nagenoeg identieke afbeeldingen genereren van gecopyrighteerd films, tv-series en videogameschermen die waarschijnlijk in hun trainingsgegevens waren opgenomen.
Deze experimenten bevestigen verder dat zelfs state-of-the-art visuele AI-systemen onbewust gecopyrighteerd materiaal kunnen plagiaat als de bron van trainingsgegevens ongecontroleerd blijft. Het benadrukt de noodzaak van waakzaamheid, waarborgen en menselijke toezicht bij het inzetten van generatieve modellen op commerciële schaal om inbreukrisico’s te beperken.
Reactie van AI-bedrijven op gecopyrighteerd materiaal
De grenzen tussen menselijke en AI-creativiteit vervagen, waardoor complexe auteursrechtenvragen ontstaan. Werken die menselijke en AI-input combineren, kunnen alleen auteursrechtelijk beschermd zijn in aspecten die uitsluitend door de mens zijn uitgevoerd.
Het Amerikaanse auteursrechtbureau heeft onlangs het auteursrecht voor de meeste aspecten van een AI-menselijke graphic novel geweigerd, waarbij het AI-kunst als niet-menselijk werd beschouwd. Het heeft ook richtlijnen uitgevaardigd waarin AI-systemen van ‘auteurschap’ worden uitgesloten. Federale rechtbanken hebben deze houding bevestigd in een auteursrechtzaak over AI-kunst.
Ondertussen stellen rechtszaken dat generatieve AI-inbreuk pleegt, zoals Getty v. Stability AI en artiesten v. Midjourney/Stability AI. Maar zonder AI-‘auteurs’ vragen sommigen zich af of inbreukclaims van toepassing zijn.
Als reactie daarop hebben grote AI-bedrijven zoals Meta, Google, Microsoft en Apple betoogd dat ze geen licenties nodig hebben of royalty’s moeten betalen om AI-modellen te trainen op gecopyrighteerd materiaal.
Hier is een samenvatting van de sleutelargumenten van grote AI-bedrijven in reactie op potentiële nieuwe Amerikaanse auteursrechtregels rond AI, met citaten:
Meta betoogt dat het opleggen van licenties nu chaos zou veroorzaken en weinig voordeel zou opleveren voor auteursrechthebbenden.
Google claimt dat AI-training analoog is aan niet-inbreukmakende handelingen zoals het lezen van een boek (Google, 2022).
Microsoft waarschuwt dat het wijzigen van het auteursrecht nadelig kan zijn voor kleine AI-ontwikkelaars.
Apple wil auteursrecht voor AI-gegenereerde code die door menselijke ontwikkelaars wordt gecontroleerd.
Over het algemeen zijn de meeste bedrijven tegen nieuwe licentieverplichtingen en bagatelliseren ze de zorgen over AI-systemen die beschermd materiaal reproduceren zonder toewijzing. Echter, deze houding is omstreden gezien recente AI-auteursrechtzaken en debatten.
Paden voor verantwoorde generatieve AI-innovatie
Terwijl deze krachtige generatieve modellen blijven evolueren, is het afvangen van plagiaatrisico’s kritisch voor mainstream-acceptatie. Een meerprongige aanpak is vereist:
- Beleidsreformen rondom transparantie van trainingsgegevens, licenties en makersconsent.
- Sterkere plagiaatdetectietechnologieën en interne governance door ontwikkelaars.
- Grotere gebruikersbewustzijn van risico’s en naleving van ethische AI-principes.
- Duidelijke juridische precedenten en rechtspraak rond AI-auteursrechtkwesties.
Met de juiste waarborgen kan AI-ondersteunde creatie op een ethische manier floreeren. Maar ongecontroleerde plagiaatrisico’s kunnen het publieke vertrouwen aanzienlijk ondermijnen. Het direct aanpakken van dit probleem is cruciaal voor het realiseren van het immense creatieve potentieel van generatieve AI, terwijl de rechten van makers worden gerespecteerd. Het bereiken van het juiste evenwicht zal het actief confronteren van de plagiaatblindvlek die inherent is aan de aard van neurale netwerken vereisen. Maar door dit te doen, zullen deze krachtige modellen de menselijke vernieuwing die ze beogen te versterken, niet ondermijnen.













