stomp Het plagiaatprobleem: hoe generatieve AI-modellen auteursrechtelijk beschermde inhoud reproduceren - Unite.AI
Verbind je met ons

Artificial Intelligence

Het plagiaatprobleem: hoe generatieve AI-modellen auteursrechtelijk beschermde inhoud reproduceren

mm

gepubliceerd

 on

plagiaat-in-AI

De snelle vooruitgang op het gebied van generatieve AI heeft geleid tot opwinding over het creatieve potentieel van de technologie. Toch brengen deze krachtige modellen ook risico's met zich mee rond het reproduceren van auteursrechtelijk beschermde of geplagieerde inhoud zonder de juiste bronvermelding.

Hoe neurale netwerken trainingsgegevens absorberen

Moderne AI-systemen zoals GPT-3 worden getraind via een proces dat transfer learning wordt genoemd. Ze verwerken enorme datasets die afkomstig zijn uit openbare bronnen zoals websites, boeken, academische artikelen en meer. De trainingsgegevens van GPT-3 omvatten bijvoorbeeld 570 gigabyte aan tekst. Tijdens de training zoekt de AI naar patronen en statistische relaties in deze enorme hoeveelheid gegevens. Het leert de correlaties tussen woorden, zinnen, alinea's, taalstructuur en andere kenmerken.

Hierdoor kan de AI nieuwe samenhangende tekst of afbeeldingen genereren door reeksen te voorspellen die waarschijnlijk op een bepaalde invoer of prompt zullen volgen. Maar het betekent ook dat deze modellen inhoud absorberen zonder rekening te houden met auteursrechten, toeschrijving of plagiaatrisico's. Als gevolg hiervan kunnen generatieve AI's onbedoeld woordelijke passages reproduceren of auteursrechtelijk beschermde tekst uit hun trainingscorpora parafraseren.

Belangrijkste voorbeelden van AI-plagiaat

Bezorgdheid over AI-plagiaat kwam prominent naar voren sinds 2020 na de release van GPT.

Recent onderzoek heeft aangetoond dat grote taalmodellen (LLM's) zoals GPT-3 substantiële letterlijke passages uit hun trainingsgegevens kunnen reproduceren zonder bronvermelding (Nasr et al., 2023; Carlini et al., 2022). Uit een rechtszaak van The New York Times bleek bijvoorbeeld dat OpenAI-software bijna woordelijk artikelen uit de New York Times genereerde (De New York Times, 2023).

Deze bevindingen suggereren dat sommige generatieve AI-systemen ongevraagd plagiaat kunnen produceren, waardoor het risico op inbreuk op het auteursrecht bestaat. De prevalentie blijft echter onzeker vanwege het ‘black box’-karakter van LLM’s. De rechtszaak tegen de New York Times betoogt dat dergelijke resultaten inbreuk vormen, wat grote gevolgen zou kunnen hebben voor de ontwikkeling van generatieve AI. Over het geheel genomen blijkt uit bewijsmateriaal dat plagiaat een inherent probleem is in grote neurale netwerkmodellen en dat waakzaamheid en waarborgen vereist zijn.

Uit deze gevallen komen twee sleutelfactoren naar voren die van invloed zijn op het risico op AI-plagiaat:

  1. Model maat – Grotere modellen zoals GPT-3.5 zijn gevoeliger voor het opnieuw genereren van woordelijke tekstpassages in vergelijking met kleinere modellen. Hun grotere trainingsdatasets vergroten de blootstelling aan auteursrechtelijk beschermd bronmateriaal.
  2. Trainingsdata – Modellen die zijn getraind op basis van verzamelde internetgegevens of auteursrechtelijk beschermde werken (zelfs als er een licentie voor is verleend) hebben een grotere kans om plagiaat te plegen in vergelijking met modellen die zijn getraind op zorgvuldig samengestelde datasets.

Het rechtstreeks meten van de prevalentie van plagiaat is echter een uitdaging. Het ‘black box’-karakter van neurale netwerken maakt het moeilijk om dit verband tussen trainingsgegevens en modeloutputs volledig te traceren. De tarieven zijn waarschijnlijk sterk afhankelijk van de modelarchitectuur, de kwaliteit van de datasets en de snelle formulering. Maar deze gevallen bevestigen ondubbelzinnig dat dergelijk AI-plagiaat voorkomt, wat cruciale juridische en ethische implicaties heeft.

Opkomende plagiaatdetectiesystemen

Als reactie daarop zijn onderzoekers begonnen met het onderzoeken van AI-systemen om automatisch tekst en afbeeldingen te detecteren die door modellen zijn gegenereerd in plaats van door mensen gemaakt. Onderzoekers van Mila hebben bijvoorbeeld GenFace voorgesteld, dat taalkundige patronen analyseert die indicatief zijn voor door AI geschreven tekst. Startup Anthropic heeft ook interne plagiaatdetectiemogelijkheden ontwikkeld voor zijn conversatie-AI Claude.

Deze hulpmiddelen hebben echter beperkingen. De enorme trainingsgegevens van modellen als GPT-3 maken het opsporen van originele bronnen van geplagieerde tekst moeilijk, zo niet onmogelijk. Er zullen robuustere technieken nodig zijn omdat generatieve modellen zich snel blijven ontwikkelen. Tot die tijd blijft handmatige beoordeling essentieel om mogelijk geplagieerde of inbreukmakende AI-outputs te screenen vóór openbaar gebruik.

Best practices om generatief AI-plagiaat tegen te gaan

Hier volgen enkele best practices die zowel AI-ontwikkelaars als gebruikers kunnen toepassen om het risico op plagiaat te minimaliseren:

Voor AI-ontwikkelaars:

  • Onderzoek trainingsgegevensbronnen zorgvuldig om auteursrechtelijk beschermd of gelicentieerd materiaal zonder de juiste toestemming uit te sluiten.
  • Ontwikkel rigoureuze gegevensdocumentatie en procedures voor het volgen van de herkomst. Registreer metagegevens zoals licenties, tags, makers, enz.
  • Implementeer plagiaatdetectietools om inhoud met een hoog risico te markeren voordat deze wordt vrijgegeven.
  • Zorg voor transparantierapporten waarin de bronnen van trainingsgegevens, licenties en de oorsprong van AI-output worden beschreven wanneer er zich zorgen voordoen.
  • Geef makers van inhoud de mogelijkheid zich eenvoudig af te melden voor trainingsdatasets. Voldoe snel aan verwijderings- of uitsluitingsverzoeken.

Voor generatieve AI-gebruikers:

  • Screen de uitvoer grondig op mogelijk geplagieerde of niet-toegeschreven passages voordat u deze op grote schaal implementeert.
  • Vermijd het behandelen van AI als volledig autonome creatieve systemen. Laat menselijke reviewers de uiteindelijke inhoud onderzoeken.
  • Geef de voorkeur aan door AI ondersteunde menselijke creatie boven het helemaal opnieuw genereren van geheel nieuwe inhoud. Gebruik in plaats daarvan modellen voor parafrasering of ideevorming.
  • Raadpleeg vóór gebruik de servicevoorwaarden, het inhoudsbeleid en de plagiaatwaarborgen van de AI-provider. Vermijd ondoorzichtige modellen.
  • Vermeld bronnen duidelijk als er ondanks alle inspanningen auteursrechtelijk beschermd materiaal in het uiteindelijke resultaat verschijnt. Presenteer AI-werk niet als volledig origineel.
  • Beperk het delen van resultaten privé of vertrouwelijk totdat de risico's op plagiaat verder kunnen worden beoordeeld en aangepakt.

Strengere regels voor trainingsgegevens kunnen ook gerechtvaardigd zijn omdat generatieve modellen zich blijven verspreiden. Dit kan inhouden dat er toestemming van makers moet worden vereist voordat hun werk aan datasets wordt toegevoegd. De verantwoordelijkheid ligt echter bij zowel ontwikkelaars als gebruikers om ethische AI-praktijken toe te passen die de rechten van de makers van inhoud respecteren.

Plagiaat in de V6 Alpha van Midjourney

Na beperkte aandrang Het V6-model van Midjourney sommige onderzoekers waren in staat vrijwel identieke afbeeldingen te genereren als auteursrechtelijk beschermde films, tv-programma's en screenshots van videogames die waarschijnlijk in de trainingsgegevens waren opgenomen.

Afbeeldingen gemaakt door Midjourney die lijken op scènes uit beroemde films en videogames

Afbeeldingen gemaakt door Midjourney die lijken op scènes uit beroemde films en videogames

Deze experimenten bevestigen verder dat zelfs de modernste visuele AI-systemen onbewust beschermde inhoud kunnen plagiaat plegen als de bron van trainingsgegevens niet wordt gecontroleerd. Het onderstreept de noodzaak van waakzaamheid, waarborgen en menselijk toezicht bij het commercieel inzetten van generatieve modellen om inbreukrisico's te beperken.

AI-bedrijven Reactie op auteursrechtelijk beschermde inhoud

De grenzen tussen menselijke creativiteit en AI-creativiteit vervagen, waardoor complexe auteursrechtvragen ontstaan. Werken die menselijke en AI-input combineren, kunnen alleen auteursrechtelijk beschermd zijn als het gaat om aspecten die uitsluitend door de mens worden uitgevoerd.

Het Amerikaanse Copyright Office ontkende onlangs het auteursrecht op de meeste aspecten van een AI-menselijke graphic novel en achtte de AI-kunst niet-menselijk. Het heeft ook richtlijnen uitgegeven om AI-systemen uit te sluiten van ‘auteurschap’. Federale rechtbanken bevestigden dit standpunt in een zaak over het auteursrecht op AI-kunst.

Ondertussen beweren rechtszaken inbreuk op generatieve AI, zoals Getty v. Stability AI en artiesten v. halverwege de reis/Stabiliteit AI. Maar zonder AI-‘auteurs’ vragen sommigen zich af of er sprake is van inbreukclaims.

Als reactie daarop voerden grote AI-bedrijven als Meta, Google, Microsoft en Apple aan dat ze geen licenties nodig zouden hebben of royalty's zouden moeten betalen om AI-modellen te trainen op auteursrechtelijk beschermde gegevens.

Hier is een samenvatting van de belangrijkste argumenten van grote AI-bedrijven als reactie op mogelijke nieuwe Amerikaanse auteursrechtregels rond AI, met citaten:

meta stelt Het nu opleggen van licenties zou chaos veroorzaken en weinig voordeel opleveren voor de houders van auteursrechten.

Kopen Google Reviews vorderingen AI-training is analoog aan niet-inbreukmakende handelingen zoals het lezen van een boek (Google, 2022).

Microsoft waarschuwt Het veranderen van de auteursrechtwetgeving zou kleine AI-ontwikkelaars kunnen benadelen.

Apple wil copyright AI-gegenereerde code beheerd door menselijke ontwikkelaars.

Over het geheel genomen zijn de meeste bedrijven tegen nieuwe licentiemandaten en bagatelliseren ze de zorgen over AI-systemen die beschermde werken reproduceren zonder bronvermelding. Dit standpunt is echter controversieel gezien de recente rechtszaken en debatten over AI-auteursrecht.

Routes voor verantwoorde generatieve AI-innovatie

Naarmate deze krachtige generatieve modellen zich blijven ontwikkelen, is het indammen van plagiaatrisico's van cruciaal belang voor de reguliere acceptatie. Er is een meervoudige aanpak nodig:

  • Beleidshervormingen rond de transparantie van trainingsgegevens, licentieverlening en toestemming van de maker.
  • Sterkere plagiaatdetectietechnologieën en intern bestuur door ontwikkelaars.
  • Groter gebruikersbewustzijn van risico's en naleving van ethische AI-principes.
  • Duidelijke juridische precedenten en jurisprudentie rond kwesties op het gebied van AI-auteursrecht.

Met de juiste waarborgen kan AI-ondersteunde creatie ethisch floreren. Maar ongecontroleerde plagiaatrisico's kunnen het vertrouwen van het publiek aanzienlijk ondermijnen. Het direct aanpakken van dit probleem is van cruciaal belang voor het realiseren van het immense creatieve potentieel van generatieve AI, met inachtneming van de rechten van de maker. Om het juiste evenwicht te bereiken zal het nodig zijn actief de blinde vlek op het gebied van plagiaat aan te pakken die in de aard van neurale netwerken is ingebouwd. Maar als je dat wel doet, zorg je ervoor dat deze krachtige modellen de menselijke vindingrijkheid die ze willen vergroten niet ondermijnen.

De afgelopen vijf jaar heb ik me verdiept in de fascinerende wereld van Machine Learning en Deep Learning. Door mijn passie en expertise heb ik bijgedragen aan meer dan 50 verschillende software engineering projecten, met een bijzondere focus op AI/ML. Mijn voortdurende nieuwsgierigheid heeft me ook aangetrokken tot Natural Language Processing, een gebied dat ik graag verder wil verkennen.