Kunstig intelligens

Plagiarismproblemet: Hvordan generative AI-modeller reproducerer ophavsretligt indhold

Udgivet den 9. januar 2024

Opdateret den 22. maj 2026

Aayush Mittal Mittal

De hurtige fremskridt i generativ AI har været med til at skabe begejstring omkring teknologiens kreative potentiale. Men disse kraftfulde modeller udgør også bekymrende risici i forhold til reproduktion af ophavsretligt eller plagieret indhold uden korrekt tilskrivning.

Hvordan neurale netværk absorberer træningsdata

Moderne AI-systemer som GPT-3 trænes gennem en proces kaldet transfer learning. De indtager massive datasæt skrabet fra offentlige kilder som websteder, bøger, akademiske artikler og mere. For eksempel omfattede GPT-3’s træningsdata 570 gigabyte tekst. Under træning søger AI’en efter mønstre og statistiske relationer i denne enorme mængde data. Den lærer korrelationerne mellem ord, sætninger, afsnit, sprogstruktur og andre funktioner.

Dette giver AI’en mulighed for at generere nyt sammenhængende tekst eller billeder ved at forudsige sekvenser, der sandsynligvis følger en given input eller prompt. Men det betyder også, at disse modeller absorberer indhold uden hensyn til ophavsret, tilskrivning eller plagieringsrisici. Som resultat kan generative AI’er utilsigtet reproducere ordret passager eller omskrive ophavsretligt tekst fra deres træningskorpus.

Nøgleeksempler på AI-plagiat

Bekymringer omkring AI-plagiat opstod prominent i 2020 efter GPT’s udgivelse.

Seneste forskning har vist, at store sprogmodeller (LLM’er) som GPT-3 kan reproducere betydelige ordret passager fra deres træningsdata uden citation (Nasr et al., 2023; Carlini et al., 2022). For eksempel afslørede en sag ved The New York Times, at OpenAI-software genererede New York Times-artikler næsten ordret (The New York Times, 2023).

Disse fund viser, at nogle generative AI-systemer kan producere uønskede plagierende outputs, hvilket risikerer at krænke ophavsret. Men forekomsten er usikker på grund af de “sorte kasser”-naturen af LLM’er. The New York Times-sagen argumenterer for, at sådanne outputs udgør krænkelse, hvilket kunne have store implikationer for udviklingen af generativ AI. Samlet set viser beviserne, at plagiat er en indbygget problem i store neurale netværksmodeller, der kræver vagtsomhed og sikkerhedsforanstaltninger.

Disse tilfælde afslører to nøglefaktorer, der påvirker AI-plagiatrisici:

Modelstørrelse – Større modeller som GPT-3.5 er mere tilbøjelige til at regenerere ordret tekstpassager i forhold til mindre modeller. Deres større træningsdatasæt øger eksponeringen for ophavsretligt kildemateriale.
Træningsdata – Modeller, der er trænet på skrabet internetdata eller ophavsretligt materiale (selv hvis det er licenseret), er mere tilbøjelige til at plagiere i forhold til modeller, der er trænet på omhyggeligt kuraterede datasæt.

Men direkte måling af forekomsten af plagierende outputs er vanskeligt. Den “sorte kasse”-naturen af neurale netværk gør det svært at fuldstændigt spore denne sammenhæng mellem træningsdata og modeloutputs. Rater afhænger sandsynligvis stærkt af modelarkitektur, datasætkvalitet og promptformulering. Men disse tilfælde bekræfter, at sådant AI-plagiat ubestridt forekommer, hvilket har kritiske juridiske og etiske implikationer.

Fremvoksende plagiatdetektionssystemer

Som svar har forskere begyndt at udforske AI-systemer til automatisk at detektere tekst og billeder genereret af modeller versus skabt af mennesker. For eksempel foreslog forskere ved Mila GenFace, der analyserer sproglige mønstre, der er karakteristiske for AI-skrevet tekst. Startup-virksomheden Anthropic har også udviklet interne plagiatdetektionskapaciteter til sin konversations-AI Claude.

Men disse værktøjer har begrænsninger. De massive træningsdatasæt for modeller som GPT-3 gør det vanskeligt at pege på de oprindelige kilder for plagieret tekst, hvis det overhovedet er muligt. Stærkere teknikker vil være nødvendige, da generative modeller fortsætter med at udvikle sig hurtigt. Indtil da forbliver manuel gennemgang essentiel for at screene potentielt plagieret eller krænkende AI-outputs, før de offentliggøres.

Bedste praksis for at mindske generativ AI-plagiat

Her er nogle bedste praksis, som både AI-udviklere og brugere kan følge for at minimere plagiatrisici:

For AI-udviklere:

Gennemgå omhyggeligt træningsdatasætskilder for at udelukke ophavsretligt eller licenseret materiale uden korrekt tilladelse.
Udvikl strenge datadokumentations- og provenienssporingsprocedurer. Optegn metadata som licenser, mærker, skabere osv.
Implementer plagiatdetektionsværktøjer for at markere højrisikoindhold, før det offentliggøres.
Lever transparency-rapporter, der detaljer træningsdatasætskilder, licenser og oprindelse af AI-outputs, når bekymringer opstår.
Giv indholdsskabere mulighed for at fravælge træningsdatasæt let. Overhold hurtigt fjernelse- eller udelukkelsesanmodninger.

For generativ AI-brugere:

Gennemgå omhyggeligt outputs for eventuelt plagieret eller utilgiveligt indhold, før det anvendes i stor målestok.
Undgå at behandle AI som fuldstændigt autonome kreative systemer. Lad menneskelige anmeldere gennemse det endelige indhold.
Foretræk AI-assisteret menneskeskabt indhold frem for at generere helt nyt indhold fra scratch. Brug modeller til omskrivning eller idegenerering i stedet.
Konsulter AI-leverandørens servicevilkår, indholdspolitik og plagiatbeskyttelse, før brug. Undgå uigennemsigtige modeller.
Citer kilder tydeligt, hvis ophavsretligt materiale optræder i det endelige output, på trods af bedste bestræbelser. Præsenter ikke AI-arbejde som fuldstændigt originalt.
Begræns deling af outputs privat eller fortroligt, indtil plagiatrisici kan vurderes og håndteres yderligere.

Strengere træningsdatareguleringer kan også være berettiget, da generative modeller fortsætter med at sprede sig. Dette kunne indebære at kræve samtykke fra skabere, før deres arbejde tilføjes til datasæt. Men ansvaret ligger på både udviklere og brugere at anvende etiske AI-praksis, der respekterer indholdsskabernes rettigheder.

Plagiat i Midjourneys V6 Alpha

Efter begrænset promptning Midjourneys V6-model kunne nogle forskere generere næsten identiske billeder til ophavsretligt film, tv-serier og videospilsskærmbilleder, der sandsynligvis var inkluderet i dens træningsdata.

Billeder skabt af Midjourney, der ligner scener fra berømte film og videospil

Disse eksperimenter bekræfter yderligere, at selv state-of-the-art visuelle AI-systemer kan utilsigtet plagiere beskyttet indhold, hvis kilden til træningsdata forbliver ukontrolleret. Det understreger behovet for vagtsomhed, sikkerhedsforanstaltninger og menneskelig oversigt, når generative modeller kommercielt anvendes for at begrænse krænkelsesrisici.

AI-virksomheders respons på ophavsretligt indhold

Grænserne mellem menneskelig og AI-kreativitet bliver mere og mere uklare, hvilket skaber komplekse ophavsrets-spørgsmål. Værker, der kombinerer menneskelig og AI-input, kan kun være ophavsretligt beskyttede i aspekter, der udføres udelukkende af mennesket.

Det amerikanske ophavsrets kontor har nyligt afvist ophavsret til de fleste aspekter af en AI-menneske grafisk roman, idet det betegner AI-kunst som ikke-menneskelig. Det har også udstedt retningslinjer, der udelukker AI-systemer fra “forfatterskab”. Føderale domstole har bekræftet denne holdning i en AI-kunst ophavsretssag.

Imens anlægger sager påstande om, at generativ AI krænker ophavsret, som f.eks. Getty v. Stability AI og kunstnere v. Midjourney/Stability AI. Men uden AI-“forfattere” spørges det, om krænkelseskrav er anvendelige.

I respons har store AI-virksomheder som Meta, Google, Microsoft og Apple argumenteret for, at de ikke skal have licenser eller betale royalties for at træne AI-modeller på ophavsretligt data.

Her er en sammenfatning af de nøgleargumenter fra store AI-virksomheder i respons til potentielle nye amerikanske ophavsretsregler omkring AI, med citationer:

Meta argumenterer for, at indførelse af licenser nu ville føre til kaos og give lille fordel til ophavsretshavere.

Google påstår, at AI-træning er analogt med ikke-krænkende handlinger som at læse en bog (Google, 2022).

Microsoft advarer om, at ændring af ophavsretsloven kunne udsætte små AI-udviklere i en ulempe.

Apple ønsker at ophavsretlige AI-genereret kode kontrolleret af menneskelige udviklere.

Samlet set modsætter de fleste virksomheder nye licenskrav og nedtoner bekymringer om, at AI-systemer reproducerer beskyttet værk uden tilskrivning. Men denne holdning er omstridt, given de seneste AI-ophavsretssager og debatter.

Veje til ansvarlig generativ AI-innovation

Da disse kraftfulde generative modeller fortsætter med at udvikle sig, er det kritisk at lukke plagiatrisici. En flerfoldig tilgang er nødvendig:

Politikreformer omkring træningsdata-transparens, licenser og skaberkonsent.
Stærkere plagiatdetektionsteknologier og interne styre fra udviklerne.
Større brugerbevidsthed om risici og overholdelse af etiske AI-principper.
Klare juridiske præcedenser og sagdomme omkring AI-ophavsretsproblemer.

Med de rette sikkerhedsforanstaltninger kan AI-assisteret skabelse florere på en etisk måde. Men ubevidst plagiat kan undergrave offentligt tillid betydeligt. At løse dette problem direkte er nøgle til at realisere generativ AI’s enorme kreative potentiale, samtidig med at skabernes rettigheder respekteres. At opnå den rette balance kræver aktivt at konfrontere plagiat-blindspot, der er indbygget i neurale netværks natur. Men det vil sikre, at disse kraftfulde modeller ikke undergraver den menneskelige ingeniøritet, de søger at udvikle.

Aayush Mittal, Mittal

Jeg har brugt de sidste fem år på at dykke ned i den fascinerende verden af Machine Learning og Deep Learning. Min passion og ekspertise har ført mig til at bidrage til over 50 forskellige software-ingeniørprojekter, med en særlig fokus på AI/ML. Min fortsatte nysgerrighed har også ført mig mod Natural Language Processing, et felt jeg er ivrig efter at udforske yderligere.