Kunstig intelligens

AI-baserede generative skrive-modeller ‘kopierer og indsætter’ ofte kilde-data

Published November 19, 2021

Updated April 28, 2026

Martin Anderson

Den amerikanske dramatiker og iværksætter Wilson Mizner citeres ofte for at sige ‘Når du stjæler fra en forfatter, er det plagiarism; hvis du stjæler fra mange, er det research’.

Ligesom antagelsen omkring den nye generation af AI-baserede kreative skrive-systemer er, at de vældige mængder af data, der fødes til dem i træningsstadiet, har resulteret i en ægte abstraktion af højt niveau koncepter og ideer; at disse systemer har til rådighed den destillerede visdom af tusinder af bidragende forfattere, som AI kan formulere innovative og originale skrifter; og at dem, der bruger sådanne systemer, kan være sikre på, at de ikke ufrivilligt deltager i plagiarism-via-proxy.

Det er en antagelse, der udfordres af en ny artikel fra et forskningskonsortium (herunder Facebook og Microsofts AI-forskningsafdelinger), som har fundet, at maskinlæringsgenerative sprogmodeller som GPT-serien ‘occasionalt kopierer endda meget lange passager’ i deres angiveligt originale output, uden kildeangivelse.

I nogle tilfælde bemærker forfatterne, at GPT-2 vil duplikere over 1.000 ord fra træningsmængden i dens output.

Artiklen er titlen How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN, og er et samarbejde mellem Johns Hopkins University, Microsoft Research, New York University og Facebook AI Research.

RAVEN

Studiet bruger en ny tilgang kaldet RAVEN (RAtingVErbalNovelty), et akronym, der er underholdende torteret for at reflektere den fuglelige skurk i et klassisk digt:

‘Dette akronym henviser til “The Raven” af Edgar Allan Poe, hvor fortælleren møder en mystisk ravn, der gentager “Nevermore!” Fortælleren kan ikke sige, om ravnen blot gentager noget, den har hørt en menneske sige, eller om den konstruerer sine egne udsagn (måske ved at kombinere never og more)—den samme grundlæggende tvetydighed, som vores artikel behandler.’

Fundene fra den nye artikel kommer i sammenhæng med en stor vækst for AI-indholdsskrivningssystemer, der søger at erstatte ‘simple’ redigeringstasks, og endda til at skrive fuldlængde-indhold. Et sådant system modtog $21 millioner i serie A-finansiering tidligere på ugen.

Forskerne bemærker, at ‘GPT-2 af og til duplikerer træningspassager, der er over 1.000 ord lange.‘ (deres fremhævelse), og at generative sprogsystemer forplanter lingvistiske fejl i kilde-data.

Sprogmodellerne, der blev studeret under RAVEN, var GPT-serien af udgivelser op til GPT-2 (forfatterne havde ikke adgang til GPT-3 på det tidspunkt), en Transformer, Transformer-XL og en LSTM.

Nyhed

Artiklen bemærker, at GPT-2 mynter Bush 2-stil inflekterede former som ‘Swissified’, og afledninger som ‘IKEA-ness’, og skaber sådanne nye ord (de optræder ikke i GPT-2’s træningsdata) på lingvistiske principper, der er afledt fra højere dimensionale rum, der er etableret under træning.

Resultaterne viser også, at ‘74% af sætninger genereret af Transformer-XL har en syntaktisk struktur, som ingen træningssætning har’, hvilket, som forfatterne siger, ‘neurale sprogmodeller ikke blot husker; i stedet bruger de produktive processer, der tillader dem at kombinere velkendte dele på nye måder.’

Så teknisk set skal generalisering og abstraktion produces innovative og nye tekster.

Data-duplikation kan være problemet

Artiklen teoriserer, at lange og ordret citeringer, der produceres af Natural Language Generation (NLG)-systemer, kunne blive ‘bagt’ hele ind i AI-modellen, fordi den oprindelige kilde-tekst gentages multiple gange i datasæt, der ikke er blevet tilstrækkeligt de-duplikeret.

Selv om et andet forskningsprojekt har fundet, at komplet duplikation af tekst kan optræde, selv hvis kilde-teksten kun optræder én gang i datasættet, bemærker forfatterne, at projektet har forskellige konceptuelle arkitekturer fra den almindelige række af indholdsgenererende AI-systemer.

Forfatterne bemærker også, at ændring af dekodningskomponenten i sproggenererings-systemer kunne øge nytænkning, men fandt i tests, at dette sker på bekostning af outputkvaliteten.

Yderligere problemer opstår, da datasættene, der driver indholdsgenereringsalgoritmer, bliver større og større. Foruden at forværre problemerne omkring datapræprocessingens omkostning og gennemførlighed, samt kvalitetssikring og de-duplikation af data, forbliver mange grundlæggende fejl i kilde-data, som derefter bliver forplantet i indholdet, der produceres af AI.

Forfatterne bemærker*:

‘Seneste øgninger i træningsmængder gør det særligt kritisk at kontrollere for nytænkning, fordi størrelsen af disse træningsmængder kan bryde vores intuitioner om, hvad der kan forventes at optræde naturligt. For eksempel afhænger nogle bemærkelsesværdige arbejder i sprog tilegnelse af antagelsen, at regelmæssige fortidige former af uregelmæssige verber (f.eks. becomed, teached) ikke optræder i en lærers oplevelse, så hvis en lærer producerer sådanne ord, må de være nye for læreren.

‘Men det viser sig, at for alle 92 grundlæggende uregelmæssige verber på engelsk, optræder den forkerte regelmæssige form i GPT-2’s træningsmængde.’

Flere datakurater behøves

Artiklen påstår, at mere opmærksomhed skal være rettet mod nytænkning i formuleringen af generative sprogmodeller, med en særlig vægt på at sikre, at den ’tilbageholdte’ testdel af data (den del af kilde-data, der er sat til side for at teste, hvor godt den endelige algoritme har vurderet den primære træningsdata) er egnet til opgaven.

‘I maskinlæring er det kritisk at evaluere modeller på en tilbageholdt testmængde. På grund af den åbne natur af tekstgenerering kan en models genererede tekst være kopieret fra træningsmængden, i hvilket tilfælde det ikke er tilbageholdt—så brug af den data til at evaluere modellen (f.eks. for kohærens eller grammaticalitet) er ikke gyldig.’

Forfatterne påstår også, at mere omhu er nødvendig i produktionen af sprogmodeller på grund af Eliza-effekten, et syndrom, der blev identificeret i 1966, som identificerede “menneskers tilbøjelighed til at læse langt mere forståelse end berettiget ind i streng af symboler—specielt ord—sammenkædet af computere”.

* Min konvertering af inline-citationer til hyperlinks

Martin Anderson

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.

Unite.AI

AI-baserede generative skrive-modeller ‘kopierer og indsætter’ ofte kilde-data

RAVEN

Nyhed

Data-duplikation kan være problemet

Flere datakurater behøves

You may like