Kunstig intelligens

AI-baserte generative skrive-modeller ‘kopierer og limter’ ofte kilde-data

Published November 19, 2021

Updated April 28, 2026

Martin Anderson

Den amerikanske dramatikeren og entreprenøren Wilson Mizner blir ofte sitert som å si ‘Når du stjeler fra en forfatter, er det plagiat; hvis du stjeler fra mange, er det forskning’.

Liksom antakelsen rundt den nye generasjonen av AI-baserte kreative skrivingssystemer er at de veldige mengdene data som mates til dem under treningsstadiet har resultert i en genuin abstraksjon av høynivå-konsepter og ideer; at disse systemene har tilgang til den destillerte visdommen fra tusenvis av bidragende forfattere, som AI-en kan formulere innovative og originale skriving; og at de som bruker slike systemer kan være sikre på at de ikke uforvarende deltar i plagiat-via-proksi.

Dette er en antakelse som utfordres av en ny rapport fra et forskningskonsortium (inkludert Facebook og Microsofts AI-forskningsavdelinger), som har funnet at maskinlærings-generative språkmodeller som GPT-serien ‘av og til kopierer selv lange passasjer’ inn i deres angivelig originale utgang, uten kildeangivelse.

I noen tilfeller merker forfatterne at GPT-2 vil duplisere over 1 000 ord fra treningssettet i sin utgang.

Rapporten hefter tittelen Hvor mye kopierer språkmodeller fra deres treningsdata? Evaluering av lingvistisk nyskaping i tekstgenerering ved hjelp av RAVEN, og er et samarbeid mellom Johns Hopkins University, Microsoft Research, New York University og Facebook AI Research.

RAVEN

Studien bruker en ny tilnærming kalt RAVEN (RAtingVErbalNovelty), et akronym som har blitt underholdende torturert for å reflektere den avianske skurken i et klassisk dikt:

‘Dette akronymet refererer til “The Raven” av Edgar Allan Poe, hvor fortelleren møter en mystisk ravn som gjentakende roper ut, “Nevermore!” Fortelleren kan ikke si om ravnen bare gjentar noe det har hørt en menneske si, eller om det konstruerer sine egne uttalelser (kanskje ved å kombinere never og more)—den samme grunnleggende tvetydigheten som vår rapport adresse.’

Funndene fra den nye rapporten kommer i sammenheng med stor vekst for AI-innholdsskrivingssystemer som søker å erstatte ‘enkle’ redigeringsoppgaver, og sogar å skrive fullstendige innhold. Et slikt system mottok $21 millioner i serie A-finansiering tidligere denne uken.

Forskerne merker at ‘GPT-2 noen ganger dupliserer treningspassasjer som er over 1 000 ord lange.‘ (deres betoning), og at generative språkmodeller forplanter lingvistiske feil i kilde-dataene.

Språkmodellene som ble studert under RAVEN var GPT-seriens utgaver opp til GPT-2 (forfatterne hadde ikke tilgang til GPT-3 på det tidspunktet), en Transformer, Transformer-XL og en LSTM.

Nyskaping

Rapporten merker at GPT-2 mynter Bush 2-stil infleksjoner som ‘Swissified’, og avledninger som ‘IKEA-ness’, og skaper slike nye ord (de dukker ikke opp i GPT-2s treningsdata) på lingvistiske prinsipper avledet fra høydimensjonale rom etablert under treningsstadiet.

Resultatene viser også at ‘74% av setningene generert av Transformer-XL har en syntaktisk struktur som ingen treningssetning har’, noe som indikerer, som forfatterne sier, ‘neurale språkmodeller ikke bare husker; i stedet bruker de produktive prosesser som tillater dem å kombinere kjente deler på nye måter.’

Så teknisk sett burde generalisering og abstraksjon produsere innovative og nye tekst.

Data-duplikasjon kan være problemet

Rapporten teoriserer at lange og ordrette sitater produsert av Natural Language Generation (NLG)-systemer kunne bli ‘baket’ inn i AI-modellen fordi den opprinnelige kilde-teksten er gjentatt flere ganger i datasett som ikke er blitt adekvat de-duplisert.

Selv om et annet forskningsprosjekt har funnet at fullstendig duplikasjon av tekst kan skje selv om kilde-teksten bare dukker opp én gang i datasett, merker forfatterne at prosjektet har forskjellige konseptuelle arkitekturer enn den vanlige rekken av innholdsgenererende AI-systemer.

Forfatterne observerer også at å endre dekoding-komponenten i språk-genereringssystemer kunne øke nyskaping, men fant i tester at dette skjer på bekostning av kvaliteten på utgangen.

Flere problemer oppstår når datasettene som driver innholdsgenererende algoritmer blir stadig større. Foruten å forverre problemer rundt kostnadene og gjennomførbarheten av data-forbehandling, samt kvalitetssikring og de-duplisering av data, mange grunnleggende feil forbli i kilde-dataene, som deretter blir forplantet i innholdet produsert av AI-en.

Forfatterne merker*:

‘Nylige økninger i treningssett-størrelser gjør det spesielt kritisk å sjekke for nyskaping fordi størrelsen på disse treningssettene kan bryte våre forestillinger om hva som kan forventes å skje naturlig. For eksempel er noen bemerkelsesverdig arbeid i språk tilegnelse avhengig av antakelsen at regelmessige fortidige former av uregelrette verb (f.eks. becomed, teached) ikke dukker opp i en lærers erfaring, så hvis en lærer produserer slike ord, må de være nye for læreren.

‘Men det viser seg at, for alle 92 grunnleggende uregelrette verb i engelsk, dukker den feilaktige regelmessige formen opp i GPT-2s treningssett.’

Mer data-kurering trengs

Rapporten hevder at mer oppmerksomhet må bli gitt til nyskaping i formuleringen av generative språkmodeller, med en særlig vekt på å sikre at den ’tilbakeholdte’ test-delen av data (den delen av kilde-dataene som settes til side for å teste hvor godt den endelige algoritmen har vurdert hoveddelen av treningsdata) er egnet for oppgaven.

‘I maskinlæring er det kritisk å evaluere modeller på en tilbakeholdt testsett. På grunn av den åpne naturen til tekstgenerering, kan en modells genererte tekst være kopiert fra treningssettet, i hvilket tilfelle det ikke er tilbakeholdt—så å bruke denne data til å evaluere modellen (f.eks. for kohesjon eller grammatikallitet) er ikke gyldig.’

Forfatterne hevder også at mer omsorg må tas i produksjonen av språkmodeller på grunn av Eliza-effekten, et syndrom identifisert i 1966 som identifiserte “menneskers tilbøyelighet til å lese mye mer forståelse enn det er berettiget i strenger av symboler—spesielt ord—sammenføyet av datamaskiner”.

* Min konvertering av inline-citater til hyperlenker

Martin Anderson

Forfatter på maskinlæring, domeneekspert på menneskesynthese. Tidligere leder for forskningsinnhold på Metaphysic.ai.

Unite.AI

AI-baserte generative skrive-modeller ‘kopierer og limter’ ofte kilde-data

RAVEN

Nyskaping

Data-duplikasjon kan være problemet

Mer data-kurering trengs

You may like