Artificiell intelligens

AI-baserade generativa skrivmodeller “kopierar och klistrar” ofta källdata

Published November 19, 2021

Updated April 28, 2026

Martin Anderson

Den amerikanska dramatikern och entreprenören Wilson Mizner citeras ofta som att ha sagt “När du stjäl från en författare, är det plagiat; om du stjäl från många, är det forskning”.

På liknande sätt är antagandet kring den nya generationen av AI-baserade kreativa skrivsystem att de våldsamma mängderna data som matas in i dem under utbildningsstadiet har resulterat i en äkta abstraktion av högnivåkoncept och idéer; att dessa system har till sitt förfogande den destillerade visdomen från tusentals bidragande författare, från vilka AI kan formulera innovativa och ursprungliga texter; och att de som använder sådana system kan vara säkra på att de inte oavsiktligt ägnar sig åt plagiat-genom-ombud.

Det är ett antagande som utmanas av en ny rapport från ett forskningskonsortium (inklusive Facebook och Microsofts AI-forskningsavdelningar), som har funnit att maskinlärningsgenerativa språkmodeller som GPT-serien “ibland kopierar till och med mycket långa passager” i sin påstått ursprungliga utdata, utan attributering.

I vissa fall noterar författarna att GPT-2 kommer att duplicera över 1 000 ord från utbildningsuppsättningen i sin utdata.

Rapporten heter How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN och är ett samarbete mellan Johns Hopkins University, Microsoft Research, New York University och Facebook AI Research.

RAVEN

Studien använder en ny metod som kallas RAVEN (RAtingVErbalNovelty), ett akronym som har torterats på ett underhållande sätt för att återspegla den avianska skurken i en klassisk dikt:

‘Detta akronym hänvisar till “The Raven” av Edgar Allan Poe, där berättaren möter en mystisk kråka som upprepar “Aldrig mer!” Berättaren kan inte avgöra om kråkan bara upprepar något som den har hört en människa säga, eller om den konstruerar sina egna uttalanden ( kanske genom att kombinera aldrig och mer) – samma grundläggande tvetydighet som vår rapport behandlar.’

Resultaten från den nya rapporten kommer i sammanhanget med en stor tillväxt för AI-innehållsskrivningssystem som syftar till att ersätta “enkla” redigeringsuppgifter och till och med skriva fullständiga innehåll. Ett sådant system fick 21 miljoner dollar i serie A-finansiering tidigare i veckan.

Forskarna noterar att ‘GPT-2 ibland duplicerar utbildningspassager som är över 1 000 ord långa.‘ (deras betoning), och att generativa språksystem sprider lingvistiska fel i källdata.

De språkmodeller som studerades under RAVEN var GPT-serien av utgåvor upp till GPT-2 (författarna hade inte tillgång till GPT-3 vid den tidpunkten), en Transformer, Transformer-XL och en LSTM.

Nyhet

Rapporten noterar att GPT-2 myntar Bush 2-stil inflektioner som ‘schweizifierad’ och derivat som ‘IKEA-ness’, skapar sådana nya ord (de förekommer inte i GPT-2:s utbildningsdata) på lingvistiska principer som härrör från högre dimensionsutrymmen etablerade under utbildning.

Resultaten visar också att ‘74% av meningar som genereras av Transformer-XL har en syntaktisk struktur som ingen utbildningsmening har’, vilket, enligt författarna, ‘neurona språkmodeller inte enbart memoriserar; istället använder de produktiva processer som tillåter dem att kombinera bekanta delar på nya sätt.’

Så tekniskt sett bör generaliseringen och abstraktionen producing innovativa och nya texter.

Datakopiering kan vara problemet

Rapporten teoretiserar att långa och ordagrant citerade producerade av Natural Language Generation (NLG)-system kan bli “inbakade” i AI-modellen eftersom den ursprungliga källtexten upprepas flera gånger i dataset som inte har deduplicerats tillräckligt.

Även om ett annat forskningsprojekt har funnit att fullständig duplicering av text kan förekomma även om källtexten endast förekommer en gång i dataset, noterar författarna att projektet har olika konceptuella arkitekturer jämfört med den vanliga typen av innehållsgenererande AI-system.

Författarna observerar också att ändring av avkodningskomponenten i språkgenereringssystem kan öka nyheten, men fann i tester att detta sker på bekostnad av utdatans kvalitet.

Ytterligare problem uppstår när dataset som bränsle för innehållsgenererande algoritmer blir allt större. Förutom att förvärra problem kring datormässighet och livskraft för dataförbehandling, samt kvalitetssäkring och deduplicering av data, återstår många grundläggande fel i källdata, som sedan sprids i innehållet som produceras av AI.

Författarna noterar*:

‘De senaste ökningarna av utbildningsuppsättningsstorlekar gör det särskilt viktigt att kontrollera nyhet eftersom storleken på dessa utbildningsuppsättningar kan bryta våra intuitioner om vad som kan förväntas förekomma naturligt. Till exempel bygger viss anmärkningsvärd arbete i språk inlärning på antagandet att regelbundna förflutna tidsformer av oregelbundna verb (t.ex. blev, lärde) inte förekommer i en lärares erfarenhet, så om en lärd producerar sådana ord, måste de vara nya för lärd.

‘Men det visar sig att, för alla 92 grundläggande oregelbundna verb i engelska, den felaktiga regelbundna formen förekommer i GPT-2:s utbildningsuppsättning.’

Mer datakurering behövs

Rapporten hävdar att mer uppmärksamhet behöver ägnas åt nyhet i formuleringen av generativa språksystem, med särskild tonvikt på att säkerställa att den “återhållna” testdelen av data (den del av källdata som sätts åt sidan för att testa hur väl den slutliga algoritmen har bedömt den huvudsakliga utbildningsdatan) är lämplig för uppgiften.

‘Inom maskinlärning är det avgörande att utvärdera modeller på en återhållen testuppsättning. På grund av den öppna naturen hos textgenerering kan en models genererade text vara kopierad från utbildningsuppsättningen, i vilket fall den inte är återhållen – så att använda den datan för att utvärdera modellen (t.ex. för sammanhang eller grammatiskhet) är inte giltig.’

Författarna hävdar också att mer omsorg behövs i produktionen av språkmodeller på grund av Eliza-effekten, ett syndrom som identifierades 1966 som identifierade “människors benägenhet att läsa mer förståelse än som är berättigat i strängar av symboler – särskilt ord – som är sammansatta av datorer”.

* Min omvandling av inline-citationer till hyperlänkar

Martin Anderson

Författare på maskinlärande, domänspecialist inom mänsklig bildsyntes. Före detta chef för forskningsinnehåll på Metaphysic.ai.

Unite.AI

AI-baserade generativa skrivmodeller “kopierar och klistrar” ofta källdata

RAVEN

Nyhet

Datakopiering kan vara problemet

Mer datakurering behövs

You may like