Kunstmatige intelligentie
AI-gebaseerde generatieve schrijfmodellen ‘kopiëren en plakken’ vaak brondata

De Amerikaanse toneelschrijver en ondernemer Wilson Mizner wordt vaak beroemd geciteerd als hij zegt: ‘Als je van één auteur steelt, is het plagiaat; als je van veel auteurs steelt, is het onderzoek’.
Soortgelijk is de veronderstelling rond de nieuwe generatie van AI-gebaseerde creatieve schrijfsystemen dat de grote hoeveelheden data die aan hen worden gevoerd tijdens de trainingsfase, hebben geresulteerd in een echte abstractie van hoogwaardige concepten en ideeën; dat deze systemen de geëxtraheerde wijsheid van duizenden bijdragende auteurs tot hun beschikking hebben, waaruit de AI innovatieve en originele teksten kan formuleren; en dat degene die dergelijke systemen gebruiken, er zeker van kunnen zijn dat ze niet onbewust plagiaat plegen via een tussenpersoon.
Het is een veronderstelling die wordt uitgedaagd door een nieuw onderzoeksrapport van een onderzoeksconsortium (waaronder de AI-onderzoeksafdelingen van Facebook en Microsoft), dat heeft ontdekt dat machine learning generatieve taalmodellen zoals de GPT-serie ‘soms zelfs lange passages kopiëren’ in hun vermeend originele output, zonder bronvermelding.
In sommige gevallen noteert de auteur dat GPT-2 meer dan 1.000 woorden uit de trainingsset in zijn output dupliceert.
Het rapport heeft als titel Hoeveel kopiëren taalmodellen uit hun trainingsdata? Evaluatie van linguïstische noviteit in tekstgeneratie met RAVEN en is een samenwerking tussen de Johns Hopkins University, Microsoft Research, New York University en Facebook AI Research.
RAVEN
De studie gebruikt een nieuwe aanpak genaamd RAVEN (RAtingVErbalNovelty), een acroniem dat vermakelijk is getortureerd om de vogelvijand van een klassiek gedicht te reflecteren:
‘Deze afkorting verwijst naar “The Raven” van Edgar Allan Poe, waarin de verteller een mysterieuze raaf ontmoet die herhaaldelijk roept: “Nooit meer!” De verteller kan niet zeggen of de raaf iets herhaalt dat hij van een mens heeft gehoord, of dat hij zijn eigen uitspraken construeert (misschien door te combineren nooit en meer)—dezelfde basisambiguïteit die ons papier adresseert.’
De bevindingen uit het nieuwe rapport komen in de context van een grote groei voor AI-tekstschrijfsystemen die ‘eenvoudige’ bewerkingsTaken proberen te vervangen, en zelfs om volledige inhoud te schrijven. Een dergelijk systeem ontving $21 miljoen in serie A-financiering eerder deze week.
De onderzoekers noteert dat ‘GPT-2 soms trainingspassages dupliceert die langer zijn dan 1.000 woorden.‘ (hun nadruk), en dat generatieve taalsystemen linguïstische fouten in de brondata propageren.
De taalmodellen die onder RAVEN zijn bestudeerd, waren de GPT-serie van releases tot GPT-2 (de auteurs hadden op dat moment geen toegang tot GPT-3), een Transformer, Transformer-XL en een LSTM.
Noviteit
Het rapport noteert dat GPT-2 Bush 2-stijl inflecties zoals ‘Swissified’ en afleidingen zoals ‘IKEA-ness’ creëert, en dergelijke nieuwe woorden (die niet in GPT-2’s trainingsdata voorkomen) op linguïstische principes die zijn afgeleid van hogere dimensionale ruimtes die tijdens de training zijn ingesteld.
De resultaten laten ook zien dat ‘74% van de door Transformer-XL gegenereerde zinnen een syntactische structuur hebben die geen enkele trainingszinnen heeft’, wat, zoals de auteurs stellen, ‘neurale taalmodellen niet simpelweg memoriseren; in plaats daarvan gebruiken ze productieve processen die hen in staat stellen om vertrouwde delen op nieuwe manieren te combineren.’
Dus technisch gezien zouden de generalisatie en abstractie innovatieve en originele tekst moeten produceren.
Gegevensduplicatie kan het probleem zijn
Het rapport veronderstelt dat lange en letterlijke citaten die door Natural Language Generation (NLG)-systemen worden gegenereerd, ‘ingebakken’ kunnen worden in het AI-model omdat de oorspronkelijke bronTekst meerdere keren in datasets voorkomt die niet adequaat zijn gedupliceerd.
Hoewel een ander onderzoeksproject heeft ontdekt dat complete duplicatie van tekst kan optreden, zelfs als de bronTekst slechts één keer in de dataset voorkomt, noteert de auteur dat het project een andere conceptuele architectuur heeft dan de gebruikelijke generatieve AI-systemen.
De auteurs noteert ook dat het wijzigen van de decoderingscomponent in taalgeneratiesystemen de noviteit kan verhogen, maar vond in tests dat dit gebeurt ten koste van de kwaliteit van de output.
Verdere problemen doen zich voor als de datasets die content-genererende algoritmen voeden, steeds groter worden. Buiten de problemen rond de betaalbaarheid en levensvatbaarheid van datapreprocessing, evenals kwaliteitsborging en duplicatie van de data, veel basisfouten blijven in de brondata, die dan worden doorgegeven in de door de AI gegenereerde inhoud.
De auteurs noteert*:
‘Recente toename in de grootte van de trainingssets maakt het bijzonder kritisch om de noviteit te controleren, omdat de omvang van deze trainingssets onze intuïtie over wat natuurlijk kan gebeuren, kan doorbreken. Bijvoorbeeld, sommig opvallend werk in taal verwerving is afhankelijk van de veronderstelling dat regelmatige verleden tijdsvormen van onregelmatige werkwoorden (bijv. becomed, teached) niet in de ervaring van een leerling voorkomen, dus als een leerling dergelijke woorden produceert, moeten ze nieuw zijn voor de leerling.
‘Echter, het blijkt dat, voor alle 92 basis onregelmatige werkwoorden in het Engels, de onjuiste regelmatige vorm in GPT-2’s trainingsset voorkomt.’
Meer gegevenscuratie nodig
Het rapport stelt dat meer aandacht moet worden besteed aan noviteit bij de formulering van generatieve taalsystemen, met name bij het waarborgen dat het ‘teruggehouden’ testgedeelte van de data (het deel van de brondata dat is gereserveerd voor het testen van hoe goed het eindige algoritme de hoofdtrainingsdata heeft beoordeeld) geschikt is voor de taak.
‘In machine learning is het kritisch om modellen te evalueren op een teruggehouden testset. Vanwege de open-eindige aard van tekstgeneratie, kan de gegenereerde tekst van een model worden gekopieerd uit de trainingsset, in welk geval deze niet is teruggehouden—dus het gebruik van die data om het model te evalueren (bijv. voor coherentie of grammaticaliteit) is niet geldig.’
De auteurs stellen ook dat meer zorg nodig is bij de productie van taalmodellen vanwege de Eliza-effect, een syndroom dat in 1966 werd geïdentificeerd en “de vatbaarheid van mensen om meer begrip te lezen dan gerechtvaardigd is in strings van symbolen—vooral woorden—samengesteld door computers”.
* Mijn conversie van inline citaten naar hyperlinks












