Connect with us

Grote Taalmodellen Onthouden de Datasets die Bedoeld zijn om hen te Testen

Andersons hoek

Grote Taalmodellen Onthouden de Datasets die Bedoeld zijn om hen te Testen

mm
'Robot cheating in an exam' - ChatGPT-4o and Adobe Firefly

Als je afhankelijk bent van AI om aan te bevelen wat je moet kijken, lezen of kopen, geeft nieuw onderzoek aan dat sommige systemen deze resultaten mogelijk baseren op geheugen in plaats van vaardigheid: in plaats van te leren om nuttige suggesties te doen, onthouden de modellen vaak items uit de datasets die worden gebruikt om hen te evalueren, wat leidt tot overschatte prestaties en aanbevelingen die mogelijk verouderd zijn of slecht aansluiten bij de gebruiker.

 

In machine learning, wordt een test-split gebruikt om te zien of een getraind model heeft geleerd om problemen op te lossen die vergelijkbaar zijn, maar niet identiek aan het materiaal waarop het is getraind.

Dus als een nieuwe AI ‘hondenras-herkennings’ model wordt getraind op een dataset van 100.000 foto’s van honden, zal het meestal een 80/20-splitsing hebben – 80.000 foto’s die worden gebruikt om het model te trainen; en 20.000 foto’s die worden achtergehouden en gebruikt als materiaal voor het testen van het voltooide model.

Het is duidelijk dat als de AI’s trainingsdata per ongeluk de ‘geheime’ 20% sectie van de test-split bevat, het model deze tests zal halen, omdat het al de antwoorden kent (het heeft al 100% van de domeindata gezien). Natuurlijk weerspiegelt dit niet nauwkeurig hoe het model later zal presteren, op nieuwe ‘live’ data, in een productiecontext.

Filmverwachtingen

Het probleem van AI dat vals speelt bij zijn examens is gegroeid met de schaal van de modellen zelf. Omdat de systemen van vandaag worden getraind op enorme, ondiscriminatie web-gekrabde corpora zoals Common Crawl, is de mogelijkheid dat benchmark-datasets (d.w.z. de achtergehouden 20%) in de trainingsmix terechtkomen, geen randgeval meer, maar de standaard – een syndroom bekend als data-contaminatie; en op deze schaal is de handmatige curatie die dergelijke fouten kan opvangen, logistiek onmogelijk.

Deze casus wordt onderzocht in een nieuw paper van de Politecnico di Bari in Italië, waar de onderzoekers zich richten op de buitensporige rol van een enkele film-aanbevelingsdataset, MovieLens-1M, die ze betogen gedeeltelijk is onthouden door verschillende toonaangevende AI-modellen tijdens de training.

Omdat deze specifieke dataset zo breed wordt gebruikt in de testing van aanbevelingssystemen, maakt de aanwezigheid ervan in de modellen hun geheugen potentieel zinloos: wat eruitziet als intelligentie kan in feite simpelweg recall zijn, en wat eruitziet als een intuïtieve aanbevelingsvaardigheid kan gewoon een statistische echo zijn die eerder blootstelling weerspiegelt.

De auteurs verklaren:

‘Onze bevindingen laten zien dat LLM’s uitgebreide kennis hebben van de MovieLens-1M-dataset, die items, gebruikerskenmerken en interactiegeschiedenissen omvat.

‘Opvallend is dat een eenvoudige prompt GPT-4o in staat stelt om bijna 80% van de [namen van de meeste films in de dataset] te herstellen.

‘Geen van de onderzochte modellen zijn vrij van deze kennis, wat suggereert dat MovieLens-1M-gegevens waarschijnlijk zijn opgenomen in hun trainingssets. We zagen vergelijkbare trends bij het ophalen van gebruikerskenmerken en interactiegeschiedenissen.’

Het korte nieuwe paper heeft als titel Onthouden LLM’s Aanbevelingsdatasets? Een Voorlopige Studie over MovieLens-1M, en komt van zes Politecnico-onderzoekers. De pipeline om hun werk te reproduceren is beschikbaar gesteld op GitHub.

Methode

Om te begrijpen of de modellen in kwestie echt leerden of gewoon herinnerden, begonnen de onderzoekers met het definiëren van wat onthouden in deze context betekent, en begonnen met het testen of een model in staat was om specifieke stukken informatie uit de MovieLens-1M-dataset op te halen, wanneer het op de juiste manier werd geprompt.

Als een model een film-ID nummer kreeg en de titel en het genre kon produceren, telde dat als het onthouden van een item; als het details over een gebruiker (zoals leeftijd, beroep of postcode) kon genereren van een gebruikers-ID, telde dat ook als gebruikersonthouden; en als het een gebruikersvolgende filmbeoordeling kon reproduceren van een bekende reeks eerdere, werd dat beschouwd als bewijs dat het model specifieke interactiegegevens kon herinneren, in plaats van algemene patronen te leren.

Elk van deze vormen van recall werd getest met zorgvuldig geschreven prompts, ontworpen om het model te stimuleren zonder het nieuwe informatie te geven. Hoe nauwkeuriger de reactie, hoe waarschijnlijker het was dat het model deze gegevens al had gezien tijdens de training:

Zero-shot prompting voor het evaluatieprotocol gebruikt in het nieuwe paper. Bron: https://arxiv.org/pdf/2505.10212

Zero-shot prompting voor het evaluatieprotocol gebruikt in het nieuwe paper. Bron: https://arxiv.org/pdf/2505.10212

Gegevens en Tests

Om een geschikte dataset te cureren, onderzochten de auteurs recente papers van twee van de belangrijkste conferenties in het veld, ACM RecSys 2024 , en ACM SIGIR 2024. MovieLens-1M verscheen het meest, aangehaald in net iets meer dan een op de vijf inzendingen. Aangezien eerder onderzoek soortgelijke conclusies had getrokken, was dit niet een verrassend resultaat, maar eerder een bevestiging van de dominantie van de dataset.

MovieLens-1M bestaat uit drie bestanden: Movies.dat, die films opsomt met ID, titel en genre; Users.dat, die gebruikers-ID’s koppelt aan basisbiografische velden; en Ratings.dat, die opneemt wie wat beoordeelde en wanneer.

Om te ontdekken of deze gegevens door grote taalmodellen waren onthouden, keerden de onderzoekers terug naar prompting-technieken die voor het eerst werden geïntroduceerd in het paper Trainingsgegevens uit grote taalmodellen extraheren, en later aangepast in het latere werk Trucjes voor het extraheren van trainingsgegevens uit taalmodellen.

De methode is direct: stel een vraag die de datasetformaat spiegelt en zie of het model correct antwoordt. Zero-shot, Chain-of-Thought, en few-shot prompting werden getest, en het bleek dat de laatste methode, waarbij het model een paar voorbeelden wordt getoond, het meest effectief was; zelfs als meer geavanceerde benaderingen mogelijk hogere recall zouden opleveren, werd dit voldoende geacht om te onthullen wat was onthouden.

Few-shot prompt gebruikt om te testen of een model specifieke MovieLens-1M-waarden kan reproduceren wanneer het wordt gevraagd met minimale context.

Few-shot prompt gebruikt om te testen of een model specifieke MovieLens-1M-waarden kan reproduceren wanneer het wordt gevraagd met minimale context.

Om onthouden te meten, definieerden de onderzoekers drie vormen van recall: item, gebruiker, en interactie. Deze tests onderzochten of een model een filmtitel kon ophalen uit zijn ID, gebruikersdetails kon genereren uit een gebruikers-ID, of een gebruikersvolgende beoordeling kon voorspellen op basis van eerdere.

Elk werd gescoord met een dekkingmetric* die weerspiegelde hoeveel van de dataset kon worden gereconstrueerd door prompting.

De geteste modellen waren GPT-4o; GPT-4o mini; GPT-3.5 turbo; Llama-3.3 70B; Llama-3.2 3B; Llama-3.2 1B; Llama-3.1 405B; Llama-3.1 70B; en Llama-3.1 8B. Alle werden uitgevoerd met temperatuur ingesteld op nul, top_p ingesteld op één, en zowel frequentie als aanwezigheidsboetes uitgeschakeld. Een vaste willekeurige seed zorgde voor consistentie in de output over runs.

Procentuele MovieLens-1M-invoer opgehaald uit movies.dat, users.dat en ratings.dat, met modellen gegroepeerd per versie en gesorteerd op parameteraantal.

Procentuele MovieLens-1M-invoer opgehaald uit movies.dat, users.dat en ratings.dat, met modellen gegroepeerd per versie en gesorteerd op parameteraantal.

Om te onderzoeken hoe diep MovieLens-1M was opgenomen, vroegen de onderzoekers elk model om exacte invoer uit de drie (eerder genoemde) bestanden van de dataset: Movies.dat, Users.dat, en Ratings.dat.

Resultaten van de initiële tests, hierboven weergegeven, laten scherpe verschillen zien, niet alleen tussen GPT- en Llama-families, maar ook binnen modelgroottes. Terwijl GPT-4o en GPT-3.5 turbo grote delen van de dataset met gemak reproduceren, herinneren de meeste open-source modellen slechts een fractie van hetzelfde materiaal, wat suggereert dat de blootstelling aan deze benchmark tijdens de voortraining ongelijk was.

Dit zijn geen kleine marges. Over alle drie bestanden presteerden de sterkste modellen niet alleen beter dan de zwakkere, maar herinnerden hele delen van MovieLens-1M.

In het geval van GPT-4o was de dekking hoog genoeg om te suggereren dat een niet-triviale hoeveelheid van de dataset rechtstreeks was onthouden.

De auteurs verklaren:

‘Onze bevindingen laten zien dat LLM’s uitgebreide kennis hebben van de MovieLens-1M-dataset, die items, gebruikerskenmerken en interactiegeschiedenissen omvat.

‘Opvallend is dat een eenvoudige prompt GPT-4o in staat stelt om bijna 80% van de MovieID::Titel-records te herstellen. Geen van de onderzochte modellen zijn vrij van deze kennis, wat suggereert dat MovieLens-1M-gegevens waarschijnlijk zijn opgenomen in hun trainingssets. We zagen vergelijkbare trends bij het ophalen van gebruikerskenmerken en interactiegeschiedenissen.’

Vervolgens testten de auteurs de invloed van onthouden op aanbevelingstaken door elk model te vragen om als aanbevelingssysteem te fungeren. Om de prestaties te benchmarken, vergeleken ze de output met zeven standaardmethoden: UserKNN; ItemKNN; BPRMF; EASER; LightGCN; MostPop; en Random.

De MovieLens-1M-dataset werd gesplitst in 80/20 in trainings- en testsets, met een leave-one-out steekproefstrategie om echte wereldgebruik te simuleren. De gebruikte metrics waren Hit Rate (HR@[n]); en nDCG(@[n]):

Aanbevelingsnauwkeurigheid op standaardbaselines en LLM-gebaseerde methoden. Modellen zijn gegroepeerd per familie en gesorteerd op parameteraantal. Vetgedrukte waarden geven de hoogste score binnen elke groep aan.

Aanbevelingsnauwkeurigheid op standaardbaselines en LLM-gebaseerde methoden. Modellen zijn gegroepeerd per familie en gesorteerd op parameteraantal, met vetgedrukte waarden die de hoogste score binnen elke groep aangeven.

Hier presteerden verschillende grote taalmodellen beter dan traditionele baselines over alle metrics, met GPT-4o die een brede voorsprong behaalde in elke kolom, en zelfs middelgrote modellen zoals GPT-3.5 turbo en Llama-3.1 405B die consistent traditionele benchmarkmethoden zoals BPRMF en LightGCN overtroffen.

Binnen de kleinere Llama-varianten varieerde de prestatie scherp, maar Llama-3.2 3B viel op met de hoogste HR@1 in zijn groep.

De resultaten, zo stellen de auteurs, geven aan dat onthouden gegevens kunnen vertalen in meetbare voordelen in aanbevelingstaken, met name voor de sterkste modellen.

In een aanvullende observatie gaan de onderzoekers verder:

‘Hoewel de aanbevelingsprestatie uitstekend lijkt, toont een vergelijking van Tabel 2 met Tabel 1 een interessant patroon. Binnen elke groep toont het model met hoger onthouden ook superieure prestatie in de aanbevelingstaak.

‘Bijvoorbeeld presteert GPT-4o beter dan GPT-4o mini, en Llama-3.1 405B overtreft Llama-3.1 70B en 8B.

‘Deze resultaten benadrukken dat het evalueren van LLM’s op datasets die zijn gelekt in hun trainingsdata kan leiden tot overoptimistische prestaties, gedreven door onthouden in plaats van generalisatie.’

Met betrekking tot de invloed van modelgrootte op dit probleem, observeerden de auteurs een duidelijke correlatie tussen grootte, onthouden en aanbevelingsprestatie, waarbij grotere modellen niet alleen meer van de MovieLens-1M-dataset onthielden, maar ook beter presteerden in downstream-taken.

Llama-3.1 405B, bijvoorbeeld, toonde een gemiddelde onthoudensnelheid van 12,9%, terwijl Llama-3.1 8B slechts 5,82% onthield. Deze bijna 55% daling in recall correspondeerde met een daling van 54,23% in nDCG en een daling van 47,36% in HR over evaluatie-uitgangen.

Het patroon hield stand overal – waar onthouden afnam, nam de schijnbare prestatie ook af:

‘Deze bevindingen suggereren dat het verhogen van de modelgrootte leidt tot groter onthouden van de dataset, wat resulteert in betere prestatie.

‘Derhalve, terwijl grotere modellen betere aanbevelingsprestatie vertonen, lopen ze ook risico’s door potentiële lekken van trainingsgegevens.’

De laatste test onderzocht of onthouden de populariteitsbias weerspiegelt die is ingebakken in MovieLens-1M. Items werden gegroepeerd op interactiefrequentie, en de onderstaande grafiek toont aan dat grotere modellen consistent de meest populaire items bevoroorden:

Itemdekking per model over drie populariteitsniveaus: top 20% meest populaire; midden 20% matig populaire; en de onderste 20% minst geïnteracteerde items.

Itemdekking per model over drie populariteitsniveaus: top 20% meest populaire; midden 20% matig populaire; en de onderste 20% minst geïnteracteerde items.

GPT-4o haalde 89,06% van de top-geplaatste items op, maar slechts 63,97% van de minst populaire. GPT-4o mini en kleinere Llama-modellen toonden veel lagere dekking over alle bands. De onderzoekers stellen dat deze trend suggereert dat onthouden niet alleen schaalt met modelgrootte, maar ook bestaande onevenwichtigheden in de trainingsgegevens versterkt.

Zij gaan verder:

‘Onze bevindingen onthullen een uitgesproken populariteitsbias in LLM’s, waarbij de top 20% van populaire items aanzienlijk gemakkelijker zijn op te halen dan de onderste 20%.

‘Deze trend benadrukt de invloed van de trainingsgegevensverdeling, waarbij populaire films zijn oververtegenwoordigd, wat leidt tot hun onevenredige onthouden door de modellen.’

Conclusie

Het dilemma is geen nieuw probleem: naarmate trainingssets groeien, neemt de kans op curatie af in omgekeerde evenredigheid. MovieLens-1M, misschien samen met veel anderen, komt deze enorme corpora binnen zonder toezicht, anoniem temidden van de enorme hoeveelheid gegevens.

Het probleem herhaalt zich op elke schaal en weerstaat automatisering. Elke oplossing vereist niet alleen inspanning, maar ook menselijke beoordeling – het langzame, feilbare soort dat machines niet kunnen leveren. In dit opzicht biedt het nieuwe paper geen vooruitgang.

 

* Een dekkingmetric in deze context is een percentage dat aangeeft hoeveel van de oorspronkelijke dataset een taalmodel kan reproduceren wanneer het de juiste soort vraag krijgt. Als een model een film-ID krijgt en de titel en het genre kan produceren, telt dat als een succesvolle recall. Het totale aantal succesvolle recalls wordt vervolgens gedeeld door het totale aantal items in de dataset om een dekkingsscore te produceren. Bijvoorbeeld, als een model correcte informatie teruggeeft voor 800 van de 1000 items, is de dekking 80 procent.

Eerst gepubliceerd op vrijdag 16 mei 2025

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.