Andersons vinkel

Store språkmodeller husker datasettene som er ment å teste dem

Published May 16, 2025

Updated April 26, 2026

Martin Anderson

'Robot cheating in an exam' - ChatGPT-4o and Adobe Firefly

Hvis du ber AI om å anbefale hva du skal se, lese eller kjøpe, indikerer ny forskning at noen systemer kan basere disse resultatene på minne snarere enn ferdighet: i stedet for å lære å gi nyttige forslag, husker modellene ofte elementer fra datasettene som brukes til å evaluere dem, noe som fører til overestimert ytelse og anbefalinger som kan være foreldet eller dårlig tilpasset brukeren.

I maskinlæring brukes en test-split for å se om en trent modell har lært å løse problemer som er lignende, men ikke identiske med materialet det ble trent på.

Så hvis en ny AI-‘hunderase-gjenkjenning’-modell er trent på et datasett på 100 000 bilder av hunder, vil den vanligvis ha en 80/20-split – 80 000 bilder som leveres for å trene modellen; og 20 000 bilder som holdes tilbake og brukes som materiale for å teste den ferdige modellen.

Det er åpenbart at hvis AI-s training data uforvarende inkluderer den ‘hemmelige’ 20% delen av test-split, vil modellen bestå disse testene, fordi den allerede kjenner svarene (den har allerede sett 100% av domenedata). Selvfølgelig reflekterer dette ikke nødvendigvis hvordan modellen vil fungere senere, på nye ‘live’-data, i en produksjonskontekst.

Filmspoilere

Problemet med at AI juksar på eksamen har vokst i takt med modellenes skala. Fordi dagens systemer er trent på enorme, ukritiske web-skrapede korpus som Common Crawl, er muligheten for at benchmark-datasett (dvs. den holdte tilbake 20%) slipper inn i treningsblandingen ikke lenger en randtilfelle, men standard – et syndrom kjent som dataforurensning; og i denne skalaen er den manuelle kureringen som kunne fange slike feil logistisk umulig.

Dette tilfelle undersøkes i en ny rapport fra Italias Politecnico di Bari, hvor forskerne fokuserer på den uforholdsmessige rollen til et enkelt film-anbefalingsdatasett, MovieLens-1M, som de hevder har blitt delvis husket av flere ledende AI-modeller under trening.

Fordi dette spesifikke datasett er så vidt brukt i testing av anbefalingsystemer, kan dens tilstedeværelse i modellens minne potensielt gjøre disse testene meningsløse: det som ser ut som intelligens kan i virkeligheten være enkelt husk, og det som ser ut som en intuitiv anbefalingsferdighet kan bare være en statistisk ekko som reflekterer tidligere eksponering.

Forskerne skriver:

‘Våre funn viser at LLM-er besitter omfattende kunnskap om MovieLens-1M-datasett, som dekker elementer, brukerattributter og interaksjons-historier.

‘Merkbart kan en enkel prompt aktivere GPT-4o til å gjenopprette nesten 80% av [navnene på de fleste filmene i datasett].

‘Ingen av de undersøkte modellene er fri for denne kunnskapen, noe som tyder på at MovieLens-1M-data sannsynligvis er inkludert i deres treningssett.

Den korte nye rapporten har tittelen Do LLMs Memorize Recommendation Datasets? A Preliminary Study on MovieLens-1M, og kommer fra seks Politecnico-forskere. Pipelinen for å gjenskape deres arbeid er gjort tilgjengelig på GitHub.

Metode

For å forstå om modellene i spørsmål virkelig lærte eller bare husket, begynte forskerne med å definere hva huskning betyr i denne konteksten, og begynte med å teste om en modell kunne hente bestemte stykker informasjon fra MovieLens-1M-datasett, når den ble bedt om det på riktig måte.

Hvis en modell ble vist en films ID-nummer og kunne produsere tittelen og sjangeren, teller det som huskning av et element; hvis den kunne generere detaljer om en bruker (så som alder, yrke eller postnummer) fra en bruker-ID, teller det også som bruker-huskning; og hvis den kunne reprodusere en brukers neste filmvurdering fra en kjent sekvens av tidligere vurderinger, ble det tatt som bevis på at modellen kanskje husker spesifikke interaksjonsdata, snarere enn å lære generelle mønster.

Hver av disse formene for huskning ble testet ved hjelp av nøye skrevne promter, laget for å skubbe modellen uten å gi den ny informasjon. Jo mer nøyaktig svaret var, jo mer sannsynlig var det at modellen allerede hadde møtt denne dataen under trening:

Zero-shot prompting for the evaluation protocol used in the new paper. Source: https://arxiv.org/pdf/2505.10212

Data og tester

For å kurere et egnet datasett, undersøkte forfatterne nylige rapporter fra to av feltets store konferanser, ACM RecSys 2024 , og ACM SIGIR 2024. MovieLens-1M dukket opp mest, sitert i bare over en av fem innleveringer. Siden tidligere studier hadde nådd lignende konklusjoner, var dette ikke et overraskende resultat, men snarere en bekreftelse av datasettets dominans.

MovieLens-1M består av tre filer: Movies.dat, som lister filmer etter ID, tittel og sjanger; Users.dat, som kartlegger bruker-IDs til grunnleggende biografiske felt; og Ratings.dat, som registrerer hvem vurderte hva, og når.

For å finne ut om denne dataen hadde blitt husket av store språkmodeller, vendte forskerne seg til prompting-teknikker først introdusert i rapporten Extracting Training Data from Large Language Models, og senere tilpasset i etterfølgende arbeid Bag of Tricks for Training Data Extraction from Language Models.

Metoden er direkte: stille et spørsmål som speiler datasett-formatet og se om modellen svarer korrekt. Zero-shot, Chain-of-Thought, og few-shot prompting ble testet, og det ble funnet at den siste metoden, der modellen blir vist noen eksempler, var den mest effektive; selv om mer omfattende tilnærminger kanskje kunne gi høyere tilbakekall, ble dette betraktet som tilstrekkelig til å avsløre hva som hadde blitt husket.

Few-shot prompt used to test whether a model can reproduce specific MovieLens-1M values when queried with minimal context.

For å måle huskning, definerte forskerne tre former for tilbakekall: element, bruker, og interaksjon. Disse testene undersøkte om en modell kunne hente en film-tittel fra dens ID, generere brukerdetaljer fra en bruker-ID, eller forutsi en brukers neste vurdering basert på tidligere vurderinger. Hver ble scoret ved hjelp av en dekningsmetrik* som reflekterte hvor mye av datasett som kunne rekonstrueres gjennom prompting.

Modellene som ble testet var GPT-4o; GPT-4o mini; GPT-3.5 turbo; Llama-3.3 70B; Llama-3.2 3B; Llama-3.2 1B; Llama-3.1 405B; Llama-3.1 70B; og Llama-3.1 8B. Alle ble kjørt med temperatur satt til null, top_p satt til en, og både frekvens og tilstedeværelsesstraffer deaktivert. En fast tilfeldig seed sikret konsistent utgang over kjøringer.

Proportion of MovieLens-1M entries retrieved from movies.dat, users.dat, and ratings.dat, with models grouped by version and sorted by parameter count.

For å undersøke hvor dypt MovieLens-1M hadde blitt absorbert, promptet forskerne hver modell for eksakte innførsler fra datasettets tre (ovennevnte) filer: Movies.dat, Users.dat, og Ratings.dat.

Resultatene fra de initielle testene, vist ovenfor, avslører skarpe forskjeller ikke bare mellom GPT- og Llama-familier, men også over modell-størrelser. Mens GPT-4o og GPT-3.5 turbo gjenopprettet store deler av datasett med lettighet, husket de fleste åpne kilde-modellene bare en brøkdel av samme materiale, noe som tyder på ueven eksponering for denne benchmarken i fortrening.

Dette er ikke små marginer. Over alle tre filer gjorde de sterkeste modellene ikke bare bedre enn svakere modeller, men husket hele deler av MovieLens-1M.

I tilfelle GPT-4o var dekningsgraden høy nok til å antyde at en ikke ubetydelig andel av datasett hadde blitt direkte husket.

Forskerne skriver:

‘Våre funn viser at LLM-er besitter omfattende kunnskap om MovieLens-1M-datasett, som dekker elementer, brukerattributter og interaksjons-historier.

‘Merkbart kan en enkel prompt aktivere GPT-4o til å gjenopprette nesten 80% av MovieID::Title-poster.

‘Ingen av de undersøkte modellene er fri for denne kunnskapen, noe som tyder på at MovieLens-1M-data sannsynligvis er inkludert i deres treningssett.

Neste, testet forfatterne for impekten av huskning på anbefalingsoppgaver ved å prompte hver modell til å fungere som et anbefalingssystem. For å benchmarkere ytelse, sammenlignet de utgangen mot syv standardmetoder: UserKNN; ItemKNN; BPRMF; EASE^R; LightGCN; MostPop; og Random.

MovieLens-1M-datasett ble delt 80/20 i trenings- og testsett, ved hjelp av en leave-one-out-prøvetakingstrategi for å simulere virkelige bruksområder. Metrikene som ble brukt, var Hit Rate (HR@[n]); og nDCG(@[n]):

Recommendation accuracy on standard baselines and LLM-based methods. Models are grouped by family and ordered by parameter count. Bold values indicate the highest score within each group.

Recommendation accuracy on standard baselines and LLM-based methods. Models are grouped by family and ordered by parameter count, with bold values indicating the highest score within each group.

Her overgikk flere store språkmodeller tradisjonelle benchmark-metoder over alle metrikker, med GPT-4o som etablerte en stor ledelse i hver kolonne, og selv midlertidige modeller som GPT-3.5 turbo og Llama-3.1 405B konsekvent overgikk benchmark-metoder som BPRMF og LightGCN.

Blant mindre Llama-variantene varierte ytelsen skarpt, men Llama-3.2 3B sto ut, med den høyeste HR@1 i sin gruppe.

Resultatene, mener forfatterne, indikerer at husket data kan oversettes til målbare fordeler i anbefalings-liknende prompting, spesielt for de sterkeste modellene.

I en tilleggsobservasjon fortsetter forskerne:

‘Selv om anbefalingsytelsen ser utrolig ut, viser sammenligning av Tabell 2 med Tabell 1 en interessant mønster.

‘Innen hver gruppe, demonstrerer modellen med høyere huskning også bedre ytelse i anbefalingsoppgaven.

‘For eksempel, overgår GPT-4o GPT-4o mini, og Llama-3.1 405B overgår Llama-3.1 70B og 8B.

‘Disse resultaterene understreker at evaluering av LLM-er på datasett som er lekket i deres treningsdata, kan føre til overoptimistisk ytelse, drevet av huskning snarere enn generalisering.’

Med hensyn til impekten av modell-skala på dette problemet, observerte forfatterne en tydelig korrelasjon mellom størrelse, huskning og anbefalingsytelse, med større modeller som ikke bare husket mer av MovieLens-1M-datasett, men også fungerte bedre i nedstrøms-oppgaver.

Llama-3.1 405B, for eksempel, viste en gjennomsnittlig huskningsrate på 12,9%, mens Llama-3.1 8B bare husket 5,82%. Dette nær 55% reduksjon i huskning korresponderte med en 54,23% reduksjon i nDCG og en 47,36% reduksjon i HR over evalueringsslutt.

Mønsteret holdt gjennom hele – der huskning ble redusert, ble også synlig ytelse redusert:

‘Disse funnene antyder at økning av modell-skalaen fører til større huskning av datasett, noe som resulterer i bedre ytelse.

‘Derfor, mens større modeller viser bedre anbefalingsytelse, stiller de også risikoer relatert til mulig lekkasje av treningsdata.’

Den siste testen undersøkte om huskning reflekterer popularitetsforvrengning innbygd i MovieLens-1M. Elementer ble gruppert etter hyppighet av interaksjon, og diagrammet under viser at større modeller konsekvent favoriserte de mest populære postene:

Item coverage by model across three popularity tiers: top 20% most popular; middle 20% moderately popular; and the bottom 20% least interacted items.

GPT-4o gjenopprettet 89,06% av topp-rangerte elementer, men bare 63,97% av de minst populære. GPT-4o mini og mindre Llama-modeller viste mye lavere dekningsgrad over alle bånd. Forskerne skriver at denne trenden antyder at huskning ikke bare skalerer med modell-størrelse, men også forsterker eksisterende ubalanser i treningsdataene.

De fortsetter:

‘Våre funn avslører en tydelig popularitetsforvrengning i LLM-er, hvor de øverste 20% av populære elementer er betydelig lettere å hente enn de nederste 20%.

‘Dette mønsteret understreker innflytelsen av treningsdata-distribusjonen, hvor populære filmer er overrepresentert, noe som fører til deres ubalanse huskning av modellene.’

Konklusjon

Dilemmaet er ikke lenger nytt: mens treningssett vokser, diminuerer prospektet for å kurere dem i omvendt proporsjon. MovieLens-1M, kanskje blant mange andre, går inn i disse enorme korpusene uten tilsyn, anonymt blant den enorme mengden data.

Problemet gjentar seg på hver skala og motstår automatisering. Enhver løsning krever ikke bare innsats, men menneskelig dømmekraft – den langsomme, feilbare typen som maskiner ikke kan levere. I denne sammenhengen tilbyr den nye rapporten ingen vei fremover.

* En dekningsmetrik i denne konteksten er en prosent som viser hvor mye av det opprinnelige datasett en språkmodell kan reprodusere når den blir bedt om riktig type spørsmål. Hvis en modell blir vist en films ID-nummer og responderer med den riktige tittelen og sjangeren, teller det som en vellykket huskning. Det totale antallet vellykkede huskninger blir deretter delt på det totale antallet poster i datasett for å produsere en dekningspoeng. For eksempel, hvis en modell korrekt returnerer informasjon for 800 av 1000 elementer, vil dens dekningsgrad være 80 prosent.

Først publisert fredag, 16. mai 2025