Andersons vinkel
Store Sprogmodeller Husker Datasættene, Der Skal Teste Dem

Hvis du afhænger af AI til at anbefale, hvad du skal se, læse eller købe, indikerer ny forskning, at nogle systemer muligvis baserer disse resultater på hukommelse snarere end færdighed: i stedet for at lære at give nyttige forslag, husker modellerne ofte genstande fra datasættene, der er brugt til at evaluere dem, hvilket fører til overestimeret præstation og anbefalinger, der kan være forældede eller dårligt tilpasset brugeren.
I maskinlæring bruges en test-split til at se, om en trænet model har lært at løse problemer, der er lignende, men ikke identiske med det materiale, det er trænet på.
Så hvis en ny AI-model til “hunderace-genkendelse” er trænet på en datasæt med 100.000 billeder af hunde, vil den som regel have en 80/20-split – 80.000 billeder leveres til at træne modellen; og 20.000 billeder holdes tilbage og bruges som materiale til at teste den færdige model.
Det er åbenlyst at sige, hvis AI’s træningsdata utilsigtet inkluderer den “hemmelige” 20% del af test-split, vil modellen bestå disse tests, fordi den allerede kender svarene (den har allerede set 100% af domæne-data). Det er naturligvis ikke en nøjagtig refleksion af, hvordan modellen vil fungere senere, på nye “live”-data, i en produktionskontekst.
Film-Spoiler
Problemet med, at AI snyder på sine eksamener, er vokset i takt med modellernes skala. Fordi dagens systemer er trænet på enorme, ukvalificerede web-skrapede korpora som Common Crawl, er muligheden for, at benchmark-datasæt (dvs. den tilbageholdte 20%) slipper ind i træningsblandingen, ikke længere en randcase, men standarden – et syndrom kendt som data-forurening; og i denne skala er den manuelle kuratering, der kunne fange sådanne fejl, logistisk umulig.
Dette tilfælde er undersøgt i en ny artikel fra Italiens Politecnico di Bari, hvor forskerne fokuserer på den usædvanlige rolle, som en enkelt film-anbefalingsdatasæt, MovieLens-1M, spiller, som de påstår er blevet delvis husket af flere førende AI-modeller under træning.
Fordi denne specifikke datasæt er så bredt brugt i testen af anbefalings-systemer, gør dens tilstedeværelse i modellernes hukommelse muligvis disse tests meningsløse: hvad der ser ud som intelligens, kan i virkeligheden være simpel hukommelse, og hvad der ligner en intuitiv anbefalingsfærdighed, kan blot være en statistisk ekko, der reflekterer tidligere eksponering.
Forskerne skriver:
‘Vores resultater viser, at LLM’er besidder omfattende viden om MovieLens-1M-datasættet, der dækker genstande, brugerattributter og interaktionshistorik.
‘Bemærkelsesværdigt kan en simpel prompt aktivere GPT-4o til at genskabe næsten 80% af [navnene på de fleste film i datasættet].
‘Ingen af de undersøgte modeller er fri for denne viden, hvilket tyder på, at MovieLens-1M-data sandsynligvis er inkluderet i deres træningssæt. Vi observerede lignende tendenser i genskabelse af brugerattributter og interaktionshistorik.’
Den korte nye artikel har titlen Do LLMs Memorize Recommendation Datasets? A Preliminary Study on MovieLens-1M og kommer fra seks Politecnico-forskere. Pipelinen til at genskabe deres arbejde er blevet gjort tilgængelig på GitHub.
Metode
For at forstå, om modellerne i spørgsmålet virkelig lærte eller blot huskede, begyndte forskerne med at definere, hvad huskning betyder i denne kontekst, og begyndte med at teste, om en model kunne hente bestemte stykker af information fra MovieLens-1M-datasættet, når den blev bedt om det på rigtig vis.
Hvis en model blev vist en films ID-nummer og kunne producere dens titel og genre, talte det som huskning af en genstand; hvis den kunne generere oplysninger om en bruger (såsom alder, beskæftigelse eller postnummer) fra en bruger-ID, talte det også som bruger-huskning; og hvis den kunne genskabe en brugers næste film-vurdering fra en kendt sekvens af tidligere, blev det taget som bevis for, at modellen måske huskede bestemt interaktionsdata, snarere end at lære generelle mønstre.
Hver af disse former for genskabelse blev testet ved hjælp af omhyggeligt skrevne prompts, der var designede til at skubbe modellen uden at give den nye information. Jo mere præcis svaret var, jo mere sandsynligt var det, at modellen allerede havde mødt denne data under træning:

Zero-shot-prompting til evalueringsskemaet brugt i den nye artikel. Kilde: https://arxiv.org/pdf/2505.10212
Data og tests
For at kuratere en passende datasæt, gennemgik forfatterne nylige artikler fra to af feltets store konferencer, ACM RecSys 2024 , og ACM SIGIR 2024. MovieLens-1M dukkede op mest, citeret i lidt over en femtedel af indsendelserne. Da tidligere studier havde nået lignende konklusioner, var dette ikke et overraskende resultat, men snarere en bekræftelse af datasættets dominans.
MovieLens-1M består af tre filer: Movies.dat, som lister film efter ID, titel og genre; Users.dat, som mapper bruger-IDs til grundlæggende biografiske felter; og Ratings.dat, som optager, hvem der vurderede hvad, og hvornår.
For at finde ud af, om denne data var blevet husket af store sprogmodeller, vendte forskerne sig til prompt-teknikker, der først blev introduceret i artiklen Extracting Training Data from Large Language Models, og senere tilpasset i det efterfølgende arbejde Bag of Tricks for Training Data Extraction from Language Models.
Metoden er direkte: stille et spørgsmål, der spejler datasættets format, og se, om modellen svarer korrekt. Zero-shot, Chain-of-Thought og few-shot-prompting blev testet, og det blev fundet, at sidstnævnte metode, hvor modellen vises nogle eksempler, var den mest effektive; selvom mere avancerede tilgange måske kunne give højere genskabelse, blev dette betragtet som tilstrækkeligt til at afsløre, hvad der var blevet husket.

Few-shot-prompt brugt til at teste, om en model kan genskabe bestemte MovieLens-1M-værdier, når den bliver spurgt med minimal kontekst.
For at måle huskning definerede forskerne tre former for genskabelse: genstand, bruger og interaktion. Disse tests undersøgte, om en model kunne hente en film-titel fra dens ID, generere bruger-oplysninger fra en bruger-ID eller forudsige en brugers næste vurdering baseret på tidligere vurderinger. Hver blev scoret ved hjælp af en dækning-metrik*, der reflekterede, hvor meget af datasættet, der kunne genskabes gennem prompting.
De testede modeller var GPT-4o; GPT-4o mini; GPT-3.5 turbo; Llama-3.3 70B; Llama-3.2 3B; Llama-3.2 1B; Llama-3.1 405B; Llama-3.1 70B; og Llama-3.1 8B. Alle blev kørt med temperatur sat til nul, top_p sat til en, og både frekvens og tilstedeværelsesstraffe deaktiveret. En fast tilfældigt seed sikrede konsistent output over kørsler.

Proportion af MovieLens-1M-indtastninger hentet fra movies.dat, users.dat og ratings.dat, med modeller grupperet efter version og sorteret efter parameterantal.
For at afprøve, hvor dybt MovieLens-1M var blevet absorberet, promptede forskerne hver model for eksakte indtastninger fra datasættets tre (ovennævnte) filer: Movies.dat, Users.dat og Ratings.dat.
Resultaterne fra de første tests, vist ovenfor, viser skarpe forskelle ikke kun mellem GPT- og Llama-familier, men også på tværs af modellernes størrelse. Mens GPT-4o og GPT-3.5 turbo genskaber store dele af datasættet med lethed, kan de fleste open-source-modeller kun genskabe en brøkdel af det samme materiale, hvilket tyder på, at der er en ulige eksponering for denne benchmark under træning.
Disse er ikke små marginer. Over alle tre filer gjorde de stærkeste modeller ikke blot bedre end de svagere, men genskabte hele dele af MovieLens-1M.
I tilfældet med GPT-4o var dækningen høj nok til at antyde, at en ikke ubetydelig andel af datasættet var blevet direkte husket.
Forskerne skriver:
‘Vores resultater viser, at LLM’er besidder omfattende viden om MovieLens-1M-datasættet, der dækker genstande, brugerattributter og interaktionshistorik.
‘Bemærkelsesværdigt kan en simpel prompt aktivere GPT-4o til at genskabe næsten 80% af MovieID::Title-optegnelser. Ingen af de undersøgte modeller er fri for denne viden, hvilket tyder på, at MovieLens-1M-data sandsynligvis er inkluderet i deres træningssæt. Vi observerede lignende tendenser i genskabelse af brugerattributter og interaktionshistorik.’
Herefter testede forfatterne effekten af huskning på anbefalingsopgaver ved at prompte hver model til at fungere som et anbefalingssystem. For at benchmark-præstationerne sammenlignede de outputtet med syv standardmetoder: UserKNN; ItemKNN; BPRMF; EASER; LightGCN; MostPop; og Random.
MovieLens-1M-datasættet blev delt 80/20 i trænings- og test-sæt, ved hjælp af en leave-one-out-prøvestrategi til at simulere virkeligt brug. Metrikkerne, der blev brugt, var Hit Rate (HR@[n]); og nDCG(@[n]):

Anbefalingsnøjagtighed på standard-baselines og LLM-baserede metoder. Modeller er grupperet efter familie og sorteret efter parameterantal, med fedte værdier, der indikerer den højeste score inden for hver gruppe.
Her overgår flere store sprogmodeller traditionelle baselines over alle metrikker, med GPT-4o, der etablerer en bred føring i hver kolonne, og selv mid-size-modeller som GPT-3.5 turbo og Llama-3.1 405B konsekvent overgår benchmark-metoder som BPRMF og LightGCN.
Blandt de mindre Llama-variationer varierer præstationen skarpt, men Llama-3.2 3B står ud, med den højeste HR@1 i sin gruppe.
Resultaterne, som forfatterne påstår, indikerer, at husket data kan oversætte til målbare fordele i anbefalings-stil-prompting, især for de stærkeste modeller.
I en yderligere observation fortsætter forskerne:
‘Selvom anbefalingspræstationen ser ud til at være fremragende, viser sammenligningen af Tabel 2 med Tabel 1 en interessant mønster. Inden for hver gruppe viser modellen med højere huskning også bedre præstation i anbefalingsopgaven.
‘For eksempel overgår GPT-4o GPT-4o mini, og Llama-3.1 405B overgår Llama-3.1 70B og 8B.
‘Disse resultater fremhæver, at evaluering af LLM’er på datasæt, der er lækket i deres træningsdata, kan føre til overoptimistisk præstation, drevet af huskning snarere end generalisering.’
Med hensyn til effekten af modellens skala på dette problem observerede forfatterne en tydelig korrelation mellem størrelse, huskning og anbefalingspræstation, med større modeller, der ikke blot huskede mere af MovieLens-1M-datasættet, men også præsterede bedre i downstream-opgaver.
Llama-3.1 405B, for eksempel, viste en gennemsnitlig huskningsrate på 12,9%, mens Llama-3.1 8B kun huskede 5,82%. Denne næsten 55% reducering i genskabelse svarede til en 54,23% reduktion i nDCG og en 47,36% reduktion i HR over evalueringsslutninger.
Mønsteret holdt hele vejen igennem – hvor huskning blev reduceret, blev synlig præstation også:
‘Disse resultater antyder, at en øgning af modellens skala fører til større huskning af datasættet, hvilket resulterer i forbedret præstation.
‘Følgelig, selvom større modeller viser bedre anbefalingspræstation, stiller de også risici i forbindelse med potentiel lækkage af træningsdata.’
Den sidste test undersøgte, om huskning reflekterer popularity-bias, der er indbygget i MovieLens-1M. Genstande blev grupperet efter hyppighed af interaktion, og diagrammet nedenfor viser, at større modeller konsekvent favoriserer de mest populære indtastninger:

Genstands-dækning efter model over tre popularitetsniveauer: top 20% mest populære; midterste 20% moderat populære; og de nederste 20% mindst interagerede genstande.
GPT-4o genskabte 89,06% af top-rangerede genstande, men kun 63,97% af de mindst populære. GPT-4o mini og mindre Llama-modeller viste meget lavere dækning over alle bånd. Forskerne påstår, at denne tendens antyder, at huskning ikke kun skalerer med modellens størrelse, men også forstærker eksisterende ubalancer i træningsdataene.
De fortsætter:
‘Vores resultater viser en tydelig popularity-bias i LLM’er, hvor de top 20% mest populære genstande er markant lettere at genskabe end de nederste 20%.
‘Denne tendens fremhæver indflydelsen af træningsdatafordelingen, hvor populære film er overrepræsenteret, hvilket fører til deres ubetydelige huskning af modellerne.’
Konklusion
Dilemmaet er ikke længere nyt: når træningssæt vokser, mindsker muligheden for at kuratere dem i omvendt proportion. MovieLens-1M, måske blandt mange andre, kommer ind i disse enorme korpora uden oversigt, anonym blandt den enorme mængde data.
Problemet gentager sig på hver skala og modstår automation. Enhver løsning kræver ikke blot indsats, men også menneskelig dømmekraft – den langsomme, fejlbarlige slags, som maskiner ikke kan levere. I denne henseende tilbyder den nye artikel ingen vej frem.
* En dækning-metrik i denne kontekst er en procent, der viser, hvor meget af det oprindelige datasæt, en sprogmodel kan genskabe, når den bliver spurgt om det på rigtig vis. Hvis en model bliver vist en films ID-nummer og kan producere dens titel og genre, tælles det som en succesfuld genskabelse. Det totale antal succesfulde genskabelser divideres herefter med det totale antal indtastninger i datasættet for at producere en dækningsscore. For eksempel, hvis en model korrekt returnerer information for 800 af 1.000 genstande, vil dens dækning være 80 procent.
Først publiceret fredag, 16. maj 2025












