Andersons vinkel

Stora språkmodeller memoriserar dataseten som är avsedda att testa dem

Published May 16, 2025

Updated April 26, 2026

Martin Anderson

'Robot cheating in an exam' - ChatGPT-4o and Adobe Firefly

Om du förlitar dig på AI för att rekommendera vad du ska titta på, läsa eller köpa, tyder ny forskning på att vissa system kan basera dessa resultat på minne snarare än färdighet: istället för att lära sig att göra användbara förslag, memoriserar modellerna ofta objekt från de dataset som används för att utvärdera dem, vilket leder till en överdriven prestanda och rekommendationer som kan vara inaktuella eller dåligt anpassade till användaren.

I maskinlärning används en test-split för att se om en tränad modell har lärt sig att lösa problem som är liknande, men inte identiska med det material den tränades på.

Så om en ny AI-modell för “hundrasigillering” tränas på ett dataset med 100 000 bilder av hundar, kommer den vanligtvis att ha en 80/20-split – 80 000 bilder som tillhandahålls för att träna modellen och 20 000 bilder som hålls tillbaka och används som material för att testa den färdiga modellen.

Det är uppenbart att om AI:s träningsdata oavsiktligt innehåller den “hemliga” 20-procentiga delen av test-split, kommer modellen att klara dessa tester, eftersom den redan känner till svaren (den har redan sett 100 procent av domändata). Detta återspeglar naturligtvis inte hur modellen kommer att fungera senare, på nya “live”-data, i en produktionskontext.

Filmspoilers

Problemet med att AI fuskar på sina prov har vuxit i takt med modellernas skala. Eftersom dagens system tränas på enorma, ostrukturerade webbskrapade korpusar som Common Crawl, är möjligheten att benchmark-dataset (dvs. den tillbakahållna 20 procenten) hamnar i träningsblandningen inte längre en randfallet, utan standarden – ett syndrom som kallas datakontamination; och i denna skala är den manuella kurering som kunde fånga sådana fel logistiskt omöjlig.

Detta fall undersöks i en ny artikel från Italiens Politecnico di Bari, där forskarna fokuserar på den oproportionerliga rollen hos ett enda filmrekommendationsdataset, MovieLens-1M, som de hävdar har memoriserats delvis av flera ledande AI-modeller under träningsprocessen.

Eftersom detta specifika dataset används så mycket i testning av rekommendationssystem, gör dess närvaro i modellernas minne potentiellt dessa tester meningslösa: vad som verkar vara intelligens kan i själva verket vara enkel återkallning, och vad som ser ut som en intuitiv rekommendationsskicklighet kan bara vara en statistisk ekon som återspeglar tidigare exponering.

Författarna skriver:

‘Våra fynd visar att LLM har omfattande kunskap om MovieLens-1M-datasetet, som täcker objekt, användarattribut och interaktionshistorik.

‘Noterbart är att en enkel prompt möjliggör för GPT-4o att återställa nästan 80 procent av [filmnamnen i datasetet].

‘Ingen av de undersökta modellerna är fria från denna kunskap, vilket tyder på att MovieLens-1M-data troligen ingår i deras träningsuppsättningar. Vi observerade liknande trender vid återvinning av användarattribut och interaktionshistorik.’

Den korta nya artikeln heter Memoriserar LLM rekommendationsdataset? En preliminär studie om MovieLens-1M och kommer från sex Politecnico-forskare. Pipelinen för att reproducera deras arbete har gjorts tillgänglig på GitHub.

Metod

För att förstå om modellerna i fråga verkligen lärde sig eller bara memoriserade, började forskarna med att definiera vad memorisering betyder i detta sammanhang och började med att testa om en modell kunde hämta specifika bitar av information från MovieLens-1M-datasetet, när den promptades på rätt sätt.

Om en modell visades en films ID-nummer och kunde producera dess titel och genre, räknades det som att memorisera ett objekt; om den kunde generera information om en användare (såsom ålder, yrke eller postnummer) från en användar-ID, räknades det också som användarmemorisering; och om den kunde reproducera en användares nästa filmrating från en känd sekvens av tidigare, togs det som bevis för att modellen kan komma ihåg specifik interaktionsdata, snarare än att lära sig allmänna mönster.

Var och en av dessa former av återkallande testades med hjälp av noggrant skrivna promptrar, utformade för att puffa modellen utan att ge den ny information. Ju mer exakt svaret var, desto mer sannolikt var det att modellen redan hade stött på den data under träningsprocessen:

Zero-shot prompting för utvärderingsprotokollet som används i den nya artikeln. Källa: https://arxiv.org/pdf/2505.10212

Data och tester

För att kurera ett lämpligt dataset, undersökte författarna nyliga artiklar från två av fältets stora konferenser, ACM RecSys 2024 och ACM SIGIR 2024. MovieLens-1M dök upp oftast, citerad i strax över en femtedel av inlämningshandlingarna. Eftersom tidigare studier hade nått liknande slutsatser, var detta inte ett överraskande resultat, utan snarare en bekräftelse på datasetets dominans.

MovieLens-1M består av tre filer: Movies.dat, som listar filmer efter ID, titel och genre; Users.dat, som kartlägger användar-ID till grundläggande biografiska fält; och Ratings.dat, som registrerar vem som betygsatte vad och när.

För att ta reda på om denna data hade memoriserats av stora språkmodeller, vände sig forskarna till promptingtekniker som först introducerades i artikeln Extracting Training Data from Large Language Models och senare anpassades i det efterföljande arbetet Bag of Tricks for Training Data Extraction from Language Models.

Metoden är direkt: ställ en fråga som speglar dataset-formatet och se om modellen svarar korrekt. Zero-shot, Chain-of-Thought och few-shot prompting testades, och det visade sig att den senare metoden, där modellen visas ett fåtal exempel, var den mest effektiva; även om mer elaborerade tillvägagångssätt kanske kunde ge högre återkallande, ansågs detta tillräckligt för att avslöja vad som hade memoriserats.

Few-shot prompt används för att testa om en modell kan reproducera specifika MovieLens-1M-värden när den frågas med minimal kontext.

För att mäta memorisering definierade forskarna tre former av återkallande: objekt, användare och interaktion. Dessa tester undersökte om en modell kunde hämta en filmrubrik från dess ID, generera användardetaljer från ett användar-ID eller förutsäga en användares nästa betyg baserat på tidigare.

Var och en av dessa testades med hjälp av en täckningsmetrik* som reflekterade hur mycket av datasetet som kunde rekonstrueras genom prompting.

De testade modellerna var GPT-4o; GPT-4o mini; GPT-3.5 turbo; Llama-3.3 70B; Llama-3.2 3B; Llama-3.2 1B; Llama-3.1 405B; Llama-3.1 70B; och Llama-3.1 8B. Alla kördes med temperatur inställd på noll, top_p inställd på ett, och både frekvens och närvaro straff avaktiverade. En fast slumpmässig seed säkerställde konsekvent utdata över körningar.

Andel MovieLens-1M-poster som hämtats från movies.dat, users.dat och ratings.dat, med modeller grupperade efter version och sorterade efter parameterantal.

För att undersöka hur djupt MovieLens-1M hade absorberats, promptade forskarna varje modell för exakta poster från datasetets tre (ovannämnda) filer: Movies.dat, Users.dat och Ratings.dat.

Resultat från de första testerna, som visas ovan, visar skarpa skillnader inte bara mellan GPT- och Llama-familjerna, utan också över modellstorlekar. Medan GPT-4o och GPT-3.5 turbo återställer stora delar av datasetet med lätthet, kan de flesta öppen källkodsmodellerna bara återkalla en bråkdel av samma material, vilket tyder på ojämn exponering för denna benchmark under förträning.

Dessa är inte små marginaler. Över hela tre filer presterade de starkaste modellerna inte bara bättre än svagare, utan återkallade hela delar av MovieLens-1M.

I fallet med GPT-4o var täckningen tillräckligt hög för att antyda att en icke försumbar andel av datasetet hade memoriserats direkt.

Författarna skriver:

‘Våra fynd visar att LLM har omfattande kunskap om MovieLens-1M-datasetet, som täcker objekt, användarattribut och interaktionshistorik.

‘Noterbart är att en enkel prompt möjliggör för GPT-4o att återställa nästan 80 procent av MovieID::Titelposter.

Därefter testade författarna för att se om memoriseringen påverkade rekommendationsuppgifter genom att prompta varje modell att agera som ett rekommendationssystem. För att benchmarka prestanda jämfördes utdata mot sju standardmetoder: UserKNN; ItemKNN; BPRMF; EASE^R; LightGCN; MostPop; och Random.

MovieLens-1M-datasetet delades upp i 80/20 i tränings- och testuppsättningar, med hjälp av en leave-one-out-strategi för att simulera verklig användning. Metrikerna som användes var Hit Rate (HR@[n]); och nDCG(@[n]):

Rekommendationsprecision på standardjämförelser och LLM-baserade metoder. Modeller är grupperade efter familj och sorterade efter parameterantal, med fetstilsvärden som indikerar den högsta poängen inom varje grupp.

Här presterade flera stora språkmodeller bättre än traditionella jämförelser över alla metriker, med GPT-4o som etablerade en bred ledning i varje kolumn, och till och med medelstora modeller som GPT-3.5 turbo och Llama-3.1 405B konsekvent överträffade benchmarkmetoder som BPRMF och LightGCN.

Bland mindre Llama-variationer varierade prestandan skarpt, men Llama-3.2 3B stack ut, med den högsta HR@1 i sin grupp.

Resultaten, författarna föreslår, indikerar att memoriserad data kan översättas till mätbara fördelar i rekommendationsstil, särskilt för de starkaste modellerna.

I en ytterligare observation fortsätter forskarna:

‘Även om rekommendationsprestandan verkar utmärkt, visar en jämförelse av Tabell 2 med Tabell 1 en intressant mönster. Inom varje grupp visar modellen med högre memorisering också bättre prestanda i rekommendationsuppgiften.

‘Till exempel presterar GPT-4o bättre än GPT-4o mini, och Llama-3.1 405B överträffar Llama-3.1 70B och 8B.

‘Dessa resultat betonar att utvärdering av LLM på dataset som läckt i deras träningsdata kan leda till överoptimistisk prestanda, driven av memorisering snarare än generalisering.’

När det gäller modellens skala och dess påverkan på detta problem observerade författarna en tydlig korrelation mellan storlek, memorisering och rekommendationsprestanda, med större modeller som inte bara behöll mer av MovieLens-1M-datasetet, utan också presterade bättre i nedströmsuppgifter.

Llama-3.1 405B, till exempel, visade en genomsnittlig memoriseringstakt på 12,9 procent, medan Llama-3.1 8B endast behöll 5,82 procent. Denna nästan 55-procentiga minskning av återkallande motsvarade en 54,23-procentig minskning av nDCG och en 47,36-procentig minskning av HR över utvärderingsgränser.

Mönstret hölls genom hela – där memorisering minskade, minskade också den uppenbara prestandan:

‘Dessa fynd tyder på att en ökning av modellens skala leder till större memorisering av datasetet, vilket resulterar i förbättrad prestanda.

‘Följaktligen, medan större modeller visar bättre rekommendationsprestanda, innebär de också risker relaterade till potentiell läckage av träningsdata.’

Det sista testet undersökte om memoriseringen återspeglar popularitetsbias som är inbyggd i MovieLens-1M. Objekt grupperades efter interaktionsfrekvens, och diagrammet nedan visar att större modeller konsekvent favoriserade de mest populära posterna:

Objektäckning per modell över tre popularitetsnivåer: de 20 procent mest populära; de 20 procent mitt emellan; och de 20 procent minst interagerade objekten.

GPT-4o återställde 89,06 procent av de topprankade objekten men endast 63,97 procent av de minst populära. GPT-4o mini och mindre Llama-modeller visade betydligt lägre täckning över alla band. Forskarna skriver:

‘Våra fynd visar en tydlig popularitetsbias i LLM, där de 20 procent mest populära objekten är betydligt lättare att hämta än de 20 procent minst populära.

‘Denna trend betonar inflytandet från träningsdatadistributionen, där populära filmer är överrepresenterade, vilket leder till deras oproportionerliga memorisering av modellerna.’

Slutsats

Dilemmat är inte längre nytt: allteftersom träningsuppsättningarna växer, minskar möjligheten att kurera dem i omvänd proportion. MovieLens-1M, kanske bland många andra, kommer in i dessa enorma korpusar utan tillsyn, anonym bland den enorma mängden data.

Problemet upprepar sig i alla skalor och motstår automatisering. Varje lösning kräver inte bara ansträngning utan mänsklig bedömning – den långsamma, felförlåtna sorten som maskiner inte kan tillhandahålla. I detta avseende erbjuder den nya artikeln ingen väg framåt.

* En täckningsmetrik i detta sammanhang är ett procenttal som visar hur mycket av det ursprungliga datasetet en språkmodell kan reproducera när den promptas på rätt sätt. Om en modell visas en films ID-nummer och svarar med dess titel och genre, räknas det som en lyckad återkallning. Det totala antalet lyckade återkallanden delas sedan med det totala antalet poster i datasetet för att producera en täckningsscore. Till exempel, om en modell korrekt returnerar information för 800 av 1 000 objekt, är dess täckning 80 procent.

Publicerad första gången fredag, 16 maj 2025