Unghiul lui Anderson

Modelele de limbaj mari se memorizează seturile de date destinate testării lor

Published May 16, 2025

Updated April 26, 2026

Martin Anderson

'Robot cheating in an exam' - ChatGPT-4o and Adobe Firefly

Dacă vă bazați pe IA pentru a vă recomanda ce să urmăriți, ce să citiți sau ce să cumpărați, o nouă cercetare indică faptul că unele sisteme se pot baza pe aceste rezultate din memorie, mai degrabă decât pe abilitate: în loc să învețe să facă sugestii utile, modelele adesea reamintesc articole din seturile de date utilizate pentru a le evalua, ceea ce duce la o performanță supraestimată și la recomandări care pot fi învechite sau slab corelate cu utilizatorul.

În învățarea automată, o divizare a testului este utilizată pentru a vedea dacă un model antrenat a învățat să rezolve probleme care sunt similare, dar nu identice cu materialul pe care a fost antrenat.

Deci, dacă un nou model de recunoaștere a rasei de câini IA este antrenat pe un set de date de 100.000 de poze cu câini, acesta va avea de obicei o divizare 80/20 – 80.000 de poze furnizate pentru a antrena modelul; și 20.000 de poze reținute și utilizate ca material pentru testarea modelului final.

Este evident de spus că, dacă datele de antrenare ale IA conțin involuntar secțiunea “secretă” de 20% a divizării testului, modelul va trece cu bine aceste teste, deoarece deja cunoaște răspunsurile (a văzut 100% din datele domeniului).

Desigur, acest lucru nu reflectă cu acuratețe modul în care modelul va performa mai târziu, pe date noi “live”, într-un context de producție.

Spoiler de film

Problema înșelăciunii IA la examenele sale a crescut odată cu scala modelelor însele. Deoarece sistemele de astăzi sunt antrenate pe corpora vaste și indiscriminate, extrase din web, cum ar fi Common Crawl, posibilitatea ca seturile de date de referință (adică cele 20% reținute) să intre în amestecul de antrenare nu mai este un caz marginal, ci devine o regulă – un sindrom cunoscut sub numele de contaminare a datelor; și la această scară, curățarea manuală care ar putea detecta astfel de erori este logistic imposibilă.

Acest caz este explorat într-o nouă lucrare de cercetare de la Politecnico di Bari din Italia, unde cercetătorii se concentrează asupra rolului disproporționat al unui singur set de date de recomandare de filme, MovieLens-1M, pe care îl consideră a fi fost parțial memorizat de mai multe modele IA de top în timpul antrenării.

Deoarece acest set de date particular este atât de frecvent utilizat în testarea sistemelor de recomandare, prezența sa în memoria modelelor poate face ca aceste teste să fie lipsite de sens: ceea ce pare a fi inteligență poate fi, de fapt, doar o simplă reamintire, iar ceea ce pare a fi o abilitate de recomandare intuitivă poate fi doar un ecou statistic care reflectă o expunere anterioară.

Autorii afirmă:

‘Rezultatele noastre demonstrează că LLM posedă cunoștințe extinse despre setul de date MovieLens-1M, care acoperă articole, atribute de utilizator și istoric de interacțiuni. În mod remarcabil, o simplă solicitare permite lui GPT-4o să recupereze aproape 80% din [numele celor mai multe filme din setul de date].

‘Niciunul dintre modelele examinate nu este lipsit de această cunoaștere, ceea ce sugerează că datele MovieLens-1M sunt probabil incluse în seturile lor de antrenare. Am observat tendințe similare în recuperarea atributelor de utilizator și a istoricului de interacțiuni.’

Lucrarea scurtă nouă se intitulează LLM-urile memorizează seturile de date de recomandare? Un studiu preliminar pe MovieLens-1M și provine de la șase cercetători de la Politecnico. Pipeline-ul pentru a reproduce lucrarea lor a fost făcut disponibil pe GitHub.

Metodă

Pentru a înțelege dacă modelele în cauză au învățat cu adevărat sau au memorizat doar, cercetătorii au început prin a defini ce înseamnă memorizarea în acest context și au testat dacă un model era capabil să recupereze informații specifice din setul de date MovieLens-1M, atunci când a fost solicitat în mod corespunzător.

Dacă un model a putut să returneze titlul și genul unui film din ID-ul său, aceasta a fost considerată o memorizare a articolului; dacă a putut să genereze detalii despre un utilizator (cum ar fi vârsta, ocupația sau codul poștal) din ID-ul utilizatorului, aceasta a fost considerată o memorizare a utilizatorului; și dacă a putut să reproducă următoarea evaluare a unui utilizator dintr-o secvență cunoscută de evaluări anterioare, aceasta a fost considerată o dovadă că modelul poate recupera date de interacțiune specifice, mai degrabă decât a învăța modele generale.

Fiecare dintre aceste forme de reamintire a fost testată utilizând solicitări scrise cu atenție, create pentru a împinge modelul fără a-i furniza informații noi. Cu cât răspunsul a fost mai precis, cu atât a fost mai probabil ca modelul să fi întâlnit deja aceste date în timpul antrenării:

Zero-shot prompting pentru protocolul de evaluare utilizat în lucrarea nouă. Sursă: https://arxiv.org/pdf/2505.10212

Date și teste

Pentru a curăța un set de date adecvat, autorii au examinat lucrări recente din două conferințe majore din domeniu, ACM RecSys 2024 și ACM SIGIR 2024. MovieLens-1M a apărut cel mai des, fiind citat în aproape o cincime din lucrările prezentate. Deoarece studii anterioare au ajuns la concluzii similare, acest lucru nu a fost o surpriză, ci mai degrabă o confirmare a dominanței setului de date.

MovieLens-1M constă din trei fișiere: Movies.dat, care listează filmele după ID, titlu și gen; Users.dat, care asociază ID-urile de utilizator cu câmpuri biografice de bază; și Ratings.dat, care înregistrează cine a evaluat ce film și când.

Pentru a determina dacă aceste date au fost memorizate de modelele de limbaj mari, cercetătorii s-au folosit de tehnici de solicitare introduse pentru prima dată în lucrarea Extragerea datelor de antrenare din modelele de limbaj mari și ulterior adaptate în lucrarea ulterioară Trucuri pentru extragerea datelor de antrenare din modelele de limbaj.

Metoda este directă: puneți o întrebare care reflectă formatul setului de date și vedeți dacă modelul răspunde corect. Zero-shot, Chain-of-Thought și few-shot prompting au fost testate, și s-a constatat că ultima metodă, în care modelul este arătat câteva exemple, a fost cea mai eficientă; chiar dacă abordări mai elaborate ar putea produce rate de reamintire mai mari, aceasta a fost considerată suficientă pentru a revela ce a fost memorizat.

Few-shot prompt utilizat pentru a testa dacă un model poate reproduce valori specifice MovieLens-1M atunci când este solicitat cu un context minim.

Pentru a măsura memorizarea, cercetătorii au definit trei forme de reamintire: articol, utilizator și interacțiune. Aceste teste au examinat dacă un model poate recupera un titlu de film din ID-ul său, genera detalii de utilizator dintr-un ID de utilizator sau prezice următoarea evaluare a unui utilizator pe baza evaluărilor anterioare. Fiecare a fost evaluat utilizând o metrică de acoperire* care a reflectat cât de mult din setul de date putea fi reconstruit prin solicitare.

Modelele testate au fost GPT-4o; GPT-4o mini; GPT-3.5 turbo; Llama-3.3 70B; Llama-3.2 3B; Llama-3.2 1B; Llama-3.1 405B; Llama-3.1 70B; și Llama-3.1 8B. Toate au fost rulate cu temperatură setată la zero, top_p setat la unu, și atât penalitatea de frecvență, cât și penalitatea de prezență au fost dezactivate. Un sămânță aleatoare fixă a asigurat ieșiri consistente de-a lungul rulărilor.

Procentul de intrări MovieLens-1M recuperate din movies.dat, users.dat și ratings.dat, cu modele grupate după versiune și ordonate după numărul de parametri.

Pentru a sonda cât de profund a fost absorbit MovieLens-1M, cercetătorii au solicitat fiecărui model să recupereze intrări exacte din cele trei fișiere (menționate anterior) ale setului de date: Movies.dat, Users.dat și Ratings.dat.

Rezultatele testelor inițiale, prezentate mai sus, arată diferențe puternice nu numai între familiile GPT și Llama, ci și între dimensiunile modelelor. În timp ce GPT-4o și GPT-3.5 turbo recuperează porțiuni mari din setul de date cu ușurință, majoritatea modelelor open-source recuperează doar o fracțiune din același material, ceea ce sugerează o expunere inegală la acest benchmark în timpul antrenării.

Acestea nu sunt marje mici. În toate cele trei fișiere, modelele puternice nu numai că au depășit modelele mai slabe, ci au recuperat porțiuni întregi din MovieLens-1M.

În cazul GPT-4o, acoperirea a fost suficient de mare pentru a sugera că o parte semnificativă a setului de date a fost memorizată direct.

Autorii afirmă:

‘Rezultatele noastre demonstrează că LLM posedă cunoștințe extinse despre setul de date MovieLens-1M, care acoperă articole, atribute de utilizator și istoric de interacțiuni.

‘În mod remarcabil, o simplă solicitare permite lui GPT-4o să recupereze aproape 80% din înregistrările MovieID::Title. Niciunul dintre modelele examinate nu este lipsit de această cunoaștere, ceea ce sugerează că datele MovieLens-1M sunt probabil incluse în seturile lor de antrenare.

‘Am observat tendințe similare în recuperarea atributelor de utilizator și a istoricului de interacțiuni.’

Următoarea observație a cercetătorilor continuă:

‘Deși performanța de recomandare pare excepțională, compararea Tabelului 2 cu Tabelul 1 revelează un model interesant. În cadrul fiecărui grup, modelul cu o memorizare mai mare demonstrează, de asemenea, o performanță superioară în sarcina de recomandare.

‘De exemplu, GPT-4o depășește GPT-4o mini, și Llama-3.1 405B depășește Llama-3.1 70B și 8B.

‘Aceste rezultate subliniază faptul că evaluarea LLM pe seturi de date care au fost divulgate în datele lor de antrenare poate duce la o performanță supraestimată, condusă de memorizare mai degrabă decât de generalizare.’

În ceea ce privește impactul dimensiunii modelului asupra acestei probleme, autorii au observat o corelație clară între dimensiune, memorizare și performanță de recomandare, cu modele mai mari care nu numai că rețin mai mult din setul de date MovieLens-1M, ci și performează mai puternic în sarcinile downstream.

Llama-3.1 405B, de exemplu, a arătat o rată medie de memorizare de 12,9%, în timp ce Llama-3.1 8B a reținut doar 5,82%. Această reducere de aproximativ 55% a ratei de reamintire a corespuns unei scăderi de 54,23% a nDCG și o scădere de 47,36% a HR la nivelurile de evaluare.

Modelul a fost păstrat pe tot parcursul – unde memorizarea a scăzut, și performanța a scăzut:

‘Aceste constatări sugerează că creșterea dimensiunii modelului duce la o memorizare mai mare a setului de date, ceea ce rezultă într-o performanță îmbunătățită.

‘Prin urmare, în timp ce modelele mai mari prezintă o performanță de recomandare mai bună, ele prezintă și riscuri legate de posibila scurgere a datelor de antrenare.’

Ultimul test a examinat dacă memorizarea reflectă sesizarea popularității încorporate în MovieLens-1M. Articolele au fost grupate după frecvența de interacțiune, și graficul de mai jos arată că modelele mai mari au favorizat în mod constant intrările cele mai populare:

Acoperirea articolelor pe model, în trei niveluri de popularitate: 20% cel mai popular; 20% moderat de popular; și 20% cel mai puțin interacționat.

GPT-4o a recuperat 89,06% din articolele de top, dar doar 63,97% din cele mai puțin populare. GPT-4o mini și modelele Llama mai mici au prezentat o acoperire mult mai mică în toate benzile. Cercetătorii afirmă că această tendință sugerează că memorizarea nu numai că crește odată cu dimensiunea modelului, ci și amplifică dezechilibrele preexistente în datele de antrenare.

Ei continuă:

‘Rezultatele noastre arată o sesizare puternică a popularității în LLM, articolele din top 20% fiind semnificativ mai ușor de recuperat decât cele din 20% din fund.

‘Acest trend subliniază influența distribuției datelor de antrenare, unde filmele populare sunt suprareprezentate, ceea ce duce la o memorizare disproporționată de către modele.’

Concluzie

Dilema nu mai este nouă: pe măsură ce seturile de date cresc, perspectiva curățării lor scade în proporție inversă. MovieLens-1M, poate printre multe altele, intră în aceste corpora uriașe fără supraveghere, anonim printre volumul imens de date.

Problema se repetă la fiecare scară și rezistă automatizării. Orice soluție necesită nu numai efort, ci și judecată umană – acel tip lent și imperfect pe care mașinile nu îl pot furniza. În acest sens, lucrarea nouă nu oferă nicio cale de urmat.

* O metrică de acoperire în acest context este un procent care arată cât de mult din setul de date original o model de limbaj poate reproduce atunci când este solicitat cu întrebarea potrivită. Dacă un model este solicitat cu un ID de film și răspunde cu titlul și genul corect, aceasta este considerată o reamintire de succes. Numărul total de reamintiri de succes este apoi împărțit la numărul total de intrări din setul de date pentru a produce un scor de acoperire. De exemplu, dacă un model returnează informații corecte pentru 800 din 1.000 de articole, acoperirea sa ar fi de 80 procente.

Publicat pentru prima dată vineri, 16 mai 2025