Andersonův úhel

Velké jazykové modely memorizují datové sady, které mají být použity pro jejich testování

Published May 16, 2025

Updated April 26, 2026

Martin Anderson

'Robot cheating in an exam' - ChatGPT-4o and Adobe Firefly

Pokud se spoléháte na umělou inteligenci, aby vám doporučila, co sledovat, číst nebo kupovat, nové výzkumy naznačují, že některé systémy mohou být založeny na výsledcích z paměti spíše než na dovednostech: místo toho, aby se naučily poskytovat užitečné návrhy, modely často připomínají položky z datových sad, které se používají k jejich hodnocení, což vede k přehnanému výkonu a doporučením, která mohou být zastaralá nebo špatně sladěná s uživatelem.

V strojovém učení se používá test-split, aby se zjistilo, zda trénovaný model naučil řešit problémy, které jsou podobné, ale ne identické s materiálem, na kterém byl trénován.

Takže pokud je nový model rozpoznávání plemen psů trénován na datové sadě 100 000 obrázků psů, obvykle bude mít rozdělení 80/20 – 80 000 obrázků se použije k trénování modelu a 20 000 obrázků se použije jako materiál pro testování dokončeného modelu.

Je zřejmé, že pokud jsou data pro trénování AI náhodou zahrnuta do “tajné” 20% sekce test-split, model bude mít vysoké hodnocení, protože již zná odpovědi (už viděl 100% domény dat). Samozřejmě, že to přesně neodráží, jak bude model fungovat později, na nových “živých” datech, v produkčním kontextu.

Movie Spoilers

Problém, že AI podvádí na svých zkouškách, rostl spolu se škálou modelů samých. Protože dnešní systémy jsou trénovány na rozsáhlých, nespecifických webových korporech, jako je Common Crawl, možnost, že benchmark datové sady (tj. zadržené 20%) se dostanou do trénovací směsi, již není okrajový případ, ale výchozí – syndrom známý jako kontaminace dat; a v této škále je manuální kurace, která by mohla zachytit takové chyby, logisticky nemožná.

Tento případ je zkoumán v novém článku z italského Politecnico di Bari, kde se výzkumníci zaměřují na nadměrnou roli jediné datové sady pro doporučení filmů, MovieLens-1M, o které tvrdí, že byla částečně memorizována několika předními modely AI během trénování.

Protože tato konkrétní datová sada je tak široce používána při testování systémů doporučení, její přítomnost v paměti modelů potenciálně činí tyto testy bezvýznamnými: co vypadá jako inteligence, může ve skutečnosti být jednoduchou vzpomínkou, a co vypadá jako intuitivní dovednost doporučení, může být pouze statistickým odrazem předchozí expozice.

Autoři uvádějí:

‘Naše výsledky ukazují, že LLM mají rozsáhlé znalosti datové sady MovieLens-1M, pokrývající položky, atributy uživatelů a historie interakcí.

‘Zejména jednoduchý prompt umožňuje GPT-4o obnovit téměř 80% záznamů MovieID::Title. Žádný z prozkoumaných modelů není prost tohoto znalostí, což naznačuje, že data MovieLens-1M jsou pravděpodobně zahrnuta v jejich trénovacích sadách.

‘Podobné trendy jsme pozorovali při obnově atributů uživatelů a historie interakcí.’

Krátce nový článek se jmenuje Zda LLM memorizují datové sady pro doporučení? Předběžná studie o MovieLens-1M a pochází od šesti výzkumníků z Politecnico. Roura pro reprodukci jejich práce je k dispozici na GitHubu.

Metoda

Abychom porozuměli, zda modely skutečně učí nebo si pouze připomínají, výzkumníci začali definováním toho, co znamená memorizace v tomto kontextu, a začali testovat, zda model je schopen obnovit konkrétní kusy informací z datové sady MovieLens-1M, když je správně dotázán.

Pokud model viděl ID filmu a mohl produkovat jeho název a žánr, to se počítalo jako memorizace položky; pokud mohl generovat detaily o uživateli (jako je věk, zaměstnání nebo poštovní směrovací číslo) z ID uživatele, to se také počítalo jako memorizace uživatele; a pokud mohl reprodukovat hodnocení uživatele pro další film z známé sekvence předchozích, to se bralo jako důkaz, že model může připomínat konkrétní interakční data, spíše než učení obecných vzorců.

Každá z těchto forem vzpomínky byla testována pomocí pečlivě napsaných promptů, vytvořených tak, aby model neposkytoval nové informace. Čím byla odpověď přesnější, tím více to naznačovalo, že model již dříve viděl tato data během trénování:

Zero-shot prompting pro hodnocení protokolu použitý v novém článku. Zdroj: https://arxiv.org/pdf/2505.10212

Data a testy

Aby byla vytvořena vhodná datová sada, autoři prozkoumali recentní články ze dvou hlavních konferencí v oboru, ACM RecSys 2024 a ACM SIGIR 2024. MovieLens-1M se objevil nejčastěji, citován v téměř jedné pětině příspěvků. Protože předchozí studie dospěly k podobným závěrům, nebylo to překvapivým výsledkem, ale spíše potvrzením dominance datové sady.

MovieLens-1M se skládá ze tří souborů: Movies.dat, který seznamuje filmy podle ID, názvu a žánru; Users.dat, který mapuje ID uživatelů na základní biografická pole; a Ratings.dat, který zaznamenává, kdo ohodnotil co a kdy.

Aby se zjistilo, zda tato data byla memorizována velkými jazykovými modely, výzkumníci použili techniky promptování, které byly poprvé představeny v článku Extracting Training Data from Large Language Models, a později adaptovány v následující práci Bag of Tricks for Training Data Extraction from Language Models.

Metoda je přímá: položit otázku, která odráží formát datové sady, a zjistit, zda model odpoví správně. Zero-shot, Chain-of-Thought a few-shot prompting byly testovány, a bylo zjištěno, že poslední metoda, ve které je modelu ukázán několik příkladů, byla nejúčinnější; i když by mohly být použity lebih elaborované přístupy, aby se dosáhlo vyššího recallu, bylo považováno za dostatečné, aby se odhalilo, co bylo zapamatováno.

Few-shot prompt použitý k testování, zda model může reprodukovat konkrétní hodnoty MovieLens-1M, když je dotázán s minimálním kontextem.

Aby se změřilo, jak hluboko MovieLens-1M byla absorbována, výzkumníci požádali každý model o přesné položky z tří (předtím zmíněných) souborů: Movies.dat, Users.dat a Ratings.dat.

Výsledky z počátečních testů, uvedené výše, odhalují ostré rozdíly nejen mezi rodinami GPT a Llama, ale také napříč velikostmi modelů. Zatímco GPT-4o a GPT-3.5 turbo obnovují velké části datové sady snadno, většina open-source modelů připomíná pouze zlomek stejného materiálu, což naznačuje nerovnoměrnou expozici této benchmark datové sady během předtrénování.

Tyto nejsou malé rozpětí. Napříč všemi třemi soubory nej silnější modely nejen překonaly slabší modely, ale připomínaly celé části MovieLens-1M.

V případě GPT-4o byla pokrytí dostatečně vysoká, aby naznačila, že podstatná část datové sady byla přímo memorizována.

Autoři uvádějí:

‘Naše výsledky ukazují, že LLM mají rozsáhlé znalosti datové sady MovieLens-1M, pokrývající položky, atributy uživatelů a historie interakcí.

‘Podobné trendy jsme pozorovali při obnově atributů uživatelů a historie interakcí.’

Další pozorování výzkumníků pokračuje:

‘Ačkoli se zdá, že výkon doporučení je vynikající, srovnání Tabulky 2 s Tabulkou 1 odhaluje zajímavý vzorec. V rámci každé skupiny model s vyšší memorizací také prokazuje lepší výkon v úkolu doporučení.

‘Například GPT-4o překonává GPT-4o mini, a Llama-3.1 405B překonává Llama-3.1 70B a 8B.

‘Tyto výsledky zdůrazňují, že hodnocení LLM na datech, které prosákly do jejich trénovacích dat, může vést k přehnanému výkonu, poháněnému memorizací spíše než generalizací.’

Pokud jde o dopad velikosti modelu na tuto problematiku, autoři pozorovali jasnou korelaci mezi velikostí, memorizací a výkonem doporučení, s většími modely, které nejenom uchovávají více datové sady MovieLens-1M, ale také prokazují lepší výkon v downstream úkolech.

Llama-3.1 405B, například, prokázala průměrnou míru memorizace 12,9%, zatímco Llama-3.1 8B uchovávala pouze 5,82%. Tento pokles o téměř 55% v recallu odpovídal poklesu o 54,23% v nDCG a poklesu o 47,36% v HR napříč hodnoceními.

Vzorec platil po celou dobu – kde memorizace klesala, klesal také zdánlivý výkon:

‘Tyto výsledky naznačují, že zvýšení velikosti modelu vede k větší memorizaci datové sady, což výsledně vede k lepšímu výkonu.

‘V důsledku toho, zatímco větší modely prokazují lepší výkon doporučení, také představují rizika související s potenciálním únikem trénovacích dat.’

Konečný test prozkoumal, zda memorizace odráží popularity bias v MovieLens-1M. Položky byly seskupeny podle frekvence interakce, a graf níže ukazuje, že větší modely systematicky preferují nejpopulárnější položky:

Pokrytí položek podle modelu napříč třemi úrovněmi popularity: top 20% nejpopulárnější; střední 20% středně populární; a spodní 20% nejméně interagujících položek.

GPT-4o obnovila 89,06% top-hodnocených položek, ale pouze 63,97% nejméně populárních. GPT-4o mini a menší modely Llama prokázaly mnohem nižší pokrytí napříč všemi pásmy. Výzkumníci uvádějí, že tento trend naznačuje, že memorizace nejenom škáluje s velikostí modelu, ale také zesiluje předchozí nerovnováhy v trénovacích datech.

Oni pokračují:

‘Naše výsledky odhalují výrazný popularity bias v LLM, s top 20% nejpopulárnějších položek, které jsou podstatně snazší obnovit než spodní 20%.

‘Tento trend zdůrazňuje vliv distribuce trénovacích dat, kde populární filmy jsou nadměrně reprezentováni, což vede k jejich disproporční memorizaci modely.’

Závěr

Dilema již není nové: jak trénovací sady rostou, perspektiva jejich kurace klesá úměrně. MovieLens-1M, možná spolu s mnoha dalšími, vstupuje do těchto rozsáhlých korporací bez dozoru, anonymně uprostřed obrovského objemu dat.

Problém se opakuje na každé škále a odolává automatizaci. Jakékoli řešení vyžaduje nejen úsilí, ale také lidský úsudek – pomalý, chybný typ, který stroje nemohou dodat. V tomto ohledu nový článek nenabízí žádný způsob, jak pokračovat.

* Míra pokrytí v tomto kontextu je procentuální hodnota, která ukazuje, kolik původní datové sady je jazykový model schopen reprodukovat, když je správně dotázán. Pokud model je ukázán ID filmu a odpoví správným názvem a žánrem, to se počítá jako úspěšná vzpomínka. Celkový počet úspěšných vzpomínek je pak dělen celkovým počtem položek v datové sadě, aby se produkoval poměr pokrytí. Například, pokud model správně vrátí informace pro 800 z 1 000 položek, jeho pokrytí by bylo 80 procent.

Poprvé publikováno v pátek, 16. května 2025

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai

Unite.AI

Velké jazykové modely memorizují datové sady, které mají být použity pro jejich testování

Movie Spoilers

Metoda

Data a testy

Závěr

You may like