Connect with us

Suuret kielen mallit muistavat tietojoukkoja, joilla niitä testataan

Andersonin kulma

Suuret kielen mallit muistavat tietojoukkoja, joilla niitä testataan

mm
'Robot cheating in an exam' - ChatGPT-4o and Adobe Firefly

Jos luotat tekoälyyn suosituksissa siitä, mitä katsoa, lukea tai ostaa, uusi tutkimus osoittaa, että jotkut järjestelmät perustavat nämä tulokset muistista eikä taidosta: sen sijaan, että mallit oppisivat tekemään hyödyllisiä ehdotuksia, ne usein muistavat kohteita tietojoukoista, joita käytetään niiden arviointiin, mikä johtaa yliarviointiin ja suosituksiin, jotka saattavat olla vanhentuneita tai huonosti soveltuvia käyttäjälle.

 

Koneoppimisessa testijako käytetään sen määrittämiseen, onko koulutettu malli oppinut ratkaisemaan samanlaisia, mutta ei täsmälleen samanlaisia ongelmia kuin aineisto, jolla se on koulutettu.

Esimerkiksi jos uusi tekoälymalli koulutetaan 100 000 koirien valokuvan aineistolla, se sisältää yleensä 80/20-jakoa – 80 000 kuvaa toimittaa mallin koulutukseen; ja 20 000 kuvaa pidetään erillään ja käytetään valmiin mallin testaamiseen.

On selvää, että jos tekoälyn koulutusdata sisältää vahingossa “salaisen” 20 %:n testijakoa, malli suorittaa nämä testit täydellisesti, koska se jo tiedää vastaukset (se on jo nähnyt 100 %:in alueen dataa). Tietysti tämä ei heijasta oikein, miten malli suoriutuu myöhemmin uusilla “live”-datailla tuotantoympäristössä.

Elokuvaspoilerit

Tekoälyn vilppi kokeissa on kasvanut yhtä aikaa mallien kanssa. Koska nykyiset järjestelmät koulutetaan laajoilla, valikoimattomilla verkkokorpuksilla, kuten Common Crawl, on mahdollista, että benchmark-tietojoukot (ts. pidätetty 20 %) joutuvat koulutusseokseen, eikä se ole enää reunatapaus, vaan oletus – ilmiö, jota kutsutaan datan saastumiseksi; ja tässä mittakaavassa manuaalinen kuratointi, joka voisi havaita nämä virheet, on logistisesti mahdoton.

Tämä tapaus tutkitaan uudessa tutkimuksessa Italian Politecnico di Barista, jossa tutkijat keskittyvät yhden elokuvasuositustietojoukon, MovieLens-1M, rooliin, jonka he väittävät useiden johtavien tekoälymallien muistaneen osittain koulutuksen aikana.

Koska tätä tietojoukkoa käytetään laajasti suosittelujärjestelmien testaamiseen, sen läsnäolo mallien muistissa tekee nämä testit mahdollisesti merkityksettömiksi: se, mikä näyttää älykkyydeltä, voi oikeasti olla yksinkertaista muistia, ja se, mikä näyttää intuitiiviselta suosittelutaidolta, voi olla vain tilastollinen heijastus, joka heijastaa aikaisempaa altistumista.

Tutkijat toteavat:

‘Tutkimuksemme osoittavat, että LLM: t omaavat laajan tietämyksen MovieLens-1M-tietojoukosta, joka kattaa kohteita, käyttäjäominaisuuksia ja vuorovaikutushistorioita.

‘Huomattavaa on, että yksinkertainen kehote mahdollistaa GPT-4o: lle palauttaa lähes 80 % MovieID::Title-tietueista.

‘Yksikään tutkituista malleista ei ole vapaa tästä tietämyksestä, mikä viittaa siihen, että MovieLens-1M-data on todennäköisesti mukana niiden koulutusjoukoissa.

‘Havaitsemme samanlaisia trendejä käyttäjäominaisuuksien ja vuorovaikutushistorioiden palauttamisessa.’

Lyhyt uusi tutkimus on nimeltään Do LLMs Memorize Recommendation Datasets? A Preliminary Study on MovieLens-1M, ja se on kuudelta Politecnico-tutkijalta. Työn putki on tehty saataville GitHubissa.

Menetelmä

Ymmärtääkseen, ovatko mallit todella oppineet vai muistavatko ne, tutkijat alkoivat määrittelemällä, mitä muistaminen tarkoittaa tässä asiayhteydessä, ja alkoivat testaamalla, pystyykö malli palauttamaan tiettyjä tietoja MovieLens-1M-tietojoukosta, kun se kehotetaan oikealla tavalla.

Jos malli näytettiin elokuvan ID-numero ja se pystyi tuottamaan sen otsikko ja genre, se laskettiin muistamiseksi; jos se pystyi generoimaan tietoja käyttäjästä (kuten ikä, ammatti tai postinumero) käyttäjän ID:stä, se laskettiin käyttäjän muistamiseksi; ja jos se pystyi toistamaan käyttäjän seuraavan elokuva-arvostelun tunnetusta järjestyksestä edellisistä, se otettiin todisteeksi siitä, että malli saattaa muistaa tietyt vuorovaikutusdata eikä oppia yleisiä malleja.

Nämä muistamisen muodot testattiin huolellisesti kirjoitetuilla kehoituksilla, jotka oli suunniteltu viittaamaan malliin ilman uuden tiedon antamista. Mitä tarkempi vastaus oli, sitä todennäköisemmin malli oli jo kohdannut kyseisen datan koulutuksen aikana:

Zero-shot-prompting arviointiprotokollalle, jota käytettiin uudessa tutkimuksessa.

Zero-shot-prompting arviointiprotokollalle, jota käytettiin uudessa tutkimuksessa. Lähde: https://arxiv.org/pdf/2505.10212

Data ja testit

Sopivan tietojoukon kuratointiin tutkijat kartoittivat äskettäin julkaistuja tutkimuksia kahdesta alan suuresta konferenssista, ACM RecSys 2024 ja ACM SIGIR 2024. MovieLens-1M näkyi useimmin, ja se mainittiin vajaa viidennes julkaisuista. Koska aiemmat tutkimukset olivat saaneet samanlaisia johtopäätöksiä, tämä ei ollut yllätys, vaan vahvistus tietojoukon hallitsevasta asemasta.

MovieLens-1M koostuu kolmesta tiedostosta: Movies.dat, joka listaa elokuvat ID, otsikko ja genre; Users.dat, joka kartoittaa käyttäjän ID:hen perustuvia biografisia kenttiä; ja Ratings.dat, joka tallentaa, kuka arvosteli mitä ja milloin.

Tutkijat tutkivat, onko tieto muistettu suurista kielen malleista, ja pyysivät niitä palauttamaan tietoa tietojoukosta. He testasivat paperissa Extracting Training Data from Large Language Models esiteltiä kehottamistekniikoita, ja sovelsivat niitä myöhemmässä työssä Bag of Tricks for Training Data Extraction from Language Models.

Menetelmä on suora: aseta kysymys, joka heijastaa tietojoukon muotoa, ja katso, vastaako malli oikein. Zero-shot, Chain-of-Thought ja few-shot-prompting testattiin, ja havaittiin, että viimeksi mainittu menetelmä, jossa mallille näytetään muutamia esimerkkejä, oli tehokkain; vaikka monimutkaisemmat lähestymistavat saattavat antaa korkeamman palautusprosentin, tämä katsottiin riittäväksi osoittamaan, mitä oli muistettu:

Few-shot-prompting, jota käytettiin testaamaan, voivatko mallit toistaa tiettyjä MovieLens-1M-arvoja, kun niille annetaan vähäinen konteksti.

Few-shot-prompting, jota käytettiin testaamaan, voivatko mallit toistaa tiettyjä MovieLens-1M-arvoja, kun niille annetaan vähäinen konteksti.

Muistamisen mittaamiseksi tutkijat määrittelivät kolme muistamisen muotoa: kohteen, käyttäjän ja vuorovaikutuksen. Nämä testit tutkivat, pystyykö malli palauttamaan elokuvan otsikon sen ID:stä, generoimaan käyttäjän tiedot käyttäjän ID:stä tai ennustamaan käyttäjän seuraavan arvostelun edellisten perusteella. Kukin niistä mitattiin peittävyysmittarilla*, joka heijasti, kuinka paljon tietojoukkoa voitiin jälleenrakentaa kehottamisen avulla.

Testatuista malleista olivat GPT-4o; GPT-4o mini; GPT-3.5 turbo; Llama-3.3 70B; Llama-3.2 3B; Llama-3.2 1B; Llama-3.1 405B; Llama-3.1 70B; ja Llama-3.1 8B. Kaikki ajettiin lämpötilalla nolla, top_p asetettu yksi, ja sekä taajuus- ja läsnäolopalkkio poistettu. Kiinteä satunnainen siemen varmisti johdonmukaisen tulosteen ajokerran aikana.

MovieLens-1M-merkintöjen osuus movies.dat, users.dat ja ratings.dat -tiedostoista, joissa mallit on ryhmitelty versioittain ja järjestetty parametrilukumäärän mukaan.

MovieLens-1M-merkintöjen osuus movies.dat, users.dat ja ratings.dat -tiedostoista, joissa mallit on ryhmitelty versioittain ja järjestetty parametrilukumäärän mukaan.

Tutkijat pyysivät kunkin mallia palauttamaan tarkat tiedot tietojoukon kolmesta (mainittu) tiedostosta: Movies.dat, Users.dat ja Ratings.dat.

Alkutestien tulokset, jotka näkyvät yllä, paljastavat teräviä eroja sekä GPT- ja Llama-perheiden välillä että mallikoon sisällä. Vaikka GPT-4o ja GPT-3.5 turbo palauttavat suuria osia tietojoukosta helposti, useimmat avoimen lähdekoodin mallit muistavat vain pienen osan samaa materiaalia, mikä viittaa epätasapuoliseen altistumiseen esikoulutuksessa.

Näitä eivät ole pienet marginaalit. Kaikkien kolmen tiedoston osalta vahvimmat mallit eivät ainoastaan suorittaneet paremmin heikompia malleja, vaan muistivat koko osia MovieLens-1M:stä.

GPT-4o:n kattavuus oli tarpeeksi korkea osoittamaan, että merkittävä osa tietojoukosta oli suoraan muistettu.

Tutkijat toteavat:

‘Tutkimuksemme osoittavat, että LLM: t omaavat laajan tietämyksen MovieLens-1M-tietojoukosta, joka kattaa kohteita, käyttäjäominaisuuksia ja vuorovaikutushistorioita.

‘Huomattavaa on, että yksinkertainen kehote mahdollistaa GPT-4o: lle palauttaa lähes 80 % MovieID::Title-tietueista.

‘Yksikään tutkituista malleista ei ole vapaa tästä tietämyksestä, mikä viittaa siihen, että MovieLens-1M-data on todennäköisesti mukana niiden koulutusjoukoissa.

‘Havaitsemme samanlaisia trendejä käyttäjäominaisuuksien ja vuorovaikutushistorioiden palauttamisessa.’

Seuraavaksi tutkijat testasivat muistamisen vaikutusta suosittelutehtäviin pyytämällä kunkin mallia toimimaan suosittelujärjestelmänä. Vertailukohdaksi he vertasivat tulokset seitsemään standardimenetelmään: UserKNN; ItemKNN; BPRMF; EASER; LightGCN; MostPop; ja Random.

MovieLens-1M-tietojoukko jaettiin 80/20:een koulutus- ja testijoukkoihin, käyttäen leave-one-out -näytteistysstrategiaa, jotta voidaan simuloida todellista käyttöä. Käytetyt mittarit olivat Hit Rate (HR@[n]); ja nDCG(@[n]):

Suosittelun tarkkuus standardivertailukohteissa ja LLM-pohjaisissa menetelmissä. Mallit on ryhmitelty perheittäin ja järjestetty parametrilukumäärän mukaan, ja lihavoitu arvo osoittaa korkeimman tuloksen kussakin ryhmässä.

Suosittelun tarkkuus standardivertailukohteissa ja LLM-pohjaisissa menetelmissä. Mallit on ryhmitelty perheittäin ja järjestetty parametrilukumäärän mukaan, ja lihavoitu arvo osoittaa korkeimman tuloksen kussakin ryhmässä.

Tässä useat suuret kielen mallit suorittivat paremmin perinteisiä vertailukohdeja kaikilla mittareilla, GPT-4o:n asettamana laajalle johtoasemalle jokaisessa sarakkeessa, ja jopa keskikokoiset mallit, kuten GPT-3.5 turbo ja Llama-3.1 405B, ylittivät johdonmukaisesti vertailumenetelmiä, kuten BPRMF ja LightGCN.

Pienempien Llama-varianttien suorituskyky vaihteli terävästi, mutta Llama-3.2 3B erottuu, saavuttaen korkeimman HR@1 -tuloksen ryhmässään.

Tutkijat toteavat:

‘Vaikka suosittelun suorituskyky näyttää erinomaiselta, vertaamalla taulukkoa 2 taulukkoon 1 paljastuu mielenkiintoinen kuva.

‘Jokaisessa ryhmässä malli, jolla on suurempi muistaminen, osoittaa myös parempaa suorituskykyä suosittelutehtävässä.

‘Esimerkiksi GPT-4o suorittaa paremmin kuin GPT-4o mini, ja Llama-3.1 405B suorittaa paremmin kuin Llama-3.1 70B ja 8B.

‘Nämä tulokset korostavat, että LLM:ien arviointi tietojoukoissa, jotka on vuotanut niiden koulutusdataan, voi johtaa liian optimistiseen suorituskykyyn, joka johtuu muistamisesta eikä yleistymisestä.’

Mallin koosta johtuvan ongelman vaikutuksesta tutkijat havaitsivat selkeän korrelaation koosta, muistamisesta ja suosittelusuorituskyvystä, jossa suuremmat mallit eivät ainoastaan muistaneet enemmän MovieLens-1M-tietojoukkoa, vaan myös suorittivat vahvemmin alihankintatehtävissä.

Llama-3.1 405B esimerkiksi osoitti 12,9 prosentin keskimääräisen muistamisprosentin, kun taas Llama-3.1 8B muisti ainoastaan 5,82 prosenttia. Tästä 55 prosentin laskusta muistissa seurasi 54,23 prosentin lasku nDCG:ssä ja 47,36 prosentin lasku HR:ssä arviointirajoissa.

Kuviot pidettiin yllä – kun muistaminen väheni, myös näennäinen suorituskyky väheni:

‘Nämä tulokset osoittavat, että mallin mittakaavan kasvattaminen johtaa tietojoukon suurempaan muistamiseen, mikä parantaa suorituskykyä.

‘Seurauksena suuremmat mallit osoittavat parempaa suosittelusuorituskykyä, mutta ne myös aiheuttavat riskejä mahdollisen koulutusdatan vuotamiseen liittyen.’

Viimeinen testi tutki, heijastaa muistaminen suosittelun sisäänrakennetun suosikkibias MovieLens-1M:stä. Kohteet jaettiin vuorovaikutuksen tiheyden mukaan, ja alla oleva kaavio osoittaa, että suuremmat mallit suosivat johdonmukaisesti suosituimpia kohteita:

Kohteen kattavuus mallikohtaisesti kolmessa suosikkiluokassa: 20 % suosituimpia; 20 % kohtuullisen suosittuja; ja 20 % vähiten vuorovaikutuksessa olevia kohteita.

Kohteen kattavuus mallikohtaisesti kolmessa suosikkiluokassa: 20 % suosituimpia; 20 % kohtuullisen suosittuja; ja 20 % vähiten vuorovaikutuksessa olevia kohteita.

GPT-4o palautti 89,06 prosenttia ylempien listattujen kohteista, mutta vain 63,97 prosenttia vähiten suosittuja. GPT-4o mini ja pienemmät Llama-mallit osoittivat paljon alhaisemman kattavuuden kaikissa ryhmissä. Tutkijat toteavat:

‘Tutkimuksemme osoittavat, että LLM: t omaavat laajan tietämyksen MovieLens-1M-tietojoukosta, joka kattaa kohteita, käyttäjäominaisuuksia ja vuorovaikutushistorioita.

‘Huomattavaa on, että yksinkertainen kehote mahdollistaa GPT-4o: lle palauttaa lähes 80 % MovieID::Title-tietueista.

‘Yksikään tutkituista malleista ei ole vapaa tästä tietämyksestä, mikä viittaa siihen, että MovieLens-1M-data on todennäköisesti mukana niiden koulutusjoukoissa.

‘Havaitsemme samanlaisia trendejä käyttäjäominaisuuksien ja vuorovaikutushistorioiden palauttamisessa.’

Johtopäätös

Dilemma ei ole enää uusi: mitä koulutusjoukot kasvavat, niiden kuratointimahdollisuudet vähenevät suhteessa. MovieLens-1M, ehkä monien muiden joukossa, tulee näihin laajiin korpuksiin valvomatta, nimettömänä valtavan datamäärän seassa.

Ongelma toistuu jokaisessa mittakaavassa ja vastustaa automaatiota. Mikä tahansa ratkaisu vaatii ei ainoastaan vaivaa vaan myös ihmisen arviointia – hitasta, virhealtista, jota koneet eivät voi tarjota. Tässä suhteessa uusi tutkimus ei tarjoa eteenpäin vievää ratkaisua.

 

* Peittävyysmittari tässä asiayhteydessä on prosentti, joka osoittaa, kuinka paljon alkuperäisestä tietojoukosta kielen malli pystyy jälleenrakentamaan, kun sille esitetään oikeanlainen kysymys. Jos malli vastaa oikein, kun sille esitetään elokuvan ID ja se tuottaa oikean otsikon ja genren, se lasketaan onnistuneeksi palautukseksi. Onnistuneiden palautusten kokonaismäärä jaetaan tietojoukon kokonaismäärällä, jolloin saadaan peittävyyspiste. Esimerkiksi jos malli palauttaa oikeat tiedot 800:sta 1000 kohteesta, sen peittävyys on 80 prosenttia.

Julkaistu ensimmäisen kerran perjantaina 16. toukokuuta 2025

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]