Anderson’un Açısı

Büyük Dil Modelleri, Onları Test Etmek İçin Kullanılan Veri Kümelerini Hafızaya Alıyorlar

Published May 16, 2025

Updated April 26, 2026

Martin Anderson

'Robot cheating in an exam' - ChatGPT-4o and Adobe Firefly

Eğer AI’ı izlemek, okumak veya satın almak için önerilere güveniyorsanız, yeni bir araştırmaya göre bazı sistemler bu sonuçları hafızadan rather than beceriden elde ediyorlar: önerilerde bulunmak için yararlı önerilerde bulunmak yerine, modeller genellikle onları değerlendirmek için kullanılan veri kümelerinden öğeleri hatırlarlar, bu da performansı abartılı olarak gösterir ve kullanıcıya uygun olmayan veya eskimiş önerilere neden olabilir.

Makine öğreniminde, bir test-split bir modelin benzer ancak aynı olmayan sorunları çözmeyi öğrendiğini görmek için kullanılır.

Bu nedenle, yeni bir AI ‘köpek ırkı tanıma’ modeli 100.000 köpek resmi veri kümesiyle eğitilirse, genellikle 80/20 bölünme özelliğini gösterir – 80.000 resim modeli eğitmek için sağlanır ve 20.000 resim geri çekilir ve bitmiş modeli test etmek için kullanılır.

Elbette, AI’ın eğitim verisi kazara ‘gizli’ %20’lik test bölümünü içeriyorsa, model bu testleri geçer, çünkü zaten cevapları biliyor (100% etki alanını görmüştür). Tabii ki, bu modelin daha sonra, canlı verilerde, üretim ortamında nasıl performans göstereceğini doğru bir şekilde yansıtmaz.

Film Spoilerları

AI’ın sınavlarında hile yapma sorunu, modellerin kendileri ile birlikte büyümüştür. Bugün kullanılan sistemler, Common Crawl gibi devasa, ayrım gözetmeyen web kazıma corpora ile eğitildiğinden, benchmark veri kümelerinin (yani, geri çekilen %20’lik bölümün) eğitim karışıma girmesi artık bir kenar durumu değil, varsayılan bir durum haline gelmiştir – veri kirlenmesi sendromu olarak bilinen bir durum; ve bu ölçekte, bu hataları yakalayabilecek manuel kürasyon mantıksal olarak imkansızdır.

Bu durum, İtalya’nın Politecnico di Bari’nden bir grup araştırmacı tarafından incelenmiştir ve araştırmacılar, bir film öneri veri kümesi olan MovieLens-1M üzerinde yoğunlaşıyorlar ve bu veri kümesinin birkaç önde gelen AI modeli tarafından kısmen hafızaya alındığını savunuyorlar.

Bu belirli veri kümesi, öneri sistemlerinin test edilmesinde çok yaygın olarak kullanıldığından, modellerin hafızasında varlığı, bu testlerin anlamsız olmasına neden olabilir: zekaya benzeyen şey aslında basit bir hafıza olabilir ve öneri becerisi olarak görünen şey, aslında daha önce maruz kalınan istatistiksel bir yankı olabilir.

Araştırmacılar şöyle diyor:

‘Buluntularımız, LLM’lerin MovieLens-1M veri kümesiyle ilgili kapsamlı bilgiye sahip olduğunu gösteriyor, bu bilgi öğeleri, kullanıcı özniteliklerini ve etkileşim geçmişlerini kapsıyor.

‘Önemli olarak, basit bir.prompt, GPT-4o’ya veri kümesindeki neredeyse %80’lik bölümünü geri yüklemesine olanak tanır.

‘İncelenen hiçbir model bu bilgiden muaf değildir, bu da MovieLens-1M verilerinin muhtemelen eğitim setlerine dahil edildiğini gösterir.

‘Kullanıcı özniteliklerini ve etkileşim geçmişlerini geri yüklemekte benzer eğilimleri gözlemledik.’

Kısa yeni makale, LLM’ler Öneri Veri Kümelerini Hafızaya Alıyorlar mı? MovieLens-1M Üzerine Bir Ön Çalışma başlığını taşıyor ve Politecnico’dan altı araştırmacının eseridir. Çalışmanın pipeline’ı GitHub’da mevcuttur.

Yöntem

Sorulan modellerin gerçekten öğrenip öğrenmediğini veya sadece hatırlayıp hatırlamadığını anlamak için araştırmacılar, önce bu bağlamda hafızanın ne anlama geldiğini tanımladılar ve bir modelin, doğru şekilde yönlendirildiğinde, MovieLens-1M veri kümesinden belirli bilgi parçalarını geri yükleyip yükleyemeyeceğini test ettiler.

Eğer bir model bir film kimlik numarasını görüntüleyip title ve türünü üretebiliyorsa, bu bir öğeyi hafızaya alma olarak kabul ediliyordu; eğer bir kullanıcı kimliğinden kullanıcı detayları (örneğin, yaş, meslek veya posta kodu) üretebiliyorsa, bu da kullanıcı hafızası olarak kabul ediliyordu; ve eğer bir model, bilinen bir dizi önceki film puanından sonra bir kullanıcının bir sonraki film puanını üretebiliyorsa, bu da spesifik etkileşim verisi hatırlıyor olabileceğine dair kanıt olarak kabul ediliyordu.

Her biri, modeli yönlendirmeden utanmadan written prompts kullanılarak test edildi. Cevabın doğruluğu ne kadar yüksekse, modelin zaten eğitim sırasında bu verileri görmüş olma olasılığı o kadar yüksekti:

Değerlendirme protokolü için kullanılan zero-shot prompting. Kaynak: https://arxiv.org/pdf/2505.10212

Veri ve Testler

Uygun bir veri kümesi oluşturmak için araştırmacılar, alanın iki büyük konferansından recent makaleleri incelediler, ACM RecSys 2024 ve ACM SIGIR 2024. MovieLens-1M en çok bahsedilen veri kümesiydi ve yaklaşık her beş makaleden birinde atıfta bulunuldu. Önceki çalışmalar benzer sonuçlara ulaştığından, bu beklenmedik bir sonuç değildi, ancak daha çok bu veri kümesinin baskınlığının bir teyidiydi.

MovieLens-1M üç dosyadan oluşur: Filmler.dat, filmleri kimlik, başlık ve tür olarak listeler; Kullanıcılar.dat, kullanıcı kimliklerini temel biyografik alanlara eşler; ve Değerlendirmeler.dat, kimin neyi, ne zaman değerlendirdiğini kaydeder.

Bu verilerin büyük dil modelleri tarafından hafızaya alınıp alınamadığını öğrenmek için araştırmacılar, makale Büyük Dil Modellerinden Eğitim Verilerini Çıkarmak ilk olarak tanıtılan ve daha sonra sonraki çalışmada Dil Modellerinden Eğitim Verileri Çıkarmak için Hileler uyarlanan yöntemlere başvurdu.

Yöntem doğrudan: Veri kümesi formatını yansıtan bir soru sor ve modelin doğru cevaplayıp cevaplayamadığını gör.

Zero-shot, Chain-of-Thought ve few-shot prompting test edildi ve sonuncusunun, modelin birkaç örneğe gösterildiği ve en etkili olduğu görüldü; daha karmaşık yaklaşımlar daha yüksek geri çağırma oranları verebilir, ancak bu, neyin hatırlanıp neyin öğrenildiğini ortaya çıkarmak için yeterli kabul edildi.

Minimal kontekst ile sorgulandığında belirli MovieLens-1M değerlerini geri yükleyip yükleyemeyeceğini test etmek için kullanılan few-shot prompt.

Hafızayı ölçmek için araştırmacılar, üç tür geri çağırma tanımladı: öğe, kullanıcı ve etkileşim. Bu testler, bir modelin bir film başlığını kimlik numarasından geri yükleyip yükleyemeyeceğini, bir kullanıcı kimliğinden kullanıcı detayları üretebilir olup olmadığını ve bir kullanıcının bir sonraki film puanını önceki puanlardan tahmin edip edemeyeceğini inceledi. Her biri, veri kümesinin ne kadarının soru sorma yoluyla yeniden oluşturulabileceğini yansıtan bir kapsama ölçütü kullanılarak puanlandı.

Test edilen modeller GPT-4o; GPT-4o mini; GPT-3.5 turbo; Llama-3.3 70B; Llama-3.2 3B; Llama-3.2 1B; Llama-3.1 405B; Llama-3.1 70B; ve Llama-3.1 8B. Tüm modeller sıcaklık 0, top_p 1 ve hem sıklık ve varlık cezaları devre dışı bırakılarak çalıştırıldı. Sabit bir rastgele tohum çıktı tutarlılığını çalıştırma boyunca sağladı.

movies.dat, users.dat ve ratings.dat’ten alınan MovieLens-1M girişlerinin geri yüklenen oranları, modeller sürüm ve parametre sayısıyla sıralanmış olarak gruplandırılmış.

Veri kümesinin ne kadarının modeller tarafından alınabileceğini öğrenmek için araştırmacılar, her modeli veri kümesinin üç dosyasından (önceki olarak bahsedilen) tam girişler için sorguladılar:

Veri kümesinin ne kadarının modeller tarafından alınabileceğini öğrenmek için araştırmacılar, her modeli veri kümesinin üç dosyasından tam girişler için sorguladılar:

İlk testlerin sonuçları, yukarıda gösterilen, GPT ve Llama aileleri arasında keskin farklılıkları ve ayrıca model boyutları arasında farklılıkları ortaya koyuyor. GPT-4o ve GPT-3.5 turbo, veri kümesinin büyük kısımlarını kolayca geri yüklerken, çoğu açık kaynaklı model sadece aynı materyalin bir kısmını geri çağırabiliyor, bu da bu testlerin anlamsız olabileceğini gösteriyor.

Bu, küçük marjinal değil. Tüm üç dosyada, en güçlü modeller sadece daha zayıf olanları geride bırakmakla kalmadı, aynı zamanda MovieLens-1M’in tam bölümlerini geri çağırdı.

GPT-4o için kapsama o kadar yüksekti ki, veri kümesinin önemli bir bölümünün doğrudan hafızaya alındığını gösteriyordu.

Araştırmacılar şöyle diyor:

‘Önemli olarak, basit bir.prompt, GPT-4o’ya veri kümesindeki neredeyse %80’lik bölümünü geri yüklemesine olanak tanır.

‘İncelenen hiçbir model bu bilgiden muaf değildir, bu da MovieLens-1M verilerinin muhtemelen eğitim setlerine dahil edildiğini gösterir.

‘Kullanıcı özniteliklerini ve etkileşim geçmişlerini geri yüklemekte benzer eğilimleri gözlemledik.’

Sonraki olarak, araştırmacılar, modellerin hafızaya alma etkisini öneri görevlerinde test ettiler ve her modeli bir öneri sistemi olarak davrandırdılar. Performansı benchmarklamak için, çıktıları yedi standart yöntemle karşılaştırdılar: UserKNN; ItemKNN; BPRMF; EASE^R; LightGCN; MostPop; ve Random.

MovieLens-1M veri kümesi, leave-one-out örneklem stratejisi kullanılarak 80/20 olarak eğitim ve test kümelerine bölündü. Kullanılan metriklere Hit Rate (HR@[n]) ve nDCG(@[n]) dahildir:

Standart referanslar ve LLM tabanlı yöntemler上的 öneri doğruluğu. Modeller ailelerine göre gruplandırılmış ve parametre sayısıyla sıralanmıştır, kalın değerler her gruptaki en yüksek puanı gösterir.

Burada, birkaç büyük dil modeli, tüm metriklere karşı geleneksel referansları geride bıraktı, GPT-4o her sütunda geniş bir liderlik kurdu ve hatta orta boy modeller gibi GPT-3.5 turbo ve Llama-3.1 405B, referans yöntemleri gibi BPRMF ve LightGCN’i tutarlı bir şekilde geçtiler.

Küçük Llama varyantları arasında performans keskin bir şekilde değişti, ancak Llama-3.2 3B, kendi grubunda en yüksek HR@1 ile dikkat çekti.

Araştırmacılar, sonuçların, hafızaya alınan verilerin, özellikle en güçlü modeller için, öneri tarzı sorgulamada ölçülebilir avantajlara dönüşebileceğini gösterdiğini öne sürüyorlar.

Ek bir gözlemde, araştırmacılar şöyle devam ediyor:

‘Görünüşte mükemmel öneri performansı rağmen, Tablo 2 ile Tablo 1’i karşılaştırmak ilginç bir modele işaret ediyor. Her grupta, daha yüksek hafızaya alma oranına sahip model, öneri görevinde daha iyi performans gösteriyor.

‘Örneğin, GPT-4o, GPT-4o mini’yi geride bırakıyor ve Llama-3.1 405B, Llama-3.1 70B ve 8B’yi geçiyor.

‘Bu sonuçlar, LLM’lerin eğitim verilerinde sızdırılan veri kümeleri üzerinde değerlendirilmesinin, genellemeye değil hafızaya dayanarak aşırı iyimser performanslara yol açabileceğini vurguluyor.’

Model ölçeğinin bu sorun üzerindeki etkisine gelince, araştırmacılar, boyut, hafızaya alma ve öneri performansı arasında net bir korelasyon gözlemlediler, daha büyük modellerin sadece MovieLens-1M veri kümesinin daha fazlasını saklamakla kalmayıp, aynı zamanda aşağı akış görevlerinde daha güçlü performans gösterdiğini gördüler.

Örneğin, Llama-3.1 405B, ortalama %12.9’luk bir hafızaya alma oranına sahiyken, Llama-3.1 8B sadece %5.82’lik bir oran sergiledi. Bu, geri çağırma oranında yaklaşık %55’lik bir azalma, nDCG’de %54.23’lük ve HR’de %47.36’lık bir düşüşe karşılık geldi.

Desen her yerde geçerliydi – hafızaya alma azaldıkça, görünür performans da azaldı:

‘Buluntularımız, model ölçeğinin artmasının veri kümesinin daha fazla hafızaya alınmasına yol açtığını, bu da performansın iyileştirilmesine neden olduğunu gösteriyor.

‘Dolayısıyla, daha büyük modeller daha iyi öneri performansı sergilerken, aynı zamanda eğitim verilerinin potansiyel sızıntısı riskini de taşıyorlar.’

Son test, hafızaya almanın MovieLens-1M’de bulunan popülerlik yanlılığını yansıtıp yansıtmadığını araştırdı. Öğeler, etkileşim sıklığına göre gruplandırıldı ve aşağıdaki grafik, daha büyük modellerin tutarlı bir şekilde en popüler girişleri tercih ettiğini gösteriyor:

Üç popülerlik seviyesi boyunca modellerin öğe kapsamı: en çok etkileşim gören %20, orta %20 ve en az etkileşim gören %20.

GPT-4o, en üst sıradaki öğelerin %89.06’sını geri yüklerken, en az popüler olanların sadece %63.97’sini geri yükledi. GPT-4o mini ve daha küçük Llama modelleri, tüm bantlar boyunca çok daha düşük kapsama sahipti. Araştırmacılar, bu eğilimin, hafızaya almanın sadece model boyutuyla değil, aynı zamanda önceden-existing dengesizliklerin eğitim verisi dağılımında da arttığını gösterdiğini söylüyorlar.

Araştırmacılar şöyle devam ediyor:

‘Buluntularımız, LLM’lerde belirgin bir popülerlik yanlılığı olduğunu gösteriyor, en üstteki %20’lik popüler öğelerin, en alttaki %20’lik öğelere göre önemli ölçüde daha kolay geri yüklenmesine neden oluyor.

‘Bu eğilim, eğitim verisi dağılımının etkisini vurguluyor, burada popüler filmler aşırı temsil ediliyor ve modeller tarafından orantısız bir şekilde hafızaya alınıyor.’

SONUÇ

İkilem artık yeni değil: eğitim setleri büyüdükçe, onları kürasyon şansları ters orantılı olarak azalır. MovieLens-1M, muhtemelen diğerleriyle birlikte, bu devasa corpora’ya denetimsiz bir şekilde girer.

Sorun her ölçekte tekrarlanır ve otomasyona karşı direnç gösterir. Herhangi bir çözüm, sadece çaba değil, insan yargısı gerektirir – makinaların sağlayamayacağı yavaş, hatalı tür.

Bu bağlamda, yeni makale ilerleme yönünde bir öneri sunmuyor.

* Bu bağlamda kapsama ölçütü, bir dil modelinin soru sorulduğunda orijinal veri kümesinin ne kadarını geri yükleyebileceğini gösteren bir yüzdür. Bir model bir film kimlik numarasına gösterilip doğru başlık ve türü üretebiliyorsa, bu başarılı bir geri çağırma olarak kabul edilir. Başarılı geri çağırma sayısı, veri kümesindeki toplam giriş sayısıyla bölünerek kapsama puanı üretilir. Örneğin, bir model 1000 öğeden 800’ini doğru olarak geri yüklerse, kapsama oranı %80 olur.

İlk olarak Cuma, 16 Mayıs 2025’te yayımlandı

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]

Unite.AI

Büyük Dil Modelleri, Onları Test Etmek İçin Kullanılan Veri Kümelerini Hafızaya Alıyorlar

Film Spoilerları

Yöntem

Veri ve Testler

SONUÇ

You may like