Anderson'ın Açısı
Büyük Dil Modelleri Kendilerini Test Etmek İçin Tasarlanan Veri Kümelerini Ezberliyor

İzlemeniz, okumanız veya satın almanız gerekenler konusunda yapay zekaya güveniyorsanız, yeni araştırmalar bazı sistemlerin bu sonuçları şu şekilde temellendirebileceğini gösteriyor: bellek beceri yerine: yararlı önerilerde bulunmayı öğrenmek yerine, modeller genellikle bunları değerlendirmek için kullanılan veri kümelerindeki öğeleri hatırlar ve bu da performansın abartılmasına ve güncelliğini yitirmiş veya kullanıcıyla yetersiz eşleşmiş önerilere yol açar.
Makine öğrenmesinde, test-bölümü Eğitilmiş bir modelin, eğitildiği materyale benzer ancak aynı olmayan problemleri çözmeyi öğrenip öğrenmediğini görmek için kullanılır.
Yani, yeni bir yapay zeka 'köpek cinsi tanıma' modeli, 100,000 köpek resminden oluşan bir veri kümesi üzerinde eğitilirse, genellikle 80/20 bölünmesine sahip olacaktır; modeli eğitmek için 80,000 resim sağlanacak ve 20,000 resim saklanarak bitmiş modeli test etmek için materyal olarak kullanılacaktır.
Açıkçası, yapay zekanın eğitim verileri yanlışlıkla test bölümünün 'gizli' %20'lik bölümünü içeriyorsa, model bu testlerde başarılı olacaktır, çünkü cevapları zaten biliyor (alan verilerinin %100'ünü zaten görmüştür). Elbette bu, modelin daha sonra, üretim ortamında yeni 'canlı' veriler üzerinde nasıl performans göstereceğini doğru bir şekilde yansıtmaz.
Film Spoiler'ları
Yapay zekânın sınavlarda kopya çekme sorunu, modellerin ölçeğiyle orantılı olarak büyüdü. Çünkü günümüz sistemleri, web'den toplanan ve ayrım gözetmeyen devasa veri kümeleri üzerinde eğitiliyor. Ortak Tarama, kıyaslama veri kümelerinin (yani, geri tutulan %20'nin) eğitim karışımına kayma olasılığı artık bir uç durum değil, varsayılan bir durumdur - bu sendrom olarak bilinir veri kirliliği; ve bu ölçekte, bu tür hataları yakalayabilecek manuel düzenleme lojistik olarak imkansızdır.
Bu durum, araştırmacıların tek bir film önerisi veri setinin büyük rolüne odaklandığı İtalya'nın Politecnico di Bari'sinden yeni bir makalede inceleniyor. FilmLens-1M, kısmen olduğunu iddia ettikleri ezberlemiş Eğitim sırasında çeşitli önde gelen yapay zeka modelleri tarafından.
Bu özel veri kümesi, tavsiye sistemlerinin test edilmesinde yaygın olarak kullanıldığından, modellerin hafızasında bulunması bu testleri anlamsız hale getirebilir: Zeka gibi görünen şey aslında basit bir hatırlama olabilir ve sezgisel bir tavsiye becerisi gibi görünen şey, daha önceki deneyimleri yansıtan istatistiksel bir yankı olabilir.
Yazarlar şunları belirtiyor:
'Bulgularımız, LLM'lerin MovieLens-1M veri kümesi hakkında öğeler, kullanıcı nitelikleri ve etkileşim geçmişlerini kapsayan kapsamlı bilgiye sahip olduğunu göstermektedir. Özellikle, basit bir komut, GPT-4o'nun [veri kümesindeki filmlerin çoğunun adlarının] yaklaşık %80'ini kurtarmasını sağlar.
'İncelenen modellerin hiçbiri bu bilgiden muaf değil; bu da MovieLens-1M verilerinin eğitim setlerine dahil edilmiş olma olasılığının yüksek olduğunu gösteriyor. Kullanıcı niteliklerini ve etkileşim geçmişlerini alma konusunda da benzer eğilimler gözlemledik.'
Kısa yeni kağıt başlıklı LLM'ler Tavsiye Veri Kümelerini Ezberliyor mu? MovieLens-1M Üzerine Ön Çalışmave altı Politecnico araştırmacısından geliyor. Çalışmalarını yeniden üretme hattı GitHub'da kullanıma sunuldu.
Yöntem
Söz konusu modellerin gerçekten öğrenip öğrenmediklerini ya da sadece hatırlayıp hatırlamadıklarını anlamak için araştırmacılar, öncelikle bu bağlamda ezberlemenin ne anlama geldiğini tanımlayarak işe koyuldular ve ardından bir modelin, doğru şekilde yönlendirildiğinde MovieLens-1M veri kümesinden belirli bilgi parçalarını geri çağırabilme yeteneğini test ederek başladılar.
Bir modele bir filmin kimlik numarası gösterilmişse ve filmin adını ve türünü üretebiliyorsa, bu bir öğeyi ezberlemek olarak sayıldı; bir kullanıcı kimliğinden bir kullanıcı hakkında ayrıntılar (yaş, meslek veya posta kodu gibi) üretebiliyorsa, bu da kullanıcı ezberlemesi olarak sayıldı; ve bir kullanıcının bir sonraki film derecelendirmesini bilinen bir önceki diziden yeniden üretebiliyorsa, bu modelin hatırlayabileceğine dair kanıt olarak kabul edildi. belirli etkileşim verileriGenel kalıpları öğrenmek yerine.
Bu hatırlama biçimlerinin her biri, modele yeni bilgi vermeden onu dürtmek için tasarlanmış, dikkatlice yazılmış istemler kullanılarak test edildi. Yanıt ne kadar doğruysa, modelin eğitim sırasında o veriyle daha önce karşılaşmış olma olasılığı o kadar yüksekti:

Yeni makalede kullanılan değerlendirme protokolü için sıfır atış istemi. Kaynak: https://arxiv.org/pdf/2505.10212
Veriler ve Testler
Uygun bir veri seti oluşturmak için yazarlar, alanın en önemli iki konferansından son makaleleri incelediler. ACM RecSys 2024 , ve ACM MÜHENDİSLİĞİ 2024. MovieLens-1M en sık göründü, beş başvurudan sadece birinde atıfta bulunuldu. önceki çalışmalar Benzer sonuçlara ulaşılmış olsaydı, bu şaşırtıcı bir sonuç değildi, aksine veri setinin baskınlığının bir teyidiydi.
MovieLens-1M üç dosyadan oluşur: Filmler.datFilmleri ID, başlık ve türe göre listeleyen; Kullanıcılar.datkullanıcı kimliklerini temel biyografik alanlara eşleyen; ve Derecelendirmeler.dat, kimin neyi, ne zaman derecelendirdiğini kaydeden bir uygulamadır.
Bu verilerin büyük dil modelleri tarafından ezberlenip ezberlenmediğini bulmak için araştırmacılar ilk olarak 19. yüzyılda tanıtılan yönlendirme tekniklerine yöneldiler. kâğıt Eğitim Verilerini Büyük Dil Modellerinden Çıkarmave daha sonra uyarlandı sonraki çalışma Dil Modellerinden Veri Çıkarımı Eğitimi İçin Püf Noktaları Çantası.
Yöntem doğrudandır: Veri kümesinin formatını yansıtan bir soru sorun ve modelin doğru yanıt verip vermediğine bakın. sıfır atış, Düşünce Zinciri, ve birkaç atışlık teşvik test edildi ve modelin birkaç örneğinin gösterildiği son yöntemin en etkili yöntem olduğu bulundu; daha ayrıntılı yaklaşımlar daha yüksek hatırlama sağlasa bile, neyin hatırlandığını ortaya çıkarmak için bunun yeterli olduğu düşünüldü.

Bir modelin, asgari bağlamla sorgulandığında belirli MovieLens-1M değerlerini yeniden üretebildiğini test etmek için kullanılan az çekimli istem.
Ezberlemeyi ölçmek için araştırmacılar üç hatırlama biçimi tanımladılar: madde, kullanıcı, ve etkileşimBu testler, bir modelin kimliğinden bir film başlığını alıp alamayacağını, bir Kullanıcı Kimliğinden kullanıcı bilgilerini oluşturup oluşturamayacağını veya önceki puanlara dayanarak bir kullanıcının bir sonraki puanını tahmin edip edemeyeceğini inceledi. Her biri, veri kümesinin ne kadarının yönlendirme yoluyla yeniden oluşturulabileceğini yansıtan bir kapsam metriği* kullanılarak puanlandı.
Test edilen modeller GPT-4o; GPT-4o mini; GPT-3.5 turbo; Lama-3.3 70B; Lama-3.2 3B; Lama-3.2 1B; Lama-3.1 405B; Lama-3.1 70B; Ve Lama-3.1 8B. Hepsi koştu sıcaklık sıfıra ayarlanmış, top_p birine ve her ikisine de ayarlayın frekans ve varlık cezalar devre dışı bırakıldı. Sabit rastgele tohum tüm çalışmalarda tutarlı çıktı sağlandı.

Modeller sürüme göre gruplandırılmış ve parametre sayısına göre sıralanmış şekilde, movies.dat, users.dat ve ratings.dat'tan alınan MovieLens-1M girişlerinin oranı.
MovieLens-1M'nin ne kadar derinden emildiğini araştırmak için araştırmacılar her modelden veri setinin üç (yukarıda belirtilen) dosyasından tam girdiler istedi: Filmler.dat, Kullanıcılar.dat, ve Derecelendirmeler.dat.
Yukarıda gösterilen ilk testlerden elde edilen sonuçlar, yalnızca GPT ve Llama aileleri arasında değil, aynı zamanda model boyutları arasında da keskin farklılıklar ortaya koymaktadır. GPT-4o ve GPT-3.5 turbo, veri setinin büyük bölümlerini kolaylıkla kurtarırken, çoğu açık kaynaklı model aynı materyalin yalnızca bir kısmını hatırlar ve bu da ön eğitimde bu kıyaslamaya eşit olmayan bir şekilde maruz kalındığını gösterir.
Bunlar küçük marjlar değil. Üç dosyanın hepsinde, en güçlü modeller sadece daha zayıf olanları geride bırakmakla kalmadı, aynı zamanda geri çağrıldı tüm porsiyonlar MovieLens-1M'nin.
GPT-4 durumunda, kapsama alanı, veri kümesinin önemsiz olmayan bir kısmının doğrudan ezberlendiğini düşündürecek kadar yüksekti.
Yazarlar şunları belirtiyor:
'Bulgularımız, LLM'lerin MovieLens-1M veri kümesi hakkında, öğeler, kullanıcı özellikleri ve etkileşim geçmişlerini kapsayan kapsamlı bilgiye sahip olduğunu göstermektedir.
'Önemli bir şekilde, basit bir komut GPT-4o'nun MovieID::Title kayıtlarının yaklaşık %80'ini kurtarmasını sağlar. İncelenen modellerin hiçbiri bu bilgiden muaf değildir, bu da MovieLens-1M verilerinin eğitim setlerine dahil edilmiş olma olasılığını düşündürmektedir.
'Kullanıcı niteliklerini ve etkileşim geçmişlerini almada da benzer eğilimler gözlemledik.'
Daha sonra, yazarlar her bir modeli bir öneri sistemi olarak hareket etmeye teşvik ederek ezberlemenin öneri görevleri üzerindeki etkisini test ettiler. Performansı kıyaslamak için çıktıyı yedi standart yöntemle karşılaştırdılar: kullanıcıKNN; ÖğeKNN; BPRMF; KOLAYLAŞTIRMAKR; IşıkGCN; EnPop; ve Rastgele.
MovieLens-1M veri seti, eğitim ve test setlerine 80/20 oranında bölündü. birini dışarıda bırakmak gerçek dünya kullanımını simüle etmek için örnekleme stratejisi. Kullanılan metrikler İsabet oranı (İK@[N]); ve nDCG(@[N]):

Standart baz hatları ve LLM tabanlı yöntemlerde öneri doğruluğu. Modeller aileye göre gruplandırılır ve parametre sayısına göre sıralanır, kalın değerler her gruptaki en yüksek puanı gösterir.
Burada birkaç büyük dil modeli tüm metriklerde geleneksel temel değerleri geride bıraktı; GPT-4o her sütunda geniş bir üstünlük kurdu ve hatta GPT-3.5 turbo ve Llama-3.1 405B gibi orta ölçekli modeller bile BPRMF ve LightGCN gibi kıyaslama yöntemlerini sürekli olarak geride bıraktı.
Daha küçük Llama varyantları arasında performans büyük farklılıklar gösterdi, ancak Llama-3.2 3B, grubunda en yüksek HR@1 değerine sahip olarak öne çıktı.
Yazarlar, sonuçların ezberlenmiş verilerin tavsiye tarzı yönlendirmede, özellikle en güçlü modeller için ölçülebilir avantajlara dönüşebileceğini gösterdiğini ileri sürüyorlar.
Araştırmacılar ek bir gözlemde şöyle devam ediyor:
'Öneri performansı olağanüstü görünse de, Tablo 2 ile Tablo 1'i karşılaştırmak ilginç bir örüntü ortaya koyuyor. Her grup içinde, daha yüksek ezberleme oranına sahip model, öneri görevinde de üstün performans gösteriyor.
'Örneğin GPT-4o, GPT-4o mini'yi geride bırakıyor ve Llama-3.1 405B, Llama-3.1 70B ve 8B'yi geride bırakıyor.
'Bu sonuçlar, LLM'leri eğitim verilerinde sızdırılan veri kümeleri üzerinden değerlendirmenin, genellemeden ziyade ezbere dayalı aşırı iyimser bir performansa yol açabileceğini ortaya koymaktadır.'
Yazarlar, model ölçeğinin bu konudaki etkisine ilişkin olarak, boyut, ezberleme ve öneri performansı arasında açık bir korelasyon gözlemlediler; daha büyük modeller yalnızca MovieLens-1M veri kümesinin daha fazlasını korumakla kalmadı, aynı zamanda alt görevlerde daha güçlü performans gösterdi.
Örneğin Llama-3.1 405B, %12.9'luk ortalama bir ezberleme oranı gösterirken, Llama-3.1 8B yalnızca %5.82'yi korudu. Hatırlamadaki bu yaklaşık %55'lik azalma, nDCG'de %54.23'lük bir düşüşe ve değerlendirme kesintilerinde HR'de %47.36'lık bir düşüşe karşılık geldi.
Bu düzen her zaman aynı kaldı; ezberleme azaldıkça, görünür performans da azaldı:
'Bu bulgular, model ölçeğinin artırılmasının veri setinin daha iyi ezberlenmesine yol açtığını ve bunun da performansı iyileştirdiğini göstermektedir.
'Sonuç olarak, daha büyük modeller daha iyi öneri performansı sergilerken, aynı zamanda eğitim verilerinin sızdırılmasıyla ilgili riskler de doğuruyorlar.'
Son test, ezberlemenin öğrenmeyi yansıtıp yansıtmadığını inceledi. popülerlik önyargısı MovieLens-1M'ye eklendi. Öğeler etkileşim sıklığına göre gruplandırıldı ve aşağıdaki grafik daha büyük modellerin sürekli olarak en popüler girişleri tercih ettiğini gösteriyor:

Üç popülerlik katmanında modele göre öğe kapsamı: en popüler %20'lik üst öğe; orta %20'lik orta düzeyde popüler öğe; ve en az etkileşime giren en alt %20'lik öğe.
GPT-4o en üst sıralardaki öğelerin %89.06'sını aldı ancak en az popüler olanların yalnızca %63.97'sini aldı. GPT-4o mini ve daha küçük Llama modelleri tüm bantlarda çok daha düşük kapsama alanı gösterdi. Araştırmacılar bu eğilimin ezberlemenin yalnızca model boyutuyla ölçeklenmediğini, aynı zamanda eğitim verilerindeki önceden var olan dengesizlikleri de artırdığını belirtiyor.
Onlar devam ediyor:
'Bulgularımız, hukuk alanında lisans programlarında belirgin bir popülerlik eğilimi olduğunu ortaya koyuyor; popüler maddelerin en üstteki %20'sine, en alttaki %20'ye kıyasla önemli ölçüde daha kolay ulaşılabiliyor.
'Bu eğilim, popüler filmlerin aşırı temsil edildiği ve bu durumun modeller tarafından orantısız bir şekilde ezberlenmesine yol açtığı eğitim verisi dağıtımının etkisini ortaya koyuyor.'
Sonuç
İkilem artık yeni değil: eğitim setleri büyüdükçe, bunları düzenleme olasılığı ters orantılı olarak azalıyor. MovieLens-1M, belki de diğer birçokları arasında, bu devasa korporalara gözetimsiz bir şekilde, muazzam veri hacminin ortasında anonim olarak giriyor.
Sorun her ölçekte tekrarlanıyor ve otomasyona direniyor. Herhangi bir çözüm yalnızca çaba değil, aynı zamanda insan yargısı da gerektirir - makinelerin sağlayamayacağı yavaş, yanılabilir türden. Bu açıdan, yeni makale ileriye doğru bir yol sunmuyor.
* Bu bağlamdaki bir kapsam metriği, bir dil modelinin doğru türde soru sorulduğunda orijinal veri kümesinin ne kadarını yeniden üretebildiğini gösteren bir yüzdedir. Bir modele bir film kimliği sorulduğunda ve doğru başlık ve türle yanıt verirse, bu başarılı bir geri çağırma olarak sayılır. Daha sonra, başarılı geri çağırmaların toplam sayısı, veri kümesindeki toplam giriş sayısına bölünerek bir kapsam puanı üretilir. Örneğin, bir model 800 öğeden 1,000'ü için doğru şekilde bilgi döndürürse, kapsamı yüzde 80 olur.
İlk yayın tarihi Cuma, 16 Mayıs 2025












