Sudut Anderson

Model Bahasa Besar Mengingat Dataset yang Dimaksudkan untuk Menguji Mereka

Published May 16, 2025

Updated April 26, 2026

Martin Anderson

'Robot cheating in an exam' - ChatGPT-4o and Adobe Firefly

Jika Anda mengandalkan AI untuk merekomendasikan apa yang harus ditonton, dibaca, atau dibeli, penelitian baru menunjukkan bahwa beberapa sistem mungkin membasarkan hasil ini dari memori daripada keterampilan: bukan belajar untuk membuat saran yang berguna, model-model ini sering mengingat item dari dataset yang digunakan untuk mengevaluasi mereka, yang menyebabkan kinerja yang terlalu tinggi dan rekomendasi yang mungkin sudah ketinggalan zaman atau tidak sesuai dengan pengguna.

Dalam pembelajaran mesin, test-split digunakan untuk melihat apakah model yang dilatih telah belajar untuk memecahkan masalah yang serupa, tetapi tidak identik dengan materi yang digunakannya untuk dilatih.

Jadi, jika model pengenalan breed anjing AI baru dilatih pada dataset 100.000 gambar anjing, biasanya akan menampilkan split 80/20 – 80.000 gambar disediakan untuk melatih model; dan 20.000 gambar ditahan dan digunakan sebagai bahan untuk menguji model yang selesai.

Tentu saja, jika data pelatihan AI secara tidak sengaja mencakup bagian ‘rahasia’ 20% dari test split, model tersebut akan menguasai tes ini, karena sudah mengetahui jawabannya (sudah melihat 100% dari domain data). Tentu saja, ini tidak secara akurat mencerminkan bagaimana model akan berperforma nanti, pada data ‘live’ baru, dalam konteks produksi.

Spoiler Film

Masalah AI curang pada ujian mereka telah tumbuh seiring dengan skala model itu sendiri. Karena sistem saat ini dilatih pada korpus web-scraped yang luas dan tidak diskriminatif seperti Common Crawl, kemungkinan bahwa dataset benchmark (yaitu, 20% yang ditahan) masuk ke dalam campuran pelatihan tidak lagi menjadi kasus tepi, tetapi default – suatu sindrom yang dikenal sebagai kontaminasi data; dan pada skala ini, kurasi manual yang bisa menangkap kesalahan seperti itu secara logistik tidak mungkin.

Kasus ini dieksplorasi dalam sebuah makalah baru dari Politecnico di Bari, Italia, di mana para peneliti fokus pada peran yang tidak seimbang dari sebuah dataset rekomendasi film tunggal, MovieLens-1M, yang mereka argumen telah sebagian diingat oleh beberapa model AI terkemuka selama pelatihan.

Karena dataset ini digunakan secara luas dalam pengujian sistem rekomendasi, kehadirannya dalam memori model tersebut potensial membuat tes tersebut tidak berarti: apa yang tampak seperti kecerdasan sebenarnya mungkin hanya recall sederhana, dan apa yang terlihat seperti keterampilan rekomendasi yang intuitif mungkin hanya merupakan gema statistik yang mencerminkan paparan sebelumnya.

Para penulis menyatakan:

‘Temuan kami menunjukkan bahwa LLM memiliki pengetahuan yang luas tentang dataset MovieLens-1M, yang mencakup item, atribut pengguna, dan riwayat interaksi.

‘Secara khusus, prompt sederhana memungkinkan GPT-4o untuk mengembalikan hampir 80% dari catatan MovieID::Title. Tidak ada model yang diperiksa yang bebas dari pengetahuan ini, menunjukkan bahwa data MovieLens-1M kemungkinan termasuk dalam set pelatihan mereka.

‘Kami mengamati tren yang sama dalam mengambil atribut pengguna dan riwayat interaksi.’

Makalah singkat baru ini berjudul Apakah LLM Mengingat Dataset Rekomendasi? Studi Pendahuluan tentang MovieLens-1M, dan berasal dari enam peneliti Politecnico. Pipa untuk mereproduksi pekerjaan mereka telah dibuat tersedia di GitHub.

Metode

Untuk memahami apakah model yang dipertanyakan benar-benar belajar atau hanya mengingat, para peneliti memulai dengan mendefinisikan apa yang dimaksud dengan pengingatan dalam konteks ini, dan memulai dengan menguji apakah model dapat mengambil potongan informasi tertentu dari dataset MovieLens-1M, ketika dipicu dengan cara yang tepat.

Jika model dapat menampilkan judul dan genre film dari ID film, itu dihitung sebagai pengingatan item; jika dapat menghasilkan detail tentang pengguna (seperti usia, pekerjaan, atau kode pos) dari ID pengguna, itu juga dihitung sebagai pengingatan pengguna; dan jika dapat mereproduksi peringkat film berikutnya dari urutan sebelumnya, itu dianggap sebagai bukti bahwa model mungkin mengingat data interaksi spesifik, bukan belajar pola umum.

Setiap bentuk pengingatan ini diuji menggunakan prompt yang ditulis dengan hati-hati, yang dirancang untuk mendorong model tanpa memberikan informasi baru. Semakin akurat responsnya, semakin mungkin model telah mengalami data tersebut selama pelatihan:

Zero-shot prompting untuk protokol evaluasi yang digunakan dalam makalah baru. Sumber: https://arxiv.org/pdf/2505.10212

Data dan Tes

Untuk mengkurasi dataset yang sesuai, para penulis melakukan survei terhadap makalah-makalah terbaru dari dua konferensi utama bidang ini, ACM RecSys 2024 , dan ACM SIGIR 2024. MovieLens-1M muncul paling sering, dikutip dalam lebih dari satu dari lima pengajuan. Karena studi sebelumnya telah mencapai kesimpulan yang sama, ini bukanlah hasil yang mengejutkan, tetapi lebih merupakan konfirmasi dari dominasi dataset ini.

MovieLens-1M terdiri dari tiga file: Movies.dat, yang mencantumkan film berdasarkan ID, judul, dan genre; Users.dat, yang memetakan ID pengguna ke bidang biografis dasar; dan Ratings.dat, yang mencatat siapa yang menilai apa, dan kapan.

Untuk mengetahui apakah data ini telah diingat oleh model bahasa besar, para peneliti beralih ke teknik prompting yang pertama kali diperkenalkan dalam makalah Extracting Training Data from Large Language Models, dan kemudian disesuaikan dalam pekerjaan selanjutnya Bag of Tricks for Training Data Extraction from Language Models.

Metode ini langsung: ajukan pertanyaan yang mencerminkan format dataset dan lihat apakah model menjawab dengan benar. Zero-shot, Chain-of-Thought, dan few-shot prompting diuji, dan ditemukan bahwa metode terakhir, di mana model ditunjukkan beberapa contoh, adalah yang paling efektif; bahkan jika pendekatan yang lebih rumit mungkin menghasilkan recall yang lebih tinggi, ini dianggap cukup untuk mengungkapkan apa yang telah diingat.

Few-shot prompt digunakan untuk menguji apakah model dapat mereproduksi nilai MovieLens-1M spesifik ketika diquery dengan konteks minimal.

Untuk mengukur pengingatan, para peneliti mendefinisikan tiga bentuk recall: item, pengguna, dan interaksi. Tes-tes ini menguji apakah model dapat mengambil judul film dari ID-nya, menghasilkan detail pengguna dari ID pengguna, atau memprediksi peringkat film berikutnya berdasarkan peringkat sebelumnya. Setiap tes dinilai menggunakan metrik cakupan* yang mencerminkan seberapa banyak dataset yang bisa direkonstruksi melalui prompting.

Model yang diuji adalah GPT-4o; GPT-4o mini; GPT-3.5 turbo; Llama-3.3 70B; Llama-3.2 3B; Llama-3.2 1B; Llama-3.1 405B; Llama-3.1 70B; dan Llama-3.1 8B. Semua dijalankan dengan temperatur disetel ke nol, top_p disetel ke satu, dan baik frekuensi dan kehadiran hukuman dinonaktifkan. Benih acak yang tetap memastikan output konsisten di seluruh jalur.

Proporsi entri MovieLens-1M yang diambil dari movies.dat, users.dat, dan ratings.dat, dengan model dikelompokkan oleh versi dan diurutkan oleh jumlah parameter.

Untuk menyelidiki seberapa dalam MovieLens-1M telah diserap, para peneliti memicu setiap model untuk entri eksak dari tiga file dataset (yang disebutkan sebelumnya): Movies.dat, Users.dat, dan Ratings.dat.

Hasil dari tes awal, ditunjukkan di atas, mengungkapkan perbedaan tajam tidak hanya antara keluarga GPT dan Llama, tetapi juga di seluruh ukuran model. Sementara GPT-4o dan GPT-3.5 turbo mengambil sebagian besar dataset dengan mudah, sebagian besar model sumber terbuka hanya mengingat sebagian kecil dari materi yang sama, menunjukkan paparan yang tidak merata terhadap benchmark ini dalam pelatihan.

Ini bukanlah margin kecil. Di seluruh tiga file, model terkuat tidak hanya mengungguli model yang lebih lemah, tetapi mengingat bagian utuh dari MovieLens-1M.

Dalam kasus GPT-4o, cakupan cukup tinggi untuk menunjukkan bahwa bagian non-trivial dari dataset telah diingat secara langsung.

Para penulis menyatakan:

‘Temuan kami menunjukkan bahwa LLM memiliki pengetahuan yang luas tentang dataset MovieLens-1M, yang mencakup item, atribut pengguna, dan riwayat interaksi.

‘Kami mengamati tren yang sama dalam mengambil atribut pengguna dan riwayat interaksi.’

Selanjutnya, para penulis menguji dampak pengingatan pada tugas rekomendasi dengan memicu setiap model untuk bertindak sebagai sistem rekomendasi. Untuk membandingkan kinerja, mereka membandingkan output melawan tujuh metode standar: UserKNN; ItemKNN; BPRMF; EASE^R; LightGCN; MostPop; dan Random.

Dataset MovieLens-1M dibagi 80/20 menjadi set pelatihan dan pengujian, menggunakan strategi sampling leave-one-out untuk mensimulasikan penggunaan dunia nyata. Metrik yang digunakan adalah Hit Rate (HR@[n]); dan nDCG(@[n]):

Akurasi rekomendasi pada baseline standar dan metode berbasis LLM. Model dikelompokkan oleh keluarga dan diurutkan oleh jumlah parameter. Nilai tebal menunjukkan skor tertinggi dalam setiap kelompok.

Akurasi rekomendasi pada baseline standar dan metode berbasis LLM. Model dikelompokkan oleh keluarga dan diurutkan oleh jumlah parameter, dengan nilai tebal menunjukkan skor tertinggi dalam setiap kelompok.

Di sini beberapa model bahasa besar mengungguli baseline tradisional di seluruh metrik, dengan GPT-4o membangun keunggulan yang luas di setiap kolom, dan bahkan model berukuran sedang seperti GPT-3.5 turbo dan Llama-3.1 405B secara konsisten mengungguli metode benchmark seperti BPRMF dan LightGCN.

Di antara varian Llama yang lebih kecil, kinerja bervariasi tajam, tetapi Llama-3.2 3B menonjol, dengan HR@1 tertinggi dalam kelompoknya.

Hasilnya, para penulis sarankan, menunjukkan bahwa data yang diingat dapat diterjemahkan ke dalam keunggulan yang dapat diukur dalam tugas rekomendasi, terutama untuk model terkuat.

Dalam pengamatan tambahan, para peneliti melanjutkan:

‘Meskipun kinerja rekomendasi tampak luar biasa, membandingkan Tabel 2 dengan Tabel 1 mengungkapkan pola menarik. Di dalam setiap kelompok, model dengan pengingatan yang lebih tinggi juga menunjukkan kinerja yang lebih baik dalam tugas rekomendasi.

‘Sebagai contoh, GPT-4o mengungguli GPT-4o mini, dan Llama-3.1 405B mengungguli Llama-3.1 70B dan 8B.

‘Hasil ini menyoroti bahwa mengevaluasi LLM pada dataset yang bocor dalam data pelatihan mereka dapat menyebabkan kinerja yang terlalu optimis, yang didorong oleh pengingatan daripada generalisasi.’

Mengenai dampak skala model pada masalah ini, para penulis mengamati korelasi yang jelas antara ukuran, pengingatan, dan kinerja rekomendasi, dengan model yang lebih besar tidak hanya mengingat lebih banyak dataset MovieLens-1M, tetapi juga berperforma lebih kuat dalam tugas hilir.

Llama-3.1 405B, misalnya, menunjukkan rata-rata tingkat pengingatan sebesar 12,9%, sementara Llama-3.1 8B hanya mengingat 5,82%. Pengurangan sekitar 55% dalam recall ini sesuai dengan penurunan 54,23% dalam nDCG dan 47,36% dalam HR di seluruh ambang evaluasi.

Polanya berlaku di seluruh – di mana pengingatan menurun, kinerja yang tampak juga menurun:

‘Temuan ini menunjukkan bahwa meningkatkan skala model menyebabkan pengingatan dataset yang lebih besar, yang menghasilkan kinerja yang lebih baik.

‘Oleh karena itu, sementara model yang lebih besar menunjukkan kinerja rekomendasi yang lebih baik, mereka juga menimbulkan risiko terkait dengan kebocoran data pelatihan.’

Tes terakhir menguji apakah pengingatan mencerminkan bias popularitas yang dimasukkan ke dalam MovieLens-1M. Item dikelompokkan berdasarkan frekuensi interaksi, dan grafik di bawah menunjukkan bahwa model yang lebih besar secara konsisten memfavoritkan entri paling populer:

Cakupan item oleh model di seluruh tiga tingkat popularitas: 20% paling populer; 20% moderat; dan 20% item yang paling sedikit diinteraksi.

GPT-4o mengambil 89,06% dari item teratas, tetapi hanya 63,97% dari item yang paling sedikit diinteraksi. GPT-4o mini dan model Llama yang lebih kecil menunjukkan cakupan yang jauh lebih rendah di seluruh pita. Para peneliti menyatakan bahwa tren ini menunjukkan bahwa pengingatan tidak hanya meningkat dengan ukuran model, tetapi juga memperkuat ketidakseimbangan yang ada dalam data pelatihan.

Mereka melanjutkan:

‘Temuan kami mengungkapkan bias popularitas yang kuat dalam LLM, dengan 20% item paling populer jauh lebih mudah diambil daripada 20% item yang paling sedikit diinteraksi.

‘Tren ini menyoroti pengaruh distribusi data pelatihan, di mana film populer overrepresentasikan, menyebabkan pengingatan yang tidak proporsional oleh model.’

Kesimpulan

Dilema ini tidak lagi baru: ketika set pelatihan tumbuh, prospek kurasi mereka menurun sebanding. MovieLens-1M, mungkin di antara banyak lainnya, memasuki korpora yang luas ini tanpa pengawasan, anonim di antara volume data yang besar.

Masalah ini berulang pada setiap skala dan resisten terhadap otomatisasi. Setiap solusi membutuhkan tidak hanya upaya tetapi juga penilaian manusia – jenis yang lambat, yang tidak dapat disediakan oleh mesin. Dalam hal ini, makalah baru tidak menawarkan jalan maju.

* Metric cakupan dalam konteks ini adalah persentase yang menunjukkan seberapa banyak dari dataset asli yang dapat direproduksi oleh model bahasa ketika ditanya dengan jenis pertanyaan yang tepat. Jika model menunjukkan judul dan genre film yang benar dari ID film, itu dihitung sebagai pengingatan yang sukses. Jumlah pengingatan yang sukses kemudian dibagi dengan total jumlah entri dalam dataset untuk menghasilkan skor cakupan. Misalnya, jika model mengembalikan informasi yang benar untuk 800 dari 1.000 item, cakupannya akan menjadi 80 persen.

Dipublikasikan pertama kali pada hari Jumat, 16 Mei 2025