มุมมองของ Anderson

โมเดลภาษาขนาดใหญ่จดจำชุดข้อมูลที่ใช้ทดสอบพวกมัน

Published May 16, 2025

Updated April 26, 2026

Martin Anderson

'Robot cheating in an exam' - ChatGPT-4o and Adobe Firefly

หากคุณพึ่งพา AI ในการแนะนำสิ่งที่จะดู อ่าน หรือซื้อ การวิจัยใหม่แสดงว่าระบบบางระบบอาจพึ่งพาผลลัพธ์จาก ความจำ มากกว่าทักษะ: แทนที่จะเรียนรู้เพื่อให้คำแนะนำที่มีประโยชน์ โมเดลเหล่านี้มักจะระลึกถึงรายการจากชุดข้อมูลที่ใช้ในการประเมินพวกมัน ซึ่งนำไปสู่การประเมินประสิทธิภาพที่สูงเกินไป และคำแนะนำที่อาจล้าสมัยหรือไม่เหมาะสมกับผู้ใช้

ในเครื่องมือการเรียนรู้ของเครื่อง การแบ่ง การแบ่งข้อมูล จะใช้เพื่อดูว่าโมเดลที่ได้รับการฝึกอบรมมีความสามารถในการแก้ปัญหาได้ดีหรือไม่ ที่คล้ายกันแต่ไม่เหมือนกับวัสดุที่ใช้ในการฝึกอบรม

ดังนั้น หากโมเดลใหม่ ‘การรู้จำพันธุ์สุนัข’ ได้รับการฝึกอบรมจากชุดข้อมูล 100,000 รูปภาพของสุนัข มันจะคงไว้ 80/20 – 80,000 รูปภาพที่ใช้ในการฝึกอบรมโมเดล และ 20,000 รูปภาพที่ถูกถอดออกและใช้เป็นวัสดุสำหรับการทดสอบโมเดลที่เสร็จสมบูรณ์

ชัดเจนว่า หากข้อมูลการฝึกอบรมของ AI มีข้อมูล ‘ลับ’ 20% ของการแบ่งทดสอบอยู่ในนั้น โมเดลจะผ่านการทดสอบเหล่านี้ได้เพราะมันรู้คำตอบแล้ว (มันเห็นข้อมูล 100% ของโดเมนแล้ว) แน่นอนว่าสิ่งนี้ไม่สะท้อนถึงประสิทธิภาพของโมเดลในอนาคตเมื่อเผชิญกับข้อมูล ‘สด’ ใหม่ๆ ในสภาพแวดล้อมการผลิต

สปอยเลอร์ภาพยนตร์

ปัญหาของ AI ที่โกงทดสอบของมันเองเพิ่มขึ้นพร้อมกับการเติบโตของขนาดของโมเดลเหล่านี้ เนื่องจากระบบในปัจจุบันถูกฝึกอบรมจากคอร์ปัสเว็บที่กว้างขวางและไม่เลือกที่จะเก็บข้อมูล เช่น Common Crawl ความเป็นไปได้ที่ชุดข้อมูลมาตรฐาน (เช่น ส่วน 20% ที่ถูกถอดออก) จะเข้าไปสู่การผสมผสานการฝึกอบรมไม่ใช่กรณีแยกต่างหากอีกต่อไป แต่เป็นเรื่องปกติ – สิ่งที่เรียกว่า การปนเปื้อนของข้อมูล; และในขนาดนี้ การดูแลข้อมูลด้วยมือที่สามารถจับข้อผิดพลาดเหล่านี้ได้ไม่ใช่เรื่องที่เป็นไปได้จากด้านลอจิสติกส์

กรณีนี้ถูกสำรวจในเอกสารใหม่จาก Politecnico di Bari ของอิตาลี โดยที่นักวิจัยมุ่งเน้นไปที่บทบาทที่มากเกินไปของชุดข้อมูลการแนะนำภาพยนตร์เดียว คือ MovieLens-1M ซึ่งพวกเขาแย้งว่าได้รับการจดจำบางส่วนโดยโมเดล AI หลายตัวระหว่างการฝึกอบรม

เนื่องจากชุดข้อมูลนี้ถูกใช้กันอย่างกว้างขวางในการทดสอบระบบการแนะนำ การมีอยู่ของชุดข้อมูลในความจำของโมเดลอาจทำให้การทดสอบเหล่านั้นไร้ความหมาย: สิ่งที่ดูเหมือนจะเป็นความฉลาดอาจเป็นเพียงการระลึกถึงเท่านั้น และสิ่งที่ดูเหมือนจะเป็นทักษะการแนะนำที่มี直觉อาจเป็นเพียงการสะท้อนเชิงสถิติที่สะท้อนถึงการได้รับข้อมูลก่อนหน้านี้

ผู้เขียนระบุ:

‘ผลการวิจัยของเราแสดงให้เห็นว่า LLMs มีความรู้ที่กว้างขวางเกี่ยวกับชุดข้อมูล MovieLens-1M ซึ่งครอบคลุมรายการ ผู้ใช้ และประวัติการโต้ตอบ

‘โดยเฉพาะอย่างยิ่ง การส่งคำถามง่ายๆ ทำให้ GPT-4o สามารถกู้คืนเกือบ 80% ของรายการชื่อภาพยนตร์ในชุดข้อมูลได้

‘ไม่มีโมเดลใดที่ไม่มีข้อมูลนี้ ซึ่งแสดงว่าข้อมูล MovieLens-1M มีแนวโน้มที่จะรวมอยู่ในเซตการฝึกอบรมของพวกมัน

เอกสารสั้น ใหม่ มีชื่อเรื่องว่า Do LLMs Memorize Recommendation Datasets? A Preliminary Study on MovieLens-1M และมาจากนักวิจัย 6 คนจาก Politecnico di Bari โมเดลที่ใช้ในการทดสอบได้รับการเผยแพร่บน GitHub

วิธีการ

เพื่อทำความเข้าใจว่าโมเดลเหล่านี้ได้เรียนรู้อย่างแท้จริงหรือเพียงแค่ระลึกถึง นักวิจัยเริ่มต้นด้วยการกำหนดความหมายของการจำในบริบทนี้ และเริ่มต้นด้วยการทดสอบว่าโมเดลสามารถกู้คืนข้อมูลเฉพาะจากชุดข้อมูล MovieLens-1M ได้เมื่อถูกกระตุ้นในลักษณะที่เหมาะสม

หากโมเดลสามารถแสดงชื่อและประเภทของภาพยนตร์ได้เมื่อแสดง ID ของภาพยนตร์ นั่นจะถือว่าเป็นการจำรายการ;if มันสามารถสร้างรายละเอียดเกี่ยวกับผู้ใช้ (เช่น อายุ อาชีพ หรือรหัสไปรษณีย์) จาก ID ผู้ใช้ นั่นก็ถือว่าเป็นการจำผู้ใช้; และหากสามารถสร้างคะแนนการให้คะแนนภาพยนตร์ถัดไปของผู้ใช้จากลำดับการให้คะแนนก่อนหน้านี้ นั่นจะถือว่าเป็นการจำข้อมูลการโต้ตอบ

การเรียกคืนแต่ละรูปแบบถูกทดสอบโดยใช้คำถามที่เขียนอย่างรอบคอบ ซึ่งถูกออกแบบมาเพื่อกระตุ้นโมเดลโดยไม่ให้ข้อมูลใหม่: ความแม่นยำของการตอบสนองจะส่งผลให้ความน่าจะเป็นที่โมเดลได้พบกับข้อมูลนั้นระหว่างการฝึกอบรมเพิ่มขึ้น

การกระตุ้นแบบ zero-shot สำหรับโพรโทคอลการประเมินที่ใช้ในเอกสารใหม่ Source: https://arxiv.org/pdf/2505.10212

ข้อมูลและการทดสอบ

เพื่อสร้างชุดข้อมูลที่เหมาะสม ผู้เขียนสำรวจเอกสารล่าสุดจากสองการประชุมสำคัญของสาขา ACM RecSys 2024 และ ACM SIGIR 2024 ชุดข้อมูล MovieLens-1M ปรากฏบ่อยที่สุด โดยถูกอ้างอิงในกว่าหนึ่งในห้าของการยื่นคำขอ เนื่องจาก การศึกษาก่อนหน้านี้ ได้มาถึงข้อสรุปที่คล้ายกัน สิ่งนี้จึงไม่ใช่ผลลัพธ์ที่น่าประหลาดใจ แต่เป็นการยืนยันถึงความโดดเด่นของชุดข้อมูล

MovieLens-1M ประกอบด้วยสามไฟล์: Movies.dat ซึ่งแสดงรายการภาพยนตร์ตาม ID ชื่อ และประเภท; Users.dat ซึ่งแมปกับผู้ใช้ ID ถึงฟิลด์ทางชีวภาพพื้นฐาน; และ Ratings.dat ซึ่งบันทึกว่าใครให้คะแนนอะไร และเมื่อไหร่

เพื่อดูว่าข้อมูลนี้ถูกจดจำโดยโมเดลภาษาขนาดใหญ่หรือไม่ ผู้วิจัยใช้เทคนิคการกระตุ้นที่ถูกนำมาใช้ครั้งแรกใน เอกสาร การดึงข้อมูลการฝึกอบรมออกจากโมเดลภาษาขนาดใหญ่ และถูกปรับใช้ใน งานต่อเนื่อง กล่องทริคสำหรับการดึงข้อมูลการฝึกอบรมออกจากโมเดลภาษา

วิธีการเป็นเช่นนี้: ตั้งคำถามที่สะท้อนรูปแบบของชุดข้อมูลและดูว่าโมเดลตอบถูกต้องหรือไม่ Zero-shot, Chain-of-Thought และ Few-shot prompting ถูกทดสอบ และพบว่าวิธีสุดท้ายซึ่งโมเดลถูกแสดงตัวอย่างบางส่วน เป็นวิธีที่มีประสิทธิภาพที่สุด; แม้ว่าวิธีที่ซับซ้อนกว่านี้อาจให้ผลการระลึกถึงที่สูงกว่า แต่นี่ถือว่าเพียงพอในการเปิดเผยสิ่งที่ถูกจดจำ

การกระตุ้นแบบ few-shot ที่ใช้ในการทดสอบว่าโมเดลสามารถสร้างค่าเฉพาะจาก MovieLens-1M เมื่อถูกถามด้วยบริบทที่น้อยที่สุด

เพื่อวัดการจำ ผู้วิจัยกำหนดการเรียกคืนสามรูปแบบ: รายการ, ผู้ใช้ และ การโต้ตอบ การทดสอบเหล่านี้ตรวจสอบว่าโมเดลสามารถกู้คืนชื่อภาพยนตร์จาก ID ได้หรือไม่, สร้างรายละเอียดผู้ใช้จาก ID ผู้ใช้ หรือคาดการณ์คะแนนการให้คะแนนถัดไปของผู้ใช้ตามลำดับการให้คะแนนก่อนหน้านี้ แต่ละรายการถูกจัดอันดับโดยใช้เมตริกการครอบคลุม* ที่สะท้อนถึงส่วนของชุดข้อมูลที่สามารถสร้างขึ้นได้โดยการกระตุ้น

โมเดลที่ถูกทดสอบคือ GPT-4o; GPT-4o mini; GPT-3.5 turbo; Llama-3.3 70B; Llama-3.2 3B; Llama-3.2 1B; Llama-3.1 405B; Llama-3.1 70B; และ Llama-3.1 8B ทั้งหมดนี้ถูกดำเนินการที่อุณหภูมิเป็นศูนย์ temperature ตั้งค่าเป็นศูนย์ top_p ตั้งค่าเป็นหนึ่ง และทั้ง การลงโทษความถี่และความมีอยู่ ถูกปิดใช้งาน เมล็ดสุ่ม random seed ที่ตายตัวรับประกันผลลัพธ์ที่สอดคล้องกันระหว่างการวิ่ง

สัดส่วนของรายการ MovieLens-1M ที่กู้คืนจาก movies.dat, users.dat และ ratings.dat โดยแบ่งโมเดลตามรุ่นและเรียงตามจำนวนพารามิเตอร์

เพื่อสำรวจว่า MovieLens-1M ถูกดูดซับลึกแค่ไหน ผู้วิจัยกระตุ้นโมเดลแต่ละตัวเพื่อเข้าถึงรายการแน่นอนจากสามไฟล์ของชุดข้อมูล (ที่กล่าวถึงก่อนหน้านี้): Movies.dat, Users.dat และ Ratings.dat

ผลลัพธ์จากการทดสอบเบื้องต้นแสดงให้เห็นถึงความแตกต่างที่ชัดเจนไม่เพียงแต่ระหว่างตระกูล GPT และ Llama แต่ยังรวมถึงขนาดของโมเดลด้วย ในขณะที่ GPT-4o และ GPT-3.5 turbo กู้คืนชุดข้อมูลขนาดใหญ่ด้วยความง่าย โมเดลที่เปิดแหล่งที่มาอื่นๆ กู้คืนเพียงเศษเสี้ยวของวัสดุเดียวกัน ซึ่งบ่งบอกถึงการได้รับชุดข้อมูลที่ไม่เท่าเทียมกันในการฝึกอบรม

ความแตกต่างเหล่านี้ไม่ใช่แค่เรื่องเล็กน้อย เมื่อเทียบกับไฟล์ทั้งสาม ไฟล์ โมเดลที่แข็งแกร่งที่สุดไม่เพียงแต่เอาชนะโมเดลที่อ่อนแอกว่า แต่ยังระลึกถึง ส่วนสำคัญ ของ MovieLens-1M

ในกรณีของ GPT-4o การครอบคลุมถูกต้องเพียงพอที่จะแนะนำว่าส่วนสำคัญของชุดข้อมูลถูกจดจำโดยตรง

ผู้เขียนระบุ:

ต่อไป ผู้วิจัยทดสอบผลกระทบของการจำต่องานแนะนำโดยการกระตุ้นโมเดลแต่ละตัวให้ทำหน้าที่เป็นระบบการแนะนำ เพื่อเปรียบเทียบประสิทธิภาพ พวกเขาเปรียบเทียบการผลิตกับวิธีมาตรฐานเจ็ดวิธี: UserKNN; ItemKNN; BPRMF; EASE^R; LightGCN; MostPop; และ Random

ชุดข้อมูล MovieLens-1M ถูกแบ่งออกเป็น 80/20 เป็นชุดฝึกอบรมและชุดทดสอบ โดยใช้กลยุทธ์การสุ่ม leave-one-out เพื่อจำลองการใช้งานจริง เมตริกที่ใช้คือ อัตราการตี (HR@[n]); และ nDCG(@[n]):

ความแม่นยำในการแนะนำบนมาตรฐานและวิธี LLM

ที่นี่ โมเดลภาษาขนาดใหญ่หลายตัวเอาชนะมาตรฐานแบบดั้งเดิมทั้งหมดในทุกเมตริก โดย GPT-4o สร้างความเป็นผู้นำที่กว้างในแต่ละคอลัมน์ และแม้แต่โมเดลขนาดกลาง เช่น GPT-3.5 turbo และ Llama-3.1 405B ก็สามารถเอาชนะวิธีมาตรฐาน เช่น BPRMF และ LightGCN ได้อย่างต่อเนื่อง

ในหมู่โมเดล Llama ที่เล็กกว่า ประสิทธิภาพแตกต่างกันอย่างมาก แต่ Llama-3.2 3B โดดเด่นด้วย HR@1 ที่สูงที่สุดในกลุ่ม

ผลลัพธ์ ผู้เขียนชี้ให้เห็นว่าข้อมูลที่จดจำไว้สามารถแปลเป็นข้อได้เปรียบที่วัดได้ในงานกระตุ้นแบบแนะนำ โดยเฉพาะสำหรับโมเดลที่แข็งแกร่งที่สุด

ในข้อสังเกตเพิ่มเติม ผู้วิจัยดำเนินการต่อ:

‘แม้ว่าประสิทธิภาพในการแนะนำจะดูยอดเยี่ยม แต่การเปรียบเทียบตาราง 2 กับตาราง 1 เปิดเผยรูปแบบที่น่าสนใจ

‘ภายในแต่ละกลุ่ม โมเดลที่มีการจำมากกว่ายังแสดงประสิทธิภาพที่ดีกว่าในการทำงานแนะนำ

‘ตัวอย่างเช่น GPT-4o เอาชนะ GPT-4o mini และ Llama-3.1 405B เอาชนะ Llama-3.1 70B และ 8B

‘ผลลัพธ์เหล่านี้เน้นย้ำว่าการประเมิน LLMs บนชุดข้อมูลที่รั่วไหลในเซตการฝึกอบรมอาจนำไปสู่ประสิทธิภาพที่มองโลกในแง่ดีเกินไป ซึ่งถูกขับเคลื่อนโดยการจำมากกว่าการเรียนรู้ทั่วไป’

เกี่ยวกับผลกระทบของขนาดโมเดลต่อปัญหานี้ ผู้เขียนสังเกตเห็นความสัมพันธ์ที่ชัดเจนระหว่างขนาด การจำ และประสิทธิภาพในการแนะนำ โดยโมเดลที่ใหญ่ขึ้นไม่เพียงแต่จดจำชุดข้อมูล MovieLens-1M มากขึ้น แต่ยังแสดงผลลัพธ์ที่ดีกว่าในการทำงานที่ตามมา

Llama-3.1 405B แสดงอัตราการจำเฉลี่ยที่ 12.9% ในขณะที่ Llama-3.1 8B ระลึกถึงเพียง 5.82% การลดลงเกือบ 55% ในการระลึกถึงสอดคล้องกับการลดลง 54.23% ใน nDCG และ 47.36% ใน HR ทั่วการประเมิน

รูปแบบนี้ยังคงดำเนินต่อไป – เมื่อการจำลดลง ประสิทธิภาพที่เห็นก็ลดลงด้วย:

‘ผลการวิจัยเหล่านี้ชี้ให้เห็นว่าการเพิ่มขนาดโมเดลนำไปสู่การจำชุดข้อมูลมากขึ้น ซึ่งนำไปสู่ประสิทธิภาพที่ดีขึ้น

‘ดังนั้น ในขณะที่โมเดลที่ใหญ่กว่าแสดงประสิทธิภาพการแนะนำที่ดีกว่า พวกมันยังเป็นความเสี่ยงเกี่ยวกับการรั่วไหลของข้อมูลการฝึกอบรมที่อาจเกิดขึ้น’

การทดสอบสุดท้ายสำรวจว่าการจำสะท้อนถึง ความลำเอียงของความนิยม ที่ฝังอยู่ใน MovieLens-1M รายการถูกแบ่งออกเป็นสามกลุ่มตามความถี่ของการโต้ตอบ และแผนภูมิด้านล่างแสดงให้เห็นว่าโมเดลที่ใหญ่กว่าเอื้อประโยชน์ต่อรายการยอดนิยมอย่างต่อเนื่อง:

การครอบคลุมรายการตามโมเดลทั่วสามระดับความนิยม: 20% ยอดนิยมสูงสุด 20% กลาง และ 20% ที่มีการโต้ตอบน้อยที่สุด

GPT-4o กู้คืน 89.06% ของรายการยอดนิยมสูงสุด แต่เพียง 63.97% ของรายการที่มีการโต้ตอบน้อยที่สุด GPT-4o mini และโมเดล Llama ที่เล็กกว่าแสดงการครอบคลุมที่ต่ำกว่ามากทั่วทั้งแบนด์

ผู้วิจัยระบุ:

‘ผลการวิจัยของเราเปิดเผยความลำเอียงของความนิยมที่ชัดเจนใน LLMs โดยที่ 20% ยอดนิยมสูงสุดสามารถกู้คืนได้ง่ายกว่า 20% ที่มีการโต้ตอบน้อยที่สุด

‘แนวโน้มนี้เน้นย้ำถึงอิทธิพลของการกระจายตัวของข้อมูลการฝึกอบรม โดยที่ภาพยนตร์ที่ได้รับความนิยมสูงถูกนำเสนออย่างมาก ซึ่งนำไปสู่การจำที่ไม่สมส่วนโดยโมเดล’

สรุป

ปัญหานี้ไม่ใช่เรื่องใหม่: เมื่อชุดข้อมูลการฝึกอบรมเติบโตขึ้น ความเป็นไปได้ในการดูแลชุดข้อมูลเหล่านั้นจะลดลงในอัตราส่วนกลับกัน MovieLens-1M อาจเป็นหนึ่งในหลายๆ ชุดข้อมูลที่เข้าไปอยู่ในคอร์ปัสขนาดใหญ่เหล่านี้โดยไม่มีการดูแล

ปัญหาเกิดขึ้นที่ทุกขนาดและต้านการทำให้กลายเป็นกระบวนการอัตโนมัติ วิธีแก้ปัญหาใดๆ ต้องการไม่เพียงแต่ความพยายาม แต่ยังต้องการการตัดสินใจของมนุษย์ – การตัดสินใจที่ช้าและอาจมีข้อผิดพลาด ซึ่งเครื่องจักรไม่สามารถให้ได้ ในแง่นี้ เอกสารใหม่นี้ไม่ได้ให้ทางออก

* เมตริกการครอบคลุมในบริบทนี้คือเปอร์เซ็นต์ที่แสดงว่าโมเดลภาษาสามารถสร้างข้อมูลจากชุดข้อมูลเดิมได้เมื่อถูกถามในลักษณะที่เหมาะสม หากโมเดลสามารถตอบกลับข้อมูลที่ถูกต้องเมื่อแสดง ID ของภาพยนตร์ นั่นจะถือว่าเป็นการจำที่ประสบความสำเร็จ การนับจำนวนการจำที่ประสบความสำเร็จจะถูกหารด้วยจำนวนรายการรวมในชุดข้อมูลเพื่อสร้างคะแนนการครอบคลุม ตัวอย่างเช่น หากโมเดลสามารถตอบกลับข้อมูลที่ถูกต้องสำหรับ 800 รายการจาก 1,000 รายการ คะแนนการครอบคลุมจะเป็น 80 เปอร์เซ็นต์

เผยแพร่ครั้งแรกวันศุกร์ที่ 16 พฤษภาคม 2025