มุมมองของ Anderson
‘Rogue’ ข้อมูลที่ปนเปื้อนการทำงานของ Generative AI

การศึกษาใหม่พบว่าชุดข้อมูลภาพที่ได้รับความนิยมหลายชุดซึ่งใช้ในการฝึกอบรมโมเดล AI ถูกปนเปื้อนด้วยภาพทดสอบหรือภาพที่เหมือนกัน ทำให้โมเดลสามารถโกงได้โดยการจำคำตอบแทนการเรียนรู้ การรั่วไหลนี้แพร่หลาย แต่โดยทั่วไปไม่ได้รับการตรวจจับ และทำให้คะแนนของโมเดลที่ฝึกอบรมด้วยข้อมูลขนาดเว็บสูงขึ้นอย่างไม่ยุติธรรม
เมื่อคุณทำการทดสอบการขับรถ คุณไม่ได้รับแจ้งล่วงหน้าว่าถนนใดจะถูกใช้ในการทดสอบ หากคุณรู้ (และคุณขาดความซื่อสัตย์เล็กน้อย) คุณอาจ ‘เพิ่มประสิทธิภาพ’ สำหรับการทดสอบโดยการฝึกซ้อมซ้ำๆ บนเส้นทางนั้น แทนที่จะพัฒนาทักษะการขับรถที่กว้างขึ้นซึ่งสามารถจัดการเส้นทางใดๆ ได้ดี
ในกระบวนการฝึกอบรมโมเดลการเรียนรู้ของเครื่อง การแบ่งชุดข้อมูลออกเป็นสองส่วนนี้เป็นเรื่องที่สมเหตุสมผล เช่น การแบ่งชุดข้อมูลออกเป็น 70% สำหรับการฝึกอบรม และ 30% สำหรับการทดสอบ
เนื่องจากข้อมูลในทางปฏิบัติไม่เคยเห็นโดยโมเดล หากโมเดลทำงานได้ดีบนข้อมูลนั้น จะถือว่าได้ผลและทำงานได้ดี หากไม่ โมเดลอาจมีการ 过拟合 บนชุดข้อมูลที่สมดุลหรือชุดข้อมูลต้องการการดูแลและคำจำกัดความเพิ่มเติม
ไม่ว่าจะด้วยวิธีใด การไม่ประเมินโมเดลบนข้อมูลการฝึกอบรมเป็นหลักการสำคัญของวิธีการปัจจุบันในการวิจัยและพัฒนา AI
เหมือนเดิมอีกครั้ง
ตามรายงานวิจัยใหม่จากญี่ปุ่น ส่วนการวิจัยด้านการมองเห็นของเครื่องและ AI ที่สร้างสรรค์ไม่ได้เทียบเท่ากับความพยายามของนักวิจัย LLM ในการตรวจสอบให้แน่ใจว่าข้อมูลทดสอบไม่ปนเปื้อนข้อมูลการฝึกอบรม ในการทดสอบ นักวิจัยพบว่าทุกชุดข้อมูลมุมมองที่มีขนาดใหญ่ที่พวกเขาได้ศึกษามีการปนเปื้อนข้อมูลทดสอบเข้ากับข้อมูลการฝึกอบรม ซึ่งหมายความว่ามาตรฐานและรายงานประสิทธิภาพของโมเดลที่ฝึกอบรมบนการแบ่งนี้จะไม่แม่นยำและไม่สะท้อนถึงประสิทธิภาพในโลกแห่งความเป็นจริงบนข้อมูลใหม่ๆ

ตัวอย่างการปนเปื้อนข้อมูลที่พบโดยนักวิจัย โดยที่จุดข้อมูลหรือภาพที่เหมือนกันอยู่ในข้อมูลการฝึกอบรมและข้อมูลทดสอบ Source: https://arxiv.org/pdf/2508.17416
ในภาพด้านบนจากเอกสารใหม่ เราจะเห็นตัวอย่างของจุดข้อมูลหรือภาพที่เหมือนกันที่พบในข้อมูลการฝึกอบรมและข้อมูลทดสอบของโมเดลต่างๆ ซึ่งเพียงพอแล้วที่จะทำให้ประสิทธิภาพของโมเดลบนข้อมูลนั้นไม่ถูกต้องและเพิ่มคะแนนโดยรวมของโมเดลขึ้นอย่างไม่ยุติธรรม
เพื่อให้ปัญหานี้ซับซ้อนมากขึ้น การปนเปื้อนนี้เกิดขึ้นในหลายสถานการณ์ รวมถึง ‘การฝึกอบรมก่อน‘ ซึ่งน้ำหนักของโมเดลบรรพบุรุษที่เก่ากว่าจะถูกใช้เพื่อ ‘เริ่มต้น’ โมเดลใหม่ หากโมเดลบรรพบุรุษที่อยู่ไกลออกไปมีข้อมูลบางส่วนเหมือนกับชุดข้อมูลใหม่ที่กำลังฝึกอบรม การปนเปื้อนข้ามสามารถเกิดขึ้นได้แม้ว่าการแบ่ง 70/30 หรือ 80/20 จะสะอาด
ผลสะสม
สิ่งนี้เกิดขึ้นเกือบแน่นอนแม้ในชุดข้อมูลล่าสุด เนื่องจากขนาดของชุดข้อมูลภาพ/ภาษาเติบโตขึ้นอย่างมากในช่วงห้าปีที่ผ่านมา โดยครอบคลุมไม่เพียงแต่ข้อมูลภาพใหม่ๆ บนเว็บ แต่ยังรวมถึงการเก็บเกี่ยวข้อมูลอีกครั้งจากชุดข้อมูลเก่าๆ ที่มีอยู่แล้ว
นอกจากนี้ โพรแกรมอัตโนมัติที่ออกแบบมาเพื่อจับและกรองภาพหลายพันภาพสำหรับภาพที่เหมือนกันและใกล้เคียงต้องเผชิญกับงานที่หนักหน่วงมากจนการดูแลข้อมูลต้องคำนึงถึงข้อจำกัดด้านงบประมาณ
ในขณะเดียวกัน การทำซ้ำภาพเป็นผลที่ไม่สามารถหลีกเลี่ยงได้ของการรวบรวมข้อมูลขนาดใหญ่ เช่น Common Crawl เนื่องจากการปฏิบัติทั่วไปในการโพสต์ใหม่และบีบอัดภาพใหม่ และการแก้ไข เช่น การตัดภาพและการพลิก (เพื่อหลีกเลี่ยงการตรวจจับ เมื่อภาพอาจถูกใช้โดยไม่ได้รับอนุญาต)
ผู้เขียนสังเกตเห็น*:
‘การรั่วไหลของข้อมูลเป็นปัญหาที่แพร่หลายในหลายๆ ชุดข้อมูลที่มองเห็นได้ การรั่วไหลสามารถบดบังความสามารถในการสรุปผลของโมเดล ซึ่งเป็นปัญหาโดยเฉพาะอย่างยิ่งเมื่อเปรียบเทียบโมเดลที่ฝึกอบรมบนชุดข้อมูลต่างๆ ซึ่งนำไปสู่การเปรียบเทียบที่ไม่ยุติธรรม ‘
‘เราขอแนะนำให้ผู้ออกแบบชุดข้อมูลพิจารณาผลกระทบของการประเมินเหล่านี้อย่างรอบคอบ สำหรับการประเมินโมเดลที่ยุติธรรมยิ่งขึ้น เราแนะนำให้ใช้ตัวตรวจจับซ้ำที่พิจารณาทั้งการรั่วไหลที่แข็งและอ่อน ‘
‘ในอุดมคติ ภาพที่รั่วไหลควรจะถูกลบออกจากชุดข้อมูลการฝึกอบรม และหากไม่สามารถทำได้ ก็ควรจะถูกลบออกจากชุดข้อมูลทดสอบอย่างน้อยที่สุด’
เอกสารนี้ให้รายละเอียดเกี่ยวกับการทดสอบหลายอย่างที่นักวิจัยดำเนินการบนชุดข้อมูลขนาดใหญ่และได้รับความนิยม ซึ่งทั้งหมดนี้แสดงให้เห็นถึงระดับของการปนเปื้อน
เอกสารใหม่ ชื่อ Data Leakage in Visual Datasets และมาจากนักวิจัยสามคนจาก The University of Osaka
วิธีการ
ผู้เขียนเอกสารนี้กำหนดการรั่วไหลในสามมิติ: รูปแบบ, การครอบคลุม และ ระดับ
รูปแบบ แยกความแตกต่างว่าภาพที่รั่วไหลหรือทั้งภาพและป้ายกำกับถูกเปิดเผย; การครอบคลุม ระบุว่าการซ้อนทับเกิดขึ้นภายในชุดข้อมูลเดียวกันหรือระหว่างชุดข้อมูลที่แตกต่างกัน; และ ระดับ นิยามว่าเนื้อหาที่ซ้ำกันเหมือนกันหรือเพียงแต่ใกล้เคียงกัน
เกี่ยวกับการรั่วไหล สองสถานการณ์ที่พิจารณาในงานนี้คือ การรั่วไหลภายในชุดข้อมูล (โดยที่ภาพทดสอบปรากฏอีกครั้งในส่วนการฝึกอบรมของชุดข้อมูลเดียวกัน) และ การรั่วไหลระหว่างชุดข้อมูล (โดยที่ภาพทดสอบจากชุดข้อมูลหนึ่งปรากฏในอีกชุดข้อมูลหนึ่งที่ใช้ในการฝึกอบรม)
เกี่ยวกับระดับ สองระดับที่กำหนดคือ การรั่วไหลอ่อน (โดยที่ภาพไม่เหมือนกัน แต่มีการเปลี่ยนแปลงเล็กน้อย) และ การรั่วไหลแข็ง (โดยที่ภาพเหมือนกันอย่างแน่นอนระหว่างการฝึกอบรมและการประเมิน)
นักวิจัยกล่าวถึงการตรวจจับการรั่วไหลในแง่ของ การค้นหาภาพ โดยใช้ตัวเข้ารหัสภาพเพื่อแสดงภาพแต่ละภาพเป็น เวกเตอร์แบบแผน
สำหรับชุดข้อมูลขนาดเล็ก เวกเตอร์แบบแผนของการค้นหาทุกตัวถูกเปรียบเทียบโดยตรงกับเวกเตอร์ฝึกอบรมทั้งหมดโดยใช้ ความคล้ายคลึงกันโคไซน์
สำหรับชุดข้อมูลขนาดใหญ่ ดัชนี Faiss ถูกสร้างขึ้นเพื่อทำให้การค้นหา K-Nearest Neighbors (KNN) เร็วขึ้น
เนื่องจากตัวเข้ารหัสต้องจับข้อมูลภาพที่เพียงพอเพื่อตรวจจับความคล้ายคลึงที่ละเอียด แต่ยังคงทำงานได้อย่างมีประสิทธิภาพต่อปริมาณข้อมูลขนาดใหญ่ ผู้เขียนจึงพึ่งพาเวกเตอร์แบบแผน CLIP ที่คำนวณไว้ล่วงหน้าซึ่งจัดทำโดยผู้สร้างชุดข้อมูล โดยเฉพาะสำหรับชุดข้อมูล LAION ที่เป็นพื้นฐานของ Stable Diffusion และโครงการที่ตามมา
ผู้เขียนสังเกตว่าการอนุญาตให้ CLIP ใช้ความเข้าใจที่กระชัดของชุดข้อมูล (แทนที่จะสำรวจไฟล์จริงในระดับใหญ่) ทำให้กระบวนการเร็วขึ้นอย่างมาก และให้ความสอดคล้องที่ดีขึ้นระหว่างการเปรียบเทียบ
ข้อมูลและการทดสอบ
tensorflow ตัวเข้ารหัสภาพ CLIP ที่ใช้ในการทดสอบสำหรับงานใหม่นี้คือ CLIP ViT-B/32 เดิมที่ใช้ในการกรอง LAION
ในการตรวจสอบว่าภาพที่แตกต่างกันเกี่ยวข้องกันหรือไม่ KNN ถูกใช้ภายใต้ AutoFaiss
ชุดข้อมูลถูกแบ่งออกเป็นสามประเภท: การฝึกอบรมก่อน – ชุดข้อมูลขนาดใหญ่ที่เก็บจากเว็บซึ่งใช้ในการฝึกอบรมโมเดลทั่วไป; การฝึกอบรม – ชุดข้อมูลขนาดเล็กที่มีการบันทึกย่อ ซึ่งใช้สำหรับการปรับโมเดลโดยตรง; และ มาตรฐาน – ชุดข้อมูลที่มีการบันทึกย่อด้วยมือ และใช้เพื่อการประเมินเท่านั้น
การวิเคราะห์ครอบคลุมยี่งยี่สิบส่วนข้ามเจ็ดชุดข้อมูล: Microsoft COCO ถูกใช้ทั้งในการฝึกอบรมและทดสอบ โดยรวมการฝึกอบรม การตรวจสอบ การทดสอบ และส่วนไม่มีการบันทึกย่อ; Flickr30k ใช้เพียงสำหรับการทดสอบ; และชุดข้อมูล Google Conceptual Captions (GCC) ถูกใช้เป็นแหล่งการฝึกอบรมก่อน โดยที่ส่วนการตรวจสอบยังถูกใช้ในการทดสอบ
นอกจากนี้ ImageNet ถูกใช้สำหรับการฝึกอบรมและมาตรฐาน ในขณะที่ชุดข้อมูล LAION-400M ถูกใช้เพียงสำหรับการฝึกอบรมก่อน
OpenImages v4 มีส่วนช่วยในการฝึกอบรมและข้อมูลมาตรฐาน และ TextCaps ให้การฝึกอบรมและทดสอบสำหรับการประเมิน

ตัวอย่างการบันทึกย่อภาพจากชุดข้อมูล Open Images ของ Google ที่ตรวจสอบในงานใหม่นี้ Source: https://arxiv.org/pdf/1811.00982
เพื่อประเมินว่าวิธีการสามารถตรวจจับการรั่วไหลเมื่อภาพถูกเปลี่ยนแปลงอย่างละเอียดผ่านการปรับขนาด การตัดภาพ หรือการเปลี่ยนแปลงที่ไม่ใช่เชิงสำเนา อีกต่อไป ผู้เขียนได้ทดสอบบน Flickr30k โดยเลือกภาพ 5,000 ภาพแบบสุ่มเป็นคำถาม และใช้ชุดข้อมูลทั้งหมดเป็นคอลเลกชันการอ้างอิง
แต่ละภาพคำถามถูกเปลี่ยนแปลงก่อนที่จะถูกเข้ารหัส (เช่น การปรับขนาดหรือการตัดภาพ) และจากนั้นจับคู่กับรายการในคอลเลกชันที่คล้ายคลึงที่สุดโดยใช้ความคล้ายคลึงกันโคไซน์; การจับคู่ถูกนับเฉพาะเมื่อภาพดั้งเดิมถูกเรียกคืนเป็นผลลัพธ์อันดับต้นๆ
ตัวเข้ารหัสสามตัวที่เปรียบเทียบคือ ResNet-152; DINOv2 ViT-B/14; และ CLIP ViT-B/32
การเปลี่ยนแปลงภาพที่ไม่ใช่เชิงสำเนาสี่ประเภทถูกใช้: จลนศาสตร์ (การพลิกและการหมุน); การตัดภาพ (การลบ 20, 50 หรือ 100 พิกเซลจากแต่ละด้าน); พิกเซล (การเบลอแบบกอสเซียน การเพิ่มเสียงรบกวน หรือการลดขนาดลงเหลือ 128 หรือ 256 พิกเซล); และสี (สีเทา การกลับด้าน หรือการซ้อนทับด้วยสีแดง สีเขียว หรือสีน้ำเงิน)

จากส่วนเสริม ตัวอย่างการเปลี่ยนแปลงที่ใช้กับข้อมูล – ขั้นตอนปกติในการเตรียมข้อมูลก่อนการเพิ่มประสิทธิภาพ
จากนั้นผู้เขียนได้ทดสอบการตรวจจับการรั่วไหลในภาพ:

ความแม่นยำในการตรวจจับการรั่วไหลบน 5,000 ภาพ Flickr30k ที่ถูกเปลี่ยนแปลงอย่างไม่ใช่เชิงสำเนา
ทั้งสามตัวเข้ารหัสบรรลุประสิทธิภาพที่สมบูรณ์แบบบนภาพที่ไม่เปลี่ยนแปลง และ CLIP ยังคงเชื่อถือได้ในการเปลี่ยนแปลงการคัดภาพ การพลิกแนวนอน เสียงรบกวน และการปรับขนาด โดยเอาชนะ ResNet ในการเปลี่ยนแปลงระดับพิกเซลและสี
DINOv2 แสดงความทนทานที่แข็งแกร่งต่อการเปลี่ยนแปลงสี (อาจเป็นเพราะการออกแบบแบบฝึกหัดด้วยตนเอง) แต่แสดงความอ่อนแอในเรื่องการแก้ไขทางเรขาคณิตและการคัดภาพ – ทั้งสองอย่างนี้พบได้ทั่วไปในชุดข้อมูลที่ซ้ำกัน
เนื่องจาก LAION มีการฝัง CLIP มาแล้ว และด้วยความสม่ำเสมอและความเร็วที่สม่ำเสมอ CLIP จึงถูกเลือกเป็นตัวเข้ารหัสเริ่มต้นสำหรับการวิเคราะห์หลัก
การรั่วไหลที่แข็งและอ่อน
ประสิทธิภาพถูกประเมินข้ามความคล้ายคลึงกันโคไซน์ที่แตกต่างกันเพื่อแยกความแตกต่างระหว่างภาพที่เหมือนกันและใกล้เคียง (การรั่วไหลที่แข็งและอ่อน)
ความคล้ายคลึงกันโคไซน์ 0.98 ถูกเลือกเพื่อกำหนดการรั่วไหลที่แข็ง โดยไม่มีผลลัพธ์เท็จและตรวจจับการรั่วไหลที่สมบูรณ์แบบของภาพที่เหมือนกัน
สำหรับการรั่วไหลที่อ่อน ความคล้ายคลึงกันโคไซน์ 0.95 ถูกเลือกเพื่อให้สามารถดึงภาพที่ใกล้เคียงได้มากขึ้น ในขณะเดียวกันก็รักษาอัตราผลลัพธ์เท็จให้ใกล้เคียงกับศูนย์

เส้นโค้งการรับ-ส่ง (ROC) ถูกใช้เพื่อช่วยในการเลือกเกณฑ์การรั่วไหลที่แข็งและอ่อน คะแนน AUC ที่สูงภายใต้ทั้งเงื่อนไขที่เปลี่ยนแปลงและไม่เปลี่ยนแปลงแสดงให้เห็นว่าภาพที่ใกล้เคียงสามารถแยกแยะได้อย่างน่าเชื่อถือจากภาพที่ไม่เกี่ยวข้อง แม้ว่าจะมีการเปลี่ยนแปลงเล็กน้อยก็ตาม
การรั่วไหลภายในชุดข้อมูล
การรั่วไหลภายในชุดข้อมูลถูกคำนวณโดยการระบุการซ้อนทับของภาพระหว่างส่วนการฝึกอบรมและการประเมินภายในชุดข้อมูลเดียวกัน
สำหรับ COCO ชุดการทดสอบถูกเปรียบเทียบกับส่วนการฝึกอบรม ชุดการประเมิน และชุดไม่มีการบันทึกย่อ และชุดการตรวจสอบถูกเปรียบเทียบกับส่วนการฝึกอบรมและชุดไม่มีการบันทึกย่อ
อัตราการรั่วไหลภายในชุดข้อมูลที่สูงที่สุดพบใน ImageNet โดยการรั่วไหลที่แข็งสูงถึง 1.58% และการรั่วไหลที่อ่อนต่ำกว่า 2%
GCC และ COCO ตามมา โดย COCO val2017 แสดงการรั่วไหลที่อ่อน 3% และชุดการทดสอบอยู่ในช่วง 1.35% ถึง 1.38% OpenImages แสดงการรั่วไหลที่แข็งที่ 0.05% แต่การรั่วไหลที่อ่อนเกิน 1.3% ในทั้งชุดการทดสอบและชุดการประเมิน
TextCaps แสดงการรั่วไหลทั้งหมดที่ 0.69% โดยไม่มีการรั่วไหลที่แข็ง

อัตราการรั่วไหลภายในชุดข้อมูล โดยแสดงสัดส่วนของชุดการประเมินแต่ละชุดซึ่งซ้อนทับกับชุดข้อมูลการฝึกอบรมที่เกี่ยวข้อง
เกี่ยวกับผลลัพธ์เหล่านี้ ผู้เขียนระบุ†:
‘ผลลัพธ์เหล่านี้แสดงให้เห็นว่าการรั่วไหลภายในชุดข้อมูลเกิดขึ้นใน ทุก ชุดข้อมูลที่วิเคราะห์ ไม่ว่าจะเป็นการรั่วไหลที่แข็งหรืออ่อน ‘
‘เนื่องจากการรั่วไหลของข้อมูลสามารถบ่อนทำลายการประเมินโมเดล และชุดข้อมูลได้รับการออกแบบโดยเฉพาะสำหรับวัตถุประสงค์นี้ การรั่วไหลภายในชุดข้อมูลจึงเป็นความเสี่ยงที่ โดยการออกแบบ ไม่ควรเกิดขึ้น
‘แต่เราพบหลายกรณีในทุกชุดข้อมูล’
การรั่วไหลระหว่างชุดข้อมูล
เพื่อวัดการรั่วไหลระหว่างชุดข้อมูล (โดยที่โมเดลถูกฝึกอบรมบนชุดข้อมูลหนึ่งและประเมินบนชุดข้อมูลอื่น) สี่ชุดข้อมูลถูกใช้เป็นแหล่งข้อมูลการฝึกอบรม: GCC train, ImageNet train, OpenImages train และ LAION
ชุดข้อมูลเหล่านี้ถูกจับคู่กับข้อมูลการประเมินจาก COCO 2014 ชุดทดสอบและชุดการประเมิน Flickr30K TextCaps ชุดทดสอบ ชุดข้อมูล OpenImages ชุดทดสอบและชุดการประเมิน และ ImageNet ชุดทดสอบและชุดการประเมิน
การค้นหาถูกดำเนินการโดยใช้ KNN การค้นหา แม้ว่าขนาดของ LAION ต้องแบ่งออกเป็นบล็อกภาพล้านภาพ โดยแต่ละบล็อกถูกดัชนีแยกกัน:

การรั่วไหลระหว่างชุดข้อมูลมาตรฐาน (คอลัมน์) และชุดข้อมูลการฝึกอบรมก่อน (แถว) ทางด้านซ้ายแสดงการรั่วไหลที่แข็ง (ภาพที่เหมือนกัน) และทางด้านขวาแสดงการรั่วไหลที่อ่อน (ภาพที่ใกล้เคียง)
การรั่วไหลระหว่างชุดข้อมูลถูกพบใน tất ชุดข้อมูลมาตรฐาน โดยมีระดับที่แตกต่างกัน LAION แสดงอัตราการรั่วไหลที่แข็งที่สุด โดยเฉพาะสำหรับ OpenImages และ TextCaps ชุดทดสอบ ซึ่งแต่ละชุดเกิน 3%
OpenImages ยังให้การรั่วไหลที่แข็งที่น้อยกว่าไปยัง COCO
แม้ว่าจะน้อยกว่า ImageNet ยังคงมีการรั่วไหลที่แข็งจากชุดข้อมูลมาตรฐานทั้งหมด; และ GCC แสดงการรั่วไหลที่แข็งที่ต่ำที่สุด โดยอยู่ต่ำกว่า 1%
การรั่วไหลที่อ่อนกว่านั้นแพร่หลายมากขึ้น: LAION สร้างการรั่วไหลที่อ่อนที่สุด โดยมีการทับซ้อนมากถึง 7.9% สำหรับมาตรฐานบางอย่าง; OpenImages และ TextCaps เป็นชุดข้อมูลมาตรฐานที่ได้รับผลกระทบมากที่สุด; และ Flickr30k แสดงการรั่วไหลที่น้อยที่สุด
แม้ว่าการทับซ้อนนี้อาจครอบคลุมเฉพาะส่วนเล็กๆ ของชุดข้อมูลการประเมิน แต่นักวิจัยชี้ว่าความมีอยู่ของมันสามารถทำให้ การจำ และบ่อนทำลายความถูกต้องของการทดสอบ:

ตัวอย่างภาพที่รั่วไหล ทางซ้ายแสดงกรณีของการรั่วไหลที่แข็ง โดยที่ภาพเหมือนกันภายในชุดข้อมูล (ด้านบน) หรือระหว่างชุดข้อมูล (ด้านล่าง); ทางขวาแสดงกรณีของการรั่วไหลที่อ่อน โดยที่ภาพใกล้เคียง
ผลกระทบต่อการประเมินในภายหลัง
เอกสารต่อไปพิจารณาว่าการรั่วไหลของข้อมูลส่งผลต่อการประเมินในภายหลัง (เช่น ประสิทธิภาพบนงานมาตรฐานเมื่อโมเดลที่ฝึกอบรมก่อนถูกทดสอบบนมาตรฐานที่มีภาพที่รั่วไหลในข้อมูลการฝึกอบรม)
งานสามงานถูกพิจารณา: การจำแนกประเภทแบบไม่มีการฝึกอบรม; การจำแนกประเภทแบบมีการฝึกอบรม; และการค้นหาภาพ-ข้อความ
สำหรับงานแต่ละงาน ประสิทธิภาพของโมเดลถูกประเมินบนชุดข้อมูลมาตรฐานที่ทราบว่ามีตัวอย่างที่รั่วไหลในข้อมูลการฝึกอบรมก่อน
ผลลัพธ์ถูกเปรียบเทียบข้ามสี่ส่วน: ชุดข้อมูลมาตรฐานเต็ม; ส่วนของตัวอย่างที่รั่วไหล; ส่วนของตัวอย่างที่ไม่รั่วไหล; และส่วนเลือกแบบสุ่มที่มีขนาดเท่ากับส่วนของตัวอย่างที่รั่วไหล (ใช้เป็นกลุ่มควบคุม)
ผลกระทบของการรั่วไหลของข้อมูลต่องานในภายหลังถูกวัดโดยใช้ส่วนของชุดข้อมูลมาตรฐานที่ทราบว่ามีตัวอย่างที่รั่วไหล
ในงานการจำแนกประเภทแบบไม่มีการฝึกอบรม โมเดลที่ฝึกอบรมก่อนบน LAION บรรลุความแม่นยำที่สังเกตได้สูงกว่าบนชุดข้อมูล ImageNet ที่มีตัวอย่างที่รั่วไหล ยืนยันว่าการได้รับแม้แต่ภาพที่ใกล้เคียงระหว่างการฝึกอบรมให้ความได้เปรียบที่วัดได้:

ความแม่นยำในการจำแนกประเภทแบบไม่มีการฝึกอบรมบนชุดข้อมูล ImageNet ที่มีตัวอย่างที่รั่วไหลและไม่รั่วไหล
สำหรับการจำแนกประเภทแบบมีการฝึกอบรม การรั่วไหลใน ImageNet ทำให้ประสิทธิภาพลดลงอย่างมาก – เว้นแต่ว่าตัวอย่างที่รั่วไหลจะมีป้ายกำกับเดียวกันในทั้งสองส่วน ในกรณีนั้น โมเดลบรรลุความแม่นยำที่ใกล้เคียงกับความสมบูรณ์แบบ โดยเปิดเผยผลกระทบของการจำที่แข็ง:

ความแม่นยำในการจำแนกประเภทแบบมีการฝึกอบรมบนชุดข้อมูล ImageNet ที่มีตัวอย่างที่รั่วไหลและไม่รั่วไหล
ในการค้นหาภาพ-ข้อความ ประสิทธิภาพก็เพิ่มขึ้นสำหรับตัวอย่างที่รั่วไหล โดยทั้งการรั่วไหลที่แข็งและอ่อนนำไปสู่การเรียกคืนภาพที่สูงขึ้น และส่วนของตัวอย่างที่รั่วไหลยังให้ผลลัพธ์ที่สม่ำเสียมากขึ้นระหว่างการวิ่ง:

ประสิทธิภาพในการค้นหาภาพ-ข้อความบน Flickr30k ที่มีตัวอย่างที่รั่วไหลและไม่รั่วไหล
ผู้เขียนสรุป:
‘โดยรวมแล้ว เราแสดงหลักฐานที่สม่ำเสมอว่าการรั่วไหลของข้อมูลเป็นภัยคุกคามที่ร้ายแรงต่อการประเมินโมเดลที่ยุติธรรมในข้อมูลที่มองเห็นได้ โดยบ่อนทำลายหลักการหนึ่งของการเรียนรู้ของเครื่อง: ไม่ประเมินโมเดลบนข้อมูลการฝึกอบรม’
สรุป
ด้านหนึ่งของเอกสารที่น่าตกใจ (แม้ว่าจะไม่ใช่เรื่องใหม่) คือเรื่องราวของการใช้ CLIP เพื่อให้ได้เวกเตอร์แบบแผนสำหรับข้อมูลภาพจำนวนมากใน LAION ซึ่งแสดงให้เห็นถึงระดับที่การฝึกอบรมโมเดลภาพ-ภาษาได้เกินขอบเขตและความสามารถของการดูแลและการดูแลของมนุษย์ หรือการดูแลด้วยตนเองเกินกว่าชุดตัวอย่างที่เป็นตัวแทน
เป็นการแสดงให้เห็นอย่างชัดเจนถึงระดับที่การฝึกอบรมโมเดลการมองเห็น-ภาษาได้เกินขอบเขตและความสามารถของการดูแลและการดูแลของมนุษย์ หรือการดูแลด้วยตนเองเกินกว่าชุดตัวอย่างที่เป็นตัวแทน
* อาจทำให้สับสนเล็กน้อย ปัญหาเรื่องการทำซ้ำถูกกำหนดไว้ในเอกสารวิจัยว่าเป็น ‘การรั่วไหล’
† การเน้นของผู้เขียน
ตีพิมพ์ครั้งแรกวันอังคารที่ 26 สิงหาคม 2025












