มุมมองของ Anderson

‘Rogue’ ข้อมูลที่ปนเปื้อนการทำงานของ Generative AI

เผยแพร่ 26 สิงหาคม 2025

อัปเดต 18 พฤษภาคม 2026

Martin Anderson

การศึกษาใหม่พบว่าชุดข้อมูลภาพที่ได้รับความนิยมหลายชุดซึ่งใช้ในการฝึกอบรมโมเดล AI ถูกปนเปื้อนด้วยภาพทดสอบหรือภาพที่เหมือนกัน ทำให้โมเดลสามารถโกงได้โดยการจำคำตอบแทนการเรียนรู้ การรั่วไหลนี้แพร่หลาย แต่โดยทั่วไปไม่ได้รับการตรวจจับ และทำให้คะแนนของโมเดลที่ฝึกอบรมด้วยข้อมูลขนาดเว็บสูงขึ้นอย่างไม่ยุติธรรม

เมื่อคุณทำการทดสอบการขับรถ คุณไม่ได้รับแจ้งล่วงหน้าว่าถนนใดจะถูกใช้ในการทดสอบ หากคุณรู้ (และคุณขาดความซื่อสัตย์เล็กน้อย) คุณอาจ ‘เพิ่มประสิทธิภาพ’ สำหรับการทดสอบโดยการฝึกซ้อมซ้ำๆ บนเส้นทางนั้น แทนที่จะพัฒนาทักษะการขับรถที่กว้างขึ้นซึ่งสามารถจัดการเส้นทางใดๆ ได้ดี

ในกระบวนการฝึกอบรมโมเดลการเรียนรู้ของเครื่อง การแบ่งชุดข้อมูลออกเป็นสองส่วนนี้เป็นเรื่องที่สมเหตุสมผล เช่น การแบ่งชุดข้อมูลออกเป็น 70% สำหรับการฝึกอบรม และ 30% สำหรับการทดสอบ

เนื่องจากข้อมูลในทางปฏิบัติไม่เคยเห็นโดยโมเดล หากโมเดลทำงานได้ดีบนข้อมูลนั้น จะถือว่าได้ผลและทำงานได้ดี หากไม่ โมเดลอาจมีการ 过拟合 บนชุดข้อมูลที่สมดุลหรือชุดข้อมูลต้องการการดูแลและคำจำกัดความเพิ่มเติม

ไม่ว่าจะด้วยวิธีใด การไม่ประเมินโมเดลบนข้อมูลการฝึกอบรมเป็นหลักการสำคัญของวิธีการปัจจุบันในการวิจัยและพัฒนา AI

เหมือนเดิมอีกครั้ง

ตามรายงานวิจัยใหม่จากญี่ปุ่น ส่วนการวิจัยด้านการมองเห็นของเครื่องและ AI ที่สร้างสรรค์ไม่ได้เทียบเท่ากับความพยายามของนักวิจัย LLM ในการตรวจสอบให้แน่ใจว่าข้อมูลทดสอบไม่ปนเปื้อนข้อมูลการฝึกอบรม ในการทดสอบ นักวิจัยพบว่าทุกชุดข้อมูลมุมมองที่มีขนาดใหญ่ที่พวกเขาได้ศึกษามีการปนเปื้อนข้อมูลทดสอบเข้ากับข้อมูลการฝึกอบรม ซึ่งหมายความว่ามาตรฐานและรายงานประสิทธิภาพของโมเดลที่ฝึกอบรมบนการแบ่งนี้จะไม่แม่นยำและไม่สะท้อนถึงประสิทธิภาพในโลกแห่งความเป็นจริงบนข้อมูลใหม่ๆ

ตัวอย่างการปนเปื้อนข้อมูลที่พบโดยนักวิจัย โดยที่จุดข้อมูลหรือภาพที่เหมือนกันอยู่ในข้อมูลการฝึกอบรมและข้อมูลทดสอบ Source: https://arxiv.org/pdf/2508.17416

ในภาพด้านบนจากเอกสารใหม่ เราจะเห็นตัวอย่างของจุดข้อมูลหรือภาพที่เหมือนกันที่พบในข้อมูลการฝึกอบรมและข้อมูลทดสอบของโมเดลต่างๆ ซึ่งเพียงพอแล้วที่จะทำให้ประสิทธิภาพของโมเดลบนข้อมูลนั้นไม่ถูกต้องและเพิ่มคะแนนโดยรวมของโมเดลขึ้นอย่างไม่ยุติธรรม

เพื่อให้ปัญหานี้ซับซ้อนมากขึ้น การปนเปื้อนนี้เกิดขึ้นในหลายสถานการณ์ รวมถึง ‘การฝึกอบรมก่อน‘ ซึ่งน้ำหนักของโมเดลบรรพบุรุษที่เก่ากว่าจะถูกใช้เพื่อ ‘เริ่มต้น’ โมเดลใหม่ หากโมเดลบรรพบุรุษที่อยู่ไกลออกไปมีข้อมูลบางส่วนเหมือนกับชุดข้อมูลใหม่ที่กำลังฝึกอบรม การปนเปื้อนข้ามสามารถเกิดขึ้นได้แม้ว่าการแบ่ง 70/30 หรือ 80/20 จะสะอาด

ผลสะสม

สิ่งนี้เกิดขึ้นเกือบแน่นอนแม้ในชุดข้อมูลล่าสุด เนื่องจากขนาดของชุดข้อมูลภาพ/ภาษาเติบโตขึ้นอย่างมากในช่วงห้าปีที่ผ่านมา โดยครอบคลุมไม่เพียงแต่ข้อมูลภาพใหม่ๆ บนเว็บ แต่ยังรวมถึงการเก็บเกี่ยวข้อมูลอีกครั้งจากชุดข้อมูลเก่าๆ ที่มีอยู่แล้ว

นอกจากนี้ โพรแกรมอัตโนมัติที่ออกแบบมาเพื่อจับและกรองภาพหลายพันภาพสำหรับภาพที่เหมือนกันและใกล้เคียงต้องเผชิญกับงานที่หนักหน่วงมากจนการดูแลข้อมูลต้องคำนึงถึงข้อจำกัดด้านงบประมาณ

ในขณะเดียวกัน การทำซ้ำภาพเป็นผลที่ไม่สามารถหลีกเลี่ยงได้ของการรวบรวมข้อมูลขนาดใหญ่ เช่น Common Crawl เนื่องจากการปฏิบัติทั่วไปในการโพสต์ใหม่และบีบอัดภาพใหม่ และการแก้ไข เช่น การตัดภาพและการพลิก (เพื่อหลีกเลี่ยงการตรวจจับ เมื่อภาพอาจถูกใช้โดยไม่ได้รับอนุญาต)

ผู้เขียนสังเกตเห็น*:

‘การรั่วไหลของข้อมูลเป็นปัญหาที่แพร่หลายในหลายๆ ชุดข้อมูลที่มองเห็นได้ การรั่วไหลสามารถบดบังความสามารถในการสรุปผลของโมเดล ซึ่งเป็นปัญหาโดยเฉพาะอย่างยิ่งเมื่อเปรียบเทียบโมเดลที่ฝึกอบรมบนชุดข้อมูลต่างๆ ซึ่งนำไปสู่การเปรียบเทียบที่ไม่ยุติธรรม ‘

‘เราขอแนะนำให้ผู้ออกแบบชุดข้อมูลพิจารณาผลกระทบของการประเมินเหล่านี้อย่างรอบคอบ สำหรับการประเมินโมเดลที่ยุติธรรมยิ่งขึ้น เราแนะนำให้ใช้ตัวตรวจจับซ้ำที่พิจารณาทั้งการรั่วไหลที่แข็งและอ่อน ‘

‘ในอุดมคติ ภาพที่รั่วไหลควรจะถูกลบออกจากชุดข้อมูลการฝึกอบรม และหากไม่สามารถทำได้ ก็ควรจะถูกลบออกจากชุดข้อมูลทดสอบอย่างน้อยที่สุด’

เอกสารนี้ให้รายละเอียดเกี่ยวกับการทดสอบหลายอย่างที่นักวิจัยดำเนินการบนชุดข้อมูลขนาดใหญ่และได้รับความนิยม ซึ่งทั้งหมดนี้แสดงให้เห็นถึงระดับของการปนเปื้อน

เอกสารใหม่ ชื่อ Data Leakage in Visual Datasets และมาจากนักวิจัยสามคนจาก The University of Osaka

วิธีการ

ผู้เขียนเอกสารนี้กำหนดการรั่วไหลในสามมิติ: รูปแบบ, การครอบคลุม และ ระดับ

รูปแบบ แยกความแตกต่างว่าภาพที่รั่วไหลหรือทั้งภาพและป้ายกำกับถูกเปิดเผย; การครอบคลุม ระบุว่าการซ้อนทับเกิดขึ้นภายในชุดข้อมูลเดียวกันหรือระหว่างชุดข้อมูลที่แตกต่างกัน; และ ระดับ นิยามว่าเนื้อหาที่ซ้ำกันเหมือนกันหรือเพียงแต่ใกล้เคียงกัน

เกี่ยวกับการรั่วไหล สองสถานการณ์ที่พิจารณาในงานนี้คือ การรั่วไหลภายในชุดข้อมูล (โดยที่ภาพทดสอบปรากฏอีกครั้งในส่วนการฝึกอบรมของชุดข้อมูลเดียวกัน) และ การรั่วไหลระหว่างชุดข้อมูล (โดยที่ภาพทดสอบจากชุดข้อมูลหนึ่งปรากฏในอีกชุดข้อมูลหนึ่งที่ใช้ในการฝึกอบรม)

เกี่ยวกับระดับ สองระดับที่กำหนดคือ การรั่วไหลอ่อน (โดยที่ภาพไม่เหมือนกัน แต่มีการเปลี่ยนแปลงเล็กน้อย) และ การรั่วไหลแข็ง (โดยที่ภาพเหมือนกันอย่างแน่นอนระหว่างการฝึกอบรมและการประเมิน)

นักวิจัยกล่าวถึงการตรวจจับการรั่วไหลในแง่ของ การค้นหาภาพ โดยใช้ตัวเข้ารหัสภาพเพื่อแสดงภาพแต่ละภาพเป็น เวกเตอร์แบบแผน

สำหรับชุดข้อมูลขนาดเล็ก เวกเตอร์แบบแผนของการค้นหาทุกตัวถูกเปรียบเทียบโดยตรงกับเวกเตอร์ฝึกอบรมทั้งหมดโดยใช้ ความคล้ายคลึงกันโคไซน์

สำหรับชุดข้อมูลขนาดใหญ่ ดัชนี Faiss ถูกสร้างขึ้นเพื่อทำให้การค้นหา K-Nearest Neighbors (KNN) เร็วขึ้น

เนื่องจากตัวเข้ารหัสต้องจับข้อมูลภาพที่เพียงพอเพื่อตรวจจับความคล้ายคลึงที่ละเอียด แต่ยังคงทำงานได้อย่างมีประสิทธิภาพต่อปริมาณข้อมูลขนาดใหญ่ ผู้เขียนจึงพึ่งพาเวกเตอร์แบบแผน CLIP ที่คำนวณไว้ล่วงหน้าซึ่งจัดทำโดยผู้สร้างชุดข้อมูล โดยเฉพาะสำหรับชุดข้อมูล LAION ที่เป็นพื้นฐานของ Stable Diffusion และโครงการที่ตามมา

ผู้เขียนสังเกตว่าการอนุญาตให้ CLIP ใช้ความเข้าใจที่กระชัดของชุดข้อมูล (แทนที่จะสำรวจไฟล์จริงในระดับใหญ่) ทำให้กระบวนการเร็วขึ้นอย่างมาก และให้ความสอดคล้องที่ดีขึ้นระหว่างการเปรียบเทียบ

ข้อมูลและการทดสอบ

tensorflow ตัวเข้ารหัสภาพ CLIP ที่ใช้ในการทดสอบสำหรับงานใหม่นี้คือ CLIP ViT-B/32 เดิมที่ใช้ในการกรอง LAION

ในการตรวจสอบว่าภาพที่แตกต่างกันเกี่ยวข้องกันหรือไม่ KNN ถูกใช้ภายใต้ AutoFaiss

ชุดข้อมูลถูกแบ่งออกเป็นสามประเภท: การฝึกอบรมก่อน – ชุดข้อมูลขนาดใหญ่ที่เก็บจากเว็บซึ่งใช้ในการฝึกอบรมโมเดลทั่วไป; การฝึกอบรม – ชุดข้อมูลขนาดเล็กที่มีการบันทึกย่อ ซึ่งใช้สำหรับการปรับโมเดลโดยตรง; และ มาตรฐาน – ชุดข้อมูลที่มีการบันทึกย่อด้วยมือ และใช้เพื่อการประเมินเท่านั้น

การวิเคราะห์ครอบคลุมยี่งยี่สิบส่วนข้ามเจ็ดชุดข้อมูล: Microsoft COCO ถูกใช้ทั้งในการฝึกอบรมและทดสอบ โดยรวมการฝึกอบรม การตรวจสอบ การทดสอบ และส่วนไม่มีการบันทึกย่อ; Flickr30k ใช้เพียงสำหรับการทดสอบ; และชุดข้อมูล Google Conceptual Captions (GCC) ถูกใช้เป็นแหล่งการฝึกอบรมก่อน โดยที่ส่วนการตรวจสอบยังถูกใช้ในการทดสอบ

นอกจากนี้ ImageNet ถูกใช้สำหรับการฝึกอบรมและมาตรฐาน ในขณะที่ชุดข้อมูล LAION-400M ถูกใช้เพียงสำหรับการฝึกอบรมก่อน

OpenImages v4 มีส่วนช่วยในการฝึกอบรมและข้อมูลมาตรฐาน และ TextCaps ให้การฝึกอบรมและทดสอบสำหรับการประเมิน

ตัวอย่างการบันทึกย่อภาพจากชุดข้อมูล Open Images ของ Google ที่ตรวจสอบในงานใหม่นี้ Source: https://arxiv.org/pdf/1811.00982

เพื่อประเมินว่าวิธีการสามารถตรวจจับการรั่วไหลเมื่อภาพถูกเปลี่ยนแปลงอย่างละเอียดผ่านการปรับขนาด การตัดภาพ หรือการเปลี่ยนแปลงที่ไม่ใช่เชิงสำเนา อีกต่อไป ผู้เขียนได้ทดสอบบน Flickr30k โดยเลือกภาพ 5,000 ภาพแบบสุ่มเป็นคำถาม และใช้ชุดข้อมูลทั้งหมดเป็นคอลเลกชันการอ้างอิง

แต่ละภาพคำถามถูกเปลี่ยนแปลงก่อนที่จะถูกเข้ารหัส (เช่น การปรับขนาดหรือการตัดภาพ) และจากนั้นจับคู่กับรายการในคอลเลกชันที่คล้ายคลึงที่สุดโดยใช้ความคล้ายคลึงกันโคไซน์; การจับคู่ถูกนับเฉพาะเมื่อภาพดั้งเดิมถูกเรียกคืนเป็นผลลัพธ์อันดับต้นๆ

ตัวเข้ารหัสสามตัวที่เปรียบเทียบคือ ResNet-152; DINOv2 ViT-B/14; และ CLIP ViT-B/32

การเปลี่ยนแปลงภาพที่ไม่ใช่เชิงสำเนาสี่ประเภทถูกใช้: จลนศาสตร์ (การพลิกและการหมุน); การตัดภาพ (การลบ 20, 50 หรือ 100 พิกเซลจากแต่ละด้าน); พิกเซล (การเบลอแบบกอสเซียน การเพิ่มเสียงรบกวน หรือการลดขนาดลงเหลือ 128 หรือ 256 พิกเซล); และสี (สีเทา การกลับด้าน หรือการซ้อนทับด้วยสีแดง สีเขียว หรือสีน้ำเงิน)

จากส่วนเสริม ตัวอย่างการเปลี่ยนแปลงที่ใช้กับข้อมูล – ขั้นตอนปกติในการเตรียมข้อมูลก่อนการเพิ่มประสิทธิภาพ

จากนั้นผู้เขียนได้ทดสอบการตรวจจับการรั่วไหลในภาพ:

ความแม่นยำในการตรวจจับการรั่วไหลบน 5,000 ภาพ Flickr30k ที่ถูกเปลี่ยนแปลงอย่างไม่ใช่เชิงสำเนา

ทั้งสามตัวเข้ารหัสบรรลุประสิทธิภาพที่สมบูรณ์แบบบนภาพที่ไม่เปลี่ยนแปลง และ CLIP ยังคงเชื่อถือได้ในการเปลี่ยนแปลงการคัดภาพ การพลิกแนวนอน เสียงรบกวน และการปรับขนาด โดยเอาชนะ ResNet ในการเปลี่ยนแปลงระดับพิกเซลและสี

DINOv2 แสดงความทนทานที่แข็งแกร่งต่อการเปลี่ยนแปลงสี (อาจเป็นเพราะการออกแบบแบบฝึกหัดด้วยตนเอง) แต่แสดงความอ่อนแอในเรื่องการแก้ไขทางเรขาคณิตและการคัดภาพ – ทั้งสองอย่างนี้พบได้ทั่วไปในชุดข้อมูลที่ซ้ำกัน

เนื่องจาก LAION มีการฝัง CLIP มาแล้ว และด้วยความสม่ำเสมอและความเร็วที่สม่ำเสมอ CLIP จึงถูกเลือกเป็นตัวเข้ารหัสเริ่มต้นสำหรับการวิเคราะห์หลัก

การรั่วไหลที่แข็งและอ่อน

ประสิทธิภาพถูกประเมินข้ามความคล้ายคลึงกันโคไซน์ที่แตกต่างกันเพื่อแยกความแตกต่างระหว่างภาพที่เหมือนกันและใกล้เคียง (การรั่วไหลที่แข็งและอ่อน)

ความคล้ายคลึงกันโคไซน์ 0.98 ถูกเลือกเพื่อกำหนดการรั่วไหลที่แข็ง โดยไม่มีผลลัพธ์เท็จและตรวจจับการรั่วไหลที่สมบูรณ์แบบของภาพที่เหมือนกัน

สำหรับการรั่วไหลที่อ่อน ความคล้ายคลึงกันโคไซน์ 0.95 ถูกเลือกเพื่อให้สามารถดึงภาพที่ใกล้เคียงได้มากขึ้น ในขณะเดียวกันก็รักษาอัตราผลลัพธ์เท็จให้ใกล้เคียงกับศูนย์

เส้นโค้งการรับ-ส่ง (ROC) ถูกใช้เพื่อช่วยในการเลือกเกณฑ์การรั่วไหลที่แข็งและอ่อน คะแนน AUC ที่สูงภายใต้ทั้งเงื่อนไขที่เปลี่ยนแปลงและไม่เปลี่ยนแปลงแสดงให้เห็นว่าภาพที่ใกล้เคียงสามารถแยกแยะได้อย่างน่าเชื่อถือจากภาพที่ไม่เกี่ยวข้อง แม้ว่าจะมีการเปลี่ยนแปลงเล็กน้อยก็ตาม

การรั่วไหลภายในชุดข้อมูล

การรั่วไหลภายในชุดข้อมูลถูกคำนวณโดยการระบุการซ้อนทับของภาพระหว่างส่วนการฝึกอบรมและการประเมินภายในชุดข้อมูลเดียวกัน

สำหรับ COCO ชุดการทดสอบถูกเปรียบเทียบกับส่วนการฝึกอบรม ชุดการประเมิน และชุดไม่มีการบันทึกย่อ และชุดการตรวจสอบถูกเปรียบเทียบกับส่วนการฝึกอบรมและชุดไม่มีการบันทึกย่อ

อัตราการรั่วไหลภายในชุดข้อมูลที่สูงที่สุดพบใน ImageNet โดยการรั่วไหลที่แข็งสูงถึง 1.58% และการรั่วไหลที่อ่อนต่ำกว่า 2%

GCC และ COCO ตามมา โดย COCO val2017 แสดงการรั่วไหลที่อ่อน 3% และชุดการทดสอบอยู่ในช่วง 1.35% ถึง 1.38% OpenImages แสดงการรั่วไหลที่แข็งที่ 0.05% แต่การรั่วไหลที่อ่อนเกิน 1.3% ในทั้งชุดการทดสอบและชุดการประเมิน

TextCaps แสดงการรั่วไหลทั้งหมดที่ 0.69% โดยไม่มีการรั่วไหลที่แข็ง

อัตราการรั่วไหลภายในชุดข้อมูล โดยแสดงสัดส่วนของชุดการประเมินแต่ละชุดซึ่งซ้อนทับกับชุดข้อมูลการฝึกอบรมที่เกี่ยวข้อง

เกี่ยวกับผลลัพธ์เหล่านี้ ผู้เขียนระบุ^†:

‘ผลลัพธ์เหล่านี้แสดงให้เห็นว่าการรั่วไหลภายในชุดข้อมูลเกิดขึ้นใน ทุก ชุดข้อมูลที่วิเคราะห์ ไม่ว่าจะเป็นการรั่วไหลที่แข็งหรืออ่อน ‘

‘เนื่องจากการรั่วไหลของข้อมูลสามารถบ่อนทำลายการประเมินโมเดล และชุดข้อมูลได้รับการออกแบบโดยเฉพาะสำหรับวัตถุประสงค์นี้ การรั่วไหลภายในชุดข้อมูลจึงเป็นความเสี่ยงที่ โดยการออกแบบ ไม่ควรเกิดขึ้น

‘แต่เราพบหลายกรณีในทุกชุดข้อมูล’

การรั่วไหลระหว่างชุดข้อมูล

เพื่อวัดการรั่วไหลระหว่างชุดข้อมูล (โดยที่โมเดลถูกฝึกอบรมบนชุดข้อมูลหนึ่งและประเมินบนชุดข้อมูลอื่น) สี่ชุดข้อมูลถูกใช้เป็นแหล่งข้อมูลการฝึกอบรม: GCC train, ImageNet train, OpenImages train และ LAION

ชุดข้อมูลเหล่านี้ถูกจับคู่กับข้อมูลการประเมินจาก COCO 2014 ชุดทดสอบและชุดการประเมิน Flickr30K TextCaps ชุดทดสอบ ชุดข้อมูล OpenImages ชุดทดสอบและชุดการประเมิน และ ImageNet ชุดทดสอบและชุดการประเมิน

การค้นหาถูกดำเนินการโดยใช้ KNN การค้นหา แม้ว่าขนาดของ LAION ต้องแบ่งออกเป็นบล็อกภาพล้านภาพ โดยแต่ละบล็อกถูกดัชนีแยกกัน:

การรั่วไหลระหว่างชุดข้อมูลมาตรฐาน (คอลัมน์) และชุดข้อมูลการฝึกอบรมก่อน (แถว) ทางด้านซ้ายแสดงการรั่วไหลที่แข็ง (ภาพที่เหมือนกัน) และทางด้านขวาแสดงการรั่วไหลที่อ่อน (ภาพที่ใกล้เคียง)

การรั่วไหลระหว่างชุดข้อมูลถูกพบใน tất ชุดข้อมูลมาตรฐาน โดยมีระดับที่แตกต่างกัน LAION แสดงอัตราการรั่วไหลที่แข็งที่สุด โดยเฉพาะสำหรับ OpenImages และ TextCaps ชุดทดสอบ ซึ่งแต่ละชุดเกิน 3%

OpenImages ยังให้การรั่วไหลที่แข็งที่น้อยกว่าไปยัง COCO

แม้ว่าจะน้อยกว่า ImageNet ยังคงมีการรั่วไหลที่แข็งจากชุดข้อมูลมาตรฐานทั้งหมด; และ GCC แสดงการรั่วไหลที่แข็งที่ต่ำที่สุด โดยอยู่ต่ำกว่า 1%

การรั่วไหลที่อ่อนกว่านั้นแพร่หลายมากขึ้น: LAION สร้างการรั่วไหลที่อ่อนที่สุด โดยมีการทับซ้อนมากถึง 7.9% สำหรับมาตรฐานบางอย่าง; OpenImages และ TextCaps เป็นชุดข้อมูลมาตรฐานที่ได้รับผลกระทบมากที่สุด; และ Flickr30k แสดงการรั่วไหลที่น้อยที่สุด

แม้ว่าการทับซ้อนนี้อาจครอบคลุมเฉพาะส่วนเล็กๆ ของชุดข้อมูลการประเมิน แต่นักวิจัยชี้ว่าความมีอยู่ของมันสามารถทำให้ การจำ และบ่อนทำลายความถูกต้องของการทดสอบ:

ตัวอย่างภาพที่รั่วไหล ทางซ้ายแสดงกรณีของการรั่วไหลที่แข็ง โดยที่ภาพเหมือนกันภายในชุดข้อมูล (ด้านบน) หรือระหว่างชุดข้อมูล (ด้านล่าง); ทางขวาแสดงกรณีของการรั่วไหลที่อ่อน โดยที่ภาพใกล้เคียง

ผลกระทบต่อการประเมินในภายหลัง

เอกสารต่อไปพิจารณาว่าการรั่วไหลของข้อมูลส่งผลต่อการประเมินในภายหลัง (เช่น ประสิทธิภาพบนงานมาตรฐานเมื่อโมเดลที่ฝึกอบรมก่อนถูกทดสอบบนมาตรฐานที่มีภาพที่รั่วไหลในข้อมูลการฝึกอบรม)

งานสามงานถูกพิจารณา: การจำแนกประเภทแบบไม่มีการฝึกอบรม; การจำแนกประเภทแบบมีการฝึกอบรม; และการค้นหาภาพ-ข้อความ

สำหรับงานแต่ละงาน ประสิทธิภาพของโมเดลถูกประเมินบนชุดข้อมูลมาตรฐานที่ทราบว่ามีตัวอย่างที่รั่วไหลในข้อมูลการฝึกอบรมก่อน

ผลลัพธ์ถูกเปรียบเทียบข้ามสี่ส่วน: ชุดข้อมูลมาตรฐานเต็ม; ส่วนของตัวอย่างที่รั่วไหล; ส่วนของตัวอย่างที่ไม่รั่วไหล; และส่วนเลือกแบบสุ่มที่มีขนาดเท่ากับส่วนของตัวอย่างที่รั่วไหล (ใช้เป็นกลุ่มควบคุม)

ผลกระทบของการรั่วไหลของข้อมูลต่องานในภายหลังถูกวัดโดยใช้ส่วนของชุดข้อมูลมาตรฐานที่ทราบว่ามีตัวอย่างที่รั่วไหล

ในงานการจำแนกประเภทแบบไม่มีการฝึกอบรม โมเดลที่ฝึกอบรมก่อนบน LAION บรรลุความแม่นยำที่สังเกตได้สูงกว่าบนชุดข้อมูล ImageNet ที่มีตัวอย่างที่รั่วไหล ยืนยันว่าการได้รับแม้แต่ภาพที่ใกล้เคียงระหว่างการฝึกอบรมให้ความได้เปรียบที่วัดได้:

ความแม่นยำในการจำแนกประเภทแบบไม่มีการฝึกอบรมบนชุดข้อมูล ImageNet ที่มีตัวอย่างที่รั่วไหลและไม่รั่วไหล

สำหรับการจำแนกประเภทแบบมีการฝึกอบรม การรั่วไหลใน ImageNet ทำให้ประสิทธิภาพลดลงอย่างมาก – เว้นแต่ว่าตัวอย่างที่รั่วไหลจะมีป้ายกำกับเดียวกันในทั้งสองส่วน ในกรณีนั้น โมเดลบรรลุความแม่นยำที่ใกล้เคียงกับความสมบูรณ์แบบ โดยเปิดเผยผลกระทบของการจำที่แข็ง:

ความแม่นยำในการจำแนกประเภทแบบมีการฝึกอบรมบนชุดข้อมูล ImageNet ที่มีตัวอย่างที่รั่วไหลและไม่รั่วไหล

ในการค้นหาภาพ-ข้อความ ประสิทธิภาพก็เพิ่มขึ้นสำหรับตัวอย่างที่รั่วไหล โดยทั้งการรั่วไหลที่แข็งและอ่อนนำไปสู่การเรียกคืนภาพที่สูงขึ้น และส่วนของตัวอย่างที่รั่วไหลยังให้ผลลัพธ์ที่สม่ำเสียมากขึ้นระหว่างการวิ่ง:

ประสิทธิภาพในการค้นหาภาพ-ข้อความบน Flickr30k ที่มีตัวอย่างที่รั่วไหลและไม่รั่วไหล

ผู้เขียนสรุป:

‘โดยรวมแล้ว เราแสดงหลักฐานที่สม่ำเสมอว่าการรั่วไหลของข้อมูลเป็นภัยคุกคามที่ร้ายแรงต่อการประเมินโมเดลที่ยุติธรรมในข้อมูลที่มองเห็นได้ โดยบ่อนทำลายหลักการหนึ่งของการเรียนรู้ของเครื่อง: ไม่ประเมินโมเดลบนข้อมูลการฝึกอบรม’

สรุป

ด้านหนึ่งของเอกสารที่น่าตกใจ (แม้ว่าจะไม่ใช่เรื่องใหม่) คือเรื่องราวของการใช้ CLIP เพื่อให้ได้เวกเตอร์แบบแผนสำหรับข้อมูลภาพจำนวนมากใน LAION ซึ่งแสดงให้เห็นถึงระดับที่การฝึกอบรมโมเดลภาพ-ภาษาได้เกินขอบเขตและความสามารถของการดูแลและการดูแลของมนุษย์ หรือการดูแลด้วยตนเองเกินกว่าชุดตัวอย่างที่เป็นตัวแทน

เป็นการแสดงให้เห็นอย่างชัดเจนถึงระดับที่การฝึกอบรมโมเดลการมองเห็น-ภาษาได้เกินขอบเขตและความสามารถของการดูแลและการดูแลของมนุษย์ หรือการดูแลด้วยตนเองเกินกว่าชุดตัวอย่างที่เป็นตัวแทน

* อาจทำให้สับสนเล็กน้อย ปัญหาเรื่องการทำซ้ำถูกกำหนดไว้ในเอกสารวิจัยว่าเป็น ‘การรั่วไหล’

† การเน้นของผู้เขียน

ตีพิมพ์ครั้งแรกวันอังคารที่ 26 สิงหาคม 2025