มุมมองของ Anderson

อุปทาน ‘ดาวน์โหลดป้ายกำกับเพิ่มเติม!’ ในการวิจัย AI

Published April 23, 2025

Updated April 26, 2026

Martin Anderson

ChatGPT-4o: 'A wall on which hundreds of photographs are stuck with thumb-tacks. Each photo depicts a different kind of subject, such as fruit or animals or bridges or buildings or people, etc. Each photo has 2-3 yellow post-it notes attached to it. We are too far away to read anything written on the post-it notes, but we can see that there are dozens and dozens of photos on the wall, and each with several post-it notes tacked on.'

มุมมองหนึ่งที่พบได้ทั่วไปในการวิจัยการเรียนรู้ของเครื่องในขณะนี้คือ การใช้การเรียนรู้ของเครื่องเพื่อปรับปรุงคุณภาพของการทำป้ายกำกับข้อมูล AI โดยเฉพาะคำบรรยายภาพที่ตั้งใจจะใช้ในโมเดลภาษาและภาพ (VLMs) มุมมองนี้ได้รับแรงผลักดันจาก ต้นทุนสูง ของการทำป้ายกำกับโดยมนุษย์ และภาระที่เพิ่มขึ้นของ การดูแล การทำงานของผู้ทำป้ายกำกับ

โดยที่น่าแปลกใจคือ สิ่งนี้คือสิ่งเทียบเท่ากับ มีม ‘ดาวน์โหลด RAM เพิ่มเติม’ ในช่วงต้นปี 2000 ซึ่งล้อเลียนแนวคิดที่ว่าข้อจำกัดของฮาร์ดแวร์สามารถแก้ไขได้ด้วยการแก้ปัญหาโดยใช้ซอฟต์แวร์

นอกจากนี้ยังเป็นปัญหาที่ไม่ได้รับการพิจารณาในระดับที่ควร ในขณะที่โมเดล AI ใหม่ๆ ได้รับความสนใจอย่างกว้างขวางทั้งในสาธารณะและพาณิชย์ การทำป้ายกำกับมักจะดูเหมือนเป็นรายละเอียดที่ไม่สำคัญในกระบวนการเรียนรู้ของเครื่อง ซึ่งถูกบดบังด้วยความตื่นเต้นที่เกี่ยวข้องกับเฟรมเวิร์กที่กว้างขึ้น

ในความเป็นจริง ความสามารถของระบบการเรียนรู้ของเครื่องในการรับรู้และทำซ้ำรูปแบบ (กรณีการใช้งานหลักของระบบ AI เกือบทั้งหมด) ขึ้นอยู่กับคุณภาพและความสม่ำเสมอของป้ายกำกับในโลกแห่งความเป็นจริง – ป้ายกำกับและวลีที่สร้างหรือตัดสินโดยคนจริงๆ ซึ่งมักจะต้องตัดสินอย่างมี chủ관เกี่ยวกับจุดข้อมูลแต่ละจุดใน สถานการณ์ที่ไม่เหมาะสม

โดยไม่ต้องสงสัย ระบบที่พยายามสังเกตและทำซ้ำรูปแบบในพฤติกรรมของผู้ทำป้ายกำกับ (และด้วยเหตุนี้จึงแทนที่ผู้ทำป้ายกำกับและอำนวยความสะดวกในการทำป้ายกำกับที่แม่นยำในระดับใหญ่) ไม่สามารถทำงานได้ดีบนข้อมูล ไม่ ที่อยู่ในตัวอย่างที่มาจากผู้สังเกตการณ์ของมนุษย์ สิ่งที่ ‘คล้ายกัน’ ไม่เหมือนกันเลย และความเท่าเทียมกันระหว่างโดเมนยังคงเป็น การแสวงหาที่มีปัญหา ในการมองเห็นของเครื่อง

‘ปัญหาข้อมูลขั้นต้น’ ต้องหยุดลงในที่สุด และในกรณีนี้ นั่นคือที่ที่มันหยุด – โดยสมองของมนุษย์ที่ทำความแตกต่างเชิง主觀เพื่อเข้ารหัสข้อมูลสำหรับระบบประดิษฐ์

การค้า RAG

จนกระทั่งไม่นานมานี้ ความไม่ถูกต้องที่เกิดขึ้นจากป้ายกำกับข้อมูลที่ไม่ได้รับการดูแลอย่างเหมาะสมถูกมองว่าเป็นความเสียหายร่วมที่ยอมรับได้ในบริบทของผลลัพธ์ที่ไม่สมบูรณ์แต่ยังคงสามารถขายได้จากระบบ AI ที่สร้างข้อมูล

แท้จริงแล้ว ในปีนี้เอง การศึกษาจากสิงคโปร์ สรุป ว่า การเห็นภาพหลอกลวง – กล่าวคือ โอกาสที่ระบบ AI คิดค้นสิ่งที่ขัดแย้งกับเจตนา – เป็นสิ่งที่หลีกเลี่ยงไม่ได้ และมีเนื้อหาเชื่อมโยงกับโครงสร้างแนวคิดของระบบดังกล่าว

เพื่อตอบโต้สิ่งนี้ ตัวแทน RAG – ซึ่งสามารถ ‘ตรวจสอบ’ ข้อเท็จจริงผ่านการค้นหาในอินเทอร์เน็ต – ได้รับความนิยมในการวิจัยและโซลูชันเชิงพาณิชย์ที่ใช้งานจริง อย่างไรก็ตาม สิ่งเหล่านี้เพิ่มค่าใช้จ่ายและความล่าช้าในการค้นหา นอกจากนี้ ข้อมูลใหม่ที่ใช้กับโมเดลที่ฝึกอบรมแล้วไม่สามารถเทียบเท่ากับการเชื่อมต่อที่ซับซ้อนและลึกซึ้งยิ่งขึ้นที่พบในโมเดลที่ฝึกอบรมแล้ว

ดังนั้นจึงดีกว่าถ้าข้อมูลการทำป้ายกำกับที่ให้ข้อมูลแก่โมเดลเหล่านี้มีข้อบกพร่องน้อยลงในตอนแรก แม้ว่าจะไม่สามารถสมบูรณ์แบบได้ (ไม่น้อยเพราะกิจกรรมนี้ล่วงเข้าไปในด้านของความเป็นมนุษย์)

RePOPE

งานวิจัยใหม่จากเยอรมนีเน้นถึงปัญหาที่เกิดขึ้นจากการพึ่งพาเซตข้อมูลเก่าที่ใช้กันอย่างแพร่หลาย โดยเฉพาะอย่างยิ่งเกี่ยวกับความถูกต้องและความน่าเชื่อถือของคำบรรยายภาพ นักวิจัยพบว่าข้อผิดพลาดในการทำป้ายกำกับในมาตรฐานสามารถซ่อนหรือทำให้การเห็นภาพหลอกลวงในโมเดลภาษาและภาพไม่ชัดเจน

จากงานวิจัยใหม่ ตัวอย่างที่คำบรรยายดั้งเดิมล้มเหลวในการระบุวัตถุในเซตข้อมูลภาพ MSCOCO ได้อย่างถูกต้อง คำบรรยายที่แก้ไขโดยผู้วิจัยของมาตรฐาน POPE ช่วยแก้ไขข้อบกพร่องเหล่านี้ โดยแสดงให้เห็นถึงต้นทุนของการประหยัดเงินในการดูแลการทำป้ายกำกับ Source: https://arxiv.org/pdf/2504.15707

ลองนึกภาพโมเดลที่แสดงภาพของถนนและถามว่ามีจักรยานในภาพหรือไม่ โมเดลตอบว่า ใช่ หากเซตข้อมูลมาตรฐานระบุว่าไม่มีจักรยาน โมเดลถูกทำเครื่องหมายว่า ผิด แต่ถ้าจักรยาน ปรากฏชัดเจน ในภาพและถูกพลาดไปในการทำป้ายกำกับ การตอบของโมเดลถูกต้อง และมาตรฐานได้ล้มเหลว

ข้อผิดพลาดดังกล่าวสามารถสะสมข้ามเซตข้อมูล ทำให้ภาพที่บิดเบี้ยวของโมเดลที่แม่นยำและโมเดลที่มีแนวโน้มที่จะเห็นภาพหลอกลวง และทำให้ยากต่อการวินิจฉัยหรือแก้ไขปัญหากับความแน่นอน

งานวิจัยใหม่ ใหม่ – ชื่อ RePOPE: ผลกระทบของข้อผิดพลาดในการทำป้ายกำกับต่อมาตรฐาน POPE – ท้าทายความถูกต้องที่ถือว่าของ POPE โดยการตรวจสอบป้ายกำกับบนภาพของมาตรฐาน (กล่าวคือ MSCOCO) – และพบว่าจำนวนไม่น้อยที่ผิดหรือไม่ชัดเจน

ตัวอย่างการเห็นภาพหลอกลวงในโมเดลภาษาและภาพ ป้ายกำกับแบบตัวหนาแสดงวัตถุที่ระบุว่ามีอยู่ในคำบรรยายดั้งเดิม ในขณะที่ป้ายกำกับสีแดงแสดงวัตถุที่โมเดลเห็นภาพหลอกลวง ตัวอย่างทางซ้ายสะท้อนถึงการประเมินแบบดั้งเดิมตามคำแนะนำ ในขณะที่ตัวอย่างสามตัวอย่างทางขวาได้มาจากตัวแปรมาตรฐาน POPE ที่แตกต่างกัน Source: https://aclanthology.org/2023.emnlp-main.20.pdf

วัตถุที่ถูกต้อง (คำตอบ: ใช่) ถูกจับคู่กับวัตถุที่ไม่มีอยู่ (คำตอบ: ไม่) ที่เลือกผ่านกลยุทธ์แบบสุ่ม บ่อยครั้ง (ยอดนิยม) หรือแบบ ก้าวร้าว (อาศัยการเกิดขึ้นร่วมกัน) การตั้งค่านี้ทำให้สามารถประเมินการเห็นภาพหลอกลวงได้อย่างมั่นคงและไม่ขึ้นอยู่กับคำแนะนำโดยไม่ต้องอาศัยการวิเคราะห์คำบรรยายที่ซับซ้อน

ผู้เขียนของ งานวิจัยใหม่ – ชื่อ RePOPE: ผลกระทบของข้อผิดพลาดในการทำป้ายกำกับต่อมาตรฐาน POPE – ท้าทายความถูกต้องที่ถือว่าของ POPE โดยการตรวจสอบป้ายกำกับบนภาพของมาตรฐาน (กล่าวคือ MSCOCO) – และพบว่าจำนวนไม่น้อยที่ผิดหรือไม่ชัดเจน

ตัวอย่างจากเซตข้อมูล MSCOCO ปี 2014 Source: https://arxiv.org/pdf/1405.0312

ข้อผิดพลาดเหล่านี้เปลี่ยนแปลงวิธีการจัดอันดับโมเดล โดยมีบางรุ่นที่ทำงานได้ดีในตอนแรกตกลงไปเมื่อถูกตัดสินจากป้ายกำกับที่แก้ไขแล้ว

ในการทดสอบ ผู้เขียนประเมินโมเดลภาษาและภาพที่มีน้ำหนักเปิดหลายรุ่นบนมาตรฐาน POPE เดิมและรุ่น RePOPE ที่แก้ไขแล้ว

ตามงานวิจัย การแก้ไขป้ายกำกับนำไปสู่การเปลี่ยนแปลงที่สำคัญในอันดับโมเดล โดยเฉพาะอย่างยิ่งในคะแนน F1 โดยมีโมเดลที่ทำงานได้ดีหลายรุ่นภายใต้ POPE ตกลงไปภายใต้ RePOPE

ผู้เขียนแย้งว่าการเปลี่ยนแปลงนี้แสดงให้เห็นถึงระดับที่ข้อผิดพลาดในการทำป้ายกำกับสามารถบิดเบือนพฤติกรรมการเห็นภาพหลอกลวงของโมเดลได้ และพวกเขานำเสนอ RePOPE เป็นเครื่องมือที่น่าเชื่อถือมากกว่าสำหรับการประเมินความเสี่ยงต่อการเห็นภาพหลอกลวง

ในตัวอย่างอื่นจากงานวิจัยใหม่ เราจะเห็นว่าคำบรรยายดั้งเดิมของ POPE ล้มเหลวในการระบุวัตถุอ่อนๆ เช่น คน坐在ข้างๆ คาเบินของรถรางในภาพขวาสุด หรือเก้าอี้ที่บดบังโดยนักเทนนิสในภาพที่สองจากซ้าย

วิธีการและการทดสอบ

ผู้วิจัยทำป้ายกำกับใหม่ทั้งหมดในเซตข้อมูล MSCOCO เดิม โดยมีผู้ทำป้ายกำกับสองคนสำหรับแต่ละตัวอย่างข้อมูล ในกรณีที่มีความไม่แน่นอนเกี่ยวกับคุณภาพของป้ายกำกับดั้งเดิม (เช่น ในตัวอย่างด้านล่าง) ผลลัพธ์เหล่านี้ถูกตัดออกจากรอบการทดสอบ

กรณีที่ไม่ชัดเจน โดยที่ความไม่สอดคล้องกันในการทำป้ายกำกับของ POPE สะท้อนถึงขอบเขตหมวดหมู่ที่ไม่ชัดเจน ตัวอย่างเช่น ตุ๊กตาเท็ดดี้ที่ทำป้ายกำกับว่าเป็นตุ๊กตา รถจักรยานยนต์ที่ทำป้ายกำกับว่าเป็นจักรยาน หรือยานพาหนะที่สนามบินที่ทำป้ายกำกับว่าเป็นรถยนต์

งานวิจัยระบุ:

ผู้ทำป้ายกำกับดั้งเดิมพลาดบุคคลในพื้นหลังหรือหลังกระจก นักเทนนิสบดบัง ‘เก้าอี้’ ในพื้นหลัง และสลัดคอเลสโลว์มีเพียงแถบแคบๆ ของแครอทที่มองเห็นได้

สำหรับวัตถุบางชนิด การทำป้ายกำกับของ COCO ไม่สอดคล้องกันมากนัก อาจเป็นเพราะคำจำกัดความที่แตกต่างกันของวัตถุเหล่านั้นที่ใช้โดยผู้ทำป้ายกำกับดั้งเดิม การจำแนกวัตถุ ‘ตุ๊กตาเท็ดดี้’ ว่าเป็น ‘ตุ๊กตา’ รถจักรยานยนต์ว่าเป็น ‘จักรยาน’ หรือยานพาหนะที่สนามบินว่าเป็น ‘รถยนต์’ ขึ้นอยู่กับคำจำกัดความเฉพาะ ทำให้เกิดความไม่สอดคล้องกันในคำบรรยายที่ถูกต้องของ POPE ดังนั้นเราจึงทำป้ายกำกับภาพ-คำถามเหล่านี้ว่า ‘ไม่ชัดเจน’

ผลการทำป้ายกำกับใหม่: คำถามเชิงบวกถูกแบ่งปันระหว่างทั้งสามรูปแบบของ POPE ในบรรดาที่ทำป้ายกำกับว่า ‘ใช่’ ใน POPE 9.3% ถูกพบว่าไม่ถูกต้อง และ 13.8% ถูกจำแนกเป็น ‘ไม่ชัดเจน’ สำหรับคำถาม ‘ไม่’ 1.7% ถูกทำป้ายกำกับผิด และ 4.3% ถูกจำแนกเป็น ‘ไม่ชัดเจน’

ผู้เขียนประเมินโมเดลภาษาและภาพที่มีน้ำหนักเปิดหลายรุ่นบน POPE และ RePOPE โดยครอบคลุมสถาปัตยกรรมและขนาดโมเดลที่หลากหลาย โมเดลที่เลือก ได้แก่ OpenVLM ที่มีประสิทธิภาพสูงสุด: InternVL2.5 (8B/26B/38B/78B และ 8B-MPO/26B-MPO); LLaVA-NeXT; Vicuna; Mistral 7b; Llama; LLaVA-OneVision; Ovis2 (1B/2B/4B/8B); PaliGemma-3B และ PaliGemma2 (3B/10B)

ผลลัพธ์เบื้องต้น: อัตราความผิดพลาดสูงในคำบรรยายเชิงบวกดั้งเดิมนำไปสู่การลดลงอย่างรวดเร็วของผลบวกที่แท้จริงทั่วทั้งโมเดล ผลบวกที่ไม่ถูกต้องแตกต่างกันไปตามชุดข้อมูล โดยเพิ่มขึ้นเกือบสองเท่าในชุดข้อมูลแบบสุ่ม แต่ไม่เปลี่ยนแปลงมากนักในชุดข้อมูลยอดนิยม และมีการลดลงเล็กน้อยในชุดข้อมูลแบบก้าวร้าว การทำป้ายกำกับใหม่มีผลกระทบอย่างมากต่ออันดับตามคะแนน F1 โปรดดู PDF ต้นฉบับสำหรับการแสดงผลที่ดีกว่า

กราฟผลลัพธ์ด้านบนแสดงให้เห็นว่าจำนวนผลบวกที่แท้จริงและผลบวกที่ไม่ถูกต้องเปลี่ยนแปลงไปหลังจากการแก้ไขป้ายกำกับในมาตรฐาน

ผลบวกที่แท้จริงลดลงในโมเดลทั้งหมด ซึ่งบ่งชี้ว่าพวกมันถูกยกย่องว่าเป็นคำตอบที่ถูกต้องเมื่อคำตอบเหล่านั้นถูกต้องเฉพาะภายใต้ป้ายกำกับที่มีข้อบกพร่องเท่านั้น ในขณะที่ผลบวกที่ไม่ถูกต้องตามรูปแบบที่หลากหลาย

สำหรับ ‘ชุดข้อมูลแบบสุ่ม’ ของ POPE ผลบวกที่ไม่ถูกต้องเพิ่มขึ้นเกือบสองเท่าสำหรับหลายโมเดล ซึ่งบ่งชี้ว่ามีจำนวนมากของวัตถุที่ถูกตีตราว่าเป็นการเห็นภาพหลอกลวงที่แท้จริงแล้วมีอยู่ในภาพ แต่ถูกพลาดไปในการทำป้ายกำกับดั้งเดิม ในกรณีนี้ ความผิดพลาดของโมเดลหลายอย่างที่ถูกกล่าวหานั้นแท้จริงแล้วเป็นข้อผิดพลาดในการทำป้ายกำกับของเซตข้อมูล

สำหรับ ‘ชุดข้อมูลแบบก้าวร้าว’ ของ POPE ซึ่งคำถามอาศัยวัตถุที่เกิดขึ้นบ่อยๆ ผลบวกที่ไม่ถูกต้องลดลง ซึ่งอาจสะท้อนถึงโอกาสที่สูงขึ้นที่วัตถุที่ถูกกล่าวหาว่าไม่มีอยู่ในภาพนั้น แท้จริงแล้วมีอยู่ในภาพ แต่ไม่ได้รับการทำป้ายกำกับ

แม้ว่าการเปลี่ยนแปลงเหล่านี้จะส่งผลกระทบต่อความแม่นยำและความเรียกซ้ำ แต่อันดับโมเดลยังคงเสถียรสำหรับทั้งสองมาตรการ

คะแนน F1 – มาตรการหลักในการประเมินของ POPE – มีความไวต่อการแก้ไขป้ายกำกับมาก โดยในชุดข้อมูลแบบสุ่ม โมเดลที่อยู่ใกล้กับอันดับต้นๆ ภายใต้ป้ายกำกับดั้งเดิมตกลงไปที่ด้านล่างเมื่อประเมินตาม RePOPE โมเดลอื่นๆ เช่น Ovis2-4B และ Ovis2-8B ขึ้นสู่อันดับต้นๆ

รูปแบบที่คล้ายกันปรากฏขึ้นในคะแนนความถูกต้อง โดยที่ผู้เขียนสังเกตว่าค่าเหล่านี้อาจมีอคติ เนื่องจากเซตข้อมูลที่แก้ไขแล้วมีตัวอย่างเชิงบวกและเชิงลบไม่เท่ากัน

ผู้เขียนแย้งว่าผลกระทบที่แข็งแกร่งของข้อผิดพลาดในการทำป้ายกำกับต่อผลลัพธ์ของมาตรฐานเน้นย้ำถึงความจำเป็นในการมีข้อมูลที่มีคุณภาพสูง เพื่อสนับสนุนการประเมินความเสี่ยงต่อการเห็นภาพหลอกลวงที่น่าเชื่อถือมากขึ้น พวกเขาจึง เผยแพร่ป้ายกำกับที่แก้ไขแล้ว ที่ GitHub

อย่างไรก็ตาม พวกเขาสังเกตว่าการทำป้ายกำกับใหม่นี้ไม่ได้กล่าวถึงการอิ่มตัวของมาตรฐานอย่างสมบูรณ์ เนื่องจากโมเดลหลายรุ่นยังคงได้รับอัตราความถูกต้องและความไม่ถูกต้องที่แท้จริงมากกว่า 90% พวกเขาขอแนะนำให้ใช้มาตรฐานเพิ่มเติม เช่น DASH-B ซึ่งใช้ตัวอย่างเชิงลบที่ท้าทายมากขึ้น ร่วมกับ RePOPE

สรุป

การทดลองนี้เป็นไปได้เนื่องจากขนาดของเซตข้อมูลที่เกี่ยวข้องมีขนาดเล็กมาก การพิสูจน์สมมติฐานเดียวกันในเซตข้อมูลขนาดใหญ่จะเกี่ยวข้องกับการทำงานกับชิ้นส่วนของข้อมูลที่จำกัดมาก ในเซตข้อมูลขนาดใหญ่ที่มีความหลากหลายมาก อาจเป็นไปไม่ได้ที่จะแยกกลุ่มที่มีความหมายและเป็นตัวแทนเชิงสถิติ – ซึ่งอาจทำให้ผลลัพธ์เบี่ยงเบนไป

แม้ว่าจะเป็นไปได้ ก็ไม่มีทางแก้ไขภายใต้สภาพแวดล้อมที่ใช้งานในปัจจุบัน การโต้แย้งจะย้อนกลับไปที่ความจำเป็นในการมีการทำป้ายกำกับที่ดีกว่าและมากขึ้น

ในแง่นี้ ‘ดีกว่า’ และ ‘มากขึ้น’ เป็นปัญหาที่แยกจากกัน เนื่องจากสามารถได้รับจำนวนการทำป้ายกำกับที่มากขึ้นผ่านเศรษฐกิจที่มีต้นทุนต่ำ เช่น Amazon Mechanical Turk (AMT) อย่างไรก็ตาม เศรษฐกิจที่มีต้นทุนต่ำนี้มักจะ อาจเป็นการเอาเปรียบ และมักจะ นำไปสู่ผลลัพธ์ที่ไม่ดี

ในทางเลือกหนึ่ง คุณสามารถมอบหมายงานทำป้ายกำกับให้กับภูมิภาคที่ใช้จ่ายเดียวกันเพื่อให้ได้จำนวนการทำป้ายกำกับที่มากขึ้น อย่างไรก็ตาม ยิ่งผู้ทำป้ายกำกับอยู่ห่างจากกรณีการใช้งานที่ตั้งใจไว้ของโมเดลที่ป้ายกำกับของพวกเขาจะกำหนดรูปแบบ โมเดลนั้นก็ยิ่งมีโอกาสน้อยที่จะตอบสนองความต้องการหรือความคาดหวังของโดเมนเป้าหมาย

ดังนั้นจึงยังคงเป็นหนึ่งในความท้าทายที่ยั่งยืนและไม่ได้รับการแก้ไขมากที่สุดในเศรษฐศาสตร์ของการพัฒนา AI

เผยแพร่ครั้งแรกวันพุธที่ 23 เมษายน 2025