ต้นขั้ว การประเมินความถูกต้องในอดีตของ ImageNet - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

การประเมินความถูกต้องในอดีตของ ImageNet

mm
วันที่อัพเดท on

การศึกษาใหม่จาก Google Research และ UC Berkeley เพิ่มเข้ามา วิจารณ์มาอย่างยาวนาน เกี่ยวกับการพึ่งพาภาคการวิจัยคอมพิวเตอร์วิทัศน์ (CV) เป็นที่เคารพนับถือ อิมเมจเน็ต ชุดข้อมูลและอนุพันธ์มากมาย หลังจากการประเมินด้วยตนเองที่ใช้แรงงานจำนวนมาก ผู้เขียนสรุปได้ว่าเกือบ 50% ของข้อผิดพลาดที่คาดว่าโมเดลที่ดีที่สุดทำในการประเมินเซ็ตย่อยแบบหลายป้ายกำกับของ ImageNet (ซึ่งโมเดลที่มีประสิทธิภาพสูงสุดในปัจจุบันบรรลุมากกว่า 97% ในระดับท็อป- 1 ความถูกต้อง) ไม่ใช่ข้อผิดพลาดจริง

จากกระดาษ:

'การวิเคราะห์ของเราเผยให้เห็นว่าเกือบครึ่งหนึ่งของข้อผิดพลาดที่คาดคะเนนั้นไม่ใช่ข้อผิดพลาดเลย และเราค้นพบฉลากหลายรายการที่ถูกต้องใหม่ ซึ่งแสดงให้เห็นว่า หากปราศจากการตรวจสอบอย่างรอบคอบ เรากำลังประเมินประสิทธิภาพของโมเดลเหล่านี้ต่ำไปอย่างมาก

'ในทางกลับกัน เรายังพบว่าโมเดลที่ดีที่สุดในปัจจุบันยังคงทำผิดพลาดจำนวนมาก (40%) ซึ่งผิดอย่างเห็นได้ชัดสำหรับผู้ตรวจสอบที่เป็นมนุษย์'

ขอบเขตของการติดฉลากชุดข้อมูลผิด - โดยเฉพาะอย่างยิ่ง โดยคนงานที่ไร้ทักษะ – อาจทำให้ภาคส่วนนี้บิดเบี้ยว ซึ่งได้รับการเปิดเผยจากแนวทางที่เพียรพยายามของการศึกษาเพื่อประเมินการจับคู่ภาพ/ข้อความในประวัติของ ImageNet ในวงกว้าง

ในแถวบนสุด ตัวอย่างของระดับความผิดพลาด: ในสองตัวอย่างแรก โมเดลใหม่ได้รับป้ายกำกับที่คาดการณ์ไว้ผิด ในตัวอย่างที่สาม โมเดลใหม่จะระบุป้ายกำกับหลายรายการที่ขาดหายไปก่อนหน้านี้ (ป้ายกำกับที่ระบุการจัดหมวดหมู่ใหม่ของรูปภาพ) ในภาพสุดท้ายในแถวบนสุด การคาดคะเนของแบบจำลองนั้นคลุมเครือ เนื่องจากภาพเป็นแมลงวันผึ้ง ไม่ใช่แมลงวัน อย่างไรก็ตาม ผึ้งโดยเฉลี่ยจัดอยู่ในอันดับแมลง Diptera ดังนั้น ข้อยกเว้นนี้จึงแทบจะเป็นไปไม่ได้เลยที่จะสังเกตเห็นได้ แม้กระทั่งสำหรับผู้ทำคำอธิบายประกอบที่เชี่ยวชาญ ในแถวด้านล่างมีหมวดหมู่ข้อผิดพลาดสี่ประเภทพร้อมตัวอย่าง ที่มา: https://arxiv.org/pdf/2205.04596.pdf

ในแถวบนสุด ตัวอย่างของระดับความผิดพลาด: ในสองตัวอย่างแรก โมเดลใหม่ได้รับป้ายกำกับที่คาดการณ์ไว้ผิด ในตัวอย่างที่สาม โมเดลใหม่จะระบุป้ายกำกับหลายรายการที่ขาดหายไปก่อนหน้านี้ (ป้ายกำกับที่ระบุการจัดหมวดหมู่ใหม่ของรูปภาพ) ในภาพสุดท้ายในแถวบนสุด การคาดคะเนของแบบจำลองนั้นคลุมเครือ เนื่องจากภาพเป็นแมลงวันผึ้ง ไม่ใช่แมลงวัน อย่างไรก็ตาม ผึ้งโดยเฉลี่ยจัดอยู่ในอันดับแมลง Diptera ดังนั้น ข้อยกเว้นนี้จึงแทบจะเป็นไปไม่ได้เลยที่จะสังเกตเห็นได้ แม้กระทั่งสำหรับผู้ทำคำอธิบายประกอบที่เชี่ยวชาญ ในแถวด้านล่างมีหมวดหมู่ข้อผิดพลาดสี่ประเภทพร้อมตัวอย่าง  ที่มา: https://arxiv.org/pdf/2205.04596.pdf

นักวิจัยจ้างผู้ประเมินจำนวนน้อยเพื่อตรวจทานบันทึกข้อผิดพลาดในอดีตอย่างละเอียดถี่ถ้วนในการประเมินชุดข้อมูล ImageNet โดยพบว่าการตัดสินข้อผิดพลาดจำนวนมากเป็นความผิดพลาด การค้นพบนี้อาจแก้ไขการให้คะแนนที่ไม่ดีซึ่งหลายโครงการได้รับ การวัดประสิทธิภาพ ImageNet ในช่วงหลายปีที่ผ่านมา

เนื่องจาก ImageNet ยึดหลักในวัฒนธรรม CV นักวิจัยจึงเชื่อว่าการปรับปรุงความถูกต้องนั้นคิดว่าจะทำให้ผลตอบแทนลดลง และโมเดลใหม่ที่ล้ำหน้าความถูกต้องของฉลากที่กำหนดไว้ และแนะนำฉลากใหม่ (เช่น เพิ่มเติม) อาจถูกลงโทษ โดยพื้นฐานแล้วสำหรับผู้ที่ไม่ - ความสอดคล้อง

'ตัวอย่างเช่น,' ผู้เขียนสังเกต 'เราควรลงโทษนางแบบที่เป็นคนแรกที่ทำนายว่าเบเกิลที่อบไว้ล่วงหน้าอาจเป็นเบเกิลอย่างที่หนึ่งในแบบจำลองที่เราตรวจสอบในงานนี้ทำ'

จากกระดาษ แบบจำลองที่ใหม่กว่าท้าทายการคาดการณ์ก่อนหน้านี้ว่าวัตถุในภาพเป็นแป้ง และแสดงให้เห็นว่าวัตถุนั้นเป็นเบเกิลอยู่แล้ว)

จากกระดาษ แบบจำลองที่ใหม่กว่าท้าทายการคาดการณ์ก่อนหน้านี้ว่าวัตถุในภาพเป็นแป้ง และแสดงให้เห็นว่าวัตถุนั้นเป็นเบเกิลอยู่แล้ว)

จากมุมมองของผู้ปฏิบัติงานที่มาจากฝูงชนซึ่งได้รับมอบหมายให้ระบุวัตถุดังกล่าว นี่เป็นความไม่แน่ใจทางความหมายและแม้กระทั่งทางปรัชญาที่สามารถแก้ไขได้โดยการติดป้ายหลายป้ายเท่านั้น (ซึ่งมักเกิดขึ้นในชุดย่อยในภายหลังและการทำซ้ำในภายหลังของ ImageNet) ในกรณีข้างต้น วัตถุนั้นเป็นทั้งแป้งโดว์และเบเกิลตั้งไข่เป็นอย่างน้อย

ข้อผิดพลาดหลัก (ด้านบน) และข้อผิดพลาดเล็กน้อย (ด้านล่าง) ที่เกิดขึ้นเมื่อทดสอบโมเดลที่กำหนดเองในการวิจัย ป้าย ImageNet ดั้งเดิมคือภาพแรกทางด้านซ้าย

ข้อผิดพลาดหลัก (ด้านบน) และข้อผิดพลาดเล็กน้อย (ด้านล่าง) ที่เกิดขึ้นเมื่อทดสอบโมเดลที่กำหนดเองในการวิจัย ป้าย ImageNet ดั้งเดิมคือภาพแรกทางด้านซ้าย

แนวทางแก้ไขที่ชัดเจนสองประการคือการกำหนดทรัพยากรเพิ่มเติมให้กับการติดฉลาก (ซึ่งเป็นความท้าทาย ภายใต้ข้อจำกัดด้านงบประมาณของโครงการวิจัยการมองเห็นด้วยคอมพิวเตอร์ส่วนใหญ่) และในขณะที่ผู้เขียนเน้นย้ำให้อัปเดตชุดข้อมูลและชุดย่อยการประเมินป้ายกำกับอย่างสม่ำเสมอ (ซึ่งท่ามกลางอุปสรรคอื่นๆ ความเสี่ยงที่จะทำลาย 'ไลค์สำหรับไลค์' ความต่อเนื่องทางประวัติศาสตร์ของเกณฑ์มาตรฐาน และทิ้งเอกสารงานวิจัยใหม่ที่มีคุณสมบัติและข้อจำกัดความรับผิดชอบเกี่ยวกับความเท่าเทียมกัน) .

เพื่อเป็นการแก้ไขสถานการณ์ นักวิจัยได้พัฒนาชุดข้อมูลย่อยใหม่ของ ImageNet ที่เรียกว่า ImageNet-เมเจอร์ (ImageNet-M) ซึ่งพวกเขาอธิบายว่า 'ตัวอย่าง 68 ตัวอย่าง "ข้อผิดพลาดหลัก" ของข้อผิดพลาดที่เห็นได้ชัดซึ่งเกิดจากโมเดลชั้นนำในปัจจุบัน ซึ่งเป็นชิ้นส่วนที่โมเดลควรจะบรรลุความสมบูรณ์แบบ แต่ทุกวันนี้ยังห่างไกลจากการทำเช่นนั้น'

พื้นที่ กระดาษ มีบรรดาศักดิ์ แป้งจะกลายเป็นเบเกิลเมื่อไหร่? วิเคราะห์ข้อผิดพลาดที่เหลืออยู่บน ImageNetและเขียนโดยผู้เขียนสี่คนจาก Google Research ร่วมกับ Sara Fridovich-Keil จาก UC Berkeley

หนี้ทางเทคนิค

การค้นพบนี้มีความสำคัญเนื่องจากข้อผิดพลาดที่เหลืออยู่ที่ระบุ (หรือระบุผิด) ใน ImageNet ในช่วง 16 ปีนับตั้งแต่เริ่มก่อตั้ง ซึ่งเป็นการศึกษาศูนย์กลางของการวิจัย สามารถแสดงถึงความแตกต่างระหว่างโมเดลที่ปรับใช้ได้และโมเดลที่มีข้อผิดพลาดง่ายพอที่จะทำได้ อย่าปล่อยให้หลุดจากข้อมูลสด เช่นเคยที่ ไมล์สุดท้ายเป็นสิ่งสำคัญ.

ภาคส่วนการวิจัยการมองเห็นของคอมพิวเตอร์และการสังเคราะห์ภาพได้ 'เลือกโดยอัตโนมัติ' อย่างมีประสิทธิภาพ ImageNet เป็นเมตริกมาตรฐานด้วยเหตุผลหลายประการ ไม่น้อยไปกว่ากันเนื่องจากจำนวนผู้เริ่มใช้กลุ่มแรกๆ ในเวลาที่ชุดข้อมูลปริมาณมากและติดฉลากดีนั้นหายากกว่า ทำให้เกิดโครงการวิจัยมากมายจนการทดสอบกับ ImageNet อย่างรวดเร็วกลายเป็น 'มาตรฐาน' เชิงประวัติศาสตร์ที่ใช้ได้กว้างเพียงแห่งเดียวสำหรับการเปรียบเทียบเฟรมเวิร์กใหม่

วิธี

เพื่อค้นหา 'ข้อผิดพลาดที่เหลืออยู่' ใน ImageNet นักวิจัยใช้มาตรฐาน วท โมเดล (สามารถบรรลุความแม่นยำ 89.5%) พร้อมพารามิเตอร์ 3 พันล้านตัว วิต-3บี, ฝึกไว้ล่วงหน้า เจเอฟที-3บี และปรับแต่งอย่างละเอียด อิมเมจเน็ต-1เค.

การใช้ ImageNet2012_multilabel ชุดข้อมูล นักวิจัยบันทึกค่าความถูกต้องของฉลากแบบหลายฉลากเริ่มต้น (MLA) ของ ViT-3B ไว้ที่ 96.3% ซึ่งในระหว่างนั้นแบบจำลองทำข้อผิดพลาดที่เห็นได้ชัด 676 รายการ ข้อผิดพลาดเหล่านี้ (และข้อผิดพลาดที่เกิดจากแบบจำลอง Greedy Soups) ที่ผู้เขียนพยายามตรวจสอบ

ในการประเมินข้อผิดพลาดที่เหลืออีก 676 ข้อผิดพลาด ผู้เขียนหลีกเลี่ยงฝูงชนโดยสังเกตว่าข้อผิดพลาดประเภทนี้สามารถเกิดขึ้นได้ ยาก เพื่อให้ผู้ใส่คำอธิบายประกอบทั่วไปมองเห็นได้ แต่ได้รวบรวมคณะผู้ตรวจสอบผู้เชี่ยวชาญห้าคน และสร้างเครื่องมือเฉพาะเพื่อให้ผู้ตรวจสอบแต่ละคนเห็นชั้นเรียนที่คาดการณ์ได้อย่างรวดเร็ว คะแนนที่คาดการณ์; ฉลากความจริงพื้นฐาน และตัวภาพเอง

UI ที่สร้างขึ้นสำหรับโครงการ

UI ที่สร้างขึ้นสำหรับโครงการ

ในบางกรณี จำเป็นต้องมีการวิจัยเพิ่มเติมเพื่อแก้ไขข้อขัดแย้งระหว่างคณะกรรมการ และการค้นหารูปภาพของ Google ถูกใช้เป็นเครื่องมือเสริม

'[ใน] กรณีหนึ่งที่น่าสนใจแต่แยกไม่ออก มีการคาดคะเนรถแท็กซี่ (โดยไม่มีตัวบ่งชี้รถแท็กซี่ที่ชัดเจนนอกเหนือจากสีเหลือง) ปรากฏในภาพ; เราพิจารณาการคาดคะเนว่าจะเป็นรถแท็กซี่อย่างถูกต้อง ไม่ใช่แค่รถมาตรฐาน โดยระบุสะพานที่เป็นจุดสังเกตในพื้นหลังเพื่อระบุตำแหน่งเมือง และการค้นหาภาพแท็กซี่ในเมืองนั้นในภายหลังทำให้ได้ภาพของรถแท็กซี่รุ่นเดียวกันและ การออกแบบป้ายทะเบียน การตรวจสอบการคาดคะเนที่ถูกต้องจริงๆ ของโมเดล'

หลังจากการทบทวนเบื้องต้นเกี่ยวกับข้อผิดพลาดที่พบในหลายขั้นตอนของการวิจัย ผู้เขียนได้กำหนดประเภทข้อผิดพลาดใหม่สี่ประเภท: ข้อผิดพลาดแบบละเอียดโดยที่คลาสที่ทำนายนั้นคล้ายกับป้ายกำกับความจริงพื้นฐาน ละเอียดแบบไม่มีคำศัพท์ (OOV)โดยที่โมเดลระบุวัตถุที่มีคลาสถูกต้อง แต่ไม่มีอยู่ใน ImageNet ความสัมพันธ์ปลอมๆซึ่งฉลากที่คาดคะเนถูกอ่านนอกบริบทของรูปภาพ และ ไม่ใช่ต้นแบบโดยที่วัตถุความจริงพื้นเป็นตัวอย่างที่กว้างขวางของคลาสที่มีความคล้ายคลึงกับฉลากที่ทำนายไว้

ในบางกรณี ความจริงพื้นฐานไม่ใช่ 'จริง' ในตัวมันเอง:

'หลังจากตรวจสอบข้อผิดพลาดดั้งเดิม 676 รายการ [ที่พบใน ImageNet] เราพบว่า 298 รายการนั้นถูกต้องหรือไม่ชัดเจน หรือตัดสินว่าความจริงพื้นฐานดั้งเดิมไม่ถูกต้องหรือมีปัญหา"

หลังจากการทดลองที่ละเอียดถี่ถ้วนและซับซ้อนในชุดข้อมูล ชุดย่อย และชุดการตรวจสอบความถูกต้อง ผู้เขียนพบว่าแบบจำลองทั้งสองภายใต้การศึกษาถือว่าถูกต้อง (โดยผู้ตรวจสอบที่เป็นมนุษย์) สำหรับครึ่งหนึ่งของ 'ข้อผิดพลาด' ที่พวกเขาทำภายใต้เทคนิคทั่วไป .

กระดาษสรุป:

'ในเอกสารฉบับนี้ เราได้วิเคราะห์ข้อผิดพลาดทั้งหมดที่เหลืออยู่ซึ่งโมเดล ViT-3B และ Greedy Soups สร้างขึ้นบนชุดการตรวจสอบความถูกต้องแบบหลายฉลากของ ImageNet

'โดยรวมแล้ว เราพบว่า: 1) เมื่อโมเดลขนาดใหญ่ที่มีความแม่นยำสูงสร้างการคาดคะเนที่แปลกใหม่ซึ่งไม่ได้ทำโดยโมเดลอื่น จะกลายเป็นมัลติเลเบลใหม่ที่ถูกต้องเกือบครึ่งหนึ่งของเวลาทั้งหมด; 2) โมเดลที่มีความแม่นยำสูงกว่าไม่ได้แสดงรูปแบบที่ชัดเจนในหมวดหมู่ของเราและระดับความรุนแรงของข้อผิดพลาดที่พวกเขาแก้ไข 3) แบบจำลอง SOTA ในปัจจุบันมีการจับคู่หรือเอาชนะประสิทธิภาพของผู้เชี่ยวชาญที่ดีที่สุดในชุดย่อยหลายฉลากที่ประเมินโดยมนุษย์ 4) ข้อมูลการฝึกอบรมที่มีเสียงดังและคลาสที่ไม่ได้ระบุอาจเป็นปัจจัยที่จำกัดการวัดการปรับปรุงที่มีประสิทธิภาพในการจำแนกรูปภาพ'

 

เผยแพร่ครั้งแรก 15 พฤษภาคม 2022

นักเขียนเกี่ยวกับการเรียนรู้ของเครื่อง ปัญญาประดิษฐ์ และข้อมูลขนาดใหญ่
เว็บไซต์ส่วนตัว: martinanderson.ai
ติดต่อ: [ป้องกันอีเมล]
ทวิตเตอร์: @manders_ai