ปัญญาประดิษฐ์
การบีบอัด JPEG เพิ่มอัตราข้อผิดพลาดในการจดจำใบหน้าสำหรับใบหน้าที่ไม่ใช่คนผิวขาว การศึกษาพบ
การศึกษาใหม่จากสหราชอาณาจักรได้ข้อสรุปว่าเทคนิคการบีบอัดแบบสูญเสียข้อมูลในภาพ JPEG อาจส่งผลในทางลบต่อประสิทธิภาพของระบบจดจำใบหน้า ทำให้ระบบดังกล่าวมีแนวโน้มที่จะระบุบุคคลที่ไม่ใช่คนผิวขาวได้ไม่ถูกต้อง
กระดาษระบุ:
'ผ่านการตั้งค่าการทดลองที่กว้างขวาง เราแสดงให้เห็นว่าวิธีการบีบอัดภาพแบบสูญเสียทั่วไปมีผลกระทบด้านลบที่ชัดเจนมากขึ้นต่อประสิทธิภาพการจดจำใบหน้าสำหรับประเภทฟีโนไทป์ทางเชื้อชาติที่เฉพาะเจาะจง เช่น สีผิวที่เข้มขึ้น (มากถึง 34.55%)'
ผลการวิจัยยังระบุอีกด้วยว่า การสุ่มตัวอย่างสีซึ่งจะลดข้อมูลสี (แทนที่จะเป็นข้อมูลความสว่าง) ในส่วนต่างๆ ของภาพใบหน้า จะเพิ่มอัตราการจับคู่ที่ผิดพลาด (FMR) ในชุดข้อมูลที่ทดสอบหลายชุด ซึ่งส่วนใหญ่เป็นที่เก็บข้อมูลมาตรฐานสำหรับคอมพิวเตอร์วิทัศน์
การสุ่มตัวอย่างโครมาถูกนำไปใช้เป็นมาตรการทางเศรษฐกิจเพิ่มเติมในการบีบอัด JPEG เนื่องจากผู้คนไม่สามารถรับรู้ถึงความซับซ้อนและช่วงของแถบสีที่ลดลงได้น้อยกว่าระบบการมองเห็นด้วยคอมพิวเตอร์ ซึ่งใช้ 'การรวม' เหล่านี้มากกว่าที่เราทำ
นักวิจัยจากการศึกษาครั้งใหม่พบว่าการลบการสุ่มตัวอย่างสีออกจากกระบวนการบีบอัดช่วยลดผลกระทบด้านลบนี้ได้ถึง 15.95% แม้ว่าจะไม่ได้ขจัดปัญหาทั้งหมด
การศึกษายังยืนยันว่าการฝึกอบรมเกี่ยวกับข้อมูลที่ไม่บีบอัด (หรือบีบอัดน้อยกว่า) จะ ไม่ แก้ไขปัญหาหากภาพเวลาอนุมานถูกบีบอัด อย่างมีประสิทธิภาพ หมายความว่าการฝึกโมเดลการจดจำใบหน้าให้กับภาพที่มีการบีบอัดน้อยจะไม่สามารถแก้ไขอคติได้หากโมเดลการผลิตขั้นสุดท้ายป้อนภาพที่มีปัญหาการบีบอัดตามที่ระบุไว้
ผู้เขียนรายงาน*:
'[การ] ใช้การบีบอัดภาพแบบสูญเสียระหว่างการอนุมานส่งผลเสียต่อประสิทธิภาพของภาพร่วมสมัย วิธีการจดจำใบหน้า ในส่วนย่อยของการจัดกลุ่มฟีโนไทป์ของใบหน้าที่เกี่ยวข้องกับเชื้อชาติ (เช่น โทนสีผิวเข้มขึ้น รูปร่างตากลมโต) และผลกระทบนั้นมีอยู่โดยไม่คำนึงว่าภาพที่ถูกบีบอัดจะถูกใช้สำหรับการฝึกแบบจำลองหรือไม่'
บทความนี้เน้นย้ำถึงผลที่ตามมาของการบีบอัดภาพในภาคการวิจัยการมองเห็นด้วยคอมพิวเตอร์ ซึ่งอธิบายรายละเอียดบางส่วนไว้ใน a การศึกษา 2021 จากมหาวิทยาลัยแมรี่แลนด์ และ Facebook AI
มัน เรื่องที่แก้ไขได้ยาก; แม้ว่าปัญหาด้านพื้นที่เก็บข้อมูลและแบนด์วิธที่ทำให้การบีบอัดข้อมูลจำเป็นหมดไปในชั่วข้ามคืน และแม้ว่าภาพคุณภาพต่ำทั้งหมดที่บรรจุชุดข้อมูลกว่า XNUMX ปีหรือมากกว่าในภาคส่วนนี้จะถูกบีบอัดใหม่ในอัตราที่ดีกว่าจากแหล่งข้อมูลคุณภาพสูงในทันทีทันใด เป็นตัวแทนของ 'รีเซ็ต' ความต่อเนื่องของเครื่องมือวัดผลทางวิชาการในช่วงสองสามทศวรรษที่ผ่านมา ชุมชน CV มีผล เริ่มคุ้นเคย ต่อปัญหาจนถึงจุดที่แสดงถึงหนี้ทางเทคนิคที่โดดเด่น
เกี่ยวกับเชื้อชาติ อคติ ในการจดจำใบหน้า (FR) ได้ กลายเป็น a หัวข้อสื่อร้อน ในช่วงไม่กี่ปีที่ผ่านมา ทำให้เกิดความพยายามร่วมกันในชุมชนการวิจัยเพื่อกำจัดมันออกจากระบบที่ได้รับผลกระทบ อย่างไรก็ตาม การพึ่งพาหน่วยงานวิจัยระดับโลกเกี่ยวกับ จำกัดมากเกินไป จำนวนชุดข้อมูล 'มาตรฐานทองคำ' ซึ่งหลายชุดเป็นอย่างใดอย่างหนึ่ง ไม่สมดุลทางเชื้อชาติ or มีป้ายกำกับไม่ดี ในแง่นี้ทำให้ความท้าทายรุนแรงขึ้น
นักวิจัยของรายงานฉบับใหม่ยังระบุถึงความไม่ลงรอยกันระหว่างมาตรฐานการรับภาพและมาตรฐานที่กำหนดโดยเกณฑ์มาตรฐานการจดจำใบหน้าทั่วไป โดยระบุ*:
'[ที่มีอยู่] มาตรฐานการรับภาพสำหรับระบบจดจำใบหน้า เช่น มาตรฐาน ISO / IEC 19794-5 และ ไอซีโอ 9303 เสนอมาตรฐานคุณภาพทั้งตามภาพ (เช่น การส่องสว่าง การบดเคี้ยว) และตามวัตถุ (เช่น ท่าทาง การแสดงออก อุปกรณ์เสริม) เพื่อให้มั่นใจถึงคุณภาพของภาพใบหน้า
'ดังนั้น ควรจัดเก็บภาพใบหน้าโดยใช้มาตรฐานการบีบอัดภาพแบบสูญเสียข้อมูล เช่น JPEG หรือ JPEG2000; และสามารถระบุเพศ สีตา สีผม การแสดงออก คุณสมบัติ (เช่น แว่นตา) มุมท่าทาง (หันเห เอียงตัว และม้วนตัว) และตำแหน่งจุดสังเกต
'อย่างไรก็ตาม เกณฑ์มาตรฐานการจดจำใบหน้าทั่วไปไม่เป็นไปตามมาตรฐาน ISO/IEC 19794-5 และ ICAO 9303 นอกจากนี้ มักจะได้รับตัวอย่างในป่าภายใต้กล้องและสภาพแวดล้อมที่แตกต่างกันเพื่อท้าทายวิธีแก้ปัญหาที่นำเสนอ
'อย่างไรก็ตาม ตัวอย่างภาพใบหน้าส่วนใหญ่ในชุดข้อมูลดังกล่าวจะถูกบีบอัดผ่านการบีบอัด JPEG ที่สูญหาย'
ผู้เขียนผลงานชิ้นใหม่ระบุว่าความพยายามในอนาคตของพวกเขาจะตรวจสอบผลกระทบของการสูญเสียภาพเชิงปริมาณต่อเฟรมเวิร์กการจดจำใบหน้าที่หลากหลาย และเสนอวิธีการที่เป็นไปได้เพื่อปรับปรุงความเป็นธรรมของระบบเหล่านี้
พื้นที่ กระดาษใหม่ มีบรรดาศักดิ์ การบีบอัดภาพที่สูญเสียไปส่งผลต่ออคติทางเชื้อชาติในการจดจำใบหน้าหรือไม่?และมาจากนักวิจัย XNUMX คนจาก Imperial College London ร่วมกับอีก XNUMX คนจากการวิเคราะห์ใบหน้าเชิงลึกของ InsightFace ห้องสมุด.
ข้อมูลและวิธีการ
สำหรับการทดลอง นักวิจัยใช้ ImageMagick และ libjpeg ไลบรารีโอเพ่นซอร์สเพื่อสร้างเวอร์ชันของอิมเมจข้อมูลต้นฉบับโดยเพิ่มการบีบอัดหลายระดับ
สำหรับภาพรวมเบื้องต้นของผลกระทบของการบีบอัด ผู้เขียนได้ศึกษาผลกระทบของอัตราส่วนสัญญาณต่อสัญญาณรบกวนสูงสุด (พี.เอส.เอ็น) ในสี่ระดับที่แตกต่างกันของการบีบอัด JPEG บน Racial Faces in-the-Wild (อาร์เอฟดับบลิว) ชุดข้อมูล
ท่ามกลางการทดสอบอื่นๆ พวกเขาได้ทำการวิจัยเกี่ยวกับชุดข้อมูลที่ไม่สมดุลทางเชื้อชาติ และอีกชุดหนึ่งที่มีความสมดุลทางเชื้อชาติ สำหรับชุดที่มีความสมดุลทางเชื้อชาติ พวกเขาใช้ Additive Angular Margin Loss (อาร์คเฟซ) ฟังก์ชั่นกับ ResNet101v2บนต้นฉบับ วีจีจีเฟซ2 ชุดข้อมูลเกณฑ์มาตรฐานซึ่งประกอบด้วยภาพ 3.3 ล้านภาพซึ่งมีวัตถุที่ไม่สมดุลทางเชื้อชาติ 8631 รายการ
สำหรับการทดสอบ นักวิจัยใช้ชุดข้อมูล RFW ระบบได้รับการฝึกอบรมสี่ครั้ง ที่สี่ระดับการบีบอัดที่แตกต่างกัน ส่งผลให้มีโมเดล ArcFace สี่แบบ
สำหรับฉากที่มีความสมดุลทางเชื้อชาตินั้น เฟรมเวิร์กเดียวกันนี้ถูกนำมาใช้ในตอนแรกกับแนวดั้งเดิม BUPT-สมดุล ชุดข้อมูลเกณฑ์มาตรฐานซึ่งมี 28,000 ใบหน้าที่สมดุลกันในสี่กลุ่ม แอฟริกัน, คนเอเชีย, ชาวอินเดียและ คนผิวขาว, แต่ละการแข่งขันแสดงด้วย 7000 ภาพ เช่นเดียวกับชุดข้อมูลที่ไม่สมดุลทางเชื้อชาติ โมเดล ArcFace สี่แบบได้รับด้วยวิธีนี้
นอกจากนี้ นักวิจัยยังจำลองผลกระทบของการฝึกอบรมแบบบีบอัดและไม่บีบอัดโดยการลบการสุ่มตัวอย่างโครมาออก เพื่อวัดผลกระทบที่มีต่อประสิทธิภาพ
ผลสอบ
จากนั้นจึงทำการศึกษา False Matching Rate (FMR) ในชุดข้อมูลที่สร้างขึ้นเหล่านี้ เกณฑ์ที่นักวิจัยกำลังมองหาถูกกำหนดไว้แล้ว phenotypes เกี่ยวข้องกับลักษณะทางเชื้อชาติ ประเภทผิว (1, 2, 3, 4, 5 หรือ 6), ประเภทเปลือกตา (โมโนลิด/อื่นๆ), ทรงจมูก (กว้าง/แคบ), รูปร่างของริมฝีปาก (เต็ม/เล็ก), ประเภทผม (ผมตรง/หยักศก/หยิก/หัวล้าน) และ สีผม – เมตริกดึงมาจากปี 2019 กระดาษ การวัดอคติที่ซ่อนอยู่ภายในการจดจำใบหน้าผ่านฟีโนไทป์ทางเชื้อชาติ.
กระดาษระบุ:
'เราสังเกตว่าสำหรับระดับการบีบอัดที่เลือกลงทั้งหมด q = {5, 10, 15, 95} FMR จะเพิ่มขึ้นเมื่อมีการใช้การบีบอัดแบบสูญเสียเพิ่มเติม ซึ่งแสดงให้เห็นว่าระดับการบีบอัด 5 (อัตราการบีบอัดสูงสุด) ส่งผลให้การลดลงที่สำคัญที่สุด ในประสิทธิภาพ FMR ในขณะที่ระดับการบีบอัด 95 (อัตราการบีบอัดต่ำสุด) จะไม่ส่งผลให้ประสิทธิภาพของ FMR แตกต่างกันอย่างเห็นได้ชัด'
กระดาษสรุป:
'โดยรวมแล้ว การประเมินของเราพบว่าการใช้ตัวอย่างภาพใบหน้าที่ถูกบีบอัดที่สูญหายในเวลาอนุมานจะลดประสิทธิภาพลงอย่างมากในฟีโนไทป์เฉพาะ ซึ่งรวมถึงโทนสีผิวเข้ม จมูกกว้าง ผมหยิก และตาชั้นเดียวในคุณลักษณะฟีโนไทป์อื่นๆ ทั้งหมด
'อย่างไรก็ตาม การใช้ภาพที่บีบอัดระหว่างการฝึกทำให้โมเดลที่ได้มีความยืดหยุ่นมากขึ้นและจำกัดการลดลงของประสิทธิภาพที่พบ: ประสิทธิภาพที่ต่ำกว่าในกลุ่มย่อยเฉพาะที่มีเชื้อชาติเดียวกันยังคงอยู่ นอกจากนี้ การนำตัวอย่างย่อยของโครมาออกยังปรับปรุง FMR สำหรับหมวดหมู่ฟีโนไทป์เฉพาะที่ได้รับผลกระทบจากการบีบอัดแบบสูญเสียมากขึ้น'
* การแปลงการอ้างอิงแบบอินไลน์ของผู้เขียนเป็นไฮเปอร์ลิงก์
เผยแพร่ครั้งแรก 22 สิงหาคม 2022