ต้นขั้ว การบีบอัด JPEG เพิ่มอัตราข้อผิดพลาดในการจดจำใบหน้าสำหรับใบหน้าที่ไม่ใช่คนผิวขาว การศึกษาพบ - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

การบีบอัด JPEG เพิ่มอัตราข้อผิดพลาดในการจดจำใบหน้าสำหรับใบหน้าที่ไม่ใช่คนผิวขาว การศึกษาพบ

mm
วันที่อัพเดท on
ภาพหลัก: DALL-E 2
ภาพหลัก: DALL-E 2

การศึกษาใหม่จากสหราชอาณาจักรได้ข้อสรุปว่าเทคนิคการบีบอัดแบบสูญเสียข้อมูลในภาพ JPEG อาจส่งผลในทางลบต่อประสิทธิภาพของระบบจดจำใบหน้า ทำให้ระบบดังกล่าวมีแนวโน้มที่จะระบุบุคคลที่ไม่ใช่คนผิวขาวได้ไม่ถูกต้อง

กระดาษระบุ:

'ผ่านการตั้งค่าการทดลองที่กว้างขวาง เราแสดงให้เห็นว่าวิธีการบีบอัดภาพแบบสูญเสียทั่วไปมีผลกระทบด้านลบที่ชัดเจนมากขึ้นต่อประสิทธิภาพการจดจำใบหน้าสำหรับประเภทฟีโนไทป์ทางเชื้อชาติที่เฉพาะเจาะจง เช่น สีผิวที่เข้มขึ้น (มากถึง 34.55%)'

ผลการวิจัยยังระบุอีกด้วยว่า การสุ่มตัวอย่างสีซึ่งจะลดข้อมูลสี (แทนที่จะเป็นข้อมูลความสว่าง) ในส่วนต่างๆ ของภาพใบหน้า จะเพิ่มอัตราการจับคู่ที่ผิดพลาด (FMR) ในชุดข้อมูลที่ทดสอบหลายชุด ซึ่งส่วนใหญ่เป็นที่เก็บข้อมูลมาตรฐานสำหรับคอมพิวเตอร์วิทัศน์

การดำเนินการสุ่มตัวอย่าง Chroma บนภาพต้นฉบับในอัตราที่แตกต่างกัน มีผลอย่างชัดเจนต่อขอบเขตของการรักษารายละเอียด และขอบเขตที่โทนสีย่อยจะ 'ผสมผสาน' เข้าด้วยกัน เป็นการเสียสละรายละเอียดและการกำหนดคุณลักษณะต่างๆ โปรดทราบว่าภาพนี้อาจมีการบีบอัด และอ้างอิงจากเอกสารต้นฉบับเพื่อความละเอียดที่ถูกต้อง ที่มา: https://arxiv.org/pdf/2208.07613.pdf

การดำเนินการสุ่มตัวอย่าง Chroma บนภาพต้นฉบับในอัตราที่แตกต่างกัน มีผลอย่างชัดเจนต่อขอบเขตของการรักษารายละเอียด และขอบเขตที่โทนสีย่อยจะ 'ผสมผสาน' เข้าด้วยกัน เป็นการเสียสละรายละเอียดและการกำหนดคุณลักษณะต่างๆ โปรดทราบว่าภาพนี้อาจมีการบีบอัด และอ้างอิงจากเอกสารต้นฉบับเพื่อความละเอียดที่ถูกต้อง. ที่มา: https://arxiv.org/pdf/2208.07613.pdf

การสุ่มตัวอย่างโครมาถูกนำไปใช้เป็นมาตรการทางเศรษฐกิจเพิ่มเติมในการบีบอัด JPEG เนื่องจากผู้คนไม่สามารถรับรู้ถึงความซับซ้อนและช่วงของแถบสีที่ลดลงได้น้อยกว่าระบบการมองเห็นด้วยคอมพิวเตอร์ ซึ่งใช้ 'การรวม' เหล่านี้มากกว่าที่เราทำ

นักวิจัยจากการศึกษาครั้งใหม่พบว่าการลบการสุ่มตัวอย่างสีออกจากกระบวนการบีบอัดช่วยลดผลกระทบด้านลบนี้ได้ถึง 15.95% แม้ว่าจะไม่ได้ขจัดปัญหาทั้งหมด

การศึกษายังยืนยันว่าการฝึกอบรมเกี่ยวกับข้อมูลที่ไม่บีบอัด (หรือบีบอัดน้อยกว่า) จะ ไม่ แก้ไขปัญหาหากภาพเวลาอนุมานถูกบีบอัด อย่างมีประสิทธิภาพ หมายความว่าการฝึกโมเดลการจดจำใบหน้าให้กับภาพที่มีการบีบอัดน้อยจะไม่สามารถแก้ไขอคติได้หากโมเดลการผลิตขั้นสุดท้ายป้อนภาพที่มีปัญหาการบีบอัดตามที่ระบุไว้

ผู้เขียนรายงาน*:

'[การ] ใช้การบีบอัดภาพแบบสูญเสียระหว่างการอนุมานส่งผลเสียต่อประสิทธิภาพของภาพร่วมสมัย วิธีการจดจำใบหน้า ในส่วนย่อยของการจัดกลุ่มฟีโนไทป์ของใบหน้าที่เกี่ยวข้องกับเชื้อชาติ (เช่น โทนสีผิวเข้มขึ้น รูปร่างตากลมโต) และผลกระทบนั้นมีอยู่โดยไม่คำนึงว่าภาพที่ถูกบีบอัดจะถูกใช้สำหรับการฝึกแบบจำลองหรือไม่'

บทความนี้เน้นย้ำถึงผลที่ตามมาของการบีบอัดภาพในภาคการวิจัยการมองเห็นด้วยคอมพิวเตอร์ ซึ่งอธิบายรายละเอียดบางส่วนไว้ใน a การศึกษา 2021 จากมหาวิทยาลัยแมรี่แลนด์ และ Facebook AI

มัน เรื่องที่แก้ไขได้ยาก; แม้ว่าปัญหาด้านพื้นที่เก็บข้อมูลและแบนด์วิธที่ทำให้การบีบอัดข้อมูลจำเป็นหมดไปในชั่วข้ามคืน และแม้ว่าภาพคุณภาพต่ำทั้งหมดที่บรรจุชุดข้อมูลกว่า XNUMX ปีหรือมากกว่าในภาคส่วนนี้จะถูกบีบอัดใหม่ในอัตราที่ดีกว่าจากแหล่งข้อมูลคุณภาพสูงในทันทีทันใด เป็นตัวแทนของ 'รีเซ็ต' ความต่อเนื่องของเครื่องมือวัดผลทางวิชาการในช่วงสองสามทศวรรษที่ผ่านมา ชุมชน CV มีผล เริ่มคุ้นเคย ต่อปัญหาจนถึงจุดที่แสดงถึงหนี้ทางเทคนิคที่โดดเด่น

เกี่ยวกับเชื้อชาติ อคติ ในการจดจำใบหน้า (FR) ได้ กลายเป็น a หัวข้อสื่อร้อน ในช่วงไม่กี่ปีที่ผ่านมา ทำให้เกิดความพยายามร่วมกันในชุมชนการวิจัยเพื่อกำจัดมันออกจากระบบที่ได้รับผลกระทบ อย่างไรก็ตาม การพึ่งพาหน่วยงานวิจัยระดับโลกเกี่ยวกับ จำกัดมากเกินไป จำนวนชุดข้อมูล 'มาตรฐานทองคำ' ซึ่งหลายชุดเป็นอย่างใดอย่างหนึ่ง ไม่สมดุลทางเชื้อชาติ or มีป้ายกำกับไม่ดี ในแง่นี้ทำให้ความท้าทายรุนแรงขึ้น

นักวิจัยของรายงานฉบับใหม่ยังระบุถึงความไม่ลงรอยกันระหว่างมาตรฐานการรับภาพและมาตรฐานที่กำหนดโดยเกณฑ์มาตรฐานการจดจำใบหน้าทั่วไป โดยระบุ*:

'[ที่มีอยู่] มาตรฐานการรับภาพสำหรับระบบจดจำใบหน้า เช่น มาตรฐาน ISO / IEC 19794-5 และ ไอซีโอ 9303 เสนอมาตรฐานคุณภาพทั้งตามภาพ (เช่น การส่องสว่าง การบดเคี้ยว) และตามวัตถุ (เช่น ท่าทาง การแสดงออก อุปกรณ์เสริม) เพื่อให้มั่นใจถึงคุณภาพของภาพใบหน้า

'ดังนั้น ควรจัดเก็บภาพใบหน้าโดยใช้มาตรฐานการบีบอัดภาพแบบสูญเสียข้อมูล เช่น JPEG  หรือ JPEG2000; และสามารถระบุเพศ สีตา สีผม การแสดงออก คุณสมบัติ (เช่น แว่นตา) มุมท่าทาง (หันเห เอียงตัว และม้วนตัว) และตำแหน่งจุดสังเกต

'อย่างไรก็ตาม เกณฑ์มาตรฐานการจดจำใบหน้าทั่วไปไม่เป็นไปตามมาตรฐาน ISO/IEC 19794-5 และ ICAO 9303 นอกจากนี้ มักจะได้รับตัวอย่างในป่าภายใต้กล้องและสภาพแวดล้อมที่แตกต่างกันเพื่อท้าทายวิธีแก้ปัญหาที่นำเสนอ

'อย่างไรก็ตาม ตัวอย่างภาพใบหน้าส่วนใหญ่ในชุดข้อมูลดังกล่าวจะถูกบีบอัดผ่านการบีบอัด JPEG ที่สูญหาย'

ผู้เขียนผลงานชิ้นใหม่ระบุว่าความพยายามในอนาคตของพวกเขาจะตรวจสอบผลกระทบของการสูญเสียภาพเชิงปริมาณต่อเฟรมเวิร์กการจดจำใบหน้าที่หลากหลาย และเสนอวิธีการที่เป็นไปได้เพื่อปรับปรุงความเป็นธรรมของระบบเหล่านี้

พื้นที่ กระดาษใหม่ มีบรรดาศักดิ์ การบีบอัดภาพที่สูญเสียไปส่งผลต่ออคติทางเชื้อชาติในการจดจำใบหน้าหรือไม่?และมาจากนักวิจัย XNUMX คนจาก Imperial College London ร่วมกับอีก XNUMX คนจากการวิเคราะห์ใบหน้าเชิงลึกของ InsightFace ห้องสมุด.

ข้อมูลและวิธีการ

สำหรับการทดลอง นักวิจัยใช้ ImageMagick และ libjpeg ไลบรารีโอเพ่นซอร์สเพื่อสร้างเวอร์ชันของอิมเมจข้อมูลต้นฉบับโดยเพิ่มการบีบอัดหลายระดับ

สำหรับภาพรวมเบื้องต้นของผลกระทบของการบีบอัด ผู้เขียนได้ศึกษาผลกระทบของอัตราส่วนสัญญาณต่อสัญญาณรบกวนสูงสุด (พี.เอส.เอ็น) ในสี่ระดับที่แตกต่างกันของการบีบอัด JPEG บน Racial Faces in-the-Wild (อาร์เอฟดับบลิว) ชุดข้อมูล

คะแนน PSNR สำหรับชุดข้อมูล Racial Faces-in-the-Wild ซึ่งแสดงให้เห็นถึงขอบเขตที่การบีบอัดสามารถส่งผลกระทบต่อความสามารถในการจดจำสำหรับภาพที่บีบอัด

คะแนน PSNR สำหรับชุดข้อมูล Racial Faces-in-the-Wild ซึ่งแสดงให้เห็นถึงขอบเขตที่การบีบอัดสามารถส่งผลกระทบต่อความสามารถในการจดจำสำหรับภาพที่บีบอัด

ท่ามกลางการทดสอบอื่นๆ พวกเขาได้ทำการวิจัยเกี่ยวกับชุดข้อมูลที่ไม่สมดุลทางเชื้อชาติ และอีกชุดหนึ่งที่มีความสมดุลทางเชื้อชาติ สำหรับชุดที่มีความสมดุลทางเชื้อชาติ พวกเขาใช้ Additive Angular Margin Loss (อาร์คเฟซ) ฟังก์ชั่นกับ ResNet101v2บนต้นฉบับ วีจีจีเฟซ2 ชุดข้อมูลเกณฑ์มาตรฐานซึ่งประกอบด้วยภาพ 3.3 ล้านภาพซึ่งมีวัตถุที่ไม่สมดุลทางเชื้อชาติ 8631 รายการ

สำหรับการทดสอบ นักวิจัยใช้ชุดข้อมูล RFW ระบบได้รับการฝึกอบรมสี่ครั้ง ที่สี่ระดับการบีบอัดที่แตกต่างกัน ส่งผลให้มีโมเดล ArcFace สี่แบบ

สำหรับฉากที่มีความสมดุลทางเชื้อชาตินั้น เฟรมเวิร์กเดียวกันนี้ถูกนำมาใช้ในตอนแรกกับแนวดั้งเดิม BUPT-สมดุล ชุดข้อมูลเกณฑ์มาตรฐานซึ่งมี 28,000 ใบหน้าที่สมดุลกันในสี่กลุ่ม แอฟริกัน, คนเอเชีย, ชาวอินเดียและ คนผิวขาว, แต่ละการแข่งขันแสดงด้วย 7000 ภาพ เช่นเดียวกับชุดข้อมูลที่ไม่สมดุลทางเชื้อชาติ โมเดล ArcFace สี่แบบได้รับด้วยวิธีนี้

นอกจากนี้ นักวิจัยยังจำลองผลกระทบของการฝึกอบรมแบบบีบอัดและไม่บีบอัดโดยการลบการสุ่มตัวอย่างโครมาออก เพื่อวัดผลกระทบที่มีต่อประสิทธิภาพ

ผลสอบ

จากนั้นจึงทำการศึกษา False Matching Rate (FMR) ในชุดข้อมูลที่สร้างขึ้นเหล่านี้ เกณฑ์ที่นักวิจัยกำลังมองหาถูกกำหนดไว้แล้ว phenotypes เกี่ยวข้องกับลักษณะทางเชื้อชาติ ประเภทผิว (1, 2, 3, 4, 5 หรือ 6), ประเภทเปลือกตา (โมโนลิด/อื่นๆ), ทรงจมูก (กว้าง/แคบ), รูปร่างของริมฝีปาก (เต็ม/เล็ก), ประเภทผม (ผมตรง/หยักศก/หยิก/หัวล้าน) และ สีผม – เมตริกดึงมาจากปี 2019 กระดาษ การวัดอคติที่ซ่อนอยู่ภายในการจดจำใบหน้าผ่านฟีโนไทป์ทางเชื้อชาติ.

กระดาษระบุ:

'เราสังเกตว่าสำหรับระดับการบีบอัดที่เลือกลงทั้งหมด q = {5, 10, 15, 95} FMR จะเพิ่มขึ้นเมื่อมีการใช้การบีบอัดแบบสูญเสียเพิ่มเติม ซึ่งแสดงให้เห็นว่าระดับการบีบอัด 5 (อัตราการบีบอัดสูงสุด) ส่งผลให้การลดลงที่สำคัญที่สุด ในประสิทธิภาพ FMR ในขณะที่ระดับการบีบอัด 95 (อัตราการบีบอัดต่ำสุด) จะไม่ส่งผลให้ประสิทธิภาพของ FMR แตกต่างกันอย่างเห็นได้ชัด'

ตัวอย่างจากแผนภูมิผลลัพธ์ที่ครอบคลุมของเอกสาร ซึ่งมีขนาดใหญ่และจำนวนมากเกินกว่าจะทำซ้ำได้ที่นี่ โปรดดูเอกสารต้นฉบับเพื่อความละเอียดที่ดีขึ้นและผลลัพธ์ที่สมบูรณ์ ที่นี่ เราเห็นขอบเขตของประสิทธิภาพ FMR ในภาพใบหน้าที่ลดคุณภาพ/บีบอัดมากขึ้นเรื่อยๆ สำหรับ VGGFace2 ซึ่งรวมถึงคุณภาพที่ไม่บีบอัดหรือบีบอัดน้อย

ตัวอย่างจากแผนภูมิผลลัพธ์ที่ครอบคลุมของเอกสาร ซึ่งมีขนาดใหญ่และจำนวนมากเกินกว่าจะทำซ้ำได้ที่นี่ โปรดดูเอกสารต้นฉบับเพื่อความละเอียดที่ดีขึ้นและผลลัพธ์ที่สมบูรณ์ ที่นี่ เราเห็นขอบเขตของประสิทธิภาพ FMR ในภาพใบหน้าที่ลดคุณภาพ/บีบอัดมากขึ้นเรื่อยๆ สำหรับ VGGFace2 ซึ่งรวมถึงคุณภาพที่ไม่บีบอัดหรือบีบอัดน้อย

กระดาษสรุป:

'โดยรวมแล้ว การประเมินของเราพบว่าการใช้ตัวอย่างภาพใบหน้าที่ถูกบีบอัดที่สูญหายในเวลาอนุมานจะลดประสิทธิภาพลงอย่างมากในฟีโนไทป์เฉพาะ ซึ่งรวมถึงโทนสีผิวเข้ม จมูกกว้าง ผมหยิก และตาชั้นเดียวในคุณลักษณะฟีโนไทป์อื่นๆ ทั้งหมด

'อย่างไรก็ตาม การใช้ภาพที่บีบอัดระหว่างการฝึกทำให้โมเดลที่ได้มีความยืดหยุ่นมากขึ้นและจำกัดการลดลงของประสิทธิภาพที่พบ: ประสิทธิภาพที่ต่ำกว่าในกลุ่มย่อยเฉพาะที่มีเชื้อชาติเดียวกันยังคงอยู่ นอกจากนี้ การนำตัวอย่างย่อยของโครมาออกยังปรับปรุง FMR สำหรับหมวดหมู่ฟีโนไทป์เฉพาะที่ได้รับผลกระทบจากการบีบอัดแบบสูญเสียมากขึ้น'

 

* การแปลงการอ้างอิงแบบอินไลน์ของผู้เขียนเป็นไฮเปอร์ลิงก์

เผยแพร่ครั้งแรก 22 สิงหาคม 2022

นักเขียนเกี่ยวกับการเรียนรู้ของเครื่อง ปัญญาประดิษฐ์ และข้อมูลขนาดใหญ่
เว็บไซต์ส่วนตัว: martinanderson.ai
ติดต่อ: [ป้องกันอีเมล]
ทวิตเตอร์: @manders_ai