رطم يزيد ضغط JPEG من معدل أخطاء التعرف على الوجوه للوجوه غير القوقازية ، كما تكتشف الدراسة - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

وجدت الدراسة أن ضغط JPEG يزيد من معدل أخطاء التعرف على الوجه للوجوه غير القوقازية

mm
تحديث on
الصورة الرئيسية: DALL-E 2.
الصورة الرئيسية: DALL-E 2.

خلصت دراسة جديدة من المملكة المتحدة إلى أن تقنيات الضغط المفقودة في صور JPEG يمكن أن يكون لها تأثير سلبي على فعالية أنظمة التعرف على الوجه ، مما يجعل مثل هذه الأنظمة أكثر عرضة للتعرف بشكل غير صحيح على شخص غير قوقازي.

تقول الورقة:

"من خلال إعداد تجريبي مكثف ، نظهر أن أساليب ضغط الصور مع فقدان الصورة الشائعة لها تأثير سلبي أكثر وضوحًا على أداء التعرف على الوجه لفئات نمط ظاهري عرقي محدد مثل درجات لون البشرة الداكنة (بنسبة تصل إلى 34.55٪).

النتائج تشير أيضا إلى أن اختزال صبغي، مما يقلل معلومات اللون (بدلاً من معلومات السطوع) عبر أقسام صورة الوجه ويزيد من معدل المطابقة الخاطئة (FMR) عبر مجموعة من مجموعات البيانات التي تم اختبارها، والتي يعد العديد منها مستودعات قياسية لرؤية الكمبيوتر.

عمليات Chroma subampling على صورة مصدر ، بمعدلات متفاوتة ، لها تأثير واضح على مدى الحفاظ على التفاصيل ، ومدى "مزج" النغمات الفرعية ببساطة مع بعضها البعض ، والتضحية بالتفاصيل وتحديد الميزات. يرجى ملاحظة أن هذه الصورة في حد ذاتها قد تكون عرضة للضغط ، والرجوع إلى الورقة المصدر للحصول على دقة دقيقة. المصدر: https://arxiv.org/pdf/2208.07613.pdf

عمليات Chroma subampling على صورة مصدر ، بمعدلات متفاوتة ، لها تأثير واضح على مدى الحفاظ على التفاصيل ، ومدى "مزج" النغمات الفرعية ببساطة مع بعضها البعض ، والتضحية بالتفاصيل وتحديد الميزات. يرجى ملاحظة أن هذه الصورة في حد ذاتها قد تكون عرضة للضغط ، والرجوع إلى الورقة المصدر للحصول على دقة دقيقة. المصدر: https://arxiv.org/pdf/2208.07613.pdf

يتم تطبيق Chroma subampling كإجراء اقتصادي إضافي في ضغط JPEG لأن الناس أقل قدرة على إدراك الانخفاض في تعقيد ونطاق نطاقات الألوان من أنظمة رؤية الكمبيوتر ، والتي تأخذ هذه `` التجميعات '' حرفياً أكثر بكثير مما نفعل.

وجد الباحثون في الدراسة الجديدة أن إزالة عينات الصبغ الفرعية من عملية الضغط تقلل من هذا التأثير السلبي بنسبة تصل إلى 15.95٪ ، على الرغم من أنها لا تزيل المشكلة تمامًا.

تؤكد الدراسة أيضًا أن التدريب على البيانات غير المضغوطة (أو الأقل ضغطًا) سيفي بالغرض ليس حل المشكلة إذا كانت صور وقت الاستدلال مضغوطة. بشكل فعال ، هذا يعني أن تدريب نموذج التعرف على الوجه على صور أقل ضغطًا لن يحل التحيز إذا تم تغذية نموذج الإنتاج النهائي بالصور التي بها مشكلات الضغط المذكورة.

تقرير المؤلفين *:

[استخدام] ضغط الصورة المفقود أثناء الاستدلال يؤثر سلبًا على أداء المعاصر نهج التعرف على الوجوه على مجموعة فرعية من مجموعات النمط الظاهري للوجه ذات الصلة بالعرق (على سبيل المثال ، درجات لون البشرة الداكنة ، وشكل العين الأحادي) وأن تأثيرها موجود بغض النظر عما إذا كانت الصور المضغوطة تستخدم في تدريب النموذج.

تؤكد الورقة عواقب ضغط الصور على قطاع أبحاث رؤية الكمبيوتر ، والتي تم توضيحها بشيء من التفصيل في a 2021 الدراسة من جامعة ماريلاند و Facebook AI.

انها مسألة صعبة لإصلاحها؛ حتى إذا تم التخلص من مشكلات التخزين والنطاق الترددي التي تجعل الضغط ضروريًا بين عشية وضحاها ، وحتى إذا تم إعادة ضغط جميع الصور منخفضة الجودة التي تملأ عشرين عامًا أو أكثر من مجموعات البيانات في القطاع بمعدل أفضل من مصادر عالية الجودة ، تمثل "إعادة تعيين" لاستمرارية أدوات المقارنة المعيارية الأكاديمية على مدى العقود القليلة الماضية. مجتمع السيرة الذاتية لديه ، في الواقع ، تعودت للمشكلة ، إلى الحد الذي يمثل فيه دينا فنيًا ملحوظًا.

عرقي انحياز في التعرف على الوجه (بالفرنسية) أصبح a موضوع الوسائط الساخنة في السنوات الأخيرة ، مما أدى إلى تضافر الجهود في مجتمع البحث للقضاء عليه من الأنظمة المتأثرة. ومع ذلك ، فإن الاعتماد على هيئة البحث العالمية على محدودة للغاية عدد مجموعات البيانات "المعيارية الذهبية" ، وكثير منها إما غير متوازنة عنصريًا or سيئة التسمية في هذا الصدد ، يفاقم التحدي.

بالإضافة إلى ذلك ، لاحظ الباحثون في الورقة الجديدة وجود تنافر بين معايير الحصول على الصور والمعايير التي حددها التشغيل العام لمعايير التعرف على الوجه ، والتي تنص على *:

معايير الحصول على الصور [الموجودة] لأنظمة التعرف على الوجوه مثل ISO / IEC 19794-5 و منظمة الطيران المدني الدولي 9303 اقتراح معايير الجودة المستندة إلى الصورة (أي الإضاءة ، والإغلاق) والقائمة على الموضوع (أي الوضع ، والتعبير ، والملحقات) لضمان جودة صورة الوجه.

وفقًا لذلك ، يجب أيضًا تخزين صور الوجه باستخدام معايير ضغط الصور المفقودة مثل JPEG  أو JPEG2000 ؛ ويمكن تحديده حسب الجنس ولون العين ولون الشعر والتعبير والخصائص (مثل النظارات) وزوايا الوضعية (الانحراف والخطوة واللف) والمواقف البارزة.

ومع ذلك ، فإن معايير التعرف على الوجوه الشائعة لا تتوافق مع معايير ISO / IEC 19794-5 و ICAO 9303. علاوة على ذلك ، غالبًا ما يتم الحصول على عينات في البرية في ظل ظروف الكاميرا والبيئية المتغيرة لتحدي الحلول المقترحة.

"ومع ذلك ، يتم ضغط معظم عينات صور الوجه ضمن مجموعات البيانات هذه عبر ضغط JPEG المفقود."

يذكر مؤلفو العمل الجديد أن جهودهم المستقبلية ستدرس تأثير تكميم الصورة المفقودة على أطر متنوعة للتعرف على الوجوه ، وستقدم طرقًا ممكنة لتحسين عدالة هذه الأنظمة.

ورقة جديدة بعنوان هل يؤثر ضغط الصور المفقود على التحيز العنصري في التعرف على الوجوه؟، ويأتي من ثلاثة باحثين في إمبريال كوليدج لندن ، مع واحد من تحليل الوجه العميق InsightFace مكتبة.

البيانات والطريقة

لتجاربهم ، استخدم الباحثون يماغيماغيك و libjpeg مكتبات مفتوحة المصدر لإنشاء إصدارات من صور بيانات المصدر بزيادات مختلفة من الضغط.

للحصول على نظرة عامة أولية لتأثيرات الضغط ، درس المؤلفون تأثيرات ذروة نسبة الإشارة إلى الضوضاء (PSNR) على أربعة مستويات مختلفة من ضغط JPEG على الوجوه العنصرية في البرية (RFW) مجموعة البيانات.

درجات PSNR لمجموعة البيانات Racial Faces-in-the-Wild ، مما يوضح مدى تأثير الضغط على قدرات التعرف على الصور المضغوطة.

درجات PSNR لمجموعة البيانات Racial Faces-in-the-Wild ، مما يوضح مدى تأثير الضغط على قدرات التعرف على الصور المضغوطة.

من بين الاختبارات الأخرى ، أجروا بحثًا على مجموعة بيانات غير متوازنة عنصريًا ، وأخرى كانت متوازنة عنصريًا. بالنسبة للمجموعة المتوازنة عرقياً ، استخدموا خسارة الهامش الزاوي الإضافية (قوس الوجه) تعمل مع ResNet101v2على الأصل VGGFace2 مجموعة البيانات المعيارية ، والتي تحتوي على 3.3 مليون صورة تضم 8631 موضوعًا غير متوازن عنصريًا.

للاختبار ، استخدم الباحثون مجموعة بيانات RFW. تم تدريب النظام أربع مرات ، على أربعة مستويات مختلفة من الضغط ، مما أدى إلى أربعة نماذج ArcFace.

بالنسبة للمجموعة المتوازنة عنصريًا ، تم استخدام نفس الأطر في البداية على الاصطفاف الأصلي متوازن BUPT مجموعة البيانات المعيارية ، والتي تحتوي على 28,000 وجه متوازن عبر المجموعات الأربع الأفريقي, الآسيوي, هنديو قوقازي، يمثل كل سباق 7000 صورة. كما هو الحال مع مجموعة البيانات غير المتوازنة عنصريًا ، تم الحصول على أربعة نماذج ArcFace بهذه الطريقة.

بالإضافة إلى ذلك ، أعاد الباحثون إنتاج تأثيرات التدريب المضغوط وغير المضغوط عن طريق إزالة عينات صفاء فرعية ، من أجل قياس تأثيرها على الأداء.

النتائج

ثم تمت دراسة معدل المطابقة الخاطئة (FMR) عبر مجموعات البيانات التي تم إنشاؤها. كانت المعايير التي يبحث عنها الباحثون محددة مسبقًا الظواهر المتعلقة بالخصائص العرقية نوع الجلد (1 ، 2 ، 3 ، 4 ، 5 أو 6) ، نوع الجفن (مونوليد / أخرى) ، شكل الأنف (واسع ضيق)، شكل الشفاه (كامل / صغير) ، نوع الشعر (مستقيم / مموج / مجعد / أصلع) ، و لون الشعر - مقاييس مستمدة من 2019 ورقة قياس التحيز الخفي في التعرف على الوجوه عن طريق الأنماط الظاهرية العرقية.

تقول الورقة:

'نلاحظ أنه بالنسبة لجميع مستويات الضغط المختارة لأسفل ، q = {5 ، 10 ، 15 ، 95} ، يزيد FMR عند تطبيق ضغط إضافي مع فقدان البيانات ، مما يدل على أن مستوى الضغط 5 (أعلى معدل ضغط) ينتج عنه أكبر انخفاض في أداء FMR ، في حين أن مستوى الضغط 95 (أقل معدل ضغط) لا ينتج عنه أي اختلافات ملحوظة في أداء FMR.

عينة من مخططات النتائج الشاملة للورقة ، والتي تكون كبيرة جدًا ومتعددة بحيث لا يمكن إعادة إنتاجها هنا - يرجى الاطلاع على ورقة المصدر للحصول على دقة أفضل ونتائج كاملة. هنا ، نرى سلسلة أداء FMR عبر صور الوجه المتدهورة / المضغوطة بشكل متزايد لـ VGGFace2 ، في نطاق يتضمن جودة غير مضغوطة أو مضغوطة قليلاً.

عينة من مخططات النتائج الشاملة للورقة ، والتي تكون كبيرة جدًا ومتعددة بحيث لا يمكن إعادة إنتاجها هنا - يرجى الاطلاع على ورقة المصدر للحصول على دقة أفضل ونتائج كاملة. هنا ، نرى سلسلة أداء FMR عبر صور الوجه المتدهورة / المضغوطة بشكل متزايد لـ VGGFace2 ، في نطاق يتضمن جودة غير مضغوطة أو مضغوطة قليلاً.

وتخلص الورقة إلى:

بشكل عام ، وجد تقييمنا أن استخدام عينات صورة الوجه المضغوطة المفقودة في وقت الاستدلال يقلل الأداء بشكل أكبر على أنماط ظاهرية محددة ، بما في ذلك لون البشرة الداكن والأنف العريض والشعر المجعد والعين أحادية الصلابة عبر جميع الميزات المظهرية الأخرى.

ومع ذلك ، فإن استخدام الصور المضغوطة أثناء التدريب يجعل النماذج الناتجة أكثر مرونة ويحد من تدهور الأداء الذي تمت مواجهته: لا يزال الأداء المنخفض بين المجموعات الفرعية المتوافقة مع العرق. بالإضافة إلى ذلك ، تؤدي إزالة العينات الفرعية للصفاء إلى تحسين FMR لفئات نمط ظاهري معينة أكثر تأثراً بضغط ضياع.

 

* تحويل الاقتباسات المضمنة للمؤلفين إلى ارتباطات تشعبية.

نُشر لأول مرة في 22 أغسطس 2022.