زاوية Anderson
زيادة الضغط على صور JPEG يزيد من معدل الخطأ في التعرف على الوجوه للأشخاص غير القوقازيين، حسب دراسة

أظهرت دراسة جديدة من المملكة المتحدة أن تقنيات الضغط الخسارة في صور JPEG يمكن أن تؤثر سلبًا على فعالية أنظمة التعرف على الوجوه، مما يجعل هذه الأنظمة أكثر عرضة لتحديد شخص غير قوقازي بشكل غير صحيح.
ينصPaper على ما يلي:
‘من خلال إعداد تجريبي شامل، نثبت أن النهج الشائع للضغط الخسارة للصور يؤثر تأثيرًا سلبيًا أكبر على أداء التعرف على الوجوه لبعض الفئات العرقية مثل الأشخاص ذوي البشرة الداكنة (بحد أقصى 34.55%).’
تشير النتائج أيضًا إلى أن تخفيض العينة اللونية، الذي يقلل من المعلومات اللونية ( chứ नह من المعلومات الإضاءة) عبر أقسام من صورة الوجه، يزيد من معدل الخلط بين الوجوه عبر مجموعة من مجموعات البيانات التي تم اختبارها، والتي تشمل العديد من المستودعات القياسية للرؤية الحاسوبية.

عمليات تخفيض العينة اللونية على صورة مصدر، بمعدلات مختلفة، لها تأثير واضح على مدى الحفاظ على التفاصيل، ومدى دمج الألوان في بعضها البعض، مما يؤدي إلى تضحية بالتفاصيل وتحديد الميزات. يرجى ملاحظة أن هذه الصورة قد تكون خاضعة للضغط، ويرجى الرجوع إلى ورقة البحث الأصلية للحصول على دقة دقيقة. المصدر: https://arxiv.org/pdf/2208.07613.pdf
يتم تطبيق تخفيض العينة اللونية كإجراء اقتصادي إضافي في ضغط JPEG لأن الناس أقل قدرة على ملاحظة الانخفاض في تعقيد ومدى حزم الألوان من أنظمة الرؤية الحاسوبية، والتي تأخذ هذه “التراكب” بشكل أكثر حرفية مما نفعله.
وجد الباحثون في الدراسة الجديدة أن إزالة تخفيض العينة اللونية من عملية الضغط يقلل من هذا التأثير السلبي بنسبة تصل إلى 15.95٪، على الرغم من أنه لا يزيل المشكلة تمامًا.
كما يؤكد البحث على أن التدريب على بيانات غير مضغوطة (أو أقل ضغطًا) لن يحل المشكلة إذا كانت الصور في وقت الاستدلال مضغوطة. هذا يعني بشكل فعال أن تدريب نموذج التعرف على الوجوه على صور أقل ضغطًا لن يحل مشكلة الانحياز إذا كان النموذج النهائي في الإنتاج يتلقى صورًا بها مشاكل الضغط المذكورة.
ينص مؤلفو البحث على ما يلي*:
‘استخدام ضغط الصور الخسارة أثناء الاستدلال يؤثر سلبًا على أداء نهج التعرف على الوجوه الحديثة على مجموعة فرعية من تصنيفات الوجوه المرتبطة بالعرق (أي الأشخاص ذوي البشرة الداكنة، والشكل العيني الواحد) وأن تأثيره موجود بغض النظر عما إذا كانت الصور المضغوطة تستخدم للتدريب على النموذج.’
يشير البحث إلى عواقب ضغط الصور على قطاع أبحاث الرؤية الحاسوبية، والتي تم توضيحها في بعض التفاصيل في دراسة عام 2021 من جامعة ميريلاند وشركة Facebook AI.
من الصعب حل هذه القضية؛ حتى لو تم إزالة مشاكل التخزين وال帯 العريضة التي تجعل الضغط ضروريًا في ليلة وضحاها، وحتى لو تم إعادة ضغط جميع الصور منخفضة الجودة التي تملأ عشرين عامًا أو أكثر من مجموعات البيانات في القطاع بسرعة أفضل من المصادر عالية الجودة، فإن ذلك سيكون “إعادة تشغيل” لاستمرارية أدوات التقييم الأكاديمي على مدار العقود القليلة الماضية. لقد اعتاد مجتمع الرؤية الحاسوبية، في الواقع، على هذه المشكلة، إلى الحد الذي أصبحت فيه تمثل ديونًا تقنية ملحوظة.
أصبح الانحياز العرقي في التعرف على الوجوه موضوعًا ساخنًا في وسائل الإعلام في السنوات الأخيرة، مما أدى إلى جهد متعمد في مجتمع البحث لإزالته من الأنظمة المتأثرة. ومع ذلك، فإن الاعتماد على الجسم البحثي العالمي على عدد محدود جدًا من مجموعات البيانات “المعيارية”، والتي تتمثل许多 منها في عدم توازن عرقي أو تسمية سيئة في هذا الصدد، يزيد من تحديات هذه القضية.
يشير الباحثون في ورقة البحث الجديدة أيضًا إلى عدم تناسق بين معايير الحصول على الصور ومعايير مجموعات البيانات للتعرف على الوجوه، مشيرين إلى ما يلي*:
‘المعايير الحالية للحصول على الصور لأنظمة التعرف على الوجوه مثل ISO/IEC 19794-5 وICAO 9303 تقترح معايير جودة متعلقة بالصورة (أي الإضاءة، العوائق) وموضوعية (أي الموقف، التعبير، الإكسسوارات) لضمان جودة الصورة.
‘على سبيل المثال، يجب تخزين الصور الوثائقية باستخدام معايير ضغط الصور الخسارة مثل JPEG أو JPEG2000؛ ويمكن تحديدها حسب الجنس، ولون العين، ولون الشعر، والتعبير، والخصائص (أي النظارات)، وزوايا الموقف (اللف، والمرتفع، والدوران)، ومواقع المعالم.
‘然而، لا تتوافق معايير التعرف على الوجوه الشائعة مع معايير ISO/IEC 19794-5 وICAO 9303. وعلاوة على ذلك، يتم الحصول على عينات في البرية في ظروف متغيرة للكاميرا والبيئة لتحدي الحلول المقترحة.
‘ومع ذلك، يتم ضغط معظم عينات الصور الوثائقية في هذه المجموعات عبر ضغط JPEG الخسارة.’
يعلن مؤلفو البحث الجديد أن جهودهم المستقبلية سوف تدرس تأثير كمية الصور الخسارة على إطارات التعرف على الوجوه المتنوعة، وستقدم طرقًا محتملة لتحسين عدالة هذه الأنظمة.
الورقة الجديدة بعنوان هل يؤثر ضغط الصور الخسارة على الانحياز العرقي في التعرف على الوجوه؟، وهي من ثلاثة باحثين في كلية لندن الإمبراطورية، مع واحد من مكتبة تحليل الوجه العميق InsightFace.
بيانات وأسلوب
لإجراء تجاربهم، استخدم الباحثون مكتبات ImageMagick وlibjpeg المفتوحة المصدر لإنشاء نسخ من صور البيانات الأصلية بدرجات مختلفة من الضغط.
为了 الحصول على نظرة عامة أولية عن تأثيرات الضغط، درس المؤلفون تأثيرات نسبة الإشارة إلى الضوضاء القصوى (PSNR) على أربعة مستويات مختلفة من ضغط JPEG على مجموعة بيانات Racial Faces in-the-Wild (RFW).

درجات PSNR لمجموعة بيانات Racial Faces-in-the-Wild، مما يظهر مدى تأثير الضغط على قدرات التعرف على الصور المضغوطة.
من بين الاختبارات الأخرى، أجروا بحثًا على مجموعة بيانات غير متوازنة عرقيًا، ومجموعة بيانات متوازنة عرقيًا.对于 مجموعة البيانات المتوازنة عرقيًا، استخدموا وظيفة Additive Angular Margin Loss (ArcFace) مع ResNet101v2، على مجموعة بيانات VGGFace2 الأصلية، والتي تحتوي على 3.3 مليون صورة تampilkan 8631 موضوعًا غير متوازن عرقيًا.
对于 الاختبار، استخدم الباحثون مجموعة بيانات RFW. تم تدريب النظام أربع مرات، بأربعة مستويات مختلفة من الضغط، مما أدى إلى أربعة نماذج ArcFace.
对于 مجموعة البيانات المتوازنة عرقيًا، تم استخدام نفس الإطارات في البداية على مجموعة بيانات BUPT-Balanced الأصلية، والتي تحتوي على 28,000 وجه متوازن عبر أربعة مجموعات أفريقي، آسيوي، هندي، وقوقازي، مع تمثيل كل عرق بواسطة 7000 صورة. كما هو الحال مع مجموعة البيانات غير المتوازنة عرقيًا، تم الحصول على أربعة نماذج ArcFace بهذه الطريقة.
كما قام الباحثون بإعادة إنتاج تأثيرات التدريب المضغوط وغير المضغوط عن طريق إزالة تخفيض العينة اللونية، من أجل قياس تأثيرها على الأداء.
النتائج
تم دراسة معدل الخلط بين الوجوه عبر مجموعات البيانات التي تم إنشاؤها. كانت المعايير التي كان الباحثون يبحثون عنها هي السمات المحددة مسبقًا المتعلقة بالخصائص العرقية نوع البشرة (1، 2، 3، 4، 5 أو 6)، نوع الجفون (جفن واحد/آخر)، شكل الأنف (عريض/ضيق)، شكل الشفاه (كبير/صغير)، نوع الشعر (مستقيم/موج/مجعد/أصلع)، ولون الشعر – مقاييس مستمدة من الورقة قياس الانحياز الخفي في التعرف على الوجوه من خلال الخصائص العرقية.
ينص البحث على ما يلي:
‘نلاحظ أن لمستويات الضغط المختلفة q = {5، 10، 15، 95}، يزيد معدل الخلط بين الوجوه عند تطبيق ضغط خسارة إضافي، مما يدل على أن مستوى الضغط 5 (أعلى معدل ضغط) يؤدي إلى أكبر انخفاض في أداء معدل الخلط بين الوجوه، بينما لا يؤدي مستوى الضغط 95 (أقل معدل ضغط) إلى أي فرق ملحوظ في أداء معدل الخلط بين الوجوه.’

عينة من مخططات النتائج الشاملة في الورقة، والتي هي كبيرة جدًا وعدد كبير للنشر هنا – يرجى الرجوع إلى الورقة الأصلية للحصول على دقة أفضل ونتائج كاملة. هنا، نرى مجموعة أداء معدل الخلط بين الوجوه عبر صور الوجوه المتدهورة/المضغوطة بشكل متزايد، في مجموعة تشمل جودة غير مضغوطة أو جودة مضغوطة قليلاً.
يختتم البحث بالتالي:
‘بشكل عام، تظهر تقييمنا أن استخدام عينات الصور الوثائقية المضغوطة في وقت الاستدلال يقلل من الأداء بشكل أكثر أهمية على بعض الخصائص، بما في ذلك لون البشرة الداكن، والأنف العريض، والشعر المجعد، والجفن الواحد، عبر جميع الميزات العرقية الأخرى. ‘
‘然而، استخدام الصور المضغوطة أثناء التدريب يجعل النماذج الناتجة أكثر متانة ويقلل من تدهور الأداء الذي يحدث: الأداء الأقل بين المجموعات الفرعية المرتبطة بالعرق لا يزال موجودًا. بالإضافة إلى ذلك، إزالة تخفيض العينة اللونية ي cải thiện معدل الخلط بين الوجوه لبعض الفئات العرقية التي تتأثر أكثر بضغط الصور الخسارة.’
* تحويلي لمراجع المؤلفين الداخلية إلى روابط.
نشر لأول مرة في 22 أغسطس 2022.












