مراقبة
يمكن أن تساعد الوجوه الاصطناعية "المتدهورة" في تحسين التعرف على صورة الوجه

ابتكر باحثون من جامعة ولاية ميشيغان طريقة للوجوه الاصطناعية لأخذ استراحة من مشهد التزييف العميق وتحقيق بعض الخير في العالم – من خلال مساعدة أنظمة التعرف على الصور على أن تصبح أكثر دقة.
إن وحدة تركيب الوجه القابلة للتحكم الجديدة التي ابتكروها قادرة على تجديد الوجوه بأسلوب لقطات كاميرات المراقبة في العالم الحقيقي، بدلاً من الاعتماد على الصور ذات الجودة الأعلى بشكل موحد المستخدمة في مجموعات البيانات المفتوحة المصدر الشائعة للمشاهير، والتي لا تعكس جميع الأخطاء والعيوب في أنظمة كاميرات المراقبة الحقيقية، مثل ضبابية الوجه، وانخفاض الدقة، وضوضاء المستشعر - العوامل التي يمكن أن تؤثر على دقة التعرف.

البنية المفاهيمية لوحدة توليف الوجه القابل للتحكم (CFSM). المصدر: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf
لا يُقصد من CFSM على وجه التحديد محاكاة أوضاع الرأس أو التعبيرات أو جميع السمات المعتادة الأخرى التي هي هدف أنظمة التزييف العميق بشكل أصلي ، ولكن بدلاً من ذلك لإنشاء مجموعة من وجهات النظر البديلة في أسلوب نظام التعرف على الهدف ، باستخدام نقل النمط.
صُمم النظام لمحاكاة نطاق أسلوب النظام المستهدف، ولتكييف مخرجاته وفقًا لدقة ونطاق "الانحرافات" فيه. تشمل حالة الاستخدام أنظمة قديمة من غير المرجح تحديثها نظرًا لتكلفتها، ولكنها لا تُسهم حاليًا إلا قليلاً في الجيل الجديد من تقنيات التعرف على الوجوه، نظرًا لضعف جودة مخرجاتها التي ربما كانت رائدة في السابق.
باختبار النظام ، وجد الباحثون أنه حقق مكاسب ملحوظة على أحدث التقنيات في أنظمة التعرف على الصور التي يتعين عليها التعامل مع هذا النوع من البيانات الصاخبة وذات الدرجة المنخفضة.

تدريب نماذج التعرف على الوجه للتكيف مع قيود الأنظمة المستهدفة. المصدر: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf
لقد وجدوا أيضًا منتجًا ثانويًا مفيدًا للعملية - وهو أنه يمكن الآن تمييز مجموعات البيانات المستهدفة ومقارنتها ببعضها البعض ، مما يجعل المقارنة والقياس وإنشاء مجموعات البيانات المخصصة لأنظمة الدوائر التلفزيونية المغلقة المتنوعة أسهل في المستقبل.
علاوة على ذلك ، يمكن تطبيق الطريقة على مجموعات البيانات الموجودة ، بأداء في الواقع تكيف المجال وجعلها أكثر ملاءمة لأنظمة التعرف على الوجه.
استخدم ورقة جديدة بعنوان توليف وجه يمكن التحكم فيه وموجه من أجل التعرف على الوجه غير المقيد، مدعومًا جزئيًا من قبل مكتب الولايات المتحدة لمدير الاستخبارات الوطنية (ODNI ، في IARPA) ، ويأتي من أربعة باحثين في قسم علوم وهندسة الكمبيوتر بجامعة MSU.
محتوى متميز
أصبح التعرف على الوجوه منخفض الجودة (LQFR) مجال الدراسة البارز على مدى السنوات القليلة الماضية. ولأن السلطات المدنية والبلدية صممت أنظمة مراقبة بالفيديو لتكون مرنة وطويلة الأمد (لعدم رغبتها في إعادة تخصيص الموارد للمشكلة دوريًا)، أصبحت العديد من شبكات المراقبة "القديمة" ضحية للديون التقنية، من حيث قدرتها على التكيف كمصدر بيانات للتعلم الآلي.

مستويات مختلفة من دقة الوجه عبر مجموعة من أنظمة المراقبة بالفيديو التاريخية والحديثة. المصدر: https://arxiv.org/pdf/1805.11519.pdf
لحسن الحظ ، هذه مهمة تتكيف بشكل جيد مع نماذج الانتشار والنماذج الأخرى القائمة على الضوضاء لحلها. تؤدي العديد من أنظمة تركيب الصور الأكثر شيوعًا وفعالية في السنوات الأخيرة رفع مستوى من الصور منخفضة الدقة كجزء من خط الأنابيب الخاص بهم ، في حين أن هذا ضروري للغاية لتقنيات الضغط العصبي (طرق حفظ الصور والأفلام كبيانات عصبية بدلاً من بيانات الصورة النقطية).
جزء من تحدي التعرف على الوجه هو الحصول على أقصى دقة ممكنة من أقل عدد ممكن من ملامح يمكن استخراجها من أصغر الصور منخفضة الدقة وأقلها فعالية. لا يقتصر هذا القيد على فائدة تحديد (أو إنشاء) وجه بدقة منخفضة، بل أيضًا بسبب القيود التقنية على حجم الصور التي يمكنها المرور عبر المساحة الكامنة الناشئة للنموذج الذي يتم تدريبه على أي ذاكرة وصول عشوائي للفيديو (VRAM) متوفرة على وحدة معالجة الرسومات المحلية.
بهذا المعنى، يُعد مصطلح "الخصائص" مُربكًا، إذ يُمكن الحصول على هذه الخصائص أيضًا من مجموعة بيانات مقاعد الحدائق. في مجال الرؤية الحاسوبية، يُشير مصطلح "الخصائص" إلى الخصائص المميزة تم الحصول عليها من الصور - أي وقت الصور، سواء كانت ملامح كنيسة، أو جبل، أو تصرفات تجميل الوجه الميزات الموجودة في مجموعة بيانات الوجه.
نظرًا لأن خوارزميات الرؤية الحاسوبية أصبحت الآن ماهرة في تحسين الصور ولقطات الفيديو، فقد تم اقتراح طرق مختلفة "لتعزيز" مواد المراقبة القديمة منخفضة الدقة أو المتدهورة بطريقة أخرى، إلى الحد الذي قد يكون من الممكن فيه استخدام مثل هذه التعزيزات للأغراض القانونية، مثل وضع شخص معين في مكان ما ، فيما يتعلق بتحقيق جريمة.
إلى جانب إمكانية الخطأ في تحديد الهوية ، والتي لديها عناوين الصحف التي تم جمعها من حين لآخر، من الناحية النظرية ، لا ينبغي أن يكون من الضروري إجراء تحليل مفرط أو تحويل لقطات منخفضة الدقة بطريقة أخرى من أجل تحديد هوية الفرد بشكل إيجابي ، نظرًا لأن نظام التعرف على الوجه الذي يعمل على إدخال ميزات منخفضة المستوى يجب ألا يحتاج إلى هذا المستوى من الدقة و وضوح. علاوة على ذلك ، فإن هذه التحولات مكلفة في الممارسة ، وتزيد من ، أسئلة متكررة حول صلاحيتها المحتملة وشرعيتها.
الحاجة إلى المزيد من المشاهير "المنبوذين"
سيكون من المفيد أكثر إذا كان بإمكان نظام التعرف على الوجه اشتقاق ميزات (مثل ميزات التعلم الآلي لـ الانسان إننا نعمل على تحسين جودة الصور المتدهورة (HD) من خلال تحسين إنتاجية الأنظمة القديمة كما هي، من خلال فهم العلاقة بين الهوية "عالية الدقة" والصور المتدهورة المتوفرة في أطر المراقبة بالفيديو الحالية التي لا يمكن الاستغناء عنها (والتي لا يمكن استبدالها في كثير من الأحيان).
تكمن المشكلة هنا في أحد المعايير: مجموعات البيانات المشتركة عبر الويب مثل MS-Celeb-1M و ويب فيس 260 م (من بين العديد من الآخرين) ، تم مغلق على من قبل مجتمع البحث لأنها توفر معايير متسقة يمكن للباحثين من خلالها قياس تقدمهم التدريجي أو الرئيسي مقابل الحالة الحالية للفن.

أمثلة من مجموعة بيانات MS-Celeb1m الشهيرة من Microsoft. المصدر: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/
ومع ذلك، يزعم المؤلفون أن خوارزميات التعرف على الوجه (FR) المدربة على هذه المجموعات من البيانات تشكل مادة غير مناسبة لـ "المجالات" البصرية لمخرجات العديد من أنظمة المراقبة القديمة.
تقول الورقة *:
لا تعمل نماذج FR [الحديثة] (SoTA) بشكل جيد على صور المراقبة الواقعية (غير مقيدة) بسبب مشكلة تحول النطاق ، أي مجموعات بيانات التدريب واسعة النطاق (شبه المقيدة) التي تم الحصول عليها عبر وجوه المشاهير التي يتم الزحف إليها عبر الويب تفتقر إلى الاختلافات في البرية ، مثل ضوضاء المستشعر المتأصلة ، والدقة المنخفضة ، وضبابية الحركة ، وتأثير الاضطراب ، وما إلى ذلك.
'على سبيل المثال ، تم الإبلاغ عن دقة التحقق 1: 1 بواسطة أحد نماذج SoTA على غير مقيد IJB-S مجموعة البيانات أقل بحوالي 30٪ من المجموعة شبه المقيدة LFW.
'يكمن أحد الحلول المحتملة لسد هذه الفجوة في الأداء في تجميع مجموعة بيانات وجوه واسعة النطاق وغير مقيدة. ومع ذلك، فإن بناء مثل هذه المجموعة التدريبية التي تضم عشرات الآلاف من الأشخاص أمر بالغ الصعوبة، نظرًا لارتفاع تكلفة وضع العلامات اليدوية.'
تروي الورقة البحثية أساليب سابقة مختلفة سعت إلى "مطابقة" أنواع مختلفة من مخرجات أنظمة المراقبة التاريخية أو منخفضة التكلفة، مع الإشارة إلى أن هذه الأساليب تعاملت مع زيادات "عمياء". على النقيض من ذلك، يتلقى نظام CFSM تغذية راجعة مباشرة من مخرجات النظام المستهدف في العالم الحقيقي أثناء التدريب، ويُكيّف نفسه عبر نقل الأسلوب لمحاكاة هذا المجال.

الممثلة ناتالي بورتمان ، ليست غريبة عن مجموعة البيانات القليلة التي تهيمن على مجتمع رؤية الكمبيوتر ، فهي تتميز بين الهويات في هذا المثال لأداء CFSM لتكييف المجال المطابق للأسلوب بناءً على التعليقات من مجال النموذج المستهدف الفعلي.
تستخدم الهندسة المعمارية التي صممها المؤلفون طريقة تسجيل التدرج السريع (ختان الإناث) لتخصيص واستيراد الأنماط والخصائص المُحصل عليها من المخرجات الفعلية للنظام المستهدف. سيتحسن لاحقًا الجزء المخصص لتوليد الصور من خط الأنابيب ويصبح أكثر تطابقًا مع النظام المستهدف مع التدريب. هذه التغذية الراجعة من مساحة الأنماط منخفضة الأبعاد للنظام المستهدف منخفضة المستوى بطبيعتها، وتتوافق مع أوسع الواصفات البصرية المشتقة.
تعليق المؤلفين:
'بفضل التغذية الراجعة من نموذج FR، أصبحت الصور المركبة أكثر فائدة لأداء FR، مما يؤدي إلى تحسين قدرات التعميم بشكل كبير لنماذج FR المدربة بها.'
اختبارات
استخدم الباحثون جامعة ولاية ميشيغان الخاصة عمل مسبق كنموذج لاختبار نظامهم. استنادًا إلى البروتوكولات التجريبية نفسها ، استخدموا MS-Celeb-1m ، والذي يتكون حصريًا من صور المشاهير التي يتم صيدها عبر شبكة الإنترنت ، مثل مجموعة بيانات التدريب المسمى. من أجل الإنصاف ، قاموا أيضًا بتضمين MS1M-V2 ، والذي يحتوي على 3.9 مليون صورة تضم 85,700 فئة.
كانت البيانات الهدف مجموعة بيانات WiderFace، من الجامعة الصينية في هونغ كونغ. هذه مجموعة متنوعة بشكل خاص من الصور المصممة لمهام اكتشاف الوجه في المواقف الصعبة. تم استخدام 70,000 صورة من هذه المجموعة.
للتقييم ، تم اختبار النظام مقابل أربعة معايير للتعرف على الوجوه: آي جي بي-بي, IJB-C, IJB-Sو TinyFace.
تم تدريب CFSM بنسبة 10 ٪ من بيانات التدريب من MS-Celeb-1m ، حوالي 0.4 مليون صورة ، لـ 125,000 تكرار بحجم 32 دفعة تحت مُحسِّن آدم بمعدل تعلم (منخفض جدًا) 1e-4.
تم استخدام نموذج التعرف على الوجه المستهدف تعديل شبكة ResNet-50 للهيكل الأساسي، مع تفعيل دالة فقدان ArcFace أثناء التدريب. بالإضافة إلى ذلك، تم تدريب نموذج باستخدام CFSM كعملية استئصال ومقارنة (يُشار إليه باسم "ArcFace" في جدول النتائج أدناه).
يعلق المؤلفون على النتائج الأولية:
'يتفوق نموذج ArcFace على جميع الخطوط الأساسية في مهام التعرف على الوجوه والتحقق منها، ويحقق أداء SoTA جديدًا.'
إن القدرة على استخراج المجالات من الخصائص المختلفة لأنظمة المراقبة القديمة أو غير محددة المواصفات تمكن المؤلفين أيضًا من مقارنة وتقييم تشابه التوزيع بين هذه الأطر ، وتقديم كل نظام من حيث النمط المرئي الذي يمكن الاستفادة منه في العمل اللاحق .
لاحظ المؤلفون بالإضافة إلى ذلك أن نظامهم يمكن أن يستفيد من بعض التقنيات التي تم اعتبارها ، حتى الآن ، فقط على أنها مشاكل يجب حلها من قبل مجتمع البحث والرؤية:
يُظهر [CFSM] أن التلاعب بالخصم يمكن أن يتجاوز كونه مهاجمًا ويعمل على زيادة دقة التعرف في مهام الرؤية. وفي الوقت نفسه ، نحدد مقياس تشابه مجموعة البيانات استنادًا إلى قواعد الأنماط التي تم تعلمها ، والتي تلتقط اختلافات النمط في تسمية أو طريقة غير محددة للتنبؤ.
"نعتقد أن بحثنا قد أظهر قوة نموذج تجميع الوجوه القابل للتحكم والموجه لـ FR غير المقيد ويوفر فهمًا للاختلافات في مجموعة البيانات."
* تحويلي لاقتباسات المؤلفين المضمنة إلى روابط تشعبية.
نُشر لأول مرة في الأول من أغسطس 1.








