رطم يمكن أن تساعد الوجوه الاصطناعية `` المتدهورة '' في تحسين التعرف على صورة الوجه - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

مراقبة

يمكن أن تساعد الوجوه الاصطناعية "المتدهورة" في تحسين التعرف على صورة الوجه

mm

تم النشر

 on

ابتكر باحثون من جامعة ولاية ميشيغان طريقة للوجوه الاصطناعية لأخذ استراحة من مشهد التزييف العميق وتحقيق بعض الخير في العالم – من خلال مساعدة أنظمة التعرف على الصور على أن تصبح أكثر دقة.

إن وحدة تركيب الوجه الجديدة التي يمكن التحكم فيها (CFSM) التي ابتكروها قادرة على تجديد الوجوه بأسلوب لقطات المراقبة بالفيديو في العالم الحقيقي ، بدلاً من الاعتماد على الصور عالية الجودة بشكل موحد والمستخدمة في مجموعات البيانات الشهيرة مفتوحة المصدر للمشاهير ، والتي تقوم بذلك. لا تعكس جميع أخطاء وعيوب أنظمة الدوائر التلفزيونية المغلقة الأصلية ، مثل ضبابية الوجه ، والدقة المنخفضة ، وضوضاء المستشعر - العوامل التي يمكن أن تؤثر على دقة التعرف.

البنية المفاهيمية لوحدة توليف الوجه القابل للتحكم (CFSM). المصدر: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

البنية المفاهيمية لوحدة توليف الوجه القابل للتحكم (CFSM). المصدر: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

لا يُقصد من CFSM على وجه التحديد محاكاة أوضاع الرأس أو التعبيرات أو جميع السمات المعتادة الأخرى التي هي هدف أنظمة التزييف العميق بشكل أصلي ، ولكن بدلاً من ذلك لإنشاء مجموعة من وجهات النظر البديلة في أسلوب نظام التعرف على الهدف ، باستخدام نقل النمط.

تم تصميم النظام لتقليد مجال نمط النظام المستهدف ، وتكييف مخرجاته وفقًا للقرار ونطاق "الانحرافات" فيه. تتضمن حالة الاستخدام الأنظمة القديمة التي لا يُحتمل أن تتم ترقيتها بسبب التكلفة ، ولكنها لا تساهم حاليًا إلا قليلاً في الجيل الجديد من تقنيات التعرف على الوجه ، نظرًا لسوء جودة المخرجات التي ربما كانت في يوم من الأيام رائدة.

باختبار النظام ، وجد الباحثون أنه حقق مكاسب ملحوظة على أحدث التقنيات في أنظمة التعرف على الصور التي يتعين عليها التعامل مع هذا النوع من البيانات الصاخبة وذات الدرجة المنخفضة.

تدريب نماذج التعرف على الوجه للتكيف مع قيود الأنظمة المستهدفة. المصدر: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

تدريب نماذج التعرف على الوجه للتكيف مع قيود الأنظمة المستهدفة. المصدر: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

لقد وجدوا أيضًا منتجًا ثانويًا مفيدًا للعملية - وهو أنه يمكن الآن تمييز مجموعات البيانات المستهدفة ومقارنتها ببعضها البعض ، مما يجعل المقارنة والقياس وإنشاء مجموعات البيانات المخصصة لأنظمة الدوائر التلفزيونية المغلقة المتنوعة أسهل في المستقبل.

علاوة على ذلك ، يمكن تطبيق الطريقة على مجموعات البيانات الموجودة ، بأداء في الواقع تكيف المجال وجعلها أكثر ملاءمة لأنظمة التعرف على الوجه.

ورقة جديدة بعنوان توليف وجه يمكن التحكم فيه وموجه من أجل التعرف على الوجه غير المقيد، مدعومًا جزئيًا من قبل مكتب الولايات المتحدة لمدير الاستخبارات الوطنية (ODNI ، في IARPA) ، ويأتي من أربعة باحثين في قسم علوم وهندسة الكمبيوتر بجامعة MSU.

محتوى متميز

أصبح التعرف على الوجوه منخفض الجودة (LQFR) مجال الدراسة البارز على مدى السنوات القليلة الماضية. نظرًا لأن السلطات المدنية والبلدية قامت ببناء أنظمة مراقبة بالفيديو لتكون مرنة وطويلة الأمد (لا ترغب في إعادة تخصيص الموارد للمشكلة بشكل دوري)، فقد أصبحت العديد من شبكات المراقبة "القديمة" ضحايا للديون الفنية، من حيث قدرتها على التكيف كبيانات مصادر التعلم الآلي.

مستويات مختلفة من دقة الوجه عبر مجموعة من أنظمة المراقبة بالفيديو التاريخية والحديثة. المصدر: https://arxiv.org/pdf/1805.11519.pdf

مستويات مختلفة من دقة الوجه عبر مجموعة من أنظمة المراقبة بالفيديو التاريخية والحديثة. المصدر: https://arxiv.org/pdf/1805.11519.pdf

لحسن الحظ ، هذه مهمة تتكيف بشكل جيد مع نماذج الانتشار والنماذج الأخرى القائمة على الضوضاء لحلها. تؤدي العديد من أنظمة تركيب الصور الأكثر شيوعًا وفعالية في السنوات الأخيرة رفع مستوى من الصور منخفضة الدقة كجزء من خط الأنابيب الخاص بهم ، في حين أن هذا ضروري للغاية لتقنيات الضغط العصبي (طرق حفظ الصور والأفلام كبيانات عصبية بدلاً من بيانات الصورة النقطية).

جزء من تحدي التعرف على الوجه هو الحصول على أقصى دقة ممكنة من أقل عدد ممكن من ملامح التي يمكن استخلاصها من الصور منخفضة الدقة الأصغر والأقل واعدة. يوجد هذا القيد ليس فقط لأنه من المفيد أن تكون قادرًا على تحديد (أو إنشاء) وجه بدقة منخفضة ، ولكن أيضًا بسبب القيود الفنية على حجم الصور التي يمكن أن تمر عبر المساحة الكامنة الناشئة لنموذج يتم تدريبه على أي شيء VRAM متاح على وحدة معالجة الرسومات المحلية.

وبهذا المعنى، فإن مصطلح "الميزات" مربك، حيث يمكن أيضًا الحصول على هذه الميزات من مجموعة بيانات مقاعد الحديقة. في قطاع رؤية الكمبيوتر، تشير "الميزات" إلى الخصائص المميزة تم الحصول عليها من الصور - أي وقت الصور ، سواء كانت أنساب الكنيسة أو الجبل أو التصرف تجميل الوجه الميزات الموجودة في مجموعة بيانات الوجه.

نظرًا لأن خوارزميات رؤية الكمبيوتر أصبحت الآن بارعة في الارتقاء بالصور ولقطات الفيديو ، فقد تم اقتراح طرق مختلفة "لتعزيز" مواد المراقبة القديمة منخفضة الدقة أو المتدهورة ، لدرجة أنه قد يكون من الممكن استخدام مثل هذه التعزيزات للأغراض القانونية، مثل وضع شخص معين في مكان ما ، فيما يتعلق بتحقيق جريمة.

إلى جانب إمكانية الخطأ في تحديد الهوية ، والتي لديها عناوين الصحف التي تم جمعها من حين لآخر، من الناحية النظرية ، لا ينبغي أن يكون من الضروري إجراء تحليل مفرط أو تحويل لقطات منخفضة الدقة بطريقة أخرى من أجل تحديد هوية الفرد بشكل إيجابي ، نظرًا لأن نظام التعرف على الوجه الذي يعمل على إدخال ميزات منخفضة المستوى يجب ألا يحتاج إلى هذا المستوى من الدقة و وضوح. علاوة على ذلك ، فإن هذه التحولات مكلفة في الممارسة ، وتزيد من ، أسئلة متكررة حول صلاحيتها المحتملة وشرعيتها.

الحاجة إلى المزيد من مشاهير "أسفل في الكعب"

سيكون من المفيد أكثر إذا كان بإمكان نظام التعرف على الوجه اشتقاق ميزات (مثل ميزات التعلم الآلي لـ الانسان الميزات) من مخرجات الأنظمة القديمة كما هي ، من خلال فهم العلاقة بشكل أفضل بين هوية "الدقة العالية" والصور المتدهورة المتوفرة في أطر عمل المراقبة بالفيديو التي لا يمكن تعويضها (والتي لا يمكن تعويضها غالبًا).

تكمن المشكلة هنا في أحد المعايير: مجموعات البيانات المشتركة عبر الويب مثل MS-Celeb-1M و ويب فيس 260 م (من بين العديد من الآخرين) ، تم مغلق على من قبل مجتمع البحث لأنها توفر معايير متسقة يمكن للباحثين من خلالها قياس تقدمهم التدريجي أو الرئيسي مقابل الحالة الحالية للفن.

أمثلة من مجموعة بيانات MS-Celeb1m الشهيرة من Microsoft. المصدر: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

أمثلة من مجموعة بيانات MS-Celeb1m الشهيرة من Microsoft. المصدر: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

ومع ذلك ، يجادل المؤلفون بأن خوارزميات التعرف على الوجه (FR) المدربة على مجموعات البيانات هذه هي مادة غير مناسبة لـ "المجالات" المرئية للمخرجات من العديد من أنظمة المراقبة القديمة.

تقول الورقة *:

لا تعمل نماذج FR [الحديثة] (SoTA) بشكل جيد على صور المراقبة الواقعية (غير مقيدة) بسبب مشكلة تحول النطاق ، أي مجموعات بيانات التدريب واسعة النطاق (شبه المقيدة) التي تم الحصول عليها عبر وجوه المشاهير التي يتم الزحف إليها عبر الويب تفتقر إلى الاختلافات في البرية ، مثل ضوضاء المستشعر المتأصلة ، والدقة المنخفضة ، وضبابية الحركة ، وتأثير الاضطراب ، وما إلى ذلك.

'على سبيل المثال ، تم الإبلاغ عن دقة التحقق 1: 1 بواسطة أحد نماذج SoTA على غير مقيد IJB-S مجموعة البيانات أقل بحوالي 30٪ من المجموعة شبه المقيدة LFW.

يتمثل العلاج المحتمل لفجوة الأداء هذه في تجميع مجموعة بيانات وجه غير مقيدة على نطاق واسع. ومع ذلك ، فإن إنشاء مثل مجموعة البيانات التدريبية هذه مع عشرات الآلاف من الموضوعات أمر صعب للغاية مع ارتفاع تكلفة وضع العلامات اليدوية.

يروي البحث طرقًا سابقة مختلفة حاولت "مطابقة" الأنواع المتنوعة من المخرجات من أنظمة المراقبة القديمة أو منخفضة التكلفة ، لكن لاحظ أن هذه قد تعاملت مع التعزيزات "العمياء". على النقيض من ذلك ، يتلقى CFSM ردود فعل مباشرة من مخرجات العالم الحقيقي للنظام المستهدف أثناء التدريب ، ويكيف نفسه عبر نقل النمط لتقليد هذا المجال.

الممثلة ناتالي بورتمان ، ليست غريبة عن مجموعة البيانات القليلة التي تهيمن على مجتمع رؤية الكمبيوتر ، فهي تتميز بين الهويات في هذا المثال لأداء CFSM لتكييف المجال المطابق للأسلوب بناءً على التعليقات من مجال النموذج المستهدف الفعلي.

الممثلة ناتالي بورتمان ، ليست غريبة عن مجموعة البيانات القليلة التي تهيمن على مجتمع رؤية الكمبيوتر ، فهي تتميز بين الهويات في هذا المثال لأداء CFSM لتكييف المجال المطابق للأسلوب بناءً على التعليقات من مجال النموذج المستهدف الفعلي.

تستخدم الهندسة المعمارية التي صممها المؤلفون طريقة تسجيل التدرج السريع (ختان الإناث) لتمييز و "استيراد" الأنماط والخصائص التي تم الحصول عليها من المخرجات الحقيقية للنظام الهدف. سيتحسن جزء خط الأنابيب المخصص لتوليد الصور لاحقًا ويصبح أكثر إخلاصًا للنظام المستهدف من خلال التدريب. هذه التغذية الراجعة من مساحة نمط الأبعاد المنخفضة للنظام المستهدف منخفضة المستوى بطبيعتها ، وتتوافق مع أوسع الواصفات المرئية المشتقة.

تعليق المؤلفين:

"من خلال التعليقات الواردة من نموذج FR ، تكون الصور المركبة أكثر فائدة لأداء FR ، مما يؤدي إلى تحسين قدرات التعميم بشكل كبير لنماذج FR المدربة عليها."

اختبارات

استخدم الباحثون جامعة ولاية ميشيغان عمل مسبق كنموذج لاختبار نظامهم. استنادًا إلى البروتوكولات التجريبية نفسها ، استخدموا MS-Celeb-1m ، والذي يتكون حصريًا من صور المشاهير التي يتم صيدها عبر شبكة الإنترنت ، مثل مجموعة بيانات التدريب المسمى. من أجل الإنصاف ، قاموا أيضًا بتضمين MS1M-V2 ، والذي يحتوي على 3.9 مليون صورة تضم 85,700 فئة.

كانت البيانات الهدف مجموعة بيانات WiderFace، من الجامعة الصينية في هونغ كونغ. هذه مجموعة متنوعة بشكل خاص من الصور المصممة لمهام اكتشاف الوجه في المواقف الصعبة. تم استخدام 70,000 صورة من هذه المجموعة.

للتقييم ، تم اختبار النظام مقابل أربعة معايير للتعرف على الوجوه: آي جي بي-بي, IJB-C, IJB-Sو TinyFace.

تم تدريب CFSM بنسبة 10 ٪ من بيانات التدريب من MS-Celeb-1m ، حوالي 0.4 مليون صورة ، لـ 125,000 تكرار بحجم 32 دفعة تحت مُحسِّن آدم بمعدل تعلم (منخفض جدًا) 1e-4.

تم استخدام نموذج التعرف على الوجه المستهدف تعديل من ResNet-50 للعمود الفقري ، مع تمكين وظيفة فقدان ArcFace أثناء التدريب. بالإضافة إلى ذلك ، تم تدريب أحد النماذج باستخدام CFSM كعملية استئصال وتمرين مقارن (يُشار إليه باسم "ArcFace" في جدول النتائج أدناه).

نتائج الاختبارات الأولية لـ CFSM. الأعداد الأكبر أفضل.

نتائج الاختبارات الأولية لـ CFSM. الأعداد الأكبر أفضل.

يعلق المؤلفون على النتائج الأولية:

"نموذج ArcFace يتفوق على جميع الخطوط الأساسية في كل من مهام تحديد الوجه والتحقق ، ويحقق أداء SoTA جديدًا."

إن القدرة على استخراج المجالات من الخصائص المختلفة لأنظمة المراقبة القديمة أو غير محددة المواصفات تمكن المؤلفين أيضًا من مقارنة وتقييم تشابه التوزيع بين هذه الأطر ، وتقديم كل نظام من حيث النمط المرئي الذي يمكن الاستفادة منه في العمل اللاحق .

تُظهر الأمثلة من مجموعات البيانات المختلفة اختلافات واضحة في الأسلوب.

تُظهر الأمثلة من مجموعات البيانات المختلفة اختلافات واضحة في الأسلوب.

لاحظ المؤلفون بالإضافة إلى ذلك أن نظامهم يمكن أن يستفيد من بعض التقنيات التي تم اعتبارها ، حتى الآن ، فقط على أنها مشاكل يجب حلها من قبل مجتمع البحث والرؤية:

يُظهر [CFSM] أن التلاعب بالخصم يمكن أن يتجاوز كونه مهاجمًا ويعمل على زيادة دقة التعرف في مهام الرؤية. وفي الوقت نفسه ، نحدد مقياس تشابه مجموعة البيانات استنادًا إلى قواعد الأنماط التي تم تعلمها ، والتي تلتقط اختلافات النمط في تسمية أو طريقة غير محددة للتنبؤ.

"نعتقد أن بحثنا قد قدم قوة نموذج تركيب الوجه القابل للتحكم والموجه لـ FR غير المقيد ويوفر فهمًا لاختلافات مجموعة البيانات."

 

* تحويل الاقتباسات المضمنة للمؤلفين إلى ارتباطات تشعبية.

نُشر لأول مرة في الأول من أغسطس 1.