Connect with us

‘الوجوه الاصطناعية المتدهورة’ قد تساعد في تحسين التعرف على الصور الوجهية

المراقبة

‘الوجوه الاصطناعية المتدهورة’ قد تساعد في تحسين التعرف على الصور الوجهية

mm

قام باحثون من جامعة ولاية ميشيغان بتصميم طريقة لوجوه اصطناعية للاستمتاع بفرصة للقيام ببعض الخير في العالم – من خلال مساعدة أنظمة التعرف على الصور في أن تصبح أكثر دقة.

تم تصميم وحدة合ثة الوجه القابلة للتحكم (CFSM) التي صممها الباحثون لتحديث الوجوه بنمط الصور الفعلية لمراقبة الفيديو، بدلاً من الاعتماد على الصور ذات الجودة الأعلى التي تستخدم في مجموعات البيانات المفتوحة الشهيرة للمشاهير، والتي لا تعكس جميع العيوب والقصور في أنظمة المراقبة الحقيقية، مثل ضبابية الوجه وضغط الصورة وضوضاء الحساسية – عوامل يمكن أن تؤثر على دقة التعرف.

هندسة概念ية لوحدة合ثة الوجه القابلة للتحكم (CFSM). مصدر: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

هندسة概念ية لوحدة合ثة الوجه القابلة للتحكم (CFSM). مصدر: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

CFSM لا تهدف بشكل خاص إلى محاكاة مواقف الرأس أو التعبيرات أو جميع الصفات الأخرى المعتادة التي هي هدف أنظمة Deepfake، ولكنها تهدف إلى توليد مجموعة من المشاهد البديلة بنمط نظام التعرف على الوجه، باستخدام نقل النمط.

تم تصميم النظام لمحاكاة نمط مجال النظام المستهدف، وتكييف الإخراج وفقًا للدقة ومجال “الغرابة” فيه. يتضمن استخدام الحالة أنظمة наследية لا يُرجح تحديثها بسبب التكلفة، ولكنها لا يمكن أن تساهم حاليًا في جيل جديد من تقنيات التعرف على الوجه، بسبب جودة الإخراج الرديئة التي قد كانت في السابق رائدة.

عند اختبار النظام، وجد الباحثون أنه حقق مكاسب ملحوظة في حالة الفن في أنظمة التعرف على الصور التي يجب أن تتعامل مع هذا النوع من البيانات الصاخبة وذات الجودة المنخفضة.

تدريب نماذج التعرف على الوجه لتكيف مع قيود الأنظمة المستهدفة. مصدر: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

تدريب نماذج التعرف على الوجه لتكيف مع قيود الأنظمة المستهدفة. مصدر: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

كما وجدوا منتجًا مفيدًا للعملية – أن مجموعات البيانات المستهدفة يمكن الآن تحليلها ومقارنتها ببعضها البعض، مما يجعل من السهل مقارنة ومحاكمة وتوليد مجموعات بيانات مخصصة لأنظمة المراقبة المختلفة في المستقبل.

علاوة على ذلك، يمكن تطبيق هذه الطريقة على مجموعات البيانات الحالية، وتحقيق де факто تعديل المجال وجعلها أكثر ملاءمة لأنظمة التعرف على الوجه.

الورقة الجديدة الجديدة بعنوان توليد الوجه القابل للتحكم والموجه للتعرف على الوجه غير المقيد، مدعومة جزئيًا من قبل مكتب المدير الوطني للاستخبارات (ODNI، في IARPA)، وتنبع من أربعة باحثين في قسم علوم وهندسة الحاسوب في MSU.

المحتوى المتميز

أصبح التعرف على الوجه منخفض الجودة (LQFR) موضوعًا هامًا للدراسة خلال السنوات القليلة الماضية. بسبب أن السلطات المدنية والبلدية بنيت أنظمة مراقبة فيديو لتكون متينة وطويلة الأمد (لا يريدون إعادة تخصيص الموارد لمشكلة دورية)، أصبحت العديد من شبكات المراقبة “التراثية” ضحايا الديون الفنية، من حيث قابليتها للتكيف كموارد بيانات لمعلم الحاسوب.

مستويات مختلفة من دقة الوجه عبر مجموعة من أنظمة مراقبة الفيديو التاريخية والأكثر حداثة. مصدر: https://arxiv.org/pdf/1805.11519.pdf

مستويات مختلفة من دقة الوجه عبر مجموعة من أنظمة مراقبة الفيديو التاريخية والأكثر حداثة. مصدر: https://arxiv.org/pdf/1805.11519.pdf

幸运ًا، هذا هو مهمة أنموذج الاختلاط ونمذج الضوضاء الأخرى مدربين بشكل غير عادي لحلها. العديد من أنظمة合ثة الصور الأكثر شعبية وفعالية في السنوات القليلة الماضية تقوم بتعزيز الصورة منخفضة الدقة كجزء من خط أنابيبها، بينما هذا هو أيضًا ضروري تمامًا لتقنيات الضغط العصبي (طرق لحفظ الصور والأفلام كبيانات عصبية بدلاً من بيانات البتماپ).

جزء من تحدي التعرف على الوجه هو الحصول على أقصى دقة ممكنة من أقل عدد من الميزات التي يمكن استخراجها من الصور منخفضة الدقة والأقل وعدًا.

في هذا السياق، فإن مصطلح “الميزات” هو محير، منذ أن يمكن الحصول على مثل هذه الميزات أيضًا من مجموعة بيانات مقاعد الحديقة. في قطاع رؤية الكمبيوتر، تشير “الميزات” إلى الخصائص المتميزة المستخرجة من الصور – أي صورة، سواء كانت خطوط الكنيسة أو الجبل أو موضع ميزات الوجه في مجموعة بيانات الوجه.

منذ أن أصبحت خوارزميات رؤية الكمبيوتر ماهرة في تعزيز الصور والفيديو، تم اقتراح طرق مختلفة لتعزيز المواد التقليدية التقليدية أو المتدهورة، إلى الحد الذي قد يكون من الممكن استخدام مثل هذه التعزيزات لأغراض قانونية، مثل وضع شخص معين في المشهد، فيما يتعلق بالتحقيق في الجريمة.

إلى جانب إمكانية سوء التعريف، التي جمعت عناوين من وقت لآخر، من المفترض أنه لا ينبغي أن يكون من الضروري تحويل أو تحويل الصور منخفضة الدقة لتحقيق تعريف إيجابي للفرد، منذ أن لا ينبغي أن تحتاج نظام التعرف على الوجه الذي يركز على الميزات منخفضة المستوى إلى ذلك المستوى من الدقة والوضوح. علاوة على ذلك، فإن مثل هذه التحويلات باهظة الثمن في الممارسة، وتثير أسئلة إضافية متكررة حول صلاحيتها وشرعيتها.

الحاجة إلى المزيد من “الcelebrities المتدهورة”

سيكون من المفيد إذا كان نظام التعرف على الوجه يمكن أن يستمد الميزات (أي ميزات التعلم الآلي للميزات البشرية) من إخراج الأنظمة التراثية كما هي، من خلال فهم أفضل للعلاقة بين “الجودة العالية” والصور المتدهورة المتاحة في إطارات مراقبة الفيديو الحقيقية.

المشكلة هنا هي مشكلة المعايير: مجموعات البيانات الشائعة التي تم جمعها من الويب مثل MS-Celeb-1M و WebFace260M (من بين أخرى)، تم لصقها من قبل مجتمع البحث لأنها توفر معايير متسقة التي يمكن للباحثين قياس تقدمهم المتزايد أو الكبير ضدها.

أمثلة من مجموعة بيانات MS-Celeb1m الشهيرة من مايكروسوفت. مصدر: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

أمثلة من مجموعة بيانات MS-Celeb1m الشهيرة من مايكروسوفت. مصدر: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

然而، يجادل المؤلفون بأن خوارزميات التعرف على الوجه (FR) التي تم تدريبها على هذه المجموعات غير مناسبة لمواد Visual “المناطق” لإخراج العديد من أنظمة المراقبة القديمة.

تُشير الورقة إلى:

‘[حالة الفن] (SoTA) نماذج FR لا تعمل جيدًا على صور المراقبة الحقيقية (غير مقيدة) بسبب مشكلة تحويل المجال، أي أن مجموعات البيانات الكبيرة (نصف مقيدة) التي تم الحصول عليها من خلال وجوه المشاهير التي تم جمعها من الويب، تفتقر إلى التباينات في البرية، مثل الضوضاء المتأصلة، وضغط الصورة، وضبابية الحركة، وتأثير الاضطراب، وغيرها.

‘على سبيل المثال، دقة التحقق 1: 1 التي تم الإبلاغ عنها بواسطة واحدة من نماذج SoTA على مجموعة بيانات IJB-S غير المقيدة هي حوالي 30٪ أقل من مجموعة بيانات LFW نصف المقيدة.

‘علاج محتمل لهذه الفجوة في الأداء هو تجميع مجموعة بيانات الوجه غير المقيدة الكبيرة. ومع ذلك، فإن بناء مثل هذه مجموعة بيانات التدريب مع عشرات الآلاف من الموضوعات هو أمر معقد للغاية بسبب التكلفة العالية للتسمية اليدوية.’

تذكر الورقة طرقًا سابقة حاولت “مطابقة” أنواع الإخراج المختلفة لأنظمة المراقبة التاريخية أو منخفضة التكلفة، لكنها تشير إلى أن هذه الطرق تعاملت مع “التعديلات العمياء”. من خلال النقيض، تتلقى CFSM تعليقات مباشرة من الإخراج الفعلي للنظام المستهدف أثناء التدريب، وتتكيف مع نفسها من خلال نقل النمط لمحاكاة ذلك المجال.

الactress ناتالي بورتمان، التي ليست غريبة على مجموعة من مجموعات البيانات التي تسيطر على مجتمع رؤية الكمبيوتر، تظهر بين الهويات في هذا مثال على CFSM الذي يقوم بنقل نمط المجال المطابق بناءً على تعليقات من مجال النموذج الفعلي.

الactress ناتالي بورتمان، التي ليست غريبة على مجموعة من مجموعات البيانات التي تسيطر على مجتمع رؤية الكمبيوتر، تظهر بين الهويات في هذا مثال على CFSM الذي يقوم بنقل نمط المجال المطابق بناءً على تعليقات من مجال النموذج الفعلي.

الهندسة التي صممها المؤلفون تستخدم طريقة التوقيع السريع FGSM لفرد وتحويل الأنماط والخصائص المكتسبة من الإخراج الحقيقي للنظام المستهدف. جزء خط أنابيب توليد الصورة سيتحسن ويتحسن أكثر ليكون مخلصًا للنظام المستهدف مع التدريب. هذه التعليقات من مجال النمط منخفض الأبعاد للنظام المستهدف هي منخفضة المستوى ويتوافق مع أوصاف المرئية الأكثر إجمالاً.

يعلق المؤلفون:

‘مع تعليقات من نموذج FR، الصور الم合ثة أكثر فائدة لأداء FR، مما يؤدي إلى تحسين كبير في قدرات التعميم لنماذج FR التي تم تدريبها معها.’

الاختبارات

استخدم الباحثون عمل MSU السابق كقالب لاختبار نظامهم. بناءً على بروتوكولات الاختبار نفسها، استخدموا MS-Celeb-1m، التي تتكون حصريًا من صور المشاهير التي تم جمعها من الويب، كمجموعة بيانات التدريب المسمى. من أجل العدالة، شملوا أيضًا MS1M-V2، التي تحتوي على 3.9 مليون صورة تampilkan 85,700 فئة.

بيانات المستهدفة كانت مجموعة بيانات WiderFace، من جامعة هونغ كونغ الصينية. هذه هي مجموعة صور متنوعة مصممة لمهام كشف الوجه في مواقف تحدي.

للتقييم، تم اختبار النظام ضد أربعة معايير للتعرف على الوجه: IJB-B، IJB-C، IJB-S، و TinyFace.

تم تدريب CFSM مع ∼10٪ من بيانات التدريب من MS-Celeb-1m، حول 0.4 مليون صورة، لمدة 125,000 تكرار بขนาด.batch 32 تحت محسّن Adam بمعدل تعلم منخفض جدًا 1e-4.

استخدم نموذج التعرف على الوجه المستهدف تعديل تعديل من ResNet-50 للنظام الأساسي، مع تمكين دالة الخسارة ArcFace أثناء التدريب. بالإضافة إلى ذلك، تم تدريب نموذج مع CFSM كتمرين وتمارين مقارنة (مشار إليها باسم “ArcFace” في جدول النتائج أدناه).

نتائج الاختبارات الرئيسية ل CFSM. الأرقام الأعلى هي أفضل.

نتائج الاختبارات الرئيسية ل CFSM. الأرقام الأعلى هي أفضل.

يعلق المؤلفون على النتائج الرئيسية:

‘نموذج ArcFace يتفوق على جميع الأسس في مهام التعرف على الوجه والتحقق، ويتحقق من أداء SoTA الجديد.’

القدرة على استخراج المجالات من الخصائص المختلفة لأنظمة المراقبة التراثية أو منخفضة المواصفات تمكن المؤلفين من مقارنة وتقييم تشابه التوزيع بين هذه الإطارات، وعرض كل نظام بمصطلح نمط مرئي يمكن استخدامه في العمل اللاحق.

أمثلة من مجموعات بيانات مختلفة تظهر اختلافات واضحة في النمط.

أمثلة من مجموعات بيانات مختلفة تظهر اختلافات واضحة في النمط.

يلاحظ المؤلفون أيضًا أن نظامهم يمكن أن يستفيد من بعض التكنولوجيا التي تم اعتبارها حتى الآن مشاكل فقط لتكون محلولة من قبل مجتمع البحث والرؤية:

‘[CFSM] يظهر أن التلاعب العدائي يمكن أن يتجاوز كونه مهاجمًا، ويمكن أن يخدم لزيادة دقة التعرف في مهام الرؤية. وفي الوقت نفسه، نقوم بتعريف مقياس تشابه المجموعة على أساس الأسس النمطية المكتسبة، والتي تكتسب اختلافات النمط بطريقة غير متعلقة بالتسمية أو التنبؤ.’

‘نعتقد أن بحثنا قد قدم قوة نموذج合ثة الوجه القابلة للتحكم والموجهة للتعرف على الوجه غير المقيد، ويقدم فهمًا لمختلف مجموعات البيانات.’

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai