نماذج ومنصات الذكاء الاصطناعي

DeepFace للاعتراف بالوجوه المتقدم

نُشر في 8 سبتمبر 2023

تم التحديث في 23 مايو 2026

بواسطة

Kunal Kejriwal

لقد كانت تقنية التعرف على الوجوه مجالاً ساخناً في مجال الذكاء الاصطناعي والتعلم الآلي لعدة سنوات الآن، وتأثيراتها الثقافية والاجتماعية الشاملة للتعرف على الوجوه بعيدة المدى. ومع ذلك، هناك فجوة في الأداء بين الأنظمة البشرية والآلات التي تقيد حالياً تطبيقات التعرف على الوجوه.

للتغلب على الحاجز الذي أنشأته فجوة الأداء، وتقديم دقة على مستوى الإنسان، قامت ميتا بإدخال DeepFace، وهو إطار للتعرف على الوجوه. يتم تدريب نموذج DeepFace على مجموعة بيانات كبيرة للوجوه تختلف بشكل كبير عن مجموعات البيانات المستخدمة لبناء معايير التقييم، وله القدرة على تفوق الإطارات الحالية مع الحد الأدنى من التعديلات. بالإضافة إلى ذلك، ينتج إطار DeepFace تمثيلات وجوه مضغوطة عند مقارنتها بنظم أخرى تنتج آلاف ميزات المظهر الوجهي.

يستخدم الإطار المقترح DeepFace التعلم العميق للتدريب على مجموعة بيانات كبيرة تتكون من أشكال مختلفة من البيانات بما في ذلك الصور والفيديوهات والرسومات. يفترض بنية شبكة DeepFace أن بمجرد انتهاء عملية المحاذاة، يتم تحديد موقع كل منطقة وجهية على مستوى البكسل. وبالتالي، من الممكن استخدام قيم RGB للبكسل الخام دون استخدام طبقات التجميع المتعددة كما هو الحال في الإطارات الأخرى.

يتكون خط أنابيب التعرف على الوجوه الحديثة التقليدية من أربع مراحل: الكشف، والمحاذاة، والتمثيل، والتصنيف. يستخدم إطار DeepFace نمذجة الوجه ثلاثية الأبعاد بشكل صريح لتطبيق تحويل قطاعي، ويتضمن شبكة عصبية عميقة من تسع طبقات لاستخراج تمثيل للوجه. يحاول إطار DeepFace تقديم المساهمات التالية

تطوير هيكل شبكة عصبية عميقة فعالة يمكنها الاستفادة من مجموعة بيانات كبيرة لإنشاء تمثيل للوجه يمكن تعميمه على مجموعات بيانات أخرى.
استخدام النمذجة ثلاثية الأبعاد بشكل صريح لتطوير نظام محاذاة فعال.

فهم كيفية عمل نموذج DeepFace

محاذاة الوجه

تعتبر محاذاة الوجه تقنية تدوير صورة الشخص وفقاً لزاوية العيون. تعتبر محاذاة الوجه ممارسة شائعة تستخدم لمعالجة البيانات للتعرف على الوجوه، وتساعد مجموعات البيانات الموجهة للوجوه على تحسين دقة خوارزميات التعرف من خلال تقديم مدخل معياري.

على الرغم من أن المحاذاة هي أشهر طريقة للتعامل مع التحقق والتعرف على الوجوه غير المقيدة، إلا أنه لا يوجد حل مثالي في الوقت الحالي. كما يتم استخدام نماذج ثلاثية الأبعاد، ولكن شعبيتها انخفضت بشكل كبير في السنوات القليلة الماضية، خاصة عند العمل في بيئة غير مقيدة. ومع ذلك، نظراً لأن الوجوه البشرية هي كائنات ثلاثية الأبعاد، قد تكون هذه هي النهج الصحيح إذا استخدمت بشكل صحيح.

يستخدم نموذج DeepFace نظامًا يستخدم نقاط فدائية لإنشاء نمذجة تحليلية ثلاثية الأبعاد للوجه. ثم يتم استخدام هذه النمذجة ثلاثية الأبعاد لمحاذاة المحصول الوجهي إلى وضع أمامي ثلاثي الأبعاد.

المحاذاة ثنائية الأبعاد

يبدأ نموذج DeepFace عملية المحاذاة bằng الكشف عن ست نقاط فدائية داخل المحصول الكشف، المركز في منتصف العيون ومواقع الفم وطرف الأنف. يتم استخدامها لتحويل وتدوير الصورة إلى ستة مواقع مرجعية، وتكرار الصورة المعدلة حتى لا يحدث أي تغيير مرئي.

المحاذاة ثلاثية الأبعاد

للمحاذاة مع الدورات خارج المستوى، يستخدم إطار DeepFace نموذج شكل ثلاثي الأبعاد عام، ويسجل كاميرا ثلاثية الأبعاد يمكن استخدامها لتحويل المحصول المحدد ثنائي الأبعاد إلى الشكل ثلاثي الأبعاد في مستوى الصورة.

ثم يتم وضع 67 نقطة فدائية إضافية في المحصول المحدد ثنائي الأبعاد باستخدام SVR الثاني أو متعلم الت归.

التمثيل

مع زيادة كمية بيانات التدريب، أثبتت الأساليب القائمة على التعلم أنها أكثر كفاءة ودقة مقارنة بالسمات الهندسية، وخاصة لأن الأساليب القائمة على التعلم يمكنها اكتشاف وضبط السمات لمهمة محددة.

هيكل الشبكة العصبية والتدريب

يتم تدريب شبكة DeepFace العصبية على مهمة التعرف على الوجوه متعددة الفئات التي تصنف هوية صورة الوجه.

يمثل الشكل أعلاه الهيكل العام لنموذج DeepFace. يتكون النموذج من طبقة تجميعية (C1) مع 32 مرشحًا بحجم 11x11x3 يتم إطعامه صورة RGB ثلاثية الأبعاد محاذاة بحجم 152×152 بكسل، وينتج 32 خريطة ميزة.

تتم تغذية هذه الخرائط إلى طبقة تجميعية أقصى (M2) التي تأخذ أقصى قيمة على 3×3 من الأحياء المكانية، ولها خطوة 2، بشكل منفصل لكل قناة.

تستخدم طبقات متعددة من التجميع جعل مخرجات الطبقات التجميعية أكثر متانة للترجمات المحلية، ولكنها تسبب أيضًا فقدان المعلومات حول الموضع الدقيق للنسيج الدقيق والهياكل الوجهية المتفصلة.

يستخدم نموذج DeepFace طبقة تجميعية أقصى مع الطبقة التجميعية الأولى فقط.

تتمثل الطبقات التالية L4 و L5 و L6 في الاتصال المحلي، وتطبق مجموعة من المرشحات حيث يتعلم كل موقع في خريطة الميزة مجموعة فريدة من المرشحات.

المجموعات البيانية

يستخدم نموذج DeepFace مزيجًا من مجموعات البيانات، مع مجموعة بيانات التصنيف الاجتماعي للوجوه (SFC) كالمجموعة الأساسية.

مجموعة بيانات SFC

تتعلم مجموعة بيانات SFC من مجموعة صور من فيسبوك، وتتكون من 4.4 مليون صورة مصنفة ل 4030 شخصًا، مع 800 إلى 1200 وجه لكل شخص.

مجموعة بيانات LFW

تتكون مجموعة بيانات LFW من 13323 صورة لما يزيد عن 5000 مشهور، ثم يتم تقسيمها إلى 6000 زوج من الوجوه عبر 10 تقسيمات.

مجموعة بيانات YTF

تتكون مجموعة بيانات YTF من 3425 فيديو ل 1595 موضوعًا، وهي مجموعة فرعية من المشاهير في مجموعة بيانات LFW.

النتائج

بدون توجيه ومتوازي 2D فقط، يصل النموذج إلى درجة دقة تبلغ حوالي 94.3٪.

عندما يستخدم النموذج المحصول المركزي للكشف عن الوجه، لا يستخدم أي محاذاة، وبالتالي يعود بنتيجة دقة تبلغ 87.9٪ لأن بعض أجزاء المنطقة الوجهية قد تخرج من المحصول المركزي.

يتم تقييم القدرة التمييزية لتمثيل الوجه بمفرده من خلال اتباع إعداد التعلم غير الموجه لمقارنة جداء الميزات المُ归َّنة.

الخلاصة

في الواقع المثالي، سيكون مصنف الوجه قادرًا على التعرف على الوجوه بدقة الإنسان، وسيكون قادرًا على إرجاع دقة عالية بغض النظر عن جودة الصورة أو الوضع أو التعبير أو الإضاءة.

على الرغم من أن DeepFace هو واحد من أكثر الإطارات المتقدمة والفعالة للتعرف على الوجوه حاليًا، إلا أنه ليس مثاليًا، وربما لن يكون قادرًا على تقديم نتائج دقيقة في بعض الحالات.

ومع ذلك، فإن إطار DeepFace هو خطوة هامة في صناعة التعرف على الوجوه، ويهدف إلى سد فجوة الأداء من خلال استخدام تقنية تعلم متري قوية، وسيتطور أكثر مع مرور الوقت.