الذكاء الاصطناعي
DeepFace لتحسين التعرف على الوجه

لقد كان التعرف على الوجه مجالاً متrend في مجال الذكاء الاصطناعي والتعلم الآلي لعدة سنوات الآن، والآثار الثقافية والاجتماعية للتعرف على الوجه لها تأثيرات بعيدة المدى. ومع ذلك، هناك فجوة في الأداء بين الأنظمة البشرية والآلات التي تقيد حاليًا تطبيقات التعرف على الوجه.
للتغلب على الحاجز الذي أنشأته فجوة الأداء، وتقديم دقة على مستوى الإنسان، قامت Meta بتقديم DeepFace، إطار عمل للتعرف على الوجه. يتم تدريب نموذج DeepFace على مجموعة بيانات كبيرة من الوجوه تختلف بشكل كبير عن مجموعات البيانات المستخدمة لإنشاء معايير التقييم، وله القدرة على تحقيق أداء أفضل من الإطارات الحالية مع تعديلات طفيفة. بالإضافة إلى ذلك، ينتج إطار DeepFace تمثيلات الوجه المدمجة مقارنة بنظم أخرى تنتج آلاف سمات المظهر الوجهي.
يستخدم الإطار المقترح DeepFace التعلم العميق لتدريب على مجموعة بيانات كبيرة تتكون من أشكال مختلفة من البيانات بما في ذلك الصور والفيديوهات والرسومات. يفترض بنية شبكة DeepFace أنه بمجرد الانتهاء من المحاذاة، يتم تحديد موقع كل منطقة الوجه على مستوى البكسل. لذلك، من الممكن استخدام قيم البكسل RGB الخام دون استخدام طبقات التجميع المتعددة كما هو الحال في الإطارات الأخرى.
يتكون خط أنابيب التعرف على الوجه الحديث من أربع مراحل: الكشف، والمحاذاة، والتمثيل، والتصنيف. يستخدم إطار DeepFace نمذجة الوجه ثلاثية الأبعاد بشكل صريح لتطبيق تحويل قطعي، ويستخدم شبكة عصبونية sâu ذات تسع طبقات لاستخراج تمثيل الوجه. يحاول إطار DeepFace تقديم المساهمات التالية
- تطوير بنية شبكة عصبونية sâu فعالة يمكنها الاستفادة من مجموعة بيانات كبيرة لإنشاء تمثيل للوجه يمكن تعميمه على مجموعات بيانات أخرى.
- استخدام النمذجة ثلاثية الأبعاد بشكل صريح لتطوير نظام محاذاة الوجه الفعال.
فهم كيفية عمل نموذج DeepFace
محاذاة الوجه
محاذاة الوجه هي تقنية تدوير صورة شخص وفقًا لزاوية العيون. محاذاة الوجه هي ممارسة شائعة تستخدم لمعالجة البيانات للتعرف على الوجه، ومجموعات البيانات المحاذاة تساعد في تحسين دقة خوارزميات التعرف من خلال تقديم إدخال معياري.
على الرغم من أن المحاذاة هي الطريقة الأكثر شعبية للتعامل مع التحقق والتعرف غير المقيد على الوجه، لا يوجد حل مثالي في الوقت الحالي. يتم استخدام نماذج ثلاثية الأبعاد أيضًا، ولكن شعبيتها انخفضت بشكل كبير في السنوات القليلة الماضية، خاصة عند العمل في بيئة غير مقيدة.
يستخدم نموذج DeepFace نظامًا يستخدم نقاط الفدية لإنشاء نمذجة ثلاثية الأبعاد تحليلية للوجه. يتم استخدام هذه النمذجة ثلاثية الأبعاد لتحويل محاصيل الوجه إلى وضع أمامي ثلاثي الأبعاد.
محاذاة 2D
يبدأ نموذج DeepFace عملية المحاذاة bằng الكشف عن ست نقاط فدية داخل المحاصيل الكشف، المركزة في منتصف العيون ومواقع الفم وطرف الأنف.
محاذاة 3D
للمحاذاة مع دوران خارج المستوى، يستخدم إطار DeepFace نموذج شكل ثلاثي الأبعاد عام، ويسجل كاميرا ثلاثية الأبعاد يمكن استخدامها لتحويل المحاصيل المحاذاة 2D إلى الشكل ثلاثي الأبعاد في مستوى الصورة.
التمثيل
مع زيادة كمية بيانات التدريب، أثبتت الأساليب القائمة على التعلم أنها أكثر كفاءة ودقة مقارنة بالسمات المصممة بشكل أساسي لأن الأساليب القائمة على التعلم يمكنها اكتشاف وضبط السمات لمهمة محددة.
بنية الشبكة العصبونية و التدريب
يتم تدريب شبكة DeepFace على مهمة التعرف على الوجه متعددة الطبقات التي تصنف هوية صورة الوجه.
مجموعات البيانات
يستخدم نموذج DeepFace مزيجًا من مجموعات البيانات مع مجموعة بيانات التصنيف الاجتماعي للوجه (SFC) كالأساسي. بالإضافة إلى ذلك، يستخدم نموذج DeepFace أيضًا مجموعة بيانات LFW ومجموعة بيانات YTF.
مجموعة بيانات SFC
تتمتع مجموعة بيانات SFC بملايين الصور من فيسبوك، وتتكون من 4.4 مليون صورة مصنفة ل 4030 شخصًا، مع 800 إلى 1200 وجه لكل شخص.
مجموعة بيانات LFW
تتكون مجموعة بيانات LFW من 13323 صورة لما يقرب من 5000 مشهور، مقسمة إلى 6000 زوج من الأوجه عبر 10 تقسيمات.
مجموعة بيانات YTF
تتكون مجموعة بيانات YTF من 3425 فيديو ل 1595 موضوعًا، وهي مجموعة فرعية من المشاهير في مجموعة بيانات LFW.
النتائج
باستخدام محاذاة 2D فقط، يصل النموذج إلى درجة دقة تبلغ حوالي 94.3٪.
الخلاصة
في الواقع، من المفترض أن يكون مصنف الوجه قادرًا على التعرف على الأوجه بدقة مثل الإنسان، وسيتمكن من إرجاع دقة عالية بغض النظر عن جودة الصورة أو الإضاءة أو التعبير.












