اتصل بنا للحصول على مزيد من المعلومات

DeepFace للتعرف المتقدم على الوجه

الذكاء الاصطناعي

DeepFace للتعرف المتقدم على الوجه

mm

لقد كان التعرف على الوجه مجالًا شائعًا في الذكاء الاصطناعي والتعلم الآلي لعدة سنوات حتى الآن، كما أن الآثار الثقافية والاجتماعية واسعة النطاق للتعرف على الوجه بعيدة المدى. ومع ذلك، هناك فجوة في الأداء بين الأنظمة البصرية البشرية والآلات التي تحد حاليًا من تطبيقات التعرف على الوجه. 

للتغلب على المخزن المؤقت الناتج عن فجوة الأداء، وتوفير دقة على المستوى البشري، قدمت Meta ديب فيس، إطار التعرف على الوجه. يتم تدريب نموذج DeepFace على مجموعة بيانات كبيرة للوجه تختلف بشكل كبير عن مجموعات البيانات المستخدمة لإنشاء معايير التقييم، ولديه القدرة على التفوق في الأداء على الأطر الحالية بأقل قدر من التعديلات. علاوة على ذلك، ينتج إطار عمل DeepFace تمثيلات وجه مدمجة بالمقارنة مع الأنظمة الأخرى التي تنتج الآلاف من ميزات مظهر الوجه. 

يستخدم إطار DeepFace المقترح تعلم عميق للتدريب على مجموعة بيانات كبيرة تتكون من أشكال مختلفة من البيانات بما في ذلك الصور ومقاطع الفيديو والرسومات. تفترض بنية شبكة DeepFace أنه بمجرد اكتمال المحاذاة، يتم تثبيت موقع كل منطقة وجه على مستوى البكسل. لذلك، من الممكن استخدام قيم RGB بكسل الأولية دون استخدام طبقات تلافيفية متعددة كما هو الحال في الأطر الأخرى. 

يتكون المسار التقليدي لأطر التعرف على الوجه الحديثة من أربع مراحل: الاكتشاف والمحاذاة والتمثيل والتصنيف. يستخدم إطار عمل DeepFace نمذجة وجه ثلاثية الأبعاد واضحة لتطبيق تحويل متعدد الأجزاء، ويستخدم شبكة عصبية عميقة مكونة من تسع طبقات لاستخلاص تمثيل الوجه. يحاول إطار عمل DeepFace تقديم المساهمات التالية

  1. قم بتطوير بنية DNN أو شبكة عصبية عميقة فعالة يمكنها الاستفادة من مجموعة بيانات كبيرة لإنشاء تمثيل للوجه يمكن تعميمه على مجموعات البيانات الأخرى. 
  2. استخدم نماذج ثلاثية الأبعاد واضحة لتطوير نظام فعال لمحاذاة الوجه. 

فهم عمل نموذج DeepFace

محاذاة الوجه

محاذاة الوجه هي تقنية تقوم بتدوير صورة الشخص حسب زاوية العين. تعد محاذاة الوجه ممارسة شائعة تُستخدم للمعالجة المسبقة للبيانات التعرف على الوجهوتساعد مجموعات البيانات المحاذاة للوجه في تحسين دقة خوارزميات التعرف من خلال تقديم مدخلات طبيعية. ومع ذلك، يمكن أن تكون محاذاة الوجوه بطريقة غير مقيدة مهمة صعبة بسبب العوامل المتعددة المتضمنة مثل التعبيرات غير الصلبة وأوضاع الجسم والمزيد. العديد من تقنيات المحاذاة المتطورة مثل استخدام نموذج تحليلي ثلاثي الأبعاد للوجه أو البحث عن نقاط مرجعية من مجموعة بيانات خارجية قد تسمح للمطورين بالتغلب على التحديات. 

على الرغم من أن المحاذاة هي الطريقة الأكثر شيوعًا للتعامل مع التحقق والتعرف على الوجوه غير المقيدة، إلا أنه لا يوجد حل مثالي في الوقت الحالي. يتم أيضًا استخدام النماذج ثلاثية الأبعاد، لكن شعبيتها انخفضت بشكل ملحوظ في السنوات القليلة الماضية خاصة عند العمل في بيئة غير مقيدة. ومع ذلك، نظرًا لأن الوجوه البشرية عبارة عن كائنات ثلاثية الأبعاد، فقد يكون هذا هو النهج الصحيح إذا تم استخدامه بشكل صحيح. يستخدم نموذج DeepFace نظامًا يستخدم النقاط الإيمانية لإنشاء نموذج تحليلي ثلاثي الأبعاد للوجه. يتم بعد ذلك استخدام هذا النمذجة ثلاثية الأبعاد لتشويه محصول الوجه إلى الوضع الأمامي ثلاثي الأبعاد. 

علاوة على ذلك، تمامًا مثل معظم ممارسات المحاذاة، تستخدم محاذاة DeepFace أيضًا أجهزة كشف النقاط الإيمانية لتوجيه عملية المحاذاة. على الرغم من أن نموذج DeepFace يستخدم كاشف نقطة بسيط، إلا أنه يطبقه في عدة تكرارات لتحسين المخرجات. يقوم مُرجع ناقل الدعم أو SVR المُدرب على تكوينات النقاط المسبقة باستخراج النقاط الاعتمادية من واصف الصورة في كل تكرار. يعتمد واصف الصور في DeepFace على الرسوم البيانية LBP على الرغم من أنه يأخذ في الاعتبار أيضًا ميزات أخرى. 

محاذاة ثنائية الأبعاد

استخدم ديب فيس يبدأ النموذج عملية المحاذاة عن طريق الكشف عن ست نقاط إيمانية داخل محصول الكشف، تتمركز في منتصف العينين، ومواقع الفم، وطرف الأنف. يتم استخدامها لتدوير الصورة وتغيير حجمها وترجمتها إلى ستة مواقع ربط، والتكرار على الصورة الملتوية حتى لا يكون هناك أي تغيير مرئي. يؤدي التحويل المجمع بعد ذلك إلى إنشاء مجموعة محاذاة ثنائية الأبعاد. طريقة المحاذاة مشابهة تمامًا لتلك المستخدمة في LFW-a، وقد تم استخدامها على مر السنين في محاولة لتعزيز دقة النموذج. 

محاذاة ثنائية الأبعاد

لمحاذاة الوجوه مع الدوران خارج المستوى، يستخدم إطار عمل DeepFace نموذجًا عامًا للشكل ثلاثي الأبعاد، ويسجل كاميرا ثلاثية الأبعاد يمكن استخدامها لتغليف الجسم المحاذاة ثنائي الأبعاد إلى الشكل ثلاثي الأبعاد في مستوى الصورة الخاص به. ونتيجة لذلك، يقوم النموذج بإنشاء النسخة المحاذية ثلاثية الأبعاد للشركة، ويتم تحقيق ذلك من خلال ترجمة 3 نقطة اعتمادية إضافية في المؤسسة المحاذية ثنائية الأبعاد باستخدام SVR ثاني أو Support Vector Regressor. 

يقوم النموذج بعد ذلك بوضع نقاط الربط الـ 67 يدويًا على الشكل ثلاثي الأبعاد، وبالتالي يكون قادرًا على تحقيق المراسلات الكاملة بين المراجع ثلاثية الأبعاد والنقاط الإيمانية المقابلة لها. في الخطوة التالية، تتم إضافة كاميرا ثلاثية الأبعاد إلى ثنائية الأبعاد باستخدام حل المربعات الصغرى المعمم للأنظمة الخطية مع مصفوفة التغاير المعروفة التي تقلل من بعض الخسائر. 

المواجهة

نظرًا لعدم تصميم التشوهات غير الصلبة وإسقاطات المنظور الكامل، فإن الكاميرا ثلاثية الأبعاد إلى ثنائية الأبعاد المجهزة تعمل فقط كتقريب. في محاولة للحد من تلف العوامل المهمة الحاملة للهوية حتى الالتواء النهائي، يضيف نموذج DeepFace البقايا المقابلة إلى مكونات xy لكل نقطة مرجعية مرجعية. مثل هذا الاسترخاء بغرض تشويه الصورة ثنائية الأبعاد مع تشوهات أقل للهوية أمر معقول، وبدونه، لكانت الوجوه مشوهة إلى نفس الشكل ثلاثي الأبعاد، وفقدان عوامل تمييزية مهمة في هذه العملية. 

أخيرًا، يحقق النموذج المواجهة باستخدام تحويل تقاربي متعدد التعريف موجه بواسطة تثليث ديلوناي المشتق من 67 نقطة إيمانية. 

  1. تم اكتشاف الوجه بـ 6 نقاط إيمانية. 
  2. المستحثة 2D الانحياز كورب. 
  3. 67 نقطة ائتمانية على شركة محاذاة ثنائية الأبعاد. 
  4. تم تحويل الشكل المرجعي ثلاثي الأبعاد إلى صورة مؤسسية محاذاة ثنائية الأبعاد. 
  5. رؤية المثلث فيما يتعلق بالكاميرا ثلاثية الأبعاد وثنائية الأبعاد. 
  6. 67 نقطة إيمانية ناتجة عن النموذج ثلاثي الأبعاد. 
  7. نسخة ثلاثية الأبعاد من المجموعة النهائية. 
  8. عرض جديد تم إنشاؤه بواسطة النموذج ثلاثي الأبعاد. 

التمثيل

مع زيادة كمية بيانات التدريب، أثبتت الأساليب القائمة على التعلم أنها أكثر كفاءة ودقة عند مقارنتها بالميزات الهندسية في المقام الأول لأن الأساليب القائمة على التعلم يمكنها اكتشاف الميزات وتحسينها لمهمة محددة. 

هندسة DNN والتدريب

يتم تدريب DeepFace DNN على مهمة التعرف على الوجه متعددة الفئات التي تصنف هوية صورة الوجه. 

يمثل الشكل أعلاه البنية العامة لنموذج DeepFace. يحتوي النموذج على طبقة تلافيفية (C1) تحتوي على 32 مرشحًا بحجم 11x11x3 يتم تغذيتها بصورة ثلاثية الأبعاد ثلاثية الأبعاد RGB بحجم 3×3 بكسل، وينتج عنها 152 خريطة ميزات. يتم بعد ذلك تغذية خرائط المعالم هذه إلى طبقة Max Pooling أو M152 التي تأخذ الحد الأقصى الذي يزيد عن 32×2 من الأحياء المكانية، ولها خطوة قدرها 3، بشكل منفصل لكل قناة. تليها طبقة تلافيفية أخرى (C3) تضم 2 مرشحًا بحجم كل منها 3x16x9. الغرض الأساسي من هذه الطبقات هو استخراج ميزات منخفضة المستوى مثل الملمس والحواف البسيطة. تتمثل ميزة استخدام طبقات Max Pooling في أنها تجعل المخرجات الناتجة عن الطبقات التلافيفية أكثر قوة للترجمات المحلية، وعند تطبيقها على صور الوجه المحاذاة، فإنها تجعل الشبكة أكثر قوة في مواجهة أخطاء التسجيل على نطاق صغير. 

إن المستويات المتعددة للتجميع تجعل الشبكة أكثر قوة في مواقف معينة، ولكنها تتسبب أيضًا في فقدان الشبكة للمعلومات المتعلقة بالموضع الدقيق للأنسجة الدقيقة وهياكل الوجه التفصيلية. لتجنب فقدان الشبكة للمعلومات، يستخدم نموذج DeepFace طبقة تجميع قصوى فقط مع الطبقة التلافيفية الأولى. يتم بعد ذلك تفسير هذه الطبقات بواسطة النموذج كخطوة معالجة مسبقة تكيفية للواجهة الأمامية. على الرغم من أنهم يقومون بمعظم العمليات الحسابية، إلا أن لديهم معلمات محدودة من تلقاء أنفسهم، ويقومون فقط بتوسيع المدخلات إلى مجموعة من الميزات المحلية. 

ترتبط الطبقات التالية L4 وL5 وL6 محليًا، تمامًا مثل الطبقة التلافيفية، فإنها تطبق بنك الترشيح حيث يتعلم كل موقع في خريطة المعالم مجموعة فريدة من المرشحات. نظرًا لأن المناطق المختلفة في الصورة المحاذاة لها إحصائيات محلية مختلفة، فلا يمكنها تحمل افتراض الثبات المكاني. على سبيل المثال، تتمتع المنطقة الواقعة بين الحاجبين والعينين بقدرة تمييز أعلى مقارنة بالمنطقة الواقعة بين الفم والأنف. يؤثر استخدام الطبقات الموالية على عدد المعلمات الخاضعة للتدريب ولكنه لا يؤثر على العبء الحسابي أثناء استخراج الميزة. 

يستخدم نموذج DeepFace ثلاث طبقات في المقام الأول فقط لأنه يحتوي على كمية كبيرة من بيانات التدريب ذات التصنيف الجيد. يمكن تبرير استخدام الطبقات المتصلة محليًا بشكل أكبر حيث يمكن أن تتأثر كل وحدة إخراج للطبقة المتصلة محليًا بمجموعة كبيرة من بيانات الإدخال. 

وأخيرًا، يتم توصيل الطبقات العليا بشكل كامل مع توصيل كل وحدة إخراج بجميع المدخلات. يمكن للطبقتين التقاط الارتباطات بين الميزات التي تم التقاطها في أجزاء مختلفة من صور الوجه مثل موضع وشكل الفم، وموضع وشكل العينين. سيتم استخدام مخرجات الطبقة الأولى المتصلة بالكامل (F7) بواسطة الشبكة كمتجه لميزة تمثيل الوجه الخام. سيقوم النموذج بعد ذلك بتغذية مخرجات الطبقة الأخيرة المتصلة بالكامل (F8) إلى K-way softmax الذي ينتج توزيعًا على تسميات الفئة. 

قواعد البيانات

يستخدم نموذج DeepFace مجموعة من مجموعات البيانات مع تصنيف الوجه الاجتماعي أو مجموعة بيانات SFC باعتبارها المجموعة الأساسية. علاوة على ذلك، يستخدم نموذج DeepFace أيضًا مجموعة بيانات LFW ومجموعة بيانات YTF. 

مجموعة بيانات SFC

يتم التعرف على مجموعة بيانات SFC من مجموعة من الصور من فيسبوك، وتتكون من 4.4 مليون صورة مصنفة لـ 4,030 شخصًا، ولكل منهم 800 إلى 1200 وجه. يتم استبعاد أحدث 5% من صور الوجه لكل هوية لمجموعة بيانات SFC لأغراض الاختبار.

مجموعة بيانات LFW

تتكون مجموعة بيانات LFW من 13,323 صورة لأكثر من خمسة آلاف من المشاهير والتي تم تقسيمها بعد ذلك إلى 6,000 زوج وجه عبر 10 أقسام. 

مجموعة بيانات YTF

تتكون مجموعة بيانات YTF من 3,425 مقطع فيديو لـ 1,595 موضوعًا، وهي مجموعة فرعية من المشاهير في مجموعة بيانات LFW. 

النتائج

بدون الواجهة وعند استخدام المحاذاة ثنائية الأبعاد فقط، يحقق النموذج درجة دقة تبلغ حوالي 2% فقط. عندما يستخدم النموذج الجسم المركزي لاكتشاف الوجه، فإنه لا يستخدم أي محاذاة، وفي هذه الحالة، يُرجع النموذج درجة دقة تبلغ 94.3% لأن بعض أجزاء منطقة الوجه قد تقع خارج الجسم المركزي. لتقييم القدرة التمييزية لتمثيل الوجه بشكل منفصل، يتبع النموذج إعداد التعلم غير الخاضع للرقابة لمقارنة المنتج الداخلي للميزات الطبيعية. يعزز متوسط ​​دقة النموذج إلى 87.9% 

يقارن النموذج أعلاه أداء نموذج DeepFace عند مقارنته بنماذج التعرف على الوجه الحديثة الأخرى. 

الصورة أعلاه توضح منحنيات ROC في مجموعة البيانات. 

خاتمة

من الناحية المثالية، سيكون مصنف الوجه قادرًا على التعرف على الوجوه بدقة الإنسان، وسيكون قادرًا على إرجاع دقة عالية بغض النظر عن جودة الصورة أو الوضع أو التعبير أو الإضاءة. علاوة على ذلك، سيكون من الممكن تطبيق الإطار المثالي للتعرف على الوجه على مجموعة متنوعة من التطبيقات مع تعديلات قليلة أو معدومة. على الرغم من أن DeepFace هو أحد أطر التعرف على الوجه الأكثر تقدمًا وكفاءة حاليًا، إلا أنه ليس مثاليًا، وقد لا يكون قادرًا على تقديم نتائج دقيقة في مواقف معينة. لكن ال ديب فيس يعد إطار العمل علامة بارزة في صناعة التعرف على الوجه، وهو يسد فجوة الأداء من خلال الاستفادة من تقنية التعلم المتري القوية، وسيستمر في زيادة الكفاءة بمرور الوقت. 

"مهندس بالمهنة كاتب عن ظهر قلب". كونال كاتب تقني لديه حب وفهم عميقان للذكاء الاصطناعي والتعلم الآلي ، مكرس لتبسيط المفاهيم المعقدة في هذه المجالات من خلال وثائقه الجذابة والغنية بالمعلومات.