الذكاء الاصطناعي

تقدير جاذبية الوجه للبث المباشر

Published January 8, 2025

Updated April 26, 2026

Martin Anderson

Image by ChatGPT, with superimposed image from the paper https://arxiv.org/pdf/2501.02509

حتى الآن ، تم دراسة تقدير جاذبية الوجه (FAP) بشكل رئيسي في سياق الأبحاث النفسية ، وفي صناعة الجمال والتنظيف ، وفي سياق الجراحة التجميلية. إنه مجال دراسي صعب ، منذ أن تميل معايير الجمال إلى أن تكون وطنية أكثر منها عالمية .

هذا يعني أنه لا يوجد مجموعة بيانات قائم على الذكاء الاصطناعي فعالة ، لأن المتوسطات التي تم الحصول عليها من عينة الوجوه / التقييمات من جميع الثقافات ستكون متحيزة للغاية (حيث ستكتسب الدول الأكثر سكانًا زخما إضافيا) ، أو قابلة للتطبيق على ثقافة معينة (حيث سي相当 متوسط متعدد الأعراق / التقييمات مع أي عرق حقيقي).

بدلاً من ذلك ، التحدي هو تطوير منهجيات概念ية وعمليات تتدفق فيها بيانات محددة للبلد أو الثقافة ، لتمكين تطوير نماذج FAP الفعالة لكل منطقة.

استخدامات FAP في أبحاث الجمال والنفسية هامشية للغاية ، أو محددة بالصناعة ؛ لذلك ، تحتوي معظم مجموعات البيانات المحددة حتى الآن على بيانات محدودة فقط ، أو لم تنشر على الإطلاق.

الوفرة البسيطة لمتنبئي الجاذبية عبر الإنترنت ، التي تهدف في الغالب إلى الجماهير الغربية ، لا تمثل بالضرورة حالة الفن في FAP ، والتي يبدو أنها تهيمن عليها الأبحاث الآسيوية الشرقية (بشكل رئيسي الصين) ، ومجموعات البيانات الآسيوية الشرقية المقابلة.

أمثلة من مجموعة بيانات 2020 ‘توقع جمال الوجه الأنثوي الآسيوي باستخدام الشبكات العصبية العميقة عبر التعلم النقل والدمج المتعددة القنوات مصدر: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

تتضمن الاستخدامات التجارية الأوسع لتقدير الجمال تطبيقات المواعدة عبر الإنترنت ، ونظم الذكاء الاصطناعي التوليدية المصممة لجعل صور الأشخاص أكثر جمالا (مما يُطلب معيارًا كميًا للجمال كأداة لقياس الفعالية).

رسم الوجوه

الأفراد الجذابون لا يزالون موردًا قيمًا في الإعلان وبناء النفوذ ، مما يجعل الحوافز المالية في هذه القطاعات فرصة واضحة لتعزيز نماذج FAP وحواشي الدولة الفنية.

على سبيل المثال ، يمكن أن يحدد نموذج الذكاء الاصطناعي المدرب بالبيانات الواقعية لتقييم وتصنيف جمال الوجه محددة الأحداث أو الأفراد الذين لديهم إمكانات عالية للتأثير الإعلاني. ستكون هذه القدرة ذات صلة خاصة في سياقات بث الفيديو المباشر ، حيث تعمل معايير مثل “المتابعون” و “الإعجابات” حاليًا فقط كأدلة ضمنية على قدرة الفرد (أو حتى نوع الوجه) على جذب الجمهور.

هذه هي المعدل السطحي ، وبطبع ، الصوت والعرض والمنظور يلعبون دورًا هامًا في جمع الجمهور. لذلك ، تتطلب صيانة مجموعات بيانات FAP إشراف بشري ، بالإضافة إلى القدرة على التمييز بين جمال الوجه و “الجاذبية المزيفة” (دون ذلك ، يمكن للمؤثرين غير المحدد مثل أليكس جونز أن يؤثروا على المنحنى المتوسط لمجموعة مصممة حصريًا لتقييم جمال الوجه).

LiveBeauty

لمواجهة نقص مجموعات بيانات FAP ، يقدم الباحثون من الصين أول مجموعة بيانات كبيرة الحجم ، تحتوي على 100000 صورة للوجه ، إلى جانب 200000 تعليق بشري لتقدير جمال الوجه.

عينات من مجموعة بيانات LiveBeauty الجديدة. مصدر: https://arxiv.org/pdf/2501.02509

تحمل مجموعة البيانات اسم LiveBeauty ، وتتميز ب 10000 هوية مختلفة ، كلها تم 捕获 من منصات البث المباشر (غير محددة) في مارس 2024.

يقدم المؤلفون أيضًا FPEM ، وهو طريقة FAP متعددة الوسائط جديدة. يدمج FPEM المعرفة السابقة الشاملة للوجه وميزات الجمال الدلالية المتعددة الوسائط عبر وحدة مسبقة الجاذبية الشخصية (PAPM) ، ووحدة التشفير الجاذبية المتعددة الوسائط (MAEM) ، ووحدة الاندماج العابر (CMFM).

يؤكد البحث على أن FPEM يحقق أداءً على مستوى الدولة الفنية على مجموعة بيانات LiveBeauty الجديدة ، ومجموعات بيانات FAP الأخرى. يشير المؤلفون إلى أن البحث له تطبيقات محتملة لتحسين جودة الفيديو ، وتوصية المحتوى ، وتنقية الوجه في البث المباشر.

ويpromisen المؤلفون أيضًا أن يجعلوا مجموعة البيانات متاحة “قريبا” – على الرغم من أنه يجب أن يُقر بأن أي قيود ترخيص متأصلة في المجال المصدر يبدو من المحتمل أن تنتقل إلى معظم المشاريع القابلة للتطبيق التي قد تستخدم العمل.

المقال الجديد بعنوان توقع جاذبية الوجه في البث المباشر: معيار جديد وطريقة متعددة الوسائط ، ويأتي من عشرة باحثين عبر مجموعة Alibaba وجامعة Shanghai Jiao Tong.

الطريقة والبيانات

من كل بث مباشر لمدة 10 ساعات من منصات البث المباشر ، جمع الباحثون صورة واحدة في الساعة للสาม ساعات الأولى. تم اختيار البث الذي لديه أعلى عدد من مشاهدات الصفحة.

خضعت البيانات المجمعة لعدة مراحل من المعالجة المسبقة. الأولى هي قياس حجم منطقة الوجه ، والتي تستخدم نموذج FaceBoxes القائم على CPU لعام 2018 لتوليد مربع حدود حول الخطوط العريضة للوجه. يضمن الخط أن جانب المربع الحدودي الأقصر يتجاوز 90 بكسل ، مما يمنع مناطق الوجه الصغيرة أو الغامضة.

الخطوة الثانية هي كشف التمويه ، والتي يتم تطبيقها على منطقة الوجه باستخدام تباين المدى اللابلاسي في قناة الارتفاع (Y) من المحاصيل الوجهية. يجب أن يكون هذا التباين أكبر من 10 ، مما يساعد في تصفية الصور المضببة.

الخطوة الثالثة هي تقدير موقف الوجه ، والتي تستخدم نموذج 3DDFA-V2 لتقدير الموقف لعام 2021:

أمثلة من نموذج تقدير الموقف 3DDFA-V2. مصدر: https://arxiv.org/pdf/2009.09960

هنا ، يضمن الخط أن زاوية الانحدار للمقابض المحصورة لا تتجاوز 20 درجة ، وزاوية الياو لا تتجاوز 15 درجة ، مما يستثني الوجوه ذات المواقف المتطرفة.

الخطوة الرابعة هي تقييم نسبة الوجه ، والتي تستخدم أيضًا قدرات التجزئة لنموذج 3DDFA-V2 ، مما يضمن أن نسبة منطقة الوجه المحصورة أكبر من 60٪ من الصورة ، واستبعاد الصور التي لا يبرز فيها الوجه. أي صغير في الصورة الكلية.

أخيرًا ، الخطوة الخامسة هي إزالة الشخصيات المكررة ، والتي تستخدم نموذج التعرف على الوجه الحالي (غير المنسوب) ، في الحالات التي تظهر فيها نفس الهوية في أكثر من صورة واحدة من الصور الثلاث المجمعة لفيديو مدته 10 ساعات.

التقييم البشري والتعليق

تم توظيف عشرون معلقًا ، состоящих من ستة ذكور و 14 إناث ، مما يعكس التركيبة السكانية للمنصة الحية المستخدمة*. تم عرض الوجوه على شاشة 6.7 بوصة لجهاز iPhone 14 Pro Max ، في ظروف معملية متسقة.

تم تقسيم التقييم عبر 200 جلسة ، كل منها يستخدم 50 صورة. تم طلب من الأشخاص تقييم جاذبية الوجه للعينات على درجة من 1 إلى 5 ، مع فترة راحة مدتها خمس دقائق بين كل جلسة ، وجميع الأشخاص يشاركون في جميع الجلسات.

لذلك ، تم تقييم كل الصور 10000 عبر двадцать معلق بشري ، مما أدى إلى 200000 تعليق.

التحليل والمعالجة المسبقة

أولاً ، تم إجراء فحص ما بعد الجلسة باستخدام نسبة المخالفات و معامل الرتبة لسبيرمان (SROCC). تم اعتبار الأشخاص الذين كانت تقييماتهم أقل من 0.75 أو نسبة المخالفات أكبر من 2٪ غير موثوقين وتم إزالتهم ، مع الحصول على 20 موضوعًا في النهاية..

ثم تم حساب درجة الرأي المتوسط (MOS) لكل صورة للوجه ، عن طريق متوسط الدرجات التي حصل عليها الأشخاص الصالحين. تعمل MOS كعلامة جاذبية حقيقية لصورة كل صورة ، ويتحسب الدرجة عن طريق متوسط جميع الدرجات الفردية من كل موضوع صالح.

أخيرًا ، أشار تحليل توزيعات MOS للعينات ، وكذلك للعينات الأنثوية والذكورية ، إلى أنها أظهرت شكلًا من نوع غاوسي ، وهو ما يتسق مع توزيعات جاذبية الوجه في العالم الحقيقي:

أمثلة من توزيعات MOS من LiveBeauty.

يتميل معظم الأفراد إلى جاذبية الوجه المتوسطة ، مع عدد أقل من الأفراد في النهايات المنخفضة أو العالية جدًا.

بالإضافة إلى ذلك ، أظهر تحليل الانحراف والذروة أن التوزيعات تمتلك ذيول رقيقة ومركزة حول الدرجة المتوسطة ، وأن الجاذبية العالية كانت أكثر شيوعًا بين العينات الأنثوية في مقاطع الفيديو المباشرة المجمعة.

الهيكل

تم استخدام استراتيجية تدريب مرحلية من مرحلتين لنموذج FPEM ومرحلة الاندماج الهجين في LiveBeauty ، مقسمة على أربعة وحدات: وحدة مسبقة الجاذبية الشخصية (PAPM) ، وحدة التشفير الجاذبية المتعددة الوسائط (MAEM) ، وحدة الاندماج العابر (CMFM) ووحدة الاندماج القراري (DFM).

مخطط مفاهيمي لخط أنابيب التدريب في LiveBeauty.

تأخذ وحدة PAPM صورة كمدخل وتستخرج ميزات بصرية متعددة المقاييس باستخدام مُحول Swin ، وتستخرج أيضًا ميزات الوجه المستلمة باستخدام نموذج FaceNet المُعد مسبقًا. يتم دمج هذه الميزات باستخدام كتلة الانتباه المتقاطع لإنشاء ميزة جاذبية شخصيّة.

كما في مرحلة التدريب الأولية ، تستخدم MAEM صورة ونصوص وصفية لجاذبية ، وتستفيد من CLIP لاستخراج ميزات دلالية جمالية متعددة الوسائط.

النصوص الوصفية الم قالبية تكون على شكل ‘صورة لشخص مع {a} جاذبية’ (حيث يمكن أن يكون {a} سيئ ، ضعيف ، عادل ، جيد أو مثالي). يتم تقدير مشابهة الكوزين بين التضمينات النصية والبصرية لتحديد احتمالية مستوى الجاذبية.

في مرحلة الاندماج الهجين ، يُحسن CMFM التضمينات النصية باستخدام الميزة الجاذبية الشخصية التي تم إنشاؤها بواسطة PAPM ، وبالتالي يُنشئ تضمينات نصية شخصيّة. ثم يستخدم استراتيجية انحدار المشابهة لجعل تنبؤ.

أخيرًا ، يدمج DFM التنبؤات الفردية من PAPM و MAEM و CMFM لإنتاج درجة جاذبية نهائية واحدة ، مع هدف تحقيق إجماع متين.

دالات الخسارة

للمقاييس الخسارة ، يتم تدريب PAPM باستخدام خسارة L1 ، وهي مقياس للفرق المطلق بين درجة جاذبية التنبؤ ودرجة جاذبية الحقيقة (الحقيقة الأرضية).

تستخدم وحدة MAEM دالة خسارة أكثر تعقيدًا تجمع بين خسارة التقييم (LS) وخسارة التصنيف المشترك (LR). تتكون خسارة التصنيف (LR) من خسارة الإيمان (LR1) وخسارة التصنيف المزدوج الاتجاه (LR2).

تتم مقارنة LR1 للجاذبية النسبية للأزواج الصورية ، في حين يضمن LR2 أن توزيع الاحتمال التنبؤي لدرجات الجاذبية يحتوي على قمة واحدة وينخفض في كلا الاتجاهين. يهدف هذا النهج المدمج إلى تحسين التقييم الدقيق والتصنيف الصحيح للصور بناءً على الجاذبية.

تتم تدريب CMFM و DFM باستخدام خسارة L1 البسيطة.

الاختبارات

في الاختبارات ، واجه الباحثون LiveBeauty مع نهج تسعة سابقة: ComboNet؛ 2D-FAP؛ REX-INCEP؛ CNN-ER (ميزة في REX-INCEP)؛ MEBeauty؛ AVA-MLSP؛ TANet؛ Dele-Trans؛ و EAT.

كما تم اختبار أساليب التقييم الجمالي للصورة (IAA) التي تتوافق مع بروتوكول تقييم الجماليات. كانت هذه ViT-B؛ ResNeXt-50؛ و Inception-V3.

بالإضافة إلى LiveBeauty ، تم اختبار مجموعات البيانات الأخرى: SCUT-FBP5000 و MEBeauty. فيما يلي ، يتم مقارنة توزيعات MOS لمجموعات البيانات هذه:

توزيعات MOS لمجموعات البيانات المرجعية.

على التوالي ، تم تقسيم مجموعات البيانات هذه إلى 60٪ – 40٪ و 80٪ – 20٪ للتدريب والاختبار ، على سبيل المثال ، للحفاظ على الاتساق مع بروتوكولاتها الأصلية. تم تقسيم LiveBeauty بنسبة 90٪ – 10٪.

لتهيئة النموذج في MAEM ، تم استخدام VT-B/16 و GPT-2 كمدخلين للصورة والنص ، على التوالي ، تم تهيئتهما بواسطة إعدادات CLIP. ل PAPM ، تم استخدام Swin-T كمدخل صورة قابل للتدريب ، وفقًا لـ SwinFace.

تم استخدام محسّن AdamW ، ومُجدول معدل التعلم مُجدول مع مخطط تسخين خطي تحت مخطط تخفيض كوزيني. تختلف معدلات التعلم عبر مراحل التدريب ، ولكن كل منها كان له حجم.batch من 32 ، لمدة 50 دورة.

نتائج الاختبارات

تظهر نتائج الاختبارات على مجموعات بيانات FAP الثلاثة أعلاه. من بين هذه النتائج ، يذكر المقال:

‘الطريقة المقترحة تحقق المركز الأول وتفوق المركز الثاني بحوالي 0.012 و 0.081 و 0.021 من حيث قيم SROCC على LiveBeauty و MEBeauty و SCUT-FBP5500 على التوالي ، مما يظهر تفوق الطريقة المقترحة.

‘الأساليب IAA أقل من أساليب FAP ، مما يظهر أن الأساليب العامة لتقييم الجماليات تتجاهل الميزات الوجهية المشاركة في الطبيعة الخاضعة للرقابة لجاذبية الوجه ، مما يؤدي إلى أداء سيئ على مهام FAP.

‘أداء جميع الأساليب ينخفض بشكل كبير على MEBeauty. هذا لأن عينات التدريب محدودة والوجوه متنوعة عرقيا في MEBeauty ، مما يشير إلى أن هناك تنوعًا كبيرًا في جاذبية الوجه.

‘جميع هذه العوامل تجعل تنبؤ جاذبية الوجه في MEBeauty أكثر تحديًا.’

الاعتبارات الأخلاقية

البحث في الجاذبية هو مسعى يمكن أن يكون قابلاً للانقسام ، منذ أن يؤسس أنظمة مثل هذه معايير الجمال المزعومة ، وستتميل هذه الأنظمة إلى تعزيز وتعزيز التحيزات حول العمر والعرق والعديد من أقسام البحث في رؤية الكمبيوتر المتعلقة بالبشر.

يمكن أن يُقال إن نظام FAP يعتمد على تحيز وpartiality ، ويمكن أن يؤدي إلى تعزيز وتعزيز التحيزات حول الجاذبية. هذه الأحكام قد تنشأ من التقييمات التي يقودها الإنسان – غالبًا ما تُجرى على مقياس صغير جدًا للتنمية المجال – أو من تحليل أنماط الانتباه في البيئات عبر الإنترنت مثل منصات البث المباشر ، والتي يُعتبر من غير المرجح أن تكون ممتازة.

* يشير المقال إلى المجال المصدر في كلا الشكلين المفرد والجمع.

نشر لأول مرة يوم الأربعاء ، 8 يناير 2025

Martin Anderson

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai