الذكاء الاصطناعي
نظام ذكاء اصطناعي يمكنه جعل صور الأشخاص أكثر "جمالاً"

طور باحثون من الصين نظامًا جديدًا لتحسين الصور يعتمد على الذكاء الاصطناعي ، وهو قادر على جعل صور الشخص أكثر "جمالًا" ، بناءً على نهج جديد للتعلم المعزز.

يستخدم النهج الجديد "شبكة التنبؤ بجمال الوجه" للتكرار من خلال الاختلافات في الصورة بناءً على عدد من العوامل ، من بينها "الإضاءة" ووضعية العين التي قد تكون عوامل حاسمة. هنا المصادر الأصلية (على يسار كل عمود) مأخوذة من نظام EigenGAN ، مع النتائج الجديدة على يمينها. المصدر: https://arxiv.org/pdf/2208.04517.pdf
تعتمد التقنية على الابتكارات المكتشفة لـ مولد EigenGAN، مشروع صيني آخر ، من عام 2021 ، قطع خطوات ملحوظة في تحديد واكتساب بعض السيطرة على التنوع السمات الدلالية ضمن المساحة الكامنة لشبكات الخصومة التوليدية (GANs).

كان مولد EigenGAN 2021 قادرًا على تمييز المفاهيم عالية المستوى مثل `` لون الشعر '' ضمن المساحة الكامنة لشبكة الخصومة التوليدية. يعتمد العمل الجديد على هذه الأداة المبتكرة لتقديم نظام يمكنه "تجميل" صور المصدر ، ولكن دون تغيير الهوية التي يمكن التعرف عليها - وهي مشكلة في الأساليب السابقة. المصدر: https://arxiv.org/pdf/2104.12476.pdf
يستفيد النظام من "شبكة نقاط الجماليات" المشتقة من سكوت- FBP5500 (SCUT) ، مجموعة بيانات مرجعية 2018 للتنبؤ بجمال الوجه ، من جامعة جنوب الصين للتكنولوجيا في قوانغتشو.

من ورقة 2018 'SCUT-FBP5500: مجموعة بيانات مرجعية متنوعة للتنبؤ بجمال الوجه متعدد النماذج' ، والتي قدمت شبكة `` التنبؤ بجمال الوجه '' (FBP) القادرة على ترتيب الوجوه من حيث الجاذبية المتصورة ، ولكنها لا يمكن أن تتحول في الواقع أو "ترقية" الوجوه. المصدر: https://arxiv.org/pdf/1801.06345.pdf
على عكس العمل الجديد ، لا يمكن لمشروع 2018 تنفيذ التحولات فعليًا ، ولكنه يحتوي على أحكام قيمة خوارزمية لـ 5,500 وجه ، يتم توفيرها بواسطة 60 من مصنعي الجنس المختلط (تقسيم 50/50). وقد تم دمج هذه في النظام الجديد باعتبارها فعالة مميز، لإبلاغ التحولات التي من المحتمل أن تعزز "جاذبية" الصورة.
ومن المثير للاهتمام، و ورقة جديدة بعنوان اطلق العنان للوجه القوقازي الجميل الذي يمكن التحكم فيه من خلال التعلم المعزز القائم على الجماليات. السبب في استبعاد جميع الأجناس باستثناء القوقاز من النظام (ضع في اعتبارك أيضًا أن الباحثين أنفسهم صينيين) هو أن بيانات المصدر لـ SCUT تنحرف بشكل ملحوظ إلى المصادر الآسيوية (4000 أنثى / ذكر آسيوي مقسم بالتساوي ، 1500 أنثى قوقازية مقسمة بالتساوي / الذكور) ، مما يجعل "الشخص العادي" في مجموعة البيانات تلك بني الشعر وبني العينين.
لذلك ، من أجل استيعاب تباين التلوين على الأقل ضمن عرق واحد ، كان من الضروري استبعاد المكون الآسيوي من البيانات الأصلية ، أو الانتقال إلى حساب كبير لإعادة تكوين البيانات لتطوير طريقة ربما لم يتم التخلص منها. بالإضافة إلى ذلك، الاختلاف في المفاهيم الثقافية للجمال يعني حتما أن مثل هذه الأنظمة ستحتاج إلى درجة معينة من التكوين الجغرافي فيما يتعلق بما يشكل "الجاذبية".
السمات ذات الصلة
لتحديد العوامل الأساسية المساهمة في الصورة "الجذابة" لشخص ما ، اختبر الباحثون أيضًا تأثير التغييرات المختلفة على الصور ، من حيث مدى نجاح مثل هذه التعزيزات في تعزيز الإدراك الحسابي لـ "الجمال". لقد وجدوا أن جانبًا واحدًا على الأقل من الجوانب أكثر أهمية في التصوير الفوتوغرافي الجيد من الجينات الجيدة:
إلى جانب الإضاءة ، كانت الجوانب التي كان لها أكبر تأثير على درجة الجمال هي الانفجارات (والتي ، في حالة الرجال ، يمكن أن تكون في الغالب مساوية لامتلاك رأس كامل للشعر على الإطلاق) ، ووضعية الجسم ، وتصرف العين (حيث المشاركة مع وجهة نظر الكاميرا هي عامل جذب للجاذبية).
(فيما يتعلق بـ `` لون أحمر الشفاه '' ، فإن النظام الجديد ، الذي يمكن أن يعمل بفعالية على كل من العروض التقديمية للذكور والإناث للجنس ، لا يميز المظهر الجنساني ، بل يعتمد على نظام التمييز الجديد باعتباره `` مرشحًا '' في هذا الصدد)
خدمة التوصيل
يتم تشغيل وظيفة المكافأة في آلية التعلم المعزز في النظام الجديد من خلال الانحدار المباشر على بيانات SCUT ، والتي تنتج تنبؤات جمال الوجه.
يتكرر نظام التدريب على صور إدخال البيانات (أسفل اليسار في المخطط أدناه). في البداية تم اختباره مسبقًا ريسنت 18 نموذج (تم تدريبه على IMAGEnet) يستخرج ميزات من الصور الخمس المتطابقة ("y"). بعد ذلك ، يتم اشتقاق إجراء تحويلي محتمل من الحالة المخفية لـ طبقة متصلة بالكامل (غروسيل، في الصورة أدناه) ، والتحولات المطبقة ، مما أدى إلى خمس صور متغيرة يتم إدخالها في شبكة نقاط الجماليات ، والتي ستحدد تصنيفاتها ، بأسلوب داروين ، الاختلافات التي سيتم تطويرها وأيها سيتم التخلص منها.
تستخدم شبكة نقاط الجماليات الانتباه الفعال للقناة (ACE) ، أثناء تكييف مثيل تم تدريبه مسبقًا من شبكة فعالة-B4 تم تكليفه باستخراج 1,792 سمة من كل صورة.
بعد التطبيع من خلال أ وظيفة تنشيط ReLU، يتم الحصول على متجه رباعي الأبعاد مرة أخرى من وحدة ECA ، والتي يتم تسويتها بعد ذلك إلى ناقل أحادي البعد بعد التنشيط و متوسط التجميع التكيفي. أخيرًا ، يتم إدخال النتائج في ملف شبكة الانحدار، والتي تسترجع النتيجة الجمالية.

مقارنة نوعية لمخرجات النظام. في الصف السفلي ، نرى المجموع الكلي لجميع الأوجه الفردية التي تم تحديدها بواسطة طريقة EigenGAN وتم تحسينها لاحقًا. درجات FID المتوسطة للصور موجودة على يسار صفوف الصورة (الأعلى هو الأفضل).
الاختبارات ودراسة المستخدم
تم تقييم خمسة متغيرات للطريقة المقترحة بطريقة حسابية (انظر الصورة أعلاه) ، مع مسافة بداية Fréchet (FID ، مثير للجدل في بعض الأوساط) يتم تعيين الدرجات إلى إجمالي 1000 صورة يتم وضعها من خلال النظام.
لاحظ الباحثون أن تحسين الإضاءة حقق درجة جاذبية أفضل للأشخاص في الصور مقارنة بالعديد من التغييرات المحتملة الأخرى "الواضحة" (أي المظهر الفعلي للشخص المصور).
إلى حد ما ، يكون اختبار النظام بهذه الطريقة مقيدًا بغرابة الأطوار في بيانات SCUT ، والتي لا تحتوي على العديد من "الابتسامات الساطعة" ، ويرى المؤلفون أن هذا يمكن أن يبالغ في ترتيب المظهر "الغامض" الأكثر نموذجية في البيانات ، بالمقارنة مع التفضيلات المحتملة للمستخدمين النهائيين المستهدفين المحتملين (يفترض ، في هذه الحالة ، السوق الغربية).
ومع ذلك ، نظرًا لأن النظام بأكمله معلق على متوسط آراء 60 شخصًا فقط (في ورقة EigenGAN) ، وبما أن الجودة قيد الدراسة بعيدة كل البعد عن كونها تجريبية ، يمكن القول أن الإجراء أكثر صحة من مجموعة البيانات.
على الرغم من أنه تم تناولها بإيجاز شديد في الورقة ، فقد تم أيضًا عرض الصور من EigenGAN والمتغيرات الخمسة الخاصة بالنظام في دراسة مستخدم محدودة (ثمانية مشاركين) ، الذين طُلب منهم اختيار "أفضل صورة" (كانت كلمة "جذابة" هي تجنب).

أعلاه ، عرضت واجهة المستخدم الرسومية لمجموعة الدراسة الصغيرة ؛ أدناه ، النتائج.
تشير النتائج إلى أن مخرجات النظام الجديد حققت أعلى معدل اختيار بين المشاركين ("MAES" في الصورة أعلاه).
السعي وراء الجمال
يصعب تحديد فائدة مثل هذا النظام ، على الرغم مما يبدو أنه ملف جدير بالذكر مواضع of جهد in الصين نحو هذه الأهداف. لم يرد أي شيء في المنشور الجديد.
تقترح ورقة EigenGAN السابقة * أنه يمكن استخدام نظام التعرف على الجمال في الوجه أنظمة توصية تركيب الماكياج، الجراحة التجميلية، تجميل الوجه، أو استرجاع الصور على أساس المحتوى.
يُفترض أنه يمكن أيضًا استخدام مثل هذا النهج في مواقع المواعدة ، بواسطة المستخدمين النهائيين ، من أجل "تحسين" صور ملفاتهم الشخصية في "لقطة محظوظة" مضمونة ، كبديل لاستخدام الصور القديمة ، أو الصور لأشخاص آخرين.
وبالمثل ، يمكن لمواقع المواعدة نفسها أيضًا "تسجيل" عملائها لإنشاء تقييمات وحتى طبقات الوصول المقيد، على الرغم من أن هذا من المفترض أن يعمل فقط من خلال التقاط المصادقة الحية ، بدلاً من الصور المقدمة (والتي يمكن أيضًا تحسينها من قبل العملاء ، إذا كان النهج سيصبح شائعًا).
في الإعلان ، طريقة حسابية لتقييم الجمال (تقنية تنبأ بها مؤلف الخيال العلمي الراحل مايكل كريشتون في نزهة سينمائية عام 1982 متسكع) يمكن استخدامها لاختيار المخرجات الإبداعية غير المحسّنة التي من المرجح أن تجذب الجمهور المستهدف، في حين أن القدرة على تعظيم التأثير الجمالي لصور الوجه، دون الكتابة فوقها فعليًا بأسلوب التزييف العميق، يمكن أن تعزز الصور الفعالة بالفعل المقصودة لكسب المصلحة العامة.
يتم دعم العمل الجديد من قبل المؤسسة الوطنية للعلوم الطبيعية في الصين ، ومشروع الصندوق المفتوح لمختبر الدولة الرئيسي لإدارة النظام المعقد والتحكم فيه ، ومشروع الفلسفة وبحوث العلوم الاجتماعية من وزارة التعليم الصينية ، من بين مؤيدين آخرين.
* تشير العديد من توصيات ورقة EigenGAN إلى كتاب 2016 المتاح تجاريًا بعنوان "نماذج الكمبيوتر لتحليل جمال الوجه" ، بدلاً من الموارد الأكاديمية.
نُشر لأول مرة في 11 أغسطس 2022.