Connect with us

نظام ذكاء اصطناعي يمكنه جعل صور الأشخاص أكثر ‘جمالا’

الذكاء الاصطناعي

نظام ذكاء اصطناعي يمكنه جعل صور الأشخاص أكثر ‘جمالا’

mm
Background image: DALL-E 2 'Award-winning 8K photo of the most beautiful Caucasian catwalk model in the world' - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA

قام باحثون من الصين بتطوير نظام تعزيز صورة قائم على الذكاء الاصطناعي الجديد القادر على جعل صور شخص أكثر ‘جمالا’، بناءً على نهج جديد لتعلم التعزيز.

النظام الجديد يستخدم 'شبكة تنبؤ الجمال الوجهي' للتنقل خلال تنوعات على صورة بناءً على عدد من العوامل، من بينها 'الإضاءة' ووضع العين قد تكون عوامل حاسمة. هنا المصادر الأصلية (على يسار كل عمود) من نظام EigenGAN، مع النتائج الجديدة على يمينها. مصدر: https://arxiv.org/pdf/2208.04517.pdf

النظام الجديد يستخدم ‘شبكة تنبؤ الجمال الوجهي’ للتنقل خلال تنوعات على صورة بناءً على عدد من العوامل، من بينها ‘الإضاءة’ ووضع العين قد تكون عوامل حاسمة. هنا المصادر الأصلية (على يسار كل عمود) من نظام EigenGAN، مع النتائج الجديدة على يمينها. مصدر: https://arxiv.org/pdf/2208.04517.pdf

تستند التقنية على الابتكارات المكتشفة لنظام المولد EigenGAN، وهو مشروع صيني آخر، من عام 2021، الذي حقق خطوات ملحوظة في تحديد بعض الجوانب الدلالية داخل فضاء المولدات التوليدية المعارضة (GANs).

كان مولد EigenGAN في عام 2021 قادرًا على تحديد مفاهيم عالية المستوى مثل 'لون الشعر' داخل فضاء المولد التوليدي المعارض. يعمل العمل الجديد على هذا الآلية المبتكرة لتسليم نظام يمكنه 'تجميل' الصور المصدر، دون تغيير الهوية القابلة للتعرف – مشكلة في النهج السابقة.

كان مولد EigenGAN في عام 2021 قادرًا على تحديد مفاهيم عالية المستوى مثل ‘لون الشعر’ داخل فضاء المولد التوليدي المعارض. يعمل العمل الجديد على هذا الآلية المبتكرة لتسليم نظام يمكنه ‘تجميل’ الصور المصدر، دون تغيير الهوية القابلة للتعرف – مشكلة في النهج السابقة. مصدر: https://arxiv.org/pdf/2104.12476.pdf

يستخدم النظام ‘شبكة تقييم الجمال’ مشتقة من SCUT-FBP5500 (SCUT)، وهو مجموعة بيانات مرجعية لتنبؤ الجمال الوجهي من جامعة جنوب الصين للتكنولوجيا في قوانغتشو.

من ورقة عام 2018 'SCUT-FBP5500: مجموعة بيانات متنوعة لتنبؤ الجمال الوجهي متعددة الأنماط'، والتي قدمت 'شبكة تنبؤ الجمال الوجهي' (FBP) قادرة على تصنيف الوجوه من حيث الجاذبية المتصورة، ولكنها لا تستطيع تحويل أو 'ترقية' الوجوه.

من ورقة عام 2018 ‘SCUT-FBP5500: مجموعة بيانات متنوعة لتنبؤ الجمال الوجهي متعددة الأنماط’، والتي قدمت ‘شبكة تنبؤ الجمال الوجهي’ (FBP) قادرة على تصنيف الوجوه من حيث الجاذبية المتصورة، ولكنها لا تستطيع تحويل أو ‘ترقية’ الوجوه. مصدر: https://arxiv.org/pdf/1801.06345.pdf

على عكس العمل الجديد، لا يمكن للمشروع في عام 2018 تنفيذ التحويلات، ولكنه يحتوي على أحكام قيمية خوارزمية ل 5,500 وجه، تم توفيرها بواسطة 60 مصنفًا من الجنسين (تقسيم 50/50). تم دمج هذه الأحكام في النظام الجديد كمنظم فعال، لتحديد التحويلات التي قد تزيد من ‘جاذبية’ الصورة.

من المثير للاهتمام أن الورقة الجديدة تحمل عنوان توليد الوجه الجميل القابل للتحكم بالسمات بواسطة تعلم التعزيز الموجه بالجمال. السبب في استبعاد جميع الأجناس باستثناء الكوكاسيون من النظام (وضع في الاعتبار أيضًا أن الباحثين أنفسهم صينيون) هو أن بيانات المصدر ل SCUT تميل بشكل ملحوظ إلى المصادر الآسيوية (4000 أنثى وذكور آسيويين متساويين، 1500 أنثى وذكور كوكاسيون متساويين)، مما يجعل ‘الشخص العادي’ في تلك المجموعة البيانات ذا شعر بني وعينين بنيتين.

لذلك، من أجل توفير تباين في الألوان على الأقل داخل سلالة واحدة، كان من الضروري استبعاد المكون الآسيوي من البيانات الأصلية، أو الذهاب إلى المصاريف الكبيرة لإعادة بناء البيانات لتطوير طريقة قد لا تنجح. بالإضافة إلى ذلك، فإن تباين تصورات الجمال الثقافية يؤدي حتمًا إلى أنظمة مثل هذه تحتاج إلى بعض الدرجة من التكوين الجغرافي فيما يتعلق بما يشكل ‘الجاذبية’.

السمات ذات الصلة

لتحديد العوامل الرئيسية المساهمة في صورة ‘جميلة’ لشخص، قام الباحثون أيضًا باختبار تأثير التغييرات المختلفة على الصور، من حيث كيفية تحسين هذه التعديلات تصور الخوارزمية للجمال. لقد وجدوا أن أحد هذه الجوانب على الأقل أكثر مركزية لتصوير جيد من علم الوراثة:

بالإضافة إلى الإضاءة، كانت الجوانب التي كان لها أكبر تأثير على تقييم الجمال هي الشعر، وموضع الجسم، ووضع العين (حيث يمكن أن يكون الانخراط مع نقطة نظر الكاميرا محفزًا للجاذبية).

(فيما يتعلق بـ ‘لون الشفاه’، لا يفرق النظام الجديد، الذي يمكنه العمل بشكل فعال على كل من العروض الذكورية والأنثوية للجنس، بين مظهر الجنس، ولكنه يعتمد على نظام المنظم الجديد كـ ‘مرشح’ في هذا الصدد)

الطريقة

تعتمد دالة المكافأة في آلية تعلم التعزيز في النظام الجديد على انحدار بسيط عبر بيانات SCUT، والتي تُخرج تنبؤات الجمال الوجهي.

يتكرر نظام التدريب عبر الصور الإدخالية (الأسفل اليسار في المخطط أدناه). في البداية، يستخرج نموذج ResNet18 المُتدرب مسبقًا (مُتدرب على ImageNet) الميزات من الصور الخمس المتطابقة (‘y’). بعد ذلك، يتم اشتقاق إجراء تحويلي محتمل من حالة مخفية لطبقة متصلة بالكامل (GRUCell، في الصورة أدناه)، وتطبيق التحويلات، مما يؤدي إلى خمس صور معدلة يتم إدخالها في شبكة تقييم الجمال، والتي ستحدد تصنيفاتها، بطريقة داروينية، أي التغييرات سوف يتم تطويرها وأيها سيتم التخلص منها.

تخطيط عام لتدفق العمل لنظام جديد.

تخطيط عام لتدفق العمل لنظام جديد.

تستخدم شبكة تقييم الجمال وحدة انتباه قناة كفاءة (ECA)، بينما يتم تكليف نسخة مُعدلة مسبقًا من EfficientNet-B4 باستخراج 1,792 ميزة من كل صورة.

بعد التطبيع من خلال دالة تنشيط ReLU، يتم الحصول على متجه رباعي الأبعاد مرة أخرى من وحدة ECA، والتي يتم تحويلها إلى متجه أحادي البعد بعد التنشيط والتعديل المتوسط المتكيف. أخيرًا، يتم إدخال النتائج في شبكة الانحدار، التي تُخرج تقييم الجمال.

مقارنة نوعية للخرج من النظام. في الصف السفلي، نرى مجموع جمعي لجميع الجوانب الفردية التي تم تحديدها بواسطة طريقة EigenGAN وتم تحسينها بعد ذلك. تقييمات FID المتوسطة للصور هي على يسار صفوف الصور (الأعلى هو الأفضل).

مقارنة نوعية للخرج من النظام. في الصف السفلي، نرى مجموع جمعي لجميع الجوانب الفردية التي تم تحديدها بواسطة طريقة EigenGAN وتم تحسينها بعد ذلك. تقييمات FID المتوسطة للصور هي على يسار صفوف الصور (الأعلى هو الأفضل).

الاختبارات ودراسة المستخدم

تم تقييم خمسة متغيرات من الطريقة المقترحة خوارزميًا (انظر الصورة أعلاه)، مع تعيين تقييمات المسافة الفريتشة للانCEPTION (FID، مثير للجدل في بعض الأوساط) ل 1000 صورة تم تمريرها عبر النظام.

يشير الباحثون إلى أن تحسين الإضاءة حقق تقييم جاذبية أفضل للموضوعات في الصور أكثر من بعض التغييرات الأخرى الأكثر ‘وضوحًا’ المحتملة (أي إلى المظهر الفعلي للشخص المُصوَّر).

يمكن القول إن اختبار النظام بهذه الطريقة محدود بخصوصيات بيانات SCUT، التي لا تحتوي على العديد من ‘الابتسامات السعيدة’، ويجادل المؤلفون بأن هذا قد يُفرط في تصنيف النظرة ‘الغامضة’ الشائعة في البيانات، بالمقارنة مع تفضيلات المستخدمين النهائيين المحتملين (على الأرجح، في هذه الحالة، سوق غربي).

ومع ذلك، منذ أن يعتمد النظام بأكمله على آراء متوسطة ل 60 شخصًا فقط (في ورقة EigenGAN)، ومنذ أن الجودة التي يتم دراستها بعيدة عن التجربة، يمكن القول إن الإجراء أكثر صوتية من مجموعة البيانات.

على الرغم من أنه يتم التعامل معه بشكل موجز في الورقة، تم عرض الصور من EigenGAN وخمسة متغيرات من نظام على دراسة مستخدم محدودة (ثمانية مشاركين)، الذين تم سؤالهم عن اختيار ‘أفضل صورة’ (تم تجنب كلمة ‘جاذبية’).

أعلى، واجهة المستخدم الرسومية المعروضة على مجموعة الدراسة الصغيرة؛ أدناه، النتائج.

أعلى، واجهة المستخدم الرسومية المعروضة على مجموعة الدراسة الصغيرة؛ أدناه، النتائج.

تشير النتائج إلى أن خرج النظام الجديد حقق أعلى معدل اختيار بين المشاركين (‘MAES’ في الصورة أعلاه).

مطاردة الجمال (بدون هدف؟)

من الصعب تحديد فائدة نظام مثل هذا، على الرغم من ما يبدو أنه محور ملحوظ من الجهد في الصين نحو هذه الأهداف. لا يتم تحديدها في المنشور الجديد.

يشير ورقة EigenGAN السابقة إلى أن نظام التعرف على الجمال يمكن استخدامه في أنظمة توصية التجميل الوجهي، والجراحة التجميلية، وتجميل الوجه، أو استرجاع الصور القائمة على المحتوى.

يمكن استخدام هذا النهج أيضًا في مواقع التعارف، من قبل المستخدمين، لتحسين صور ملفاتهم الشخصية إلى ‘صورة حظية’ مضمونة، كبديل لاستخدام الصور القديمة، أو الصور لأشخاص آخرين.

يمكن أن تستخدم مواقع التعارف نفسها أيضًا ‘تقييم’ عملائها لإنشاء تصنيفات وربما حتى مستويات الوصول المقيدة، على الرغم من أن هذا سيكون فقط من خلال عملية التحقق من الحية، وليس من خلال الصور المُقدَّمة (التي يمكن أيضًا ‘تحسينها’ من قبل العملاء، إذا أصبحت هذه الطريقة شائعة).

في الإعلان، يمكن استخدام طريقة خوارزمية لتقييم الجمال (تكنولوجيا متوقعة من قبل الكاتب الخيالي الراحل مايكل كريختون في ظهوره السينمائي عام 1982 Looker) لتحديد الإخراج الإبداعي غير المحسن الأكثر احتمالًا لجذب جمهور الهدف، بينما يمكن أن يزيد القدرة الفعلية على تعزيز التأثير الجمالي للصور الوجهية، دون الكتابة فوقها بالطريقة التي تستخدمها Deepfakes، من الصور الفعالة بالفعل الموجهة لجذب الاهتمام العام.

يدعم العمل الجديد من قبل مؤسسة العلوم الطبيعية الوطنية الصينية، ومشروع Fond الخاص بمعهد الدولة لمعالجة الأنظمة المعقدة والتحكم، ومشروع البحث في الفلسفة والعلوم الاجتماعية من وزارة التعليم الصينية، من بين داعمين آخرين.

 

* تشير العديد من توصيات ورقة EigenGAN إلى كتاب تجاري متوفر عام 2016 بعنوان ‘نماذج حاسوبية لتحليل الجمال الوجهي’، بدلاً من الموارد الأكاديمية.

نشر لأول مرة في 11 أغسطس 2022.

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai