Connect with us

جراحة التجميل للوجوه التي تم إنشاؤها بواسطة GAN

الذكاء الاصطناعي

جراحة التجميل للوجوه التي تم إنشاؤها بواسطة GAN

mm
Improvements in synthetically generated (GAN) images

بحث جديد بحث من كوريا الجنوبية يpromises إلى تحسين جودة البيانات الاصطناعية للوجوه التي تم إنشاؤها بواسطة الشبكات التوليدية المعارضة (GANs).

النظام قادر على تحديد شذوذ الصور التي تم إنتاجها بواسطة عمليات GAN، وتجاوزها، حتى إلى حد استبدال الشعر الذي كان مخفيًا بواسطة قبعة، واستبدال أجزاء الوجه التي كانت مفقودة تمامًا في الأصلي، وإزالة العوائق مثل اليدين والنظارات الشمسية، ويعمل أيضًا بشكل جيد على الإخراج المناظر والهندسي.

GAN correction

اليسار لكل عمود، الإخراج الأصلي ل GAN مع العيوب، متبوعًا بمنهجين آخرين للشذوذ، وأخيرًا بالطريقة المستخدمة من قبل الباحثين الكوريين الجنوبيين. مصدر: https://arxiv.org/pdf/2104.06118.pdf

معظم المناهج الحديثة لتحسين جودة الصور التي تم إنشاؤها بواسطة GAN اتخذت موقفًا بأن الشذوذ هو خطر مهني للعملية، معاملة المنهجية كـ “قوة طبيعية”، والنتائج الأكثر سيكيديلية أو شاذة التي يمكن أن تنتجها كผล ثانوي لا مفر منه.

بدلاً من ذلك، يطرح البحث الكوري الجنوبي في الواقع “إصلاح” الصور المتأثرة بطريقة لا تتداخل مع سلسلة التوليد المستمرة، من خلال تحديد الجوانب التي تسبب الشذوذ، وتقليل أو إزالة تأثيرها في شبكة GAN على مستوى شبه خاضع للإشراف يفوق ويتجاوز الآليات الذاتية التصحيحية الأصلية في هيكل GAN.

لمشروع البحث، كان من الضروري إنشاء مجموعة بيانات موسعة وموسومة يدويًا من الصور التي تأثرت بشكل سيئ بالشذوذ الذي تم إنشاؤه بواسطة GAN. في البداية، استخدم الباحثون مسافة فريتش إنسيشن (FID)، وهو مقياس يقيم جودة إخراج GAN من خلال مقارنة الميزات في الصور، كوحدة مؤهلة. تم استخدام 10,000 صورة مع أعلى درجات FID بين تشغيل 200,000 صورة كوحدات شذوذ منفصلة. بعد ذلك، قام الباحثون بتسمية 2,000 صورة تم إنشاؤها يدويًا، تصنيف كل منها على أنه “عادي” أو متأثر بالشذوذ FID. ثم تم إنشاء نموذج لتصنيف مجموعة البيانات إلى عينة شذوذ، عينة عادية، ونموذج عشوائي من العينات في العالم الحقيقي.

بعد ذلك، تم استخدام خريطة تفعيل الفصل التدرجي (Grad-CAM) لإنشاء أقنعة لمناطق متأثرة بالشذوذ، مما يؤدي بشكل فعال إلى تلقين التسمية اليدوية للعيوب.

Grad-CAM masks

في الصورة أعلاه، تم تطبيق أقنعة Grad-CAM على إخراج من مجموعة بيانات LSUN-Church outdoor، ومجموعة بيانات CelebA-HQ.

من خلال تحليل أفضل 20 نتيجة متأثرة من تشغيل 20,000 صورة، يتم إنشاء أقنعة فصل، والتي يمكن استبدالها بنتائج ممثلة عبر الأجيال (التي من المحتمل أن تكون أكثر دقة أو اقناعًا من الشذوذ) عن طريق خفض تنشيط وحدات إنتاج الشذوذ في الأجيال اللاحقة.

التقييم البشري للتصحيحات أدى إلى أن 53% من الصور “المصلحة” تم تصنيفها على أنها “عادية”، في حين أن 97% من الصور الأصلية لا تزال تظهر تحسينات كبيرة على الأصلي.

يزعم الباحثون أن هذه الطريقة، مع بعض إعادة التجهيز الطفيفة، يمكن تعديلها أيضًا لتناسب StyleGAN2 من NVIDIA.

GAN glasses removal

فوائد البيانات الاصطناعية

بشكل أساسي فيما يتعلق بالبيانات الوجهية، النقص العام في مجموعات البيانات الحقيقية للرؤية الحاسوبية هو عائق أمام الأبحاث المتنوعة في قطاعات بحثية مهمة، مثل التعرف على الوجه، والتعرف على العواطف، والبحوث الطبية، ودراسات المزيد من التجزئة الدقيقة لطوبولوجيا الوجه، من بين مجالات أخرى.

الانتقاد الحالي ضد استخدام البيانات الحرة على الويب وجمع البيانات الحقيقية للوجه بشكل عشوائي للاضافات في قواعد بيانات الوجه هو عائق إضافي للبحث، مع زيادة عدد الدول والبلدان التي تفرض قيودًا على التنقيب عن البيانات على الويب، وappropriation صور وسائل الإعلام الاجتماعية لهذه الأغراض.

على مدار العشر سنوات الماضية، تم تقديم عدد محدود من مجموعات بيانات الوجه المحددة جيدًا قواعد بيانات الوجه كملجأ من هذا النوع من عدم اليقين، مع تحديات بحثية عامة سنوية مركزة حولها. ومع ذلك، يُعتبر أن هذا قد أدى إلى انحراف مشاريع البحث عن منهجياتها بشكل خاص نحو هذه المجموعات، مع نتائج متسقة ومقارنة من سنة إلى أخرى تم الحصول عليها بتكلفة عالية من عدم تنوع المادة المصدر – حالة تزداد سوءًا كل عام يحدد البحث الجديد نفسه في هذه الحدود.

بالإضافة إلى ذلك، تم انتقاد بعض هذه “المجموعات التقليدية” لعدم وجود تنوع عرقي، مما يشير إلى أن هذه النقاط المرجعية قد لا تعتبر موارد مناسبة في المستقبل القريب.

هذا يعني الحاجة إلى بيانات وجه عالية الجودة تكون حقيقية، ولكن حيث تم تحويل الصور الحقيقية “على مسافة” بعيدًا عن التعرف. حتى لو كان استخدام بيانات الوجه الحقيقية “على مسافة” قد يثير مشاكل حول مصدر الوجوه التي تم إنشاؤها بواسطة GAN، فإنه عائق لن يظهر حتى ظهور الآليات القانونية والفنية لجمع البيانات من هذا النوع؛ وعلى الرغم من التغييرات المحتملة في الإطارات القانونية حول هذه القضية، فإنه خطر أقل من استخدام صور الأشخاص الحقيقيين.

قراءة إضافية:

تحسين واقعية الصور الاصطناعية
التصحيح التلقائي لوحدات الشبكات العصبية التوليدية

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai