الذكاء الاصطناعي

الجراحة التجميلية للوجوه المولدة من GAN

تم النشر 14 نيسان 2021

تحديث 9 يوليو، 2021

مارتن أندرسون

تحسينات في الصور التي تم إنشاؤها صناعيًا (GAN)

جديد بحث من كوريا الجنوبية يعد بتحسين جودة بيانات الوجه التركيبية التي أنشأتها شبكات الخصومة التوليدية (GANs).

النظام قادر على التعرف على القطع الأثرية في الصورة التي تنتجها عمليات GAN ، ومعالجتها ، حتى لدرجة استبدال الشعر الذي كان محجوبًا بغطاء ، واستبدال أجزاء الوجه المفقودة تمامًا في الأصل ، وإزالة الانسدادات مثل اليدين والنظارات الشمسية ، ويعمل أيضًا بشكل جيد على المخرجات ذات المناظر الخلابة والمعمارية.

يُترك لكل عمود ، ناتج GAN الأصلي مع وجود عيوب ، متبوعًا بمقاربتين أخريين للقطع الأثرية ، وأخيراً بالطريقة التي استخدمها الباحثون الكوريون الجنوبيون. المصدر: https://arxiv.org/pdf/2104.06118.pdf

اتخذت معظم الأساليب الحديثة لتحسين جودة الصور التي تم إنشاؤها بواسطة شبكات GAN موقفًا مفاده أن القطع الأثرية تشكل خطرًا مهنيًا على العملية، ومعاملة المنهجية باعتبارها "قوة من قوى الطبيعة"، والنتائج الأكثر تشويقًا أو انحرافًا التي يمكن أن تنتجها هي نتيجة ثانوية لا مفر منها.

وبدلاً من ذلك، يقترح البحث الكوري الجنوبي "إصلاح" الصور المتأثرة بطريقة لا تتداخل مع سلسلة التوليد المستمرة، من خلال تحديد الجوانب التي تسبب الآثار، وتقليل أو القضاء على تأثيرها في شبكة GAN على مستوى شبه خاضع للإشراف يتجاوز ويمتد إلى آليات التصحيح الذاتي الأصلية في بنية GAN.

بالنسبة للمشروع ، كان من الضروري إنشاء مجموعة بيانات ذات علامات يدوية قابلة للتطبيق على نطاق واسع من الصور التي تأثرت بشدة بقطع GAN الأثرية. في البداية ، استخدم الباحثون Frechet Inception Distance (ااا)، وهو متري يُقيّم هذا النظام جودة مخرجات الشبكة التوليدية التنافسية (GAN) بمقارنة خصائص الصور، كوحدة تأهيل. استُخدمت الصور العشرة آلاف التي حققت أعلى درجات FID من بين 10,000 ألف صورة كوحدات منفصلة من "العناصر المصطنعة". بعد ذلك، قام الباحثون بتسمية 200,000 صورة مُولّدة يدويًا، مُصنّفين كل صورة على أنها "طبيعية" أو متأثرة بعناصر FID. ثم أُنشئ نموذج لتصنيف مجموعة البيانات إلى عينات مصطنعة، وطبيعية، وعشوائية من العالم الحقيقي.

بعد ذلك ، تعيين تنشيط فئة التدرج المرجح (جراد كام) لإنشاء أقنعة للمناطق المتضررة من القطع الأثرية ، مما يؤدي بشكل فعال إلى أتمتة وسم العيوب.

في الصورة أعلاه ، تم تطبيق أقنعة Grad-CAM للإخراج من ملف LSUN- الكنيسة في الهواء الطلق مجموعة البيانات و مجموعة بيانات CelebA-HQ.

من خلال تحليل النتائج العشرين الأكثر تضررًا من تشغيل 20 صورة ، يتم إنشاء أقنعة تجزئة ، حيث يمكن استبدال النتائج الممثلة للمنطقة عبر الأجيال (والتي من المحتمل أن تكون أكثر دقة أو إقناعًا من القطع الأثرية) عن طريق خفض تنشيط وحدات إنتاج القطع الأثرية في الأجيال اللاحقة.

وأدى التقييم البشري للتصحيحات إلى تصنيف 53% من الصور "التي تم إصلاحها" على أنها "طبيعية"، في حين لا تزال 97% من الصور الأصلية تُظهر تحسينات كبيرة على الصور الأصلية.

يزعم الباحثون أن هذه الطريقة، مع بعض التعديلات الطفيفة، يمكن أيضًا تكييفها مع NVIDIA النمط.

فوائد البيانات الاصطناعية

في المقام الأول فيما يتعلق ببيانات الوجه، فإن الندرة العامة لمجموعات بيانات العالم الحقيقي للرؤية الحاسوبية تمثل عائقًا أمام الأبحاث المتنوعة في قطاعات البحث المهمة، مثل التعرف على الوجه، والتعرف على المشاعر، والأبحاث الطبية، والدراسات التي تتناول التقسيم الأكثر تفصيلاً لطوبولوجيا العين. الوجه، من بين مجالات أخرى مختلفة.

رد الفعل الحالي تجاه الاستخدام المجاني للبيانات التي تواجه الويب و مجموعة مخصصة من صور الوجوه الواقعية لإدراجها في قواعد بيانات الوجوه يمثل عقبة إضافية أمام البحث ، مع تزايد عدد الدول والدول تضييق الخناق on تجريف على شبكة الإنترنت، وتخصيص صور على مواقع التواصل الاجتماعي لهذه الأغراض.

على مدى السنوات العشر الماضية ، كان هناك عدد محدود من المنسقين بشدة مجموعات بيانات الوجه قدموا ملاذًا من هذا النوع من عدم اليقين ، مع العديد من التحديات البحثية العامة السنوية التي تتمحور حولهم. ومع ذلك ، يمكن القول إن هذا قد أدى إلى مشاريع بحثية تحرف منهجياتها على وجه التحديد نحو مجموعات البيانات هذه ، مع نتائج متسقة وقابلة للمقارنة على أساس سنوي تم الحصول عليها بتكلفة عالية لعدم وجود تنوع في المواد المصدر - وهو وضع يزداد سوءًا كل عام بحث جديد يقصر نفسه على هذه الحدود.

بالإضافة إلى ذلك، أصبحت بعض مجموعات البيانات "التقليدية" هذه تحت النقد لعدم وجود التنوع العرقي ، مما يشير إلى أن هؤلاء النشطاء المعياريين قد لا يتم اعتبارهم موارد مناسبة في المستقبل القريب.

هذا يدل على الحاجة إلى بيانات وجوه عالية الجودة وواقعية، ولكن صور "العالم الحقيقي" المساهمة فيها قد حُوِّلت إلى درجة يصعب معها التعرف عليها. حتى لو كان هذا الاستخدام لبيانات الوجوه الحقيقية "بمعزل عن بعضها البعض" قد يُثير في النهاية مشاكل حول مصدر إن استخدام الوجوه التي يتم إنشاؤها بواسطة شبكات GAN يمثل عقبة من غير المرجح أن تظهر حتى يتم إنشاء آليات قانونية وتقنية لجمع البيانات من هذا النوع؛ وفيما يتعلق بالتغييرات المحتملة في الأطر القانونية حول هذه القضية، فإنها لا تزال تشكل خطراً أقل من استخدام صور الأشخاص الحقيقيين.

قراءة متعمقة:

تحسين واقعية الصور التركيبية
التصحيح التلقائي للوحدات الداخلية في الشبكات العصبية التوليدية

مارتن أندرسون

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai

اتحدوا

الجراحة التجميلية للوجوه المولدة من GAN

فوائد البيانات الاصطناعية

قراءة متعمقة:

قد يعجبك