اتصل بنا للحصول على مزيد من المعلومات

SofGAN: مولد وجه GAN يوفر تحكمًا أكبر

الذكاء الاصطناعي

SofGAN: مولد وجه GAN يوفر تحكمًا أكبر

mm

طور باحثون في شنغهاي والولايات المتحدة نظام توليد صور قائم على GAN يسمح للمستخدمين بإنشاء وجوه جديدة بمستوى غير متوفر حتى الآن من التحكم في الجوانب الفردية مثل الشعر والعينين والنظارات والقوام واللون.

لإثبات تنوع النظام ، قدم المبدعون واجهة على غرار Photoshop حيث يمكن للمستخدم رسم عناصر التجزئة الدلالية مباشرة والتي سيتم إعادة تفسيرها إلى صور واقعية ، والتي يمكن الحصول عليها من خلال الرسم مباشرة على الصور الموجودة.

في المثال أدناه ، يتم استخدام صورة الممثل Daniel Radcliffe كقالب تتبع (والهدف ليس إنتاج صورة مشابهة له ، بل صورة واقعية بشكل عام). عندما يملأ المستخدم عناصر مختلفة ، بما في ذلك الجوانب المنفصلة مثل النظارات ، يتم تحديدها وتفسيرها في صورة رسم الإخراج:

استخدام صورة واحدة كمواد تتبع لصورة شخصية تم إنشاؤها بواسطة SofGAN. المصدر: https://www.youtube.com/watch؟

استخدام صورة واحدة كمواد تتبع لصورة شخصية تم إنشاؤها بواسطة SofGAN. المصدر: https://www.youtube.com/watch؟

أكثر من ورقة مؤهل SofGAN: مولد صور بورتريه بتصميم ديناميكي، ويقودها Anpei Chen و Ruiyang Liu مع باحثين آخرين من جامعة ShanghaiTech وآخر من جامعة كاليفورنيا في سان دييغو.

ميزات فك التشابك

إن المساهمة الأساسية لهذا العمل لا تكمن في توفير تجربة مستخدم سهلة الاستخدام، بل في "فك تشابك" خصائص السمات الوجهية المكتسبة، مثل الوضعية والملمس، مما يسمح لـ SofGAN أيضًا بإنشاء وجوه بزوايا غير مباشرة لوجهة نظر الكاميرا.

من غير المعتاد بين مولدات الوجه القائمة على شبكات الخصومة التوليدية ، يمكن لـ SofGAN تغيير زاوية الرؤية حسب الرغبة ، في حدود مجموعة الزوايا الموجودة في بيانات التدريب. المصدر: https://arxiv.org/pdf/2007.03780.pdf

من غير المعتاد بين مولدات الوجه القائمة على شبكات الخصومة التوليدية ، يمكن لـ SofGAN تغيير زاوية الرؤية حسب الرغبة ، في حدود مجموعة الزوايا الموجودة في بيانات التدريب. المصدر: https://arxiv.org/pdf/2007.03780.pdf

نظرًا لأن الأنسجة أصبحت الآن منفصلة عن الهندسة ، فيمكن أيضًا معالجة شكل الوجه وملمسه ككيانات منفصلة. في الواقع ، هذا يسمح بتغيير العرق لوجه المصدر ، أ ممارسة فضيحة التي لديها الآن تطبيق يحتمل أن يكون مفيدًا ، لـ خلق مجموعات بيانات التعلم الآلي المتوازنة عرقيًا.

يدعم SofGAN أيضًا الشيخوخة الاصطناعية وتعديل النمط المتوافق مع السمات على مستوى حبيبي غير مرئي في أنظمة التجزئة>الصور المماثلة مثل NVIDIA غوغان والرسم العصبي القائم على الألعاب من Intel نظام.

SofGAN قادر على تطبيق الشيخوخة كأسلوب تكراري.

SofGAN قادر على تطبيق الشيخوخة كأسلوب تكراري.

إن الاختراق الآخر لمنهجية SofGAN هو أن التدريب لا يتطلب تقسيمًا مزدوجًا/صورًا حقيقية، بل يمكن تدريبه مباشرة على صور غير مزدوجة من العالم الحقيقي.

يذكر الباحثون أن بنية SofGAN "المُفككة" مستوحاة من أنظمة عرض الصور التقليدية، التي تُحلل جوانب الصورة الفردية. في سير عمل التأثيرات البصرية، تُقسّم عناصر الصورة المركبة عادةً إلى أصغر المكونات، مع وجود متخصصين مُخصصين لكل مكون.

مجال الإشغال الدلالي (SOF)

لتحقيق ذلك في إطار تركيب صور التعلم الآلي ، طور الباحثون ملف مجال الإشغال الدلالي (SOF) ، امتداد لمجال الإشغال التقليدي الذي يفرز العناصر المكونة لصور الوجه. تم تدريب قوات العمليات الخاصة (SOF) على خرائط تجزئة دلالية متعددة المعايرة ، ولكن بدون أي إشراف على الحقيقة الأرضية.

تكرارات متعددة من خريطة تجزئة واحدة (أسفل اليسار).

تكرارات متعددة من خريطة تجزئة واحدة (أسفل اليسار).

بالإضافة إلى ذلك، تُحصَل على خرائط التجزئة ثنائية الأبعاد عن طريق تتبع الأشعة لمخرجات SOF، قبل أن تُصمَّم باستخدام مُولِّد GAN. كما تُرمَّز خرائط التجزئة الدلالية "التركيبية" في مساحة منخفضة الأبعاد عبر مُرمِّز ثلاثي الطبقات لضمان استمرارية الخرج عند تغيير وجهة النظر.

يمزج مخطط التدريب مكانيًا بين نمطين عشوائيين لكل منطقة دلالية:

الهندسة المعمارية لـ SofGAN.

الهندسة المعمارية لـ SofGAN.

يدعي الباحثون أن SofGAN يحقق مسافة أقل لبدء العمل في Frechet (ااا) من الأساليب البديلة الحالية للفن (SOTA) ، بالإضافة إلى تشابه أعلى في تصحيح الصورة الإدراكية المكتسبة (LPIPS) قياس.

كثيرًا ما تم إعاقة أساليب StyleGAN السابقة بسبب تشابك الميزات ، حيث ترتبط العناصر المكونة للصورة ببعضها البعض بشكل لا رجعة فيه ، مما يتسبب في ظهور عناصر غير مرغوب فيها بجانب العنصر المطلوب (على سبيل المثال ، قد تظهر حلقات الأذن عند عرض شكل أذن كان في وقت التدريب من خلال صورة ظهرت حلقات أذن).

يتم استخدام مسار الشعاع لحساب حجم خرائط التجزئة الدلالية ، مما يتيح وجهات نظر متعددة.

مسيرة راي يستخدم لحساب حجم خرائط التجزئة الدلالية ، مما يتيح وجهات نظر متعددة.

مجموعات البيانات والتدريب

تم استخدام ثلاث مجموعات بيانات في تطوير تطبيقات مختلفة لـ SofGAN: CelebAMAsk-HQ، وهو مستودع لـ 30,000 صورة عالية الدقة مأخوذة من مجموعة بيانات CelebA-HQ؛ ومجموعة بيانات Flickr-Faces-HQ التابعة لشركة NVIDIA (FFHQ) ، الذي يحتوي على 70,000 صورة ، حيث قام الباحثون بتسمية الصور بمحلل وجه مدرب مسبقًا ؛ ومجموعة منتجة ذاتيًا من 122 صورة ضوئية مع مناطق دلالية محددة يدويًا.

يتألف SOF من ثلاث وحدات فرعية قابلة للتدريب: الشبكة الفائقة، ومسير الأشعة (انظر الصورة أعلاه)، والمصنف. مُولّد StyleGAN المُحسَّن بمثيلات دلالية (SIW) الخاص بالمشروع مُهيأ بشكل مشابه لـ StyleGAN2 في جوانب مُعينة. يُطبَّق تعزيز البيانات من خلال التدرج العشوائي والقص، وتتميز ميزات التدريب بتنظيم المسار كل أربع خطوات. استغرقت عملية التدريب بأكملها 22 يومًا للوصول إلى 800,000 تكرار على أربع وحدات معالجة رسومية RTX 2080 Ti عبر CUDA 10.1.

لم تذكر الورقة تكوين بطاقات 2080 ، والتي يمكن أن تستوعب ما بين 11 جيجا بايت و 22 جيجا بايت VRAM لكل منها ، مما يعني أن إجمالي VRAM المستخدمة في أفضل جزء من الشهر لتدريب SofGAN يتراوح بين 44 جيجا بايت و 88 جيجا بايت.

لاحظ الباحثون أن النتائج العامة والمقبولة عالية المستوى بدأت في الظهور في وقت مبكر جدًا من التدريب ، بمعدل 1500 تكرار ، بعد ثلاثة أيام من التدريب. تم تناول ما تبقى من التدريب مع الزحف البطيء الذي يمكن التنبؤ به للحصول على التفاصيل الدقيقة مثل جوانب الشعر والعين.

يحقق SofGAN عمومًا نتائج أكثر واقعية من خريطة تقسيم واحدة مقارنة بالطرق المنافسة مثل NIVDIA السيوف و Pix2PixHDو شون.

أدناه هو الفيديو الذي نشره الباحثون. تتوفر المزيد من مقاطع الفيديو ذاتية الاستضافة في صفحة المشروع.

 

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai