Connect with us

إدارة التوليف الوجهي مع التجزئة الدلالية

الذكاء الاصطناعي

إدارة التوليف الوجهي مع التجزئة الدلالية

mm

مشكلة اختراع الوجوه البشرية باستخدام شبكة معارضة توليدية (GAN) هي أن البيانات الحقيقية في العالم التي تغذي الصور الكاذبة تأتي مع إضافات غير مرغوب فيها وغير قابلة للفصل ، مثل الشعر على الرأس (و / أو الوجه) ، والخلفيات ، وأشكال مختلفة من أثاث الوجه ، مثل النظارات ، والقبعات ، والأقراط ؛ وأن هذه الجوانب المحيطية للشخصية تتعزز بالضرورة في هوية “مصهرة”.

تحت معظم هياكل GAN الشائعة ، هذه العناصر لا يتم تناولها في مساحة مخصصة خاصة بها ، ولكنها ترتبط بشكل وثيق بالوجه في (أو حول) الذي يتم تعبئته.

ليس من الممكن عادة أن يُفرض أو يُؤثر على مظهر “أقسام فرعية” من الوجه الذي تم إنشاؤه بواسطة GAN ، مثل تضييق العيون ، أو إطالة الأنف ، أو تغيير لون الشعر بالطريقة التي يمكن للفنان في رسم الصور أن يفعلها.

然而 ، قطاع أبحاث التوليف الصوري يعمل عليه:

أبحاث جديدة في توليد الوجه باستخدام GAN قد فصلت أقسام مختلفة من الوجه إلى مناطق منفصلة ، كل منها مع مولد خاص ، يعمل بالتزامن مع مولدات أخرى للصورة. في الصف الوسط ، نرى خريطة الميزة التي تدير بناء مناطق إضافية من الوجه. مصدر: https://arxiv.org/pdf/2112.02236.pdf

أبحاث جديدة في توليد الوجه باستخدام GAN قد فصلت أقسام مختلفة من الوجه إلى مناطق منفصلة ، كل منها مع مولد خاص ، يعمل بالتزامن مع مولدات أخرى للصورة. في الصف الوسط ، نرى خريطة الميزة التي تدير بناء مناطق إضافية من الوجه. مصدر: https://arxiv.org/pdf/2112.02236.pdf

في ورقة جديدة ورقة ، استخدم الباحثون من الفرع الأمريكي للشركة التكنولوجية الصينية متعددة الجنسيات بايت دانس التجزئة الدلالية لتقسيم أجزاء الوجه إلى أقسام منفصلة ، كل منها يتم تخصيصه بمولد خاص ، بحيث يمكن تحقيق درجة أعلى من الفصل. أو على الأقل ، فصل إدراكي.

الورقة بعنوان SemanticStyleGAN: تعلم الأولويات التوليدية التركيبية للتحكم في التوليف الصوري وتحريره ، وترافقها صفحة مشروع غنية بالوسائط صفحة مشروع تampilkan أمثلة متعددة للتحولات الدقيقة التي يمكن تحقيقها عند عزل عناصر الوجه والرأس بهذه الطريقة.

يمكن الآن فصل نصوع الوجه ، وأسلوب الشعر ، ولون الشعر ، وشكل العين ، ولون العين ، والعديد من الجوانب الأخرى للسمات التي تم إنشاؤها بواسطة GAN ، على الرغم من أن جودة الفصل ومستوى الآلية قد تختلف عبر الحالات. مصدر: https://semanticstylegan.github.io/

يمكن الآن فصل نصوع الوجه ، وأسلوب الشعر ، ولون الشعر ، وشكل العين ، ولون العين ، والعديد من الجوانب الأخرى للسمات التي تم إنشاؤها بواسطة GAN ، على الرغم من أن جودة الفصل ومستوى الآلية قد تختلف عبر الحالات. مصدر: https://semanticstylegan.github.io/

الفضاء الكامن غير الخاضع للرقابة

شبكة معارضة توليدية مدربة على توليد الوجوه – مثل مولد StyleGan2 الذي يدير الموقع الشهير thispersondoesnotexist.com – تكوين علاقات معقدة بين “الميزات” (ليس في المعنى الوجهي) التي يستمدونها من تحليل آلاف الوجوه الحقيقية في العالم ، من أجل تعلم كيفية صنع وجوه بشرية واقعية بأنفسهم.

تعد هذه العمليات السرية “رموز كامنة” ، وتسمى مجتمعة الفضاء الكامن. من الصعب تحليلها ، وبالتالي من الصعب آليتها.

الأسبوع الماضي ، ظهر مشروع جديد لتوليف الصور ي试 أن “يخريطة” هذا الفضاء القريب من الغيب خلال عملية التدريب نفسها ، ثم استخدام هذه الخرائط للتنقل فيها بشكل تفاعلي ، ومقترحات أخرى قد تم اقتراحها للوصول إلى سيطرة أعمق على المحتوى المولّد بواسطة GAN.

تم إحراز بعض التقدم ، مع مجموعة متنوعة من هياكل GAN التي تحاول “الوصول” إلى الفضاء الكامن بطريقة ما والسيطرة على توليد الوجه من هناك. تشمل هذه الجهود InterFaceGAN ، StyleFlow ، GANSpace ، و StyleRig ، من بين عروض أخرى في تدفق مستمر من الأوراق الجديدة.

ما يجمعهما هو درجات محدودة من الفصل ؛ تمایلات واجهة المستخدم الرائعة للعديد من الجوانب (مثل “الشعر” أو “التعبير”) تميل إلى سحب الخلفية و / أو عناصر أخرى إلى عملية التحويل ، ولا واحدة منهم (بما في ذلك الورقة المناقشة هنا) قد حلت مشكلة الشعر العصبي الزمني.

تقسيم الفضاء الكامن وغزوه

على أي حال ، يأخذ بحث بايت دانس نهجًا مختلفًا: بدلاً من محاولة فك لغز شبكة GAN واحدة تعمل على صورة الوجه كاملة ، يصيغ SemanticStyleGAN نهجًا قائمًا على التصميم ، حيث يتم تكوين الوجوه بواسطة عمليات مولد منفصلة.

为了 تحقيق هذا التمييز في الميزات (الوجهية) ، يستخدم SemanticStyleGAN ميزات فورييه لتوليد خريطة تقسيم دلالية (تمييزات ملونة خشنة لطوبوغرافيا الوجه ، كما هو موضح في الزاوية السفلى اليمنى من الصورة أدناه) لفصل مناطق الوجه التي ستتلقى انتباهاً فردياً ومكرساً.

هندسة النهج الجديد ، الذي يفرض طبقة وسيطة من التجزئة الدلالية على الوجه ، مما يجعله في الواقع يتحول إلى مدير لمولدات متعددة لأوجه مختلفة من الصورة.

هندسة النهج الجديد ، الذي يفرض طبقة وسيطة من التجزئة الدلالية على الوجه ، مما يجعله في الواقع يتحول إلى مدير لمولدات متعددة لأوجه مختلفة من الصورة.

تتم توليد خرائط التقسيم للصور الكاذبة التي يتم تقديمها بشكل منهجي إلى مُفرق GAN لتقييمها أثناء تحسين النموذج ، وللصور المصدر (غير الكاذبة) المستخدمة للتدريب.

في بداية العملية ، يخريط الملف اللولبي المتعدد الطبقات (MLP) في البداية أكواد كامنة عشوائية ، والتي سيتم استخدامها بعد ذلك للسيطرة على أوزان المولدات المتعددة التي ستتحكم كل منها في قسم من صورة الوجه التي سيتم إنتاجها.

يخلق كل مولد خريطة ميزة وخريطة عمق محاكاة من ميزات فورييه التي يتم تغذيته بها من قبلها. هذا الإخراج هو أساس خرائط التقسيم.

الشبكة التالية للترnder مشروطة فقط بخريطة الميزة السابقة ، والآن تعرف كيف تولد خريطة تقسيم دقيقة عالية الدقة ، مما يسهل إنتاج الصورة النهائية.

أخيراً ، يراقب مُفرق منقسم التوزيع المترافق لكلاً من الصور RGB (التي هي ، بالنسبة لنا ، النتيجة النهائية) وخرائط التقسيم التي سمحت بفصلها.

مع SemanticStyleGAN ، لا توجد اضطرابات بصرية غير مرغوب فيها عند “ضبط” تغييرات الميزات الوجهية ، لأن كل ميزة وجهية تم تدريبها بشكل منفصل داخل إطار التوجيه.

استبدال الخلفيات

بسبب أن نية المشروع هي الحصول على سيطرة أكبر على البيئة المولدة ، يتضمن عملية التكوين / التركيب مولد خلفية مدرب على صور حقيقية.

سبب مقنع لماذا الخلفيات لا يتم سحبها إلى تحويلات الوجه في SemanticStyleGAN هو أنها تقع على طبقة أكثر بعدا ، ويكون لديها خلفيات كاملة ، على الرغم من أنها مخفية جزئياً بواسطة الوجوه المتراكبة.

سبب مقنع لماذا الخلفيات لا يتم سحبها إلى تحويلات الوجه في SemanticStyleGAN هو أنها تقع على طبقة أكثر بعدا ، ويكون لديها خلفيات كاملة ، على الرغم من أنها مخفية جزئياً بواسطة الوجوه المتراكبة.

منذ أن تؤدي خرائط التقسيم إلى وجوه بدون خلفيات ، توفر هذه الخلفيات “المرتجلة” ليس فقط السياق ، ولكنها أيضًا مخطط لها لتكون مناسبة ، من حيث الإضاءة ، للوجوه المتراكبة.

التدريب والبيانات

تم تدريب النماذج “الواقعية” على 28,000 صورة أولية في CelebAMask-HQ ، تم تحجيمها إلى 256×256 بكسل لاستيعاب مساحة التدريب (أي الحد الأقصى لحجم الدفعة لكل تكرار).

تم تدريب عدد من النماذج ، وتم تجربة أدوات وبيانات وهياكل متنوعة خلال عملية التطوير واختبارات الإلغاء. كان أكبر نموذج إنتاجي في المشروع يضم دقة 512×512 ، تم تدريبه خلال 2.5 يوم على ثمانية من وحدات معالجة الرسومات Tesla V100 من شركة NVIDIA. بعد التدريب ، يستغرق توليد صورة واحدة 0.137 ثانية على وحدة معالجة الرسومات لوب بدون تتوازي.

تجارب الأسلوب الكاريكاتوري / الأنمي التي تم إظهارها في العديد من الفيديوهات على صفحة المشروع (انظر الرابط أعلاه) مستمدة من مجموعات بيانات الوجه الشهيرة ، بما في ذلك Toonify ، MetFaces ، و Bitmoji.

حل مؤقت؟

يُدعي المؤلفون أنه لا يوجد سبب لما لا يمكن تطبيق SemanticStyleGAN على مجالات أخرى ، مثل المناظر الطبيعية ، والسيارات ، والكنائس ، وجميع المجالات “الافتراضية” التي يتم اختبارها بشكل روتيني في البداية.

然而 ، تُقر الورقة بأن هذا النهج القسمي قد يصبح غير قابل للتشغيل بعدد من الطرق ، بدون مزيد من العمل على التحسين ، مع زيادة عدد الفئات لمجال (مثل ‘سيارة’ ، ‘‘مصباح الشارع’ ، ‘مashy’ ، ‘بناية’ ، ‘سيارة’ الخ.).

من الصعب القول ما إذا كان الاهتمام الحالي بالسيطرة على الفضاء الكامن بشكل مباشر أكثر من كونه محكوماً بالفشل مثل الكيمياء ؛ أو ما إذا كانت الرسائل الكامنة ستكون في النهاية قابلة للفك الشفرة والسيطرة – تطور قد يجعل هذا النهج الأكثر تعقيداً من الناحية “الخارجية” عفا عليه الزمن.

 

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai