زاوية Anderson

تنسيق 합성 الوجه مع التجزئة الدلالية

نُشر في 7 ديسمبر 2021

تم التحديث في 24 مايو 2026

بواسطة

Martin Anderson

المشكلة في اختراع وجوه بشرية باستخدام شبكة عصبونية اصطناعية توليدية ومعارضة (GAN) هي أن البيانات الحقيقية في العالم الحقيقي التي تغذي الصور المزيفة تأتي مع إضافات غير مرغوب فيها وغير قابلة للفصل، مثل الشعر على الرأس (و / أو الوجه)، والخلفيات، وأشكال مختلفة من أثاث الوجه، مثل النظارات، والقبعات، والأقراط؛ وأن هذه الجوانب المحيطية للشخصية تتحول بالضرورة إلى هوية “مصاحبة”.

في ظل معظم هياكل GAN الشائعة، لا يمكن معالجة هذه العناصر في مساحة مخصصة خاصة بهم، ولكنها ترتبط بشكل وثيق بالوجه (أو حول) الذي يتم دمجها فيه.

ليس من الممكن عادةً أن يُدفع أو يُؤثر على مظهر “أقسام فرعية” من الوجه الذي تم إنشاؤه بواسطة GAN، مثل تضييق العيون، أو إطالة الأنف، أو تغيير لون الشعر، بالطريقة التي يمكن للفنانين من رسم الصور أن يفعلوا.

然而، قطاع أبحاث合成 الصور يعمل على ذلك:

أبحاث جديدة حول إنشاء الوجه باستخدام GAN قد فصلت أقسام مختلفة من الوجه إلى مناطق منفصلة، كل منها مع “مُنشئ” خاص به، يعمل بالتعاون مع منشئين آخرين للصورة. في الصف الوسط، نرى “خريطة الميزة” التي تُorchestrates بناء مناطق إضافية من الوجه. مصدر: https://arxiv.org/pdf/2112.02236.pdf

في ورقة جديدة، أبحاث من الفرع الأمريكي للشركة التكنولوجية الصينية متعددة الجنسيات بايت دانس، استخدمت التجزئة الدلالية لفصل أقسام مختلفة من الوجه إلى مناطق منفصلة، كل منها مع “مُنشئ” خاص به، بحيث يمكن تحقيق درجة أعلى من فك الارتباط. أو على الأقل، فك الارتباط الإدراكي.

الورقة بعنوان SemanticStyleGAN: Learning Compositional Generative Priors for Controllable Image Synthesis and Editing، ومرافقة لصفحة مشروع غنية بالوسائط موقع المشروع يحتوي على أمثلة متعددة للتحولات الدقيقة التي يمكن تحقيقها عند عزل عناصر الوجه والرأس بهذه الطريقة.

يمكن الآن فك ارتباط نصوص الوجه، وأسلوب الشعر، ولون الشعر، وشكل العين، ولون العين، والعديد من الجوانب الأخرى للوجه التي تم إنشاؤها بواسطة GAN، على الرغم من أن جودة الفصل ومستوى الأداة قد تختلف عبر الحالات. مصدر: https://semanticstylegan.github.io/

الفضاء الكامن غير الخاضع للرقابة

شبكة عصبونية اصطناعية توليدية ومعارضة مدربة لإنشاء وجوه – مثل StyleGan2 التي تعمل على موقع thispersondoesnotexist.com – تُشكل علاقات معقدة بين “الميزات” (ليس في معنى الوجه) التي تستمد منها من تحليل آلاف الوجوه الحقيقية في العالم الحقيقي، من أجل تعلم كيفية إنشاء وجوه بشرية حقيقية بنفسها.

تُعد هذه العمليات السرية “رموز كامنة”، وتُشكل مجتمعة الفضاء الكامن. من الصعب تحليلها، وبالتالي من الصعب التحكم فيها.

في الأسبوع الماضي، ظهر مشروع合成 صورة جديد يحاول “خريطة” هذا الفضاء الكامن تقريبا خلال عملية التدريب نفسها، ثم استخدام هذه الخرائط للتنقل فيها بشكل تفاعلي، وقد تم اقتراح حلول أخرى للوصول إلى التحكم الأعمق في المحتوى المُنشأ بواسطة GAN.

تم إحراز بعض التقدم، مع مجموعة متنوعة من هياكل GAN التي تحاول “الوصول” إلى الفضاء الكامن بطريقة ما والتحكم في إنشاء الوجه من هناك. تشمل هذه الجهود InterFaceGAN، StyleFlow، GANSpace، و StyleRig، من بين عروض أخرى في سلسلة مستمرة من الأوراق الجديدة.

ما يجمعهما هو درجات محدودة من فك الارتباط؛ يميل أدوات واجهة المستخدم المبتكرة للعديد من الجوانب (مثل “الشعر” أو “التعبير”) إلى سحب الخلفية و / أو عناصر أخرى إلى عملية التحويل، ولا واحدة منهم (بما في ذلك الورقة المناقشة هنا) قد حلت مشكلة الشعر العصبي الزمني.

تقسيم الفضاء الكامن وتحقيق النصر

في أي حال، تأخذ أبحاث بايت دانس نهجًا مختلفًا: بدلاً من محاولة فك لغز شبكة GAN المنفردة التي تعمل على صورة الوجه الكاملة، صيغت SemanticStyleGAN نهجًا قائمًا على التخطيط، حيث يتم تكوين الوجوه بواسطة عمليات مولد منفصلة.

为了 تحقيق هذا التمييز في الميزات (الوجهية)، تستخدم SemanticStyleGAN ميزات فورييه لإنشاء خريطة تجزئة دلالية (تمييزات ملونة خشنة للطوبوغرافيا الوجهية، كما هو موضح في الزاوية السفلى اليمنى من الصورة أدناه) لفصل المناطق الوجهية التي ستحصل على انتباه مخصص.

هندسة النهج الجديد، الذي يفرض طبقة وسطية من التجزئة الدلالية على الوجه، ويفعل بشكل فعال الإطار إلى منسق متعدد للمولدين لمختلف جوانب الصورة.

تُنشأ خرائط التجزئة لمعرض الصور الكاذبة التي يتم تقديمها بشكل منهجي إلى مناهض GAN لتقييمها أثناء تحسين النموذج، وللصور المصدر (غير الكاذبة) المستخدمة للتدريب.

في بداية العملية، يُحدد الشبكة العصبونية متعددة الطبقات (MLP) في البداية رموز كامنة عشوائية، والتي سيتم استخدامها لاحقًا للتحكم في أوزان المولدين المتعددين الذين سيتولون كلًا منهم منطقة من الوجه ليتم إنتاجها.

ينشئ كل مولد خريطة ميزة وخريطة عمق محاكاة من ميزات فورييه التي يتم تغذيته بها من قبلها. هذا الإخراج هو أساس قناع التجزئة.

الشبكة العصبونية لتركيب الناتج مشروطة فقط بالخرائط الميزة السابقة، وتعرف الآن كيفية إنشاء قناع تجزئة بدقة أعلى، مما يسهل إنتاج الصورة النهائية.

أخيرًا، يُشرف مناهض منقسم على توزيع المقترن من الصور RGB (التي هي، بالنسبة لنا، النتيجة النهائية) وأقنعة التجزئة التي أتاحت لهم أن يتم فصلها.

مع SemanticStyleGAN، لا توجد اضطرابات بصرية غير مرغوب فيها عند “ضبط” تغييرات ميزات الوجه، لأن كل ميزة وجهية تم تدريبها بشكل منفصل داخل إطار التنسيق.

استبدال الخلفيات

نظرًا لأن نية المشروع هي الحصول على التحكم الأعمق في البيئة المُنشأة، فإن عملية التكوين / التركيب تتضمن مولد خلفية مدرب على الصور الحقيقية.

سبب وجيه لماذا لا يتم سحب الخلفيات إلى تحويلات الوجه في SemanticStyleGAN هو أنها تقع على طبقة أكثر بعدًا، ويكون لديها شكل كامل، حتى لو كان مخفيًا جزئيًا بواسطة الوجوه المُضاف إليها.

نظرًا لأن خرائط التجزئة ستؤدي إلى وجوه بدون خلفيات، فإن هذه الخلفيات “القطرة” لا توفر فقط السياق، بل يتم أيضًا تكوينها لتكون مناسبة، من حيث الإضاءة، للوجوه المُضاف إليها.

التدريب والبيانات

تم تدريب النماذج “الحقيقية” على 28,000 صورة أولية في CelebAMask-HQ، التي تم تحجيمها إلى 256×256 بكسل لاستيعاب مساحة التدريب (أي الحد الأقصى لحجم الدفعة لكل تكرار).

تم تدريب العديد من النماذج، وتم تجربة أدوات وبيانات ومهام مختلفة خلال عملية التطوير واختبارات الإلغاء. تميز أكبر نموذج إنتاجي في المشروع بدقة 512×512، وتم تدريبه لمدة 2.5 يوم على ثمانية من وحدات معالجة الرسومات NVIDIA Tesla V100. بعد التدريب، يستغرق إنشاء صورة واحدة 0.137 ثانية على وحدة معالجة الرسومات لوب بدون موازاة.

النماذج الكارتونية / الأنمي التي تم إثباتها في العديد من مقاطع الفيديو على صفحة المشروع (انظر الرابط أعلاه) مشتقة من مجموعات بيانات الوجه الشهيرة، بما في ذلك Toonify، MetFaces، و Bitmoji.

حل مؤقت؟

يُدعي المؤلفون أنه لا يوجد سبب لما لا يمكن تطبيق SemanticStyleGAN على مجالات أخرى، مثل المناظر الطبيعية، والسيارات، والكنائس، وجميع المجالات “الافتراضية” التي يتم اختبارها بشكل روتيني في البداية على هياكل جديدة.

然而، تُقر الورقة بأن هذا النهج القطاعي قد يصبح غير قابل للعمل في عدد من الطرق، دون مزيد من العمل على التحسين، مع زيادة عدد الفئات لمنطقة ما (مثل “سيارة“، “مصباح الشارع“، “المشاة“، “المبنى“، “السيارة“، إلخ.).

من الصعب القول إذا كان الاهتمام الحالي بالسيطرة على الفضاء الكامن بشكل مباشر أكثر محكومًا بالفشل مثل الكيمياء؛ أو إذا كانت الرمز الكامن في النهاية سيكون قابلاً للفك والتحكم – تطور قد يجعل هذا النهج الأكثر تعقيدًا الخارجي زائدًا.