الذكاء الاصطناعي

يقوم Adobe Research بتمديد تحرير وجه GAN المنفصل

تحديث on 9 كانون الأول، 2022

ليس من الصعب فهم السبب تشابك هي مشكلة في تركيب الصور ، لأنها غالبًا ما تكون مشكلة في مجالات أخرى من الحياة ؛ على سبيل المثال ، من الصعب إزالة الكركم من الكاري أكثر من التخلص من المخلل في برجر ، ومن المستحيل عمليًا إزالة تحلية فنجان من القهوة. بعض الأشياء تأتي مجمعة.

وبالمثل، يعد التشابك حجر عثرة أمام بنيات تركيب الصور التي ترغب بشكل مثالي في فصل الميزات والمفاهيم المختلفة عند استخدام التعلم الآلي لإنشاء الوجوه أو تحريرها (أو الكلاب, القوارب، أو أي مجال آخر).

إذا كنت تستطيع فصل خيوط مثل السن, جنس, لون الشعر, لون البشرة, عاطفة، وما إلى ذلك ، سيكون لديك بدايات أداة حقيقية ومرونة في إطار يمكنه إنشاء وتحرير صور الوجه بمستوى دقيق حقًا ، دون جر "الركاب" غير المرغوب فيهم إلى هذه التحويلات.

عند الحد الأقصى من التشابك (أعلى اليسار) ، كل ما يمكنك فعله هو تغيير صورة شبكة GAN المكتسبة إلى صورة شخص آخر.

يستخدم هذا بشكل فعال أحدث تقنيات رؤية الكمبيوتر AI لتحقيق شيء تم حله بوسائل أخرى منذ أكثر من ثلاثين عامًا.

مع درجة معينة من الانفصال ("الفصل المتوسط" في الصورة السابقة أعلاه) ، من الممكن إجراء تغييرات على أساس النمط مثل لون الشعر والتعبير والتطبيق التجميلي ودوران الرأس المحدود ، من بين أمور أخرى.

المصدر: FEAT: Face Editing with Attention، Feb 2022، https://arxiv.org/pdf/2202.02713.pdf

المصدر الدهون: تحرير الوجه باهتمام، فبراير 2022 ، https://arxiv.org/pdf/2202.02713.pdf

كان هناك عدد من المحاولات في العامين الماضيين لإنشاء بيئات تفاعلية لتحرير الوجه تسمح للمستخدم بتغيير خصائص الوجه باستخدام المتزلجون والتفاعلات التقليدية الأخرى لواجهة المستخدم ، مع الحفاظ على السمات الأساسية للوجه المستهدف سليمة عند إجراء الإضافات أو التغييرات. ومع ذلك ، فقد ثبت أن هذا يمثل تحديًا نظرًا لتشابك الميزة / النمط الأساسي في المساحة الكامنة لشبكة GAN.

على سبيل المثال، نظارات غالبًا ما تكون السمة متشابكة مع الذين تتراوح أعمارهم بين السمة ، وهذا يعني أن إضافة النظارات قد تؤدي أيضًا إلى "تقدم العمر" للوجه ، بينما قد يؤدي تقدم العمر إلى إضافة النظارات ، اعتمادًا على درجة الفصل المطبق بين الميزات عالية المستوى (انظر "الاختبار" أدناه للحصول على أمثلة).

والجدير بالذكر أنه كان من المستحيل تقريبًا تغيير لون الشعر وجوانب الشعر الأخرى دون إعادة حساب خيوط الشعر والتخلص منه ، مما يعطي تأثيرًا انتقاليًا "أزيزًا".

المصدر: InterFaceGAN Demo (CVPR 2020)، https://www.youtube.com/watch؟

اجتياز GAN الكامن إلى الكامن

ورق أدوبي جديد دخل بالنسبة إلى WACV 2022 ، يقدم نهجًا جديدًا لهذه القضايا الأساسية في ملف ورقة بعنوان الكامنة إلى الكامنة: مصمم الخرائط الذي تم تعلمه من أجل الحفاظ على الهوية وتحرير سمات الوجه المتعددة في الصور التي تم إنشاؤها بواسطة StyleGAN.

مادة تكميلية من الورقة الكامنة إلى الكامنة: مصمم الخرائط المتعلم للحفاظ على الهوية وتحرير سمات الوجه المتعددة في الصور التي تم إنشاؤها بواسطة StyleGAN. نرى هنا أن الخصائص الأساسية في الوجه المتعلم لا يتم جرها إلى تغييرات غير ذات صلة. شاهد الفيديو الكامل المضمن في نهاية المقالة للحصول على تفاصيل ودقة أفضل. المصدر: https://www.youtube.com/watch؟

مادة تكميلية من الورق الكامنة إلى الكامنة: مصمم الخرائط الذي تم تعلمه من أجل الحفاظ على الهوية وتحرير سمات الوجه المتعددة في الصور التي تم إنشاؤها بواسطة StyleGAN. نرى هنا أن الخصائص الأساسية في الوجه المتعلم لا يتم جرها إلى تغييرات غير ذات صلة. شاهد الفيديو الكامل المضمن في نهاية المقالة للحصول على تفاصيل ودقة أفضل. المصدر: https://www.youtube.com/watch؟

يقود الورقة عالم Adobe Applied Siavash Khodadadeh ، مع أربعة باحثين آخرين من Adobe ، وباحث من قسم علوم الكمبيوتر في جامعة سنترال فلوريدا.

القطعة مثيرة للاهتمام جزئيًا لأن Adobe كانت تعمل في هذا الفضاء لبعض الوقت ، ومن المغري تخيل هذه الوظيفة تدخل مشروع Creative Suite في السنوات القليلة المقبلة ؛ ولكن بشكل أساسي لأن البنية التي تم إنشاؤها للمشروع تتخذ نهجًا مختلفًا للحفاظ على التكامل المرئي في محرر وجه GAN أثناء تطبيق التغييرات.

يعلن المؤلفون:

[نحن] ندرب شبكة عصبية لإجراء تحويل كامن إلى كامن يجد الترميز الكامن المطابق للصورة مع السمة المتغيرة. نظرًا لأن التقنية هي لقطة واحدة ، فهي لا تعتمد على مسار خطي أو غير خطي للتغيير التدريجي للسمات.

من خلال تدريب الشبكة من طرف إلى طرف على خط أنابيب الجيل الكامل ، يمكن للنظام أن يتكيف مع المساحات الكامنة لهياكل المولدات الجاهزة. يمكن ترميز خصائص الحفظ ، مثل الحفاظ على هوية الشخص في شكل خسائر في التدريب.

"بمجرد تدريب الشبكة الكامنة إلى الكامنة ، يمكن إعادة استخدامها للصور التعسفية دون إعادة التدريب."

يعني هذا الجزء الأخير أن البنية المقترحة تصل مع المستخدم النهائي في حالة نهائية. لا تزال بحاجة إلى تشغيل شبكة عصبية على الموارد المحلية ، ولكن يمكن "إسقاط" الصور الجديدة وتكون جاهزة للتغيير على الفور تقريبًا ، نظرًا لأن الإطار مفصول بما يكفي لعدم الحاجة إلى مزيد من التدريب الخاص بالصورة.

تغير الجنس وشعر الوجه عندما ترسم المتزلجون مسارات عشوائية وتعسفية عبر المساحة الكامنة ، وليس مجرد "التنظيف بين نقاط النهاية". شاهد الفيديو المضمن في نهاية المقالة لمزيد من التحولات بدقة أفضل.

من بين الإنجازات الرئيسية في العمل قدرة الشبكة على "تجميد" الهويات في الفضاء الكامن من خلال تغيير السمة فقط في ناقل الهدف ، وتوفير "مصطلحات التصحيح" التي تحافظ على الهويات التي يتم تحويلها.

بشكل أساسي ، يتم تضمين الشبكة المقترحة في بنية أوسع تنظم جميع العناصر المعالجة ، والتي تمر عبر مكونات مدربة مسبقًا بأوزان مجمدة لن تنتج تأثيرات جانبية غير مرغوب فيها على التحولات.

لأن عملية التدريب تعتمد عليها ثلاثة توائم التي يمكن إنشاؤها إما عن طريق صورة أولية (تحت انقلاب GAN) أو ترميزًا كامنًا أوليًا موجودًا ، فإن عملية التدريب بأكملها غير خاضعة للإشراف ، مع الإجراءات الضمنية للنطاق المعتاد لأنظمة وضع العلامات والتنظيم في مثل هذه الأنظمة التي يتم دمجها بشكل فعال في الهندسة المعمارية. في الواقع ، يستخدم النظام الجديد عوامل الانحدار للسمات الجاهزة:

[عدد] السمات التي يمكن لشبكتنا التحكم فيها بشكل مستقل محدود فقط بإمكانيات أداة التعرف (أدوات التعرف) - إذا كان لدى الشخص أداة تعرف على إحدى السمات ، فيمكننا إضافتها إلى الوجوه العشوائية. في تجاربنا ، قمنا بتدريب الشبكة الكامنة إلى الكامنة للسماح بتعديل 35 سمة وجه مختلفة ، أكثر من أي نهج سابق.

يشتمل النظام على حماية إضافية ضد تحولات "الآثار الجانبية" غير المرغوب فيها: في حالة عدم وجود طلب لتغيير السمة ، ستقوم الشبكة الكامنة إلى الكامنة بتعيين متجه كامن لها ، مما يزيد من الثبات المستقر للهوية الهدف.

التعرف على الوجه

كانت إحدى المشكلات المتكررة مع محرري الوجوه المستندة إلى وحدة التشفير / وحدة فك التشفير في GAN في السنوات القليلة الماضية هي أن التحولات المطبقة تميل إلى إضعاف التشابه. لمكافحة هذا ، يستخدم مشروع Adobe شبكة مدمجة للتعرف على الوجه تسمى فيس نت كمميز.

هندسة المشروع ، انظر أسفل منتصف اليسار لتضمين FaceNet. المصدر: الكامن إلى الكامن: مصمم الخرائط المتعلم من أجل الحفاظ على الهوية وتحرير سمات الوجوه المتعددة في الصور التي تم إنشاؤها بواسطة StyleGAN ، OpenAccess.

هندسة المشروع ، انظر أسفل منتصف اليسار لتضمين FaceNet. المصدر الكامنة إلى الكامنة: مصمم الخرائط الذي تم تعلمه من أجل الحفاظ على الهوية وتحرير سمات الوجه المتعددة في الصور التي تم إنشاؤها بواسطة StyleGAN, الوصول المفتوح.

(من الناحية الشخصية ، يبدو هذا تحركًا مشجعًا نحو دمج التعرف على الوجه القياسي وحتى أنظمة التعرف على التعبير في الشبكات التوليدية ، والتي يمكن القول إنها أفضل طريقة للتغلب على بكسل أعمى> تخطيط بكسل التي تهيمن على معماريات التزييف العميق الحالية على حساب إخلاص التعبير والمجالات المهمة الأخرى في قطاع إنشاء الوجه.)

الوصول إلى جميع المناطق في الفضاء الكامن

ميزة أخرى مثيرة للإعجاب للإطار هي قدرته على السفر بشكل تعسفي بين التحولات المحتملة في الفضاء الكامن ، حسب رغبة المستخدم. غالبًا ما تركت العديد من الأنظمة السابقة التي قدمت واجهات استكشافية المستخدم بشكل أساسي "التنظيف" بين الجداول الزمنية لتحويل الميزات الثابتة - وهو أمر مثير للإعجاب ، ولكنه غالبًا ما يكون تجربة خطية أو محظورة.

من تحسين توازن GAN عن طريق زيادة الوعي المكاني: هنا يقوم المستخدم بالتنظيف من خلال مجموعة من نقاط الانتقال المحتملة بين موقعين فضائيين كامنين ، ولكن ضمن حدود المواقع المدربة مسبقًا في الفضاء الكامن. لتطبيق أنواع أخرى من التحول على أساس نفس المادة ، من الضروري إعادة التكوين و / أو إعادة التدريب. المصدر: https://genforce.github.io/eqgan/

من تحسين توازن GAN عن طريق رفع الوعي المكاني: هنا يقوم المستخدم بالتنظيف من خلال مجموعة من نقاط الانتقال المحتملة بين موقعين فضاء كامنين ، ولكن ضمن حدود المواقع المدربة مسبقًا في الفضاء الكامن. لتطبيق أنواع أخرى من التحول على أساس نفس المادة ، من الضروري إعادة التكوين و / أو إعادة التدريب. المصدر: https://genforce.github.io/eqgan/

بالإضافة إلى كونه متقبلًا لصور المستخدم الجديدة تمامًا ، يمكن للمستخدم أيضًا "تجميد" العناصر يدويًا التي يريد حفظها أثناء عملية التحويل. وبهذه الطريقة ، يمكن للمستخدم التأكد من أن الخلفيات (على سبيل المثال) لا تتغير ، أو أن العيون تظل مفتوحة أو مغلقة.

البيانات

تم تدريب شبكة انحدار السمات على ثلاث شبكات: FFHQ, CelebAMAsk-HQ، وشبكة محلية مولدة بواسطة GAN تم الحصول عليها عن طريق أخذ عينات 400,000 متجه من الفضاء Z من النمط.

تمت تصفية الصور خارج التوزيع (OOD) بعيدًا ، واستخراج السمات باستخدام Microsoft واجهة API، مع انقسام مجموعة الصور الناتج بنسبة 90/10 ، مما يترك 721,218 صورة تدريب و 72,172 صورة اختبار للمقارنة بها.

الاختبار

على الرغم من تكوين الشبكة التجريبية مبدئيًا لاستيعاب 35 تحويلًا محتملاً ، فقد تم تقليصها إلى ثمانية من أجل إجراء اختبار مماثل مقابل الأطر المماثلة InterFaceGAN, جانسبيسو أسلوب التدفق.

كانت السمات الثمانية المختارة العمر, صلع, لحية, التعبير, الجنس, نظارات, رميةو انعرج. كان من الضروري إعادة تجهيز الأطر المتنافسة لبعض السمات الثمانية التي لم يتم توفيرها في التوزيع الأصلي ، مثل إضافة صلع و لحية إلى InterFaceGAN.

كما هو متوقع ، حدث مستوى أكبر من التشابك في البنى المنافسة. على سبيل المثال ، في أحد الاختبارات ، قام كل من InterFaceGAN و StyleFlow بتغيير جنس الموضوع عند مطالبتك بالتقديم السن:

قام اثنان من الأطر المتنافسة بإدخال تغيير الجنس في تحول "العمر" ، وكذلك تغيير لون الشعر دون تقديم عطاءات مباشرة من المستخدم.

قام اثنان من الأطر المتنافسة بإدخال تغيير الجنس في تحول "العمر" ، وكذلك تغيير لون الشعر دون تقديم عطاءات مباشرة للمستخدم.

بالإضافة إلى ذلك ، وجد اثنان من المنافسين أن النظارات والعمر وجهان لا ينفصلان:

يتم طرح النظارات وتغيير لون الشعر بدون تكلفة إضافية!

إنه ليس انتصارًا موحدًا للبحث: كما يمكن رؤيته في الفيديو المصاحب المضمن في نهاية المقالة ، يكون إطار العمل هو الأقل فاعلية عند محاولة استقراء الزوايا المتنوعة (الانحراف) ، في حين أن GANSpace لديها نتيجة عامة أفضل لـ السن وفرض نظارات. الإطار الكامن إلى الكامن المرتبط بـ GANSpace و StyleFlow فيما يتعلق بإضافة طبقة الصوت (زاوية الرأس).