الذكاء الاصطناعي
مواجهة أيام الشعر السيئة في 합성 الصور البشرية

منذ العصر الذهبي للنحت الروماني ، كانت تمثيل الشعر البشري تحديًا شائكًا. تحتوي الرأس البشرية المتوسطة على 100000 خيط ، ولها معاملات انكسار متغيرة وفقًا للونها ، وخارج طول معين ، ستتحرك وستتألف في طرق لا يمكن محاكاتها إلا من خلال نماذج فيزيائية معقدة – حتى الآن ، لا يمكن تطبيقها إلا من خلال منهجيات CGI التقليدية.

من البحث الذي أجري في عام 2017 بواسطة ديزني ، يحاول نموذج قائم على الفيزياء تطبيق حركة واقعية على نمط شعر سائل في تدفق CGI. مصدر: https://www.youtube.com/watch?v=-6iF3mufDW0
المشكلة لم يتم حلها بشكل جيد بواسطة أساليب Deepfakes الحديثة الشائعة. لعدة سنوات ، كان الحزمة الرائدة DeepFaceLab بها نموذج “رأس كامل” يمكنه فقط التقاط تمثيلات صلبة للشعر القصير (عادةً للرجال) ؛ ومؤخرًا ، قدمت FaceSwap ، وهي رفيق دائم لشركة DFL (كلا النموذجين مشتقان من код مصدر DeepFakes المثير للجدل في عام 2017) ، تنفيذًا لنموذج BiseNet لتقسيم Семантиك ، مما يسمح للمستخدم بضم الأذنين والشعر في الإخراج Deepfake.
حتى عند تمثيل أسلوب شعر قصير جدًا ، فإن النتائج تميل إلى أن تكون محدودة جدًا في الجودة ، مع ظهور الرأس الكامل على أنها مثبتة على الفيديو ، بدلاً من دمجها فيه.
GAN الشعر
المنهجتان الرئيسيتان المنافستان لتحسين الصور البشرية هي مجالات الإشعاع العصبية (NeRF) ، والتي يمكنها التقاط مشهد من عدة زوايا ومحاكاة تمثيل ثلاثي الأبعاد لهذه الزوايا في شبكة عصبية قابلة للاستكشاف ؛ والشبكات التوليدية المعارضة (GANs) ، والتي هي متميزة بشكل ملحوظ فيما يتعلق بتحسين الصور البشرية (ليس أقلها لأن NeRF ظهرت فقط في عام 2020).
فهم NeRF المفترض للهندسة المعمارية يسمح له بمحاكاة المشهد بدقة عالية وثبات ، حتى لو كان لديه حاليًا القليل أو لا يوجد نطاق لفرض نماذج فيزيائية – وحقيقة أن لديه قدرات محدودة جدًا فيما يتعلق بتمثيل حركة الشعر.
تتمثل المناهج المبنية على GAN في بداية عجز قاتل ، لأن مساحة البعد المنخفض لشبكة GAN لا تتضمن فهمًا.native للهندسة المعمارية ثلاثية الأبعاد. لذلك ، أصبحت تحسين الصور البشرية ثلاثية الأبعاد باستخدام GAN موضوع ساخن في أبحاث توليد الصور في السنوات الأخيرة ، مع InterFaceGAN في عام 2019 واحدة من الإنجازات الرائدة.
ومع ذلك ، فإن النتائج المعروضة والمنقحة من InterFaceGAN تظهر أن استمرار الشعر العصبي يظل تحديًا صعبًا فيما يتعلق بالثبات الزمني ، لتدفقات العمل المحتملة VFX:

شعر ‘ساخن’ في تحويل وضع من InterFaceGAN. مصدر: https://www.youtube.com/watch?v=uoftpl3Bj6w
كما ي trở nên أكثر وضوحًا أن توليد المشهد المستمر عبر操作 مساحة البعد المنخفض وحده قد يكون بمثابة مطاردة الكيمياء ، فإن عددًا متزايدًا من الأوراق يظهر الذي يدمج معلومات CGI ثلاثية الأبعاد في تدفق GAN كقيود مستقرّة وطبيعيّة.
قد يتم تمثيل عنصر CGI بواسطة بدائيات ثلاثية الأبعاد متوسطة مثل نموذج متعدد الخطوط للشخص (SMPL) ، أو عن طريق اعتماد تقنيات الاستدلال ثلاثية الأبعاد بطريقة مشابهة لنهج NeRF ، حيث يتم تقييم الهندسة المعمارية من الصور أو الفيديو المصدر.
أحد الأعمال الجديدة على طول هذه الخطوط ، المنشور هذا الأسبوع ، هو الشبكات التوليدية المعارضة المتوافقة مع وجهات النظر المتعددة لتحسين الصور ثلاثية الأبعاد (MVCGAN) ، وهي تعاون بين ReLER و AAII و جامعة تكنولوجيا سيدني و أكاديمية DAMO في مجموعة Alibaba و جامعة زيجيانغ.

أوضاع وجهية جديدة معقولة ومتينة تم إنشاؤها بواسطة MVCGAN على صور مشتقة من مجموعة بيانات CELEBA-HQ. مصدر: https://arxiv.org/pdf/2204.06307.pdf
يدمج MVCGAN شبكة توليد الإشعاع (GRAF) قادرة على توفير قيود هندسية في شبكة GAN ، ويحقق بعضًا من أكثر القدرات الواقعية لتحويل الوضع في أي نهج مشابه مبني على GAN.
ومع ذلك ، فإن المواد الإضافية لMVCGAN تكشف عن أن الحصول على استمرار حجم الشعر ووضعه وسلوكه يظل مشكلة لا يمكن حلها بسهولة من خلال القيود القائمة على الهندسة المعمارية ثلاثية الأبعاد المفروضة من الخارج.

من المواد الإضافية التي لم يتم إصدارها بشكل عام في وقت الكتابة ، نرى أن توليد وضع الوجه من MVCGAN يمثل تقدمًا ملحوظًا على حالة الفن الحالية ، ولكن استمرار الشعر الزمني يظل مشكلة.
منذ أن وجدت تدفقات CGI البسيطة لا تزال تعثر على إعادة بناء الشعر الزمني تحديًا ، لا يوجد سبب للاعتقاد بأن النهج التقليدية القائمة على الهندسة المعمارية سوف تجلب استمرار التوليد الشعري إلى مساحة البعد المنخفض في أي وقت قريب.
تثبيت الشعر مع الشبكات العصبية التلافيفية
ومع ذلك ، قد يقدم بحث قادم من ثلاثة باحثين في معهد Chalmers للتكنولوجيا في السويد تقدمًا إضافيًا في محاكاة الشعر العصبي.

على اليسار ، تمثيل الشعر المستقر بواسطة CNN ، على اليمين ، الحقيقة الأرضية. انظر الفيديو المضمن في نهاية المقال للحصول على دقة أعلى وأمثلة إضافية. مصدر: https://www.youtube.com/watch?v=AvnJkwCmsT4
يعرف البحث باسم تصفية الشعر في الوقت الفعلي باستخدام الشبكات العصبية التلافيفية ، وسيتم نشره في مؤتمر i3D في بداية مايو.
يتكون النظام من شبكة قادرة على تقييم دقة الشعر ، بما في ذلك التظليل الذاتي ومراعاة سمك الشعر ، في الوقت الفعلي ، بناءً على عدد محدود من العينات العشوائية التي تم إنشاؤها بواسطة هندسة OpenGL.
يقوم النهج بتحويل عدد محدود من العينات مع الشفافية العشوائية ويتدرب على U-net لإعادة بناء الصورة الأصلية.

تحت MVCGAN ، يفلتر CNN العوامل اللونية العشوائية ، والضوء ، والمتجهات ، والعمق والألفا ، ويجمع النتائج الم合نة في صورة مركبة.
يتدرب الشبكة على PyTorch ، ويتقارب خلال فترة تتراوح من ست إلى اثنتي عشرة ساعة ، اعتمادًا على حجم الشبكة وعدد الميزات الإدخالية. يتم استخدام المعلمات المتدربة (الأوزان) في تطبيق الوقت الفعلي للنظام.
تتم إنشاء بيانات التدريب عن طريق تقديم مئات الصور لأسلوب شعر مستقيم وموج ، باستخدام مسافات ووضعيات عشوائية ، بالإضافة إلى ظروف إضاءة متنوعة.

أمثلة مختلفة للإدخال.
يتم تحسين شفافية الشعر عبر العينات من الصور المُ렌َدرة مع الشفافية العشوائية بدقة فائقة. يتم تنزيل دقة البيانات الأصلية عالية الدقة لتكون متوافقة مع حدود الشبكة والأجهزة ، ويتدرب الشبكة في تدفق العمل النموذجي للشبكة التلافيفية.
تتطلب التطبيق في الوقت الفعلي (البرنامج ‘الحي’ الذي يعتمد على الخوارزمية المشتقة من نموذج مدرب) مزيجًا من NVIDIA CUDA مع cuDNN و OpenGL. يتم إرسال الميزات الإدخالية الأولية إلى مخازن الألوان المتعددة لOpenGL ، ثم يتم نقل النتيجة إلى تензورات cuDNN قبل المعالجة في CNN. ثم يتم نسخ تلك التензورات مرة أخرى إلى نصية ‘حية’ لOpenGL لتطبيقها في الصورة النهائية.
يعمل النظام في الوقت الفعلي على NVIDIA RTX 2080 ، وينتج دقة 1024×1024 بكسل.
منذ أن تكون قيم ألوان الشعر مفككة تمامًا في القيم النهائية التي تم الحصول عليها بواسطة الشبكة ، فإن تغيير لون الشعر هو مهمة بسيطة ، على الرغم من أن التأثيرات مثل التدرج والشرائط لا تزال تحديًا في المستقبل.

قدم المؤلفون الرمز المستخدم في تقييمات البحث على GitLab. انظر الفيديو الإضافي لMVCGAN أدناه.
https://www.youtube.com/watch?v=AvnJkwCmsT4
الخلاصة
لا يزال التنقل في مساحة البعد المنخفض لشبكة التشفير التلقائي أو GAN يشبه الملاحة أكثر من القيادة الدقيقة. فقط في هذه الفترة الحديثة نبدأ في رؤية نتائج قابلة لل信用 لتوليد الوضع ، في مناهج مثل NeRF و GANs وأطر العمل التشفير التلقائي غير Deepfakes (2017).
التركيب المعماري الكبير للشعر البشري ، بالإضافة إلى الحاجة إلى دمج نماذج فيزيائية وسمات أخرى لا تتوفر حاليًا في مناهج توليد الصور ، تشير إلى أن توليد الشعر غير مرجح أن يبقى مكونًا متكاملًا في التوليد العام للوجه ، ولكنه سوف يتطلب شبكات منفصلة ومتميزة – حتى لو يمكن دمج هذه الشبكات في أطر عمل أكثر تعقيدًا وتوليدًا لوجه في المستقبل.
نشر لأول مرة في 15 أبريل 2022.











