Connect with us

إنشاء ديبفيكس للجسم الكامل عن طريق الجمع بين عدة NeRFs

الذكاء الاصطناعي

إنشاء ديبفيكس للجسم الكامل عن طريق الجمع بين عدة NeRFs

mm

يمتلئ قطاع أبحاث合成 الصور بالمقترحات الجديدة لأنظمة قادرة على إنشاء فيديوهات وصور للجسم الكامل للأشخاص الشباب – وخاصة النساء الشابات – في أنواع مختلفة من الملابس. ومعظم الصور المولدة هي ساكنة؛ وأحيانًا تتحرك التمثيلات، ولكن ليس عادةً بشكل جيد.

يتميز هذا الجزء من البحث ببطء في المقارنة مع التقدم السريع الحالي في المجالات ذات الصلة مثل نماذج الانتشار الكامن؛ ومع ذلك، تواصل المجموعات البحثية، ومعظمها في آسيا، العمل بلا كلل على حل هذه المشكلة.

واحدة من العشرات، إن لم تكن المئات، من أنظمة 'الجلسة الافتراضية' المقترحة أو شبه المنفذة في السنوات 10-15 الماضية، حيث يتم تقييم الأجسام من خلال التعرف على الكائنات المستندة إلى التعلم الآلي وتكييفها مع العناصر المقترحة من الملابس. مصدر: https://www.youtube.com/watch?v=2ZXrgGyhbak

واحدة من العشرات، إن لم تكن المئات، من أنظمة ‘الجلسة الافتراضية’ المقترحة أو شبه المنفذة في السنوات 10-15 الماضية، حيث يتم تقييم الأجسام من خلال التعرف على الكائنات المستندة إلى التعلم الآلي وتكييفها مع العناصر المقترحة من الملابس. مصدر: https://www.youtube.com/watch?v=2ZXrgGyhbak

الهدف هو إنشاء أنظمة جديدة لتمكين ‘الجلسة الافتراضية’ لسوق الأزياء والملابس – أنظمة يمكنها التكيف مع العملاء ومع المنتج المحدد المتاح حاليًا أو الذي سيتم إطلاقه قريبًا، دون الحاجة إلى التأثير غير المريح للتركيب في الوقت الفعلي للتركيب من الملابس، أو الحاجة إلى طلب العملاء لإرسال صور غير مناسبة قليلاً لخطوط أنابيب التصور القائمة على التعلم الآلي.

لا تظهر أي من هياكل التركيب الشائعة أنها قابلة للتكيف بسهولة مع هذه المهمة: الفضاء الكامن لشبكات التوليد المعارضة (GANs) غير مناسب لإنتاج حركة زمنية مقنعة (أو حتى للتحرير بشكل عام); على الرغم من أن القدرة على توليد حركة إنسان واقعية، حقول الإشعاع العصبية (NeRF) عادة ما تكون مقاومة بشكل طبيعي للتحرير من النوع الذي سيكون ضروريًا لاستبدال الأشخاص أو الملابس حسب الرغبة؛ سيتطلب المحولون التلقائيون تدريبًا متعبًا للأشخاص / الملابس المحدد؛ ونماذج الانتشار الكامن، مثل GANs، لا تحتوي على آليات زمنية أصلية، لإنشاء فيديو.

EVA3D

على الرغم من ذلك، تواصل الأوراق والمقترحات. أحدثها هو من الجانب غير العادي في سطر بحث غير متميز ومتجه بشكل حصري للأعمال.

EVA3D، من جامعة نانيانج التكنولوجية في سنغافورة، هو أول إشارة إلى نهج طال انتظاره – استخدام عدة شبكات حقل الإشعاع العصبي، كل منها مخصص لجزء منفصل من الجسم، والتي يتم تجميعها بعد ذلك في تمثيل مجمّع ومتكامل.

شابة متحركة مجمعة من شبكات NeRF متعددة، لـ EVA3D. مصدر: https://hongfz16.github.io/projects/EVA3D.html

شابة متحركة مجمعة من شبكات NeRF متعددة، لـ EVA3D. مصدر: https://hongfz16.github.io/projects/EVA3D.html

النتائج، من حيث الحركة، هي… جيدة. على الرغم من أن تمثيلات EVA3D ليست خارج وادي الغرابة، إلا أنها على الأقل يمكن أن ترى مخرجًا من حيث تقف.

ما يجعل EVA3D متميزًا هو أن الباحثين وراءه، تقريبًا على وجه الاستثناء في قطاع合ث الصور الكاملة للجسم، أدركوا أن شبكة واحدة (GAN، NeRF أو غيرها) لن تكون قادرة على التعامل مع توليد الجسم الكامل القابل للتعديل والمرونة لبعض سنوات – جزئيًا بسبب وتيرة البحث، وجزئيًا بسبب قيود الأجهزة واللوجستية الأخرى.

لذلك، قام فريق Nanyang بتقسيم المهمة عبر 16 شبكة وتكنولوجيا متعددة – نهج تم اعتماده بالفعل لترndering нейронных البيئات الحضرية في Block-NeRF و CityNeRF، ويبدو أنه من المرجح أن يصبح مقياسًا نصف đường متزايدًا لتحقيق ديبفيكس الجسم الكامل في السنوات الخمس القادمة، مع تطورات جديدة في المفاهيم أو الأجهزة.

ليس جميع التحديات الموجودة في إنشاء هذا النوع من ‘الجلسة الافتراضية’ تقنية أو لوجستية، ويحدد الورقة بعض قضايا البيانات، خاصة فيما يتعلق بالتعلم غير المشرع:

‘[البيانات] غالبًا ما يكون لها مواقف إنسان محدودة جدًا (معظمها مواقف وقوف مشابهة)، وزوايا مشاهدة غير متوازنة جدًا (معظمها مناظر أمامية). يمكن أن يمنع هذا التوزيع غير المتوازن للبيانات ثنائية الأبعاد التعلم غير المشرع لشبكات GANs ثلاثية الأبعاد، مما يؤدي إلى صعوبات في توليد وجهات نظر / مواقف جديدة. لذلك، هناك حاجة إلى استراتيجية تدريب مناسبة للتخفيف من هذه القضية.’

يتكون سير عمل EVA3D من تقسيم الجسم البشري إلى 16 جزءًا متميزًا، كل منها يتم إنشاؤه من خلال شبكة NeRF الخاصة به. من الواضح أن هذا يخلق أقسامًا كافية ‘غير مجمدة’ لتمكين التمثيل من خلال بيانات الحركة أو أنواع أخرى من بيانات الحركة.

على سبيل المثال، فإن قدمي الإنسان لهما نطاق محدود من المرونة، في حين أن صحة الوجه والرأس، إلى جانب جودة حركة الجسم بأكملها، من المرجح أن تكون رمزًا للصحة للتصيير.

مقارنة نوعية بين EVA3D والأساليب السابقة. يزعم المؤلفون نتائج SOTA في هذا الصدد.

مقارنة نوعية بين EVA3D والأساليب السابقة. يزعم المؤلفون نتائج SOTA في هذا الصدد.

يختلف النهج جذريًا عن المشروع المتمركز على NeRF الذي يرتبط به مفهوميًا – A-NeRF لعام 2021، من جامعة كولومبيا البريطانية و Reality Labs Research، الذي سعى إلى إضافة هيكل داخلي للتحكم إلى تمثيل NeRF واحد بشكل تقليدي.

الحركات السابقة - يُجهز A-NeRF شبكة NeRF 'مُحسنة' بالهيكل المرن والمدروس الذي يستخدمه قطاع الفكس لمدة طويلة لتحريك شخصيات CGI.

الحركات السابقة – يُجهز A-NeRF شبكة NeRF ‘مُحسنة’ بالهيكل المرن والمدروس الذي يستخدمه قطاع الفكس لمدة طويلة لتحريك شخصيات CGI. مصدر: https://lemonatsu.github.io/anerf/

يستخدم EVA3D، مثل معظم المشاريع البشرية المماثلة التي تسعى إلى الاستفادة من الفضاء الكامن للنهج الشائعة، نموذج متعدد الخطوط للشخص المتعددة (SMPL)، وهو طريقة ‘تقليدية’ قائمة على CGI لإضافة أدوات إلى التمثيل المجرد للأساليب التخليقية الحالية. في وقت سابق من هذا العام، استخدمت ورقة أخرى، هذه المرة من جامعة تشجيانج في هانغتشو، وكلية الإعلام الإبداعي في جامعة مدينة هونغ كونغ، هذه الأساليب لتحقيق إعادة تشكيل الجسم العصبي.

النتائج النوعية ل EVA3D على DeepFashion.

النتائج النوعية ل EVA3D على DeepFashion.

الطريقة

النموذج SMPL المستخدم في العملية يتم ضبطه إلى السابقة البشرية – الشخص الذي يتم، في الأساس، التخليق العميق الطوعي بواسطة EVA3D، ويتفاوض أوزان التمثيل بين الفضاء الكلاسيكي (أي وضع ‘في حالة راحة’ أو ‘مثالي’ لنموذج SMPL) والطريقة التي يتم بها تقديم المظهر النهائي.

سير عمل مفاهيمي لـ EVA3D.

سير عمل مفاهيمي لـ EVA3D. مصدر: https://arxiv.org/pdf/2210.04888.pdf

كما هو موضح في الرسم التوضيحي أعلاه، يتم استخدام صناديق التحديد من SMPL كتعريفات الحدود للشبكات 16 التي ستؤلف الجسم في النهاية. ثم يتم استخدام خوارزمية Linear Blend Skinning العكسية (LBS) من SMPL لنقل عينات الأشعة المرئية إلى الفضاء الكلاسيكي (الوضع الساكن). ثم يتم استجواب الشبكات الفرعية الـ 16، بناءً على هذه التكوينات، وتشكيلها في النهاية إلى تمثيل نهائي.

يتم استخدام المجمع الكامل NeRF لإنشاء إطار عمل GAN ثلاثي الأبعاد.

سيتم تدريب تمثيلات إطار العمل GAN في النهاية ضد مجموعات صور حقيقية من البشر / الأزياء.

سيتم تدريب تمثيلات إطار العمل GAN في النهاية ضد مجموعات صور حقيقية من البشر / الأزياء.

كل شبكة فرعية تمثل جزءًا من الجسم البشري تتكون من متعدد الطبقات مع تفعيل SIREN (تمثيلات الجيبية للشبكات). على الرغم من أن SIREN يحل الكثير من المشاكل في سير العمل مثل هذا، وفي المشاريع المماثلة، فإنها تميل إلى التكيف أكثر من التعميم، ويقترح الباحثون أن المكتبات البديلة يمكن استخدامها في المستقبل (انظر نهاية المقالة).

البيانات والتدريب والاختبارات

يواجه EVA3D مشاكل بيانات غير عادية، بسبب القيود والنمط المحدد للمواقف المتاحة في مجموعات البيانات القائمة على الأزياء، والتي تميل إلى عدم وجود وجهات نظر أو مواقف جديدة، وهي، ربما عن قصد، مكررة، من أجل التركيز على الملابس بدلاً من الشخص الذي يرتديها.

نظرًا لتوزيع المواقف غير المتوازن هذا، يستخدم EVA3D سابقة بشرية (انظر أعلاه) مبنية على هندسة SMPL، ثم يتوقع مجال المسافة الموقعة (SDF) لموضع هذا الموضع، بدلاً من موضع الهدف المباشر.

للمناقشات الداعمة، استخدم الباحثون أربعة مجموعات بيانات: DeepFashion؛ SHHQ؛ UBCFashion؛ ومجموعة بيانات فيديو الرقص AIST (AIST Dance DB).

تتضمن الأخيرة مواقف أكثر تنوعًا من الأولى، ولكنها تمثل الأفراد نفسهم بشكل متكرر، مما يلغي التنوع المفيد هذا؛ باختصار، البيانات أكثر من التحدي، بالنظر إلى المهمة.

أمثلة من SSHQ.

أمثلة من SSHQ. مصدر: https://arxiv.org/pdf/2204.11823.pdf

تم استخدام ENARF-GAN كأساس، وهو أول مشروع لتصيير الرسومات NeRF من مجموعات بيانات الصور ثنائية الأبعاد؛ و EG3D من ستانفورد و NVIDIA؛ و StyleSDF، وهي تعاون بين جامعة واشنطن، و Adobe Research، وستانفورد – جميعها أساليب تتطلب مكتبات الت超 الدقة من أجل التوسيع من الدقة الأصلية إلى دقة عالية.

تم استخدام معايير مثل المسافة الفريتش للانCEPTION (المتنازع عليها FID) ومسافة الانCEPTION النواة (KID)، إلى جانب نسبة النقاط الصحيحة ([email protected]).

في التقييمات الكمية، قاد EVA3D في جميع المعايير في أربعة مجموعات بيانات:

النتائج الكمية.

النتائج الكمية.

يلاحظ الباحثون أن EVA3D يحقق أقل معدل خطأ لتصيير الهندسة، وهو عاملاً حاسماً في مشروع من هذا النوع. كما يلاحظون أن نظامهم يمكنه التحكم في التوليد الموضعي وتحقيق درجات [email protected] أعلى، على عكس EG3D، وهو الطريقة التنافسية الوحيدة التي سجلت أعلى في فئة واحدة.

يعمل EVA3D بشكل أصلي في دقة 512x512px المعيارية، على الرغم من أنه يمكن أن يتم تعزيزه بسهولة وفعالية إلى دقة HD عن طريق وضع طبقات تعزيز، كما فعلت Google مؤخرًا مع عرضها الجديد لتصوير الفيديو النصي Imagen Video.

الطريقة ليست بدون حدود. يلاحظ الورقة أن تفعيل SIREN يمكن أن يسبب آثارًا دائرية، والتي يمكن أن تتم معالجتها في الإصدارات المستقبلية من خلال استخدام تمثيل قاعدي بديل، مثل EG3D، بالاشتراك مع محول 2D. بالإضافة إلى ذلك، من الصعب توفير ملاءمة دقيقة لبيانات SMPL.

أخيرًا، لا يمكن للنظام أن يتعامل بسهولة مع عناصر ملابس أكبر وأكثر سائلة، مثل الفساتين الكبيرة؛ تعرض هذه الأنواع من الملابس نفس الديناميكيات السائلة التي تجعل إنشاء الشعر المُحسَّن تحديًا. من المفترض أن تساعد حلول ملائمة على معالجة كلا التحديين.

 

نشر لأول مرة في 12 أكتوبر 2022.

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai