الذكاء الاصطناعي

تحرك NeRF خطوة أخرى أقرب إلى استبدال CGI

تم النشر 4 يونيو، 2021

تحديث 9 كانون الأول، 2022

مارتن أندرسون

اتخذ الباحثون في معهد ماساتشوستس للتكنولوجيا وجوجل خطوة كبيرة في حل واحدة من أكثر العقبات الأساسية أمام تقنية ناشئة مدفوعة بالذكاء الاصطناعي والتي قد تحل في النهاية محل CGI - فصل صور مجال الإشعاع العصبي (NeRF) إلى مكوناتها المرئية ، بحيث يمكن للصور يمكن إعادة تركيبها وإضاءةها.

النهج الجديد ، ودعا NeRFactor، يقسم الصور الملتقطة بشكل فعال إلى عوامل طبيعية لكل كائن (يمكن تعيين القوام عليها)، ورؤية الضوء، والانعكاس (نسبة الضوء الساقط الذي ينعكس بعيدًا عن السطح)، ووظائف توزيع الانعكاس ثنائي الاتجاه (BRDFs).

من خلال عزل هذه الجوانب، من الممكن ليس فقط تبديل القوام للأشياء الفردية أو مجموعات الأشياء، ولكن أيضًا إضافة مصادر إضاءة جديدة وفريدة وتنفيذات الظل، مع خصم أي منها تم التقاطها بواسطة مجموعات الكاميرات المتعددة التي تولد مدخلات لصور NeRF.

عادي ، الرؤية ، البياض و BRDF مفصولة تحت NeRFactor. المصدر: https://www.youtube.com/watch؟

يدعم النموذج الظلال الناعمة أو القاسية من مصادر الإضاءة التعسفية التي يحددها المستخدم ، ويفصل الجوانب الأربعة للفيديو الملتقط برمجيًا ، باستخدام فقدان إعادة البناء ، والبيانات من الحسابات السابقة لـ BRDF ، وتنظيم السلاسة الأساسي البسيط.

سير عمل NeRFactor، استخراج جوانب قابلة للتنفيذ بشكل منفصل من الصور المشتقة من مجموعات الكاميرات المتعددة. المصدر: https://arxiv.org/pdf/2106.01970.pdf

يستخدم NeRFactor مسبار ضوء HDR ، وهو نهج راسخ انتشر في المشهد الصناعي والفني البصري منذ ظهوره. المقدمة في عام 1998 ، لتقييم الطرق الممكنة للأشعة ، والتي تتيح الإضاءة العشوائية. نظرًا لأن هذا يولد عددًا غير قابل للحكم من المعلمات المحتملة ، يتم تصفية مسبار الضوء من خلال مدرك متعدد الطبقات (MLP) ، والذي يقوم بتعيين الهندسة المتصورة للمسبار دون محاولة حساب خريطة حجم الإضاءة الكاملة لمساحة النموذج.

تم استخدام نموذجين ميدانيين للإشعاع العصبي لتوضيح خمسة نماذج إضاءة ممكنة في إطار NeRFactor. اضغط على الصورة لدقة أعلى.

سبب للتفكير

ربما يكون البحث الجديد هو الأكثر أهمية في فصل طبقات الصور الملتقطة التي تتحكم في الانعكاس. لا يزال هذا أحد أكبر التحديات التي تواجه صور مجال الإشعاع العصبي ، نظرًا لأن نظام NeRF الجديد والمرن حقًا لن يحتاج فقط إلى أن يكون قادرًا على استبدال القوام ، ولكن بشكل حاسم سيحتاج إلى طريقة ما لعكس الكائنات المتحركة (إلى جانب البيئة الثابتة العامة فقط) يتم احتسابها عادةً في سير عمل CGI.

تمت ملاحظة هذه المشكلة مؤخرًا فيما يتعلق بشركة Intel بحث جديد مثير للإعجاب تحويل لقطات ألعاب الفيديو إلى فيديوهات واقعية عبر الشبكات العصبية التلافيفية. في مثل هذه السير، يجب أن تصبح العديد من الجوانب "المخبوزة" للمادة المصدرية منفصلة وقابلة للتبديل، ويمكن القول إن حل هذه المشكلة أسهل في حالة إعادة الإضاءة (وهي دالة للهندسة المُقدمة في NeRF) مقارنةً بالانعكاسات (التي تستخدم هندسة "خارج الشاشة" والتي تقع خارج نطاق النموذج تمامًا).

ومن ثم، فإن عزل الطبقات في فيديو NeRF التي تسهل الانعكاس يقرب NeRF خطوة واحدة من حل "تحدي الانعكاس".

إن استخدام بيئة HDR يحل بالفعل مشكلة إنشاء انعكاسات البيئة العالمية (أي السماء والمناظر الطبيعية وعوامل محيطة "ثابتة" أخرى)، ولكن ستكون هناك حاجة إلى طرق جديدة لتقديم الانعكاسات المتحركة والديناميكية.

القياس التصويري مع NeRF

تستخدم صور مجال الإشعاع العصبي تحليل التعلم الآلي لتطوير مساحة حجمية بالكامل من مشهد أو كائن تم التقاطه من عدد من الزوايا.

ظهرت في العام الماضي العديد من المخططات القائمة على تقنية NeRF، والتي استخدمت عددًا متنوعًا من أجهزة الكاميرا المساهمة؛ بعضها يستخدم 16 كاميرا أو أكثر، والبعض الآخر يستخدم كاميرا واحدة أو اثنتين فقط. في جميع الحالات، تُملأ زوايا المشاهدة الوسيطة (أي تُفسَّر) بحيث يمكن التنقل بسلاسة في المشهد أو الجسم.

الكيان الناتج هو مساحة حجمية بالكامل ، مع فهم ثلاثي الأبعاد جوهري يمكن استغلاله بعدة طرق ، بما في ذلك القدرة على إنشاء شبكات CG التقليدية من مجموع ثلاثي الأبعاد لصور الإدخال.

NeRF في سياق "CGI الجديد"

صور مجال الإشعاع العصبي هي تعادل مباشرةً من صور العالم الحقيقي، بما في ذلك الصور المتحركة للأشخاص والأشياء والمشاهد. على النقيض من ذلك، تدرس منهجية الصور المُولَّدة بالحاسوب العالم وتفسِّره، مما يتطلب من فنيين مهرة بناء شبكات وأدوات وقوام تستخدم صور العالم الحقيقي (مثل لقطات الوجه والبيئة). ويظل هذا النهج تفسيريًا وحرفيًا في جوهره، وهو مكلف وشاق.

بالإضافة إلى ذلك، واجهت CGI مشاكل مستمرة مع تأثير "الوادي الغريب" في محاولاتها لإعادة إنشاء التشابهات البشرية، والتي لا تضع أي قيود على النهج الذي يعتمد على NeRF، والذي يلتقط ببساطة مقاطع فيديو أو صور لأشخاص حقيقيين ويتلاعب بها.

علاوة على ذلك ، يمكن لـ NeRF إنشاء هندسة شبكية تقليدية على غرار CGI مباشرة من الصور حسب الضرورة ، وفي الواقع تحل محل العديد من الإجراءات اليدوية التي كانت ضرورية دائمًا في الصور التي يتم إنشاؤها بواسطة الكمبيوتر.

تحديات أمام NeRF

يأتي هذا البحث الأخير من معهد ماساتشوستس للتكنولوجيا وجوجل في سياق طوفان حقيقي من أوراق NeRF على مدار العام الماضي ، وقد قدم العديد منها حلولًا للتحديات المختلفة التي طرحتها الورقة الأولية لعام 2020.

في أبريل ، قدم ابتكار من اتحاد أبحاث صيني وسيلة لتحقيق ذلك عزل بشكل متحفظ الجداول الزمنية الفردية للأوجه في مشهد NeRF ، بما في ذلك الأشخاص.

يسمح البحث الصيني للمستخدمين النهائيين بنسخ ولصق وتغيير حجم العناصر التي تم التقاطها ، وفصلها عن الجدول الزمني الخطي لمقطع الفيديو الأصلي. المصدر: https://www.youtube.com/watch؟

لا يتيح هذا الأسلوب فقط إعادة تخيل المشهد من أي زاوية تم التقاطها بواسطة مصفوفة الكاميرا (وليس فقط طريقة العرض الفردية الممثلة في التقاط فيديو نموذجي) ، ولكنه يتيح أيضًا تركيبًا متعدد الاستخدامات - وحتى القدرة على تمثيل وجهين من نفس لقطات يتم تشغيلها في إطارات زمنية فردية خاصة بها (أو حتى تتراجع ، حسب الضرورة).

يعمل وجهان منفصلان لـ NeRF بسرعات مختلفة في نفس المشهد. المصدر: https://www.youtube.com/watch؟

أحد أكبر التحديات التي تواجه NeRF هو تقليل الموارد الكبيرة اللازمة لتدريب المشهد ، وقد تم تناول ذلك في عدد من الأوراق البحثية الحديثة. على سبيل المثال ، قدم معهد ماكس بلانك للأنظمة الذكية مؤخرًا كيلو، والذي لا يؤدي فقط إلى تسريع أوقات العرض بمعامل 1000 ، ولكنه يمكّن أيضًا NeRF من العمل بشكل تفاعلي.

KiloNeRF يشغل بيئة تفاعلية بمعدل 50 إطارًا في الثانية على GTX 1080ti. المصدر: https://github.com/creiser/kilonerf

ومع ذلك ، فإن ابتكار سرعة NeRF الذي استحوذ حقًا على خيال الباحثين والجمهور على حد سواء في عام 2021 كان بلين أوكتريس بالتعاون ، بقيادة جامعة كاليفورنيا في بيركلي ، والتي تقدم عرضًا في الوقت الفعلي لـ Neural Radiance Fields:

تم استنساخ تأثير إمكانات PlenOctrees التفاعلية في ملف واجهة مباشرة على شبكة الإنترنت.

حركة تفاعلية حية لكائن PlenOctrees في Firefox (الحركة أكثر سلاسة وديناميكية مما يمثله GIF). المصدر: http://alexyu.net/plenoctrees/demo/

بالإضافة إلى ذلك، العودية- NRF (من ورقة بحثية نُشرت في مايو 2021 لباحثين في جامعة تسينغهوا) تُقدّم عرضًا تكراريًا عالي الجودة عند الطلب. بدلًا من إلزام المستخدم بعرض مشاهد كاملة، بما في ذلك أجزاء قد لا تظهر، تُوفّر تقنية Recursive-NeRF ما يُشبه ضغط JPEG مع فقدان البيانات، ويمكنها توليد ملفات فرعية من NeRF مُنفصلة لمعالجة صور إضافية عند الطلب، مما يُحقق توفيرًا هائلًا في الموارد الحاسوبية.

الاحتفاظ بالتفاصيل أثناء إغراق حسابات العرض غير الضرورية باستخدام Recursive-NeRF. المصدر: https://arxiv.org/pdf/2105.09103.pdf

الاحتفاظ بالتفاصيل أثناء إغراق حسابات العرض غير الضرورية باستخدام Recursive-NeRF. انقر على الصورة للحصول على دقة أعلى. المصدر: https://arxiv.org/pdf/2105.09103.pdf

النهج الأخرى تشمل FastNeRF، والتي تدعي أنها تحقق عرضًا عصبيًا عالي الدقة بمعدل 200 إطارًا في الثانية.

لقد لوحظ أن العديد من تقنيات التحسين لـ NeRF تنطوي على "خبز" المشهد، من خلال الالتزام بالجوانب المراد تقديمها والتخلص من الجوانب الأخرى ، مما يحد من الاستكشاف ولكنه يسرع التفاعل بشكل كبير.

الجانب السلبي لهذا هو أن الضغط ينتقل من وحدة معالجة الرسومات إلى وحدة التخزين ، لأن المشاهد المخبوزة تستهلك قدرًا هائلاً من مساحة القرص ؛ إلى حد ما ، يمكن التخفيف من ذلك عن طريق اختزال البيانات المخبوزة ، على الرغم من أن هذا يتضمن أيضًا التزامًا معينًا ، من حيث إغلاق طرق الاستكشاف أو التفاعل.

فيما يتعلق بالتقاط الحركة والتزوير ، نهج جديد من جامعات Zheijang و Cornell ، كشف في مايو، عرضت طريقة لإعادة إنشاء البشر المتحركين باستخدام حقول الوزن المختلطة والهياكل الهيكلية المترجمة من إدخال الفيديو:

مشتق من الهيكل العظمي في الرسوم المتحركة NeRF. المصدر: https://www.youtube.com/watch؟

متى ستصل NeRF إلى لحظة 'Jurassic Park'؟

على الرغم من التقدم السريع في مجال تركيب الصور عبر حقول الإشعاع العصبي، إلا أنه في هذه الفترة فقط سيُحدد أي نوع من "قوانين الديناميكا الحرارية" لكيفية إمكانية نشر NeRF. من حيث الجدول الزمني المشابه لتاريخ CGI، يدور NeRF حاليًا حول عام 1973، أي قبل... أول استخدام CGI في Westworld.

هذا لا يعني أن NeRF ستحتاج بالضرورة إلى الانتظار تسع سنوات للحصول على ما يعادله غضب خان علامة فارقة، أو عقود من الزمن لتحقيق إنجازات مماثلة حققتها CGI تحت رعاية جيمس كاميرون المتحمسة في عام 1989 الهاوية أو عام 1991 فاصل 2 - ثم تأتي التكنولوجيا الثورية حقًا لحظة الاختراق في 1993 الحديقة الجوراسية.

لقد شهد مشهد التصوير تغيرًا كبيرًا منذ فترة الركود الطويلة للمؤثرات البصرية الكيميائية الضوئية، التي هيمنت على إنتاج الأفلام والتلفزيون منذ نشأة السينما وحتى أوائل التسعينيات. وقد أدى ظهور ثورة الكمبيوتر الشخصي وتسارع قانون مور إلى ثورة الصور المُولَّدة بالحاسوب، والتي كان من الممكن أن تحدث في أوائل الستينيات.

لا يزال يتعين علينا أن نرى ما إذا كان هناك أي حاجز عنيد يمكن أن يعيق تقدم NeRF لفترة طويلة - وما إذا كانت الابتكارات اللاحقة في مجال الرؤية الحاسوبية قد لا تتفوق في هذه الأثناء على NeRF تمامًا باعتبارها المنافس الرئيسي لتاج CGI، ووصف حقول الإشعاع العصبي بأنها "آلة الفاكس" قصيرة العمر لتوليف الصور العصبية.

حتى الآن، لم يتم استخدام NeRF في أي سياق خارج البحث الأكاديمي؛ ولكن من الجدير بالذكر أن اللاعبين الرئيسيين مثل Google Research، والعديد من مختبرات أبحاث الرؤية الحاسوبية الأكثر شهرة تتنافس على أحدث الاختراقات في مجال NeRF.

لقد بدأ التعامل بشكل مباشر مع العديد من أكبر العقبات التي تواجه تقنية NeRF هذا العام؛ وإذا قدمت الأبحاث اللاحقة حلاً لمشكلة "الانعكاس"، وإذا اندمجت الخيوط العديدة لأبحاث تحسين تقنية NeRF في حل حاسم لمتطلبات المعالجة و/أو التخزين الكبيرة التي تتطلبها هذه التقنية، فإن تقنية NeRF لديها بالفعل فرصة لتصبح "CGI الجديدة" في السنوات الخمس المقبلة.

مواضيع ذات صلة:تركيب الصورة نيرف بحث الذكاء الاصطناعي المرئي

مارتن أندرسون

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai