الذكاء الاصطناعي
نحو البشر في الوقت الحقيقي بالذكاء الاصطناعي مع عرض Lumigraph العصبي

على الرغم من الموجة الحالية من الاهتمام بمجالات الإشعاع العصبي (نيرف) ، وهي تقنية قادرة على إنشاء بيئات وأشياء ثلاثية الأبعاد يتم إنشاؤها بواسطة الذكاء الاصطناعي ، ولا يزال هذا النهج الجديد لتقنية تركيب الصور يتطلب قدرًا كبيرًا من وقت التدريب ، ويفتقر إلى التنفيذ الذي يتيح واجهات عالية الاستجابة في الوقت الفعلي.
ومع ذلك ، فإن التعاون بين بعض الأسماء الرائعة في الصناعة والأوساط الأكاديمية يقدم طريقة جديدة لمواجهة هذا التحدي (المعروف عمومًا باسم Novel View Synthesis أو NVS).
البحث ورقة، مخول تقديم Lumigraph العصبية، تدعي وجود تحسين على أحدث ما توصلت إليه التكنولوجيا بحوالي أمرين من حيث الحجم، وهو ما يمثل عدة خطوات نحو عرض CG في الوقت الفعلي عبر مسارات التعلم الآلي.

يوفر عرض Lumigraph العصبي (يمين) دقة أفضل لمزج القطع الأثرية ، وتحسين معالجة الانسداد على الطرق السابقة. مصدر.
على الرغم من أن الاعتمادات الخاصة بالورقة تستشهد فقط بجامعة ستانفورد وشركة تكنولوجيا العرض الثلاثية الأبعاد Raxium (التي تعمل حاليًا في وضع الشبح) ، يشمل المساهمون التعلم الآلي الرئيسي مهندس معماري في Google ، كمبيوتر عالم في Adobe و CTO at ملف القصة (والذي جعل العناوين مؤخرًا بإصدار AI من William Shatner).
فيما يتعلق بحملة الدعاية الأخيرة لشاتنر ، يبدو أن StoryFile تستخدم NLR في عمليتها الجديدة لإنشاء كيانات تفاعلية مولدة بالذكاء الاصطناعي بناءً على خصائص وسرديات الأفراد.
تتصور StoryFile استخدام هذه التقنية في عروض المتحف ، والسرد التفاعلي عبر الإنترنت ، والعروض الثلاثية الأبعاد ، والواقع المعزز (AR) ، وتوثيق التراث - ويبدو أيضًا أنها تتطلع إلى التطبيقات الجديدة المحتملة لـ NLR في مقابلات التوظيف وتطبيقات المواعدة الافتراضية:

الاستخدامات المقترحة من فيديو عبر الإنترنت بواسطة StoryFile. المصدر: https://www.youtube.com/watch؟
الالتقاط الحجمي للواجهات التركيبية لعرض الرواية والفيديو
إن مبدأ التقاط الحجم، عبر مجموعة الأوراق التي تتراكم حول هذا الموضوع، هو فكرة التقاط صور ثابتة أو مقاطع فيديو لموضوع ما، واستخدام التعلم الآلي "لملء" وجهات النظر التي لم تغطيها مجموعة الكاميرات الأصلية.

المصدر: https://research.fb.com/wp-content/uploads/2019/06/Neural-Volumes-Learning-Dynamic-Renderable-Volumes-from-Images.pdf
في الصورة أعلاه، المأخوذة من بحث الذكاء الاصطناعي لعام 2019 الذي أجرته شركة فيسبوك (انظر أدناه)، نرى المراحل الأربع لالتقاط الحجم: تحصل كاميرات متعددة على صور/لقطات؛ تحسب بنية المشفر/المفكك (أو بنى أخرى) نسبية المشاهدات وتسلسلها؛ تحسب خوارزميات مسيرة الأشعة الثعالب (أو وحدات هندسية مكانية أخرى XYZ) لكل نقطة في الفضاء الحجمي ؛ و (في أحدث الأوراق) يحدث التدريب لتجميع كيان كامل يمكن التلاعب به في الوقت الفعلي.
غالبًا ما تكون مرحلة التدريب المكثفة والمثقلة بالبيانات هي التي أبقت ، حتى الآن ، توليفة عرض جديدة بعيدًا عن عالم الالتقاط الفوري أو عالي الاستجابة.
حقيقة أن Novel View Synthesis تصنع خريطة ثلاثية الأبعاد كاملة لمساحة حجمية تعني أنه من التافه نسبيًا ربط هذه النقاط معًا في شبكة تقليدية تم إنشاؤها بواسطة الكمبيوتر ، مما يؤدي إلى التقاط وتوضيح كائن CGI البشري (أو أي كائن آخر محدود نسبيًا) على- الذبابة.
تعتمد الأساليب التي تستخدم NeRF على سحب النقاط وخرائط العمق لإنشاء عمليات الإقحام بين نقاط العرض المتفرقة لأجهزة الالتقاط:

يمكن أن تولد NeRF عمقًا حجميًا من خلال حساب خرائط العمق ، بدلاً من إنشاء شبكات CG. المصدر: https://www.youtube.com/watch؟
على الرغم من أن NeRF هو قادر على في حساب الشبكات ، لا تستخدم معظم التطبيقات هذا من أجل إنشاء مشاهد حجمية.
على النقيض من ذلك ، فإن العارض الضمني التفاضلي (IDR) يقترب، نشرت من قبل معهد وايزمان للعلوم في أكتوبر 2020 ، يتوقف على استغلال معلومات الشبكة ثلاثية الأبعاد التي يتم إنشاؤها تلقائيًا من مصفوفات الالتقاط:

تحولت أمثلة التقاط IDR إلى شبكات CGI تفاعلية. المصدر: https://www.youtube.com/watch؟
في حين يفتقر NeRF إلى قدرة IDR على تقدير الشكل، فإن IDR لا يمكنه مطابقة جودة صورة NeRF، وكلاهما يتطلب موارد مكثفة للتدريب والمقارنة (على الرغم من أن الابتكارات الحديثة في NeRF لا تزال قيد التطوير). بداية إلى معالجة هذا).

مجموعة كاميرات NLR المُخصصة، تضم 16 كاميرا GoPro HERO7 و6 كاميرات Back-Bone H7PRO مركزية. للتصوير الفوري، تعمل هذه الكاميرات بسرعة 60 إطارًا في الثانية كحد أدنى. المصدر: https://arxiv.org/pdf/2103.11571.pdf
بدلاً من ذلك ، يستخدم Neural Lumigraph Rendering صفارة إنذار (شبكات التمثيل الجيبية) لدمج نقاط القوة في كل نهج في إطارها الخاص، والذي يهدف إلى توليد مخرجات يمكن استخدامها مباشرة في خطوط أنابيب الرسومات في الوقت الفعلي الموجودة.
تم استخدام SIREN لـ تطبيقات مماثلة خلال العام الماضي ، ويمثل الآن دعوة API الشعبية بالنسبة لمختبرات التعاون للهواة في مجتمعات تركيب الصور؛ ومع ذلك، فإن ابتكار NLR هو تطبيق SIRENs على الإشراف على الصور متعددة العرض ثنائية الأبعاد، وهو أمر إشكالي بسبب المدى الذي تنتج فيه SIREN مخرجات مبالغ فيها بدلاً من التعميم.
بعد استخراج شبكة CG من صور الصفيف ، يتم تحويل الشبكة إلى نقطية عبر OpenGL ، ويتم تعيين مواضع قمة الشبكة إلى وحدات البكسل المناسبة ، وبعد ذلك يتم حساب مزج الخرائط المساهمة المختلفة.
الشبكة الناتجة أكثر عمومية وتمثيلاً من شبكة NeRF (انظر الصورة أدناه)، وتتطلب حسابًا أقل، ولا تطبق تفاصيل مفرطة على المناطق (مثل بشرة الوجه الناعمة) التي لا يمكنها الاستفادة منها:
على الجانب السلبي ، لا تمتلك NLR أي قدرة على الإضاءة الديناميكية أو إعادة الإضاءة، ويقتصر الإخراج على خرائط الظل واعتبارات الإضاءة الأخرى التي تم الحصول عليها وقت الالتقاط. يعتزم الباحثون معالجة هذا في العمل في المستقبل.
بالإضافة إلى ذلك ، تقر الورقة بأن الأشكال التي تم إنشاؤها بواسطة NLR ليست دقيقة مثل بعض الأساليب البديلة ، مثل تحديد عرض Pixelwise لستيريو متعدد العرض غير منظم، أو بحث معهد وايزمان المذكور سابقًا.
صعود تركيب الصورة الحجمية
تعود فكرة إنشاء كيانات ثلاثية الأبعاد من سلسلة محدودة من الصور باستخدام الشبكات العصبية إلى ما قبل ظهور NeRF، حيث نُشرت أبحاثٌ رائدة تعود إلى عام ٢٠٠٧ أو ما قبله. في عام ٢٠١٩، أصدر قسم أبحاث الذكاء الاصطناعي في فيسبوك بحثًا رائدًا. الأحجام العصبية: تعلم الأحجام الديناميكية القابلة للعرض من الصور، والتي مكّنت لأول مرة واجهات مستجيبة للبشر الاصطناعي التي تم إنشاؤها بواسطة الالتقاط الحجمي القائم على التعلم الآلي.

مكّن البحث الذي أجرته شركة فيسبوك في عام 2019 من إنشاء واجهة مستخدم سريعة الاستجابة لشخص ذي حجم كبير. المصدر: https://research.fb.com/publications/neural-volumes-learning-dynamic-renderable-volumes-from-images/













