कृत्रिम बुद्धिमत्ता
ST-NeRF: वीडियो सिंथेसिस के लिए कंपोजिटिंग और एडिटिंग

एक चीनी अनुसंधान संघ ने विकसित तकनीकों को विकसित किया है जो संपादन और कंपोजिटिंग क्षमताओं को पिछले वर्ष के सबसे गर्म छवि सिंथेसिस अनुसंधान क्षेत्रों में से एक में लाने के लिए – न्यूरल रेडियंस फील्ड्स (NeRF)। इस प्रणाली को ST-NeRF (स्पेशियो-टेम्पोरल कोहेरेंट न्यूरल रेडियंस फील्ड) कहा जाता है।
जो छवि में एक भौतिक कैमरा पैन की तरह दिखाई देता है, वास्तव में यह केवल एक उपयोगकर्ता को 4D स्थान में मौजूद वीडियो सामग्री के दृश्यों के माध्यम से स्क्रॉल करना है। पीओवी लोगों के प्रदर्शन के प्रदर्शन से बंद नहीं है, जिनकी गतिविधियों को 180-डिग्री त्रिज्या के किसी भी हिस्से से देखा जा सकता है।

वीडियो के भीतर प्रत्येक पहलू एक विवेकपूर्ण रूप से कब्जा किया गया तत्व है, जो एक सुसंगत दृश्य में जोड़ा जाता है जिसे गतिविधि से अन्वेषण किया जा सकता है।
पहलुओं को दृश्य के भीतर स्वतंत्र रूप से दोहराया जा सकता है, या पुनः आकार दिया जा सकता है:

इसके अलावा, प्रत्येक पहलू का समयवार व्यवहार को आसानी से बदला जा सकता है, धीमा किया जा सकता है, उल्टा चलाया जा सकता है, या विभिन्न तरीकों से हेरफेर किया जा सकता है, जो फिल्टर वास्तुकला और एक अत्यधिक उच्च स्तर की व्याख्या के लिए मार्ग खोलता है।

दो अलग-अलग NeRF पहलू एक ही दृश्य में अलग-अलग गति से चलते हैं। स्रोत: https://www.youtube.com/watch?v=Wp4HfOwFGP4

प्रदर्शनकारियों या पर्यावरण को रोटोस्कोप करने की आवश्यकता नहीं है, या प्रदर्शनकारियों को उनके आंदोलनों को अंधेरे में और इरादित दृश्य के संदर्भ से बाहर करने की आवश्यकता नहीं है। इसके बजाय, फुटेज को प्राकृतिक रूप से 16 वीडियो कैमरों के माध्यम से कब्जा किया जाता है जो 180 डिग्री को कवर करते हैं:


ऊपर दिखाए गए तीन तत्व, दो लोग और पर्यावरण, अलग-अलग हैं, और केवल स्पष्टीकरण के उद्देश्य से रेखांकित किए गए हैं। प्रत्येक को स्वैप किया जा सकता है, और प्रत्येक को दृश्य में उनके व्यक्तिगत कब्जा समयरेखा में एक पहले या बाद में डाला जा सकता है।
ST-NeRF न्यूरल रेडियंस फील्ड्स (NeRF) में अनुसंधान पर एक नवाचार है, एक मशीन लर्निंग फ्रेमवर्क जिसमें कई दृश्य बिंदु कब्जा को एक नेविगेबल वर्चुअल स्पेस में संश्लेषित किया जाता है जो व्यापक प्रशिक्षण द्वारा (हालांकि एकल दृश्य बिंदु कब्जा भी NeRF अनुसंधान का एक उप-क्षेत्र है)।

न्यूरल रेडियंस फील्ड्स काम करते हैं जो एकल सुसंगत और नेविगेबल 3D स्पेस में कई कब्जा दृश्यों को इकट्ठा करते हैं, जिसमें कवरेज के बीच के अंतराल को एक न्यूरल नेटवर्क द्वारा अनुमानित और रेंडर किया जाता है। जहां वीडियो (स्थिर छवियों के बजाय) का उपयोग किया जाता है, रेंडरिंग संसाधनों की आवश्यकता अक्सर काफी अधिक होती है। स्रोत: https://www.matthewtancik.com/nerf
NeRF में रुचि पिछले नौ महीनों में तीव्र हो गई है, और एक Reddit-मेंटेन की गई सूची व्युत्पन्न या अन्वेषण NeRF पेपर वर्तमान में साठ परियोजनाओं को सूचीबद्ध करती है।

मूल NeRF पेपर के कुछ ऑफशूट। स्रोत: https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/
सस्ती प्रशिक्षण
यह पेपर शंघाई टेक यूनिवर्सिटी और DGene डिजिटल टेक्नोलॉजी के शोधकर्ताओं के बीच एक सहयोग है, और इसे ओपन रिव्यू में कुछ उत्साह के साथ स्वीकार किया गया है।
ST-NeRF पिछले पहलों पर कई नवाचार प्रदान करता है। कम से कम, यह केवल 16 कैमरों के साथ एक उच्च स्तर की वास्तविकता प्राप्त करता है। हालांकि फेसबुक का DyNeRF इसका उपयोग करता है, यह एक अधिक प्रतिबंधित नेविगेबल आर्क प्रदान करता है।

फेसबुक के DyNeRF पर्यावरण का एक उदाहरण, जिसमें आंदोलन का एक अधिक सीमित क्षेत्र है, और दृश्य को पुनर्निर्माण करने के लिए प्रति वर्ग फुट अधिक कैमरे की आवश्यकता है। स्रोत: https://neural-3d-video.github.io
इसके अलावा, DyNeRF में व्यक्तिगत पहलुओं को संपादित और संयोजित करने की क्षमता का अभाव है, और यह गणना संसाधनों के संदर्भ में विशेष रूप से महंगा है। इसके विपरीत, चीनी शोधकर्ता कहते हैं कि उनके डेटा के लिए प्रशिक्षण लागत $900-$3,000 के बीच है, जो राज्य-कला वीडियो जनरेशन मॉडल DVDGAN के लिए $30,000 की तुलना में काफी कम है, और गहन प्रणाली जैसे DyNeRF।
समीक्षकों ने यह भी उल्लेख किया है कि ST-NeRF गति के प्रशिक्षण की प्रक्रिया को छवि संश्लेषण की प्रक्रिया से अलग करने में एक प्रमुख नवाचार करता है। यह पृथक्करण संपादन और संयोजन को सक्षम बनाता है, पिछले दृष्टिकोण प्रतिबंधित और रैखिक हैं।
हालांकि 16 कैमरे एक पूर्ण अर्ध-वृत्त दृश्य के लिए एक बहुत ही सीमित सरणी है, शोधकर्ताओं को उम्मीद है कि वे बाद के काम में प्रॉक्सी प्री-स्कैन्ड स्टेटिक पृष्ठभूमि के उपयोग के माध्यम से और अधिक डेटा-चालित दृश्य मॉडलिंग दृष्टिकोण के माध्यम से इस संख्या को और कम कर सकते हैं। वे री-लाइटिंग क्षमताओं को भी शामिल करने की उम्मीद करते हैं, जो NeRF अनुसंधान में एक हाल का नवाचार है।
ST-NeRF की सीमाओं को संबोधित करना
शैक्षणिक सीएस पेपर्स के संदर्भ में जो एक नए सिस्टम की वास्तविक उपयोगिता को एक फेंक-ऑफ अंत अनुच्छेद में कूड़ा करते हैं, ST-NeRF के लिए शोधकर्ताओं द्वारा स्वीकार की गई सीमाएं असामान्य हैं।
वे यह देखते हैं कि प्रणाली वर्तमान में दृश्य में विशिष्ट वस्तुओं को अलग से पहचान और रेंडर नहीं कर सकती है, क्योंकि फुटेज में लोग एक प्रणाली द्वारा व्यक्तिगत इकाइयों में विभाजित किए जाते हैं जो मानवों को नहीं पहचानती है – एक समस्या जो YOLO और समान फ्रेमवर्क के साथ आसानी से हल हो सकती है, जिसमें मानव वीडियो को निकालने का कठिन काम पहले ही पूरा हो चुका है।
हालांकि शोधकर्ता यह देखते हैं कि यह वर्तमान में धीमी गति का उत्पादन करना संभव नहीं है, ऐसा लगता है कि मौजूदा नवाचारों जैसे DAIN और RIFE का उपयोग करके इसका कार्यान्वयन करने में कुछ भी नहीं है।
जैसा कि NeRF के सभी कार्यान्वयन में है, और कंप्यूटर विजन अनुसंधान के कई अन्य क्षेत्रों में, ST-NeRF गंभीर ऑक्लूजन के मामलों में विफल हो सकता है, जहां विषय अस्थायी रूप से किसी अन्य व्यक्ति या वस्तु द्वारा अवरुद्ध होता है, और इसका निरंतर ट्रैकिंग या बाद में सटीक रूप से पुनर्प्राप्त करना मुश्किल हो सकता है। जैसा कि कहीं और, यह कठिनाई को आगे के समाधानों की प्रतीक्षा करनी पड़ सकती है। इस बीच, शोधकर्ता स्वीकार करते हैं कि इन ऑक्लूडेड फ्रेम में मैनुअल हस्तक्षेप आवश्यक है।
अंत में, शोधकर्ता यह देखते हैं कि मानव खंडन प्रक्रियाएं वर्तमान में रंग अंतरों पर निर्भर करती हैं, जो दो लोगों को एक ही खंड ब्लॉक में अनजाने में एकत्र कर सकती है – एक बाधा जो कि ST-NeRF तक सीमित नहीं है, लेकिन पुस्तकालय का एक अंतर्निहित हिस्सा है, और जो ऑप्टिकल फ्लो विश्लेषण और अन्य उभरते तकनीकों द्वारा हल की जा सकती है।
पहली बार 7 मई 2021 को प्रकाशित।












