Connect with us

ST-NeRF: वीडियो सिंथेसिस के लिए कंपोजिटिंग और एडिटिंग

कृत्रिम बुद्धिमत्ता

ST-NeRF: वीडियो सिंथेसिस के लिए कंपोजिटिंग और एडिटिंग

mm
ST-NeRF

एक चीनी अनुसंधान संघ ने विकसित तकनीकों को विकसित किया है जो संपादन और कंपोजिटिंग क्षमताओं को पिछले वर्ष के सबसे गर्म छवि सिंथेसिस अनुसंधान क्षेत्रों में से एक में लाने के लिए – न्यूरल रेडियंस फील्ड्स (NeRF)। इस प्रणाली को ST-NeRF (स्पेशियो-टेम्पोरल कोहेरेंट न्यूरल रेडियंस फील्ड) कहा जाता है।

जो छवि में एक भौतिक कैमरा पैन की तरह दिखाई देता है, वास्तव में यह केवल एक उपयोगकर्ता को 4D स्थान में मौजूद वीडियो सामग्री के दृश्यों के माध्यम से स्क्रॉल करना है। पीओवी लोगों के प्रदर्शन के प्रदर्शन से बंद नहीं है, जिनकी गतिविधियों को 180-डिग्री त्रिज्या के किसी भी हिस्से से देखा जा सकता है।

ST-NeRF

वीडियो के भीतर प्रत्येक पहलू एक विवेकपूर्ण रूप से कब्जा किया गया तत्व है, जो एक सुसंगत दृश्य में जोड़ा जाता है जिसे गतिविधि से अन्वेषण किया जा सकता है।

पहलुओं को दृश्य के भीतर स्वतंत्र रूप से दोहराया जा सकता है, या पुनः आकार दिया जा सकता है:

ST-NeRF

इसके अलावा, प्रत्येक पहलू का समयवार व्यवहार को आसानी से बदला जा सकता है, धीमा किया जा सकता है, उल्टा चलाया जा सकता है, या विभिन्न तरीकों से हेरफेर किया जा सकता है, जो फिल्टर वास्तुकला और एक अत्यधिक उच्च स्तर की व्याख्या के लिए मार्ग खोलता है।

दो अलग-अलग NeRF पहलू एक ही दृश्य में अलग-अलग गति से चलते हैं। स्रोत: https://www.youtube.com/watch?v=Wp4HfOwFGP4

दो अलग-अलग NeRF पहलू एक ही दृश्य में अलग-अलग गति से चलते हैं। स्रोत: https://www.youtube.com/watch?v=Wp4HfOwFGP4

प्रदर्शनकारियों या पर्यावरण को रोटोस्कोप करने की आवश्यकता नहीं है, या प्रदर्शनकारियों को उनके आंदोलनों को अंधेरे में और इरादित दृश्य के संदर्भ से बाहर करने की आवश्यकता नहीं है। इसके बजाय, फुटेज को प्राकृतिक रूप से 16 वीडियो कैमरों के माध्यम से कब्जा किया जाता है जो 180 डिग्री को कवर करते हैं:

16 कैमरे ST-NeRF

ऊपर दिखाए गए तीन तत्व, दो लोग और पर्यावरण, अलग-अलग हैं, और केवल स्पष्टीकरण के उद्देश्य से रेखांकित किए गए हैं। प्रत्येक को स्वैप किया जा सकता है, और प्रत्येक को दृश्य में उनके व्यक्तिगत कब्जा समयरेखा में एक पहले या बाद में डाला जा सकता है।

ऊपर दिखाए गए तीन तत्व, दो लोग और पर्यावरण, अलग-अलग हैं, और केवल स्पष्टीकरण के उद्देश्य से रेखांकित किए गए हैं। प्रत्येक को स्वैप किया जा सकता है, और प्रत्येक को दृश्य में उनके व्यक्तिगत कब्जा समयरेखा में एक पहले या बाद में डाला जा सकता है।

ST-NeRF न्यूरल रेडियंस फील्ड्स (NeRF) में अनुसंधान पर एक नवाचार है, एक मशीन लर्निंग फ्रेमवर्क जिसमें कई दृश्य बिंदु कब्जा को एक नेविगेबल वर्चुअल स्पेस में संश्लेषित किया जाता है जो व्यापक प्रशिक्षण द्वारा (हालांकि एकल दृश्य बिंदु कब्जा भी NeRF अनुसंधान का एक उप-क्षेत्र है)।

न्यूरल रेडियंस फील्ड्स काम करते हैं जो एकल सुसंगत और नेविगेबल 3D स्पेस में कई कब्जा दृश्यों को इकट्ठा करते हैं, जिसमें कवरेज के बीच के अंतराल को एक न्यूरल नेटवर्क द्वारा अनुमानित और रेंडर किया जाता है। जहां वीडियो (स्थिर छवियों के बजाय) का उपयोग किया जाता है, रेंडरिंग संसाधनों की आवश्यकता अक्सर काफी अधिक होती है।

न्यूरल रेडियंस फील्ड्स काम करते हैं जो एकल सुसंगत और नेविगेबल 3D स्पेस में कई कब्जा दृश्यों को इकट्ठा करते हैं, जिसमें कवरेज के बीच के अंतराल को एक न्यूरल नेटवर्क द्वारा अनुमानित और रेंडर किया जाता है। जहां वीडियो (स्थिर छवियों के बजाय) का उपयोग किया जाता है, रेंडरिंग संसाधनों की आवश्यकता अक्सर काफी अधिक होती है। स्रोत: https://www.matthewtancik.com/nerf

NeRF में रुचि पिछले नौ महीनों में तीव्र हो गई है, और एक Reddit-मेंटेन की गई सूची व्युत्पन्न या अन्वेषण NeRF पेपर वर्तमान में साठ परियोजनाओं को सूचीबद्ध करती है।

 

मूल NeRF पेपर के कुछ ऑफशूट। स्रोत: https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/

मूल NeRF पेपर के कुछ ऑफशूट। स्रोत: https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/

सस्ती प्रशिक्षण

यह पेपर शंघाई टेक यूनिवर्सिटी और DGene डिजिटल टेक्नोलॉजी के शोधकर्ताओं के बीच एक सहयोग है, और इसे ओपन रिव्यू में कुछ उत्साह के साथ स्वीकार किया गया है।

ST-NeRF पिछले पहलों पर कई नवाचार प्रदान करता है। कम से कम, यह केवल 16 कैमरों के साथ एक उच्च स्तर की वास्तविकता प्राप्त करता है। हालांकि फेसबुक का DyNeRF इसका उपयोग करता है, यह एक अधिक प्रतिबंधित नेविगेबल आर्क प्रदान करता है।

फेसबुक के DyNeRF पर्यावरण का एक उदाहरण, जिसमें आंदोलन का एक अधिक सीमित क्षेत्र है, और दृश्य को पुनर्निर्माण करने के लिए प्रति वर्ग फुट अधिक कैमरे की आवश्यकता है। स्रोत: https://neural-3d-video.github.io

फेसबुक के DyNeRF पर्यावरण का एक उदाहरण, जिसमें आंदोलन का एक अधिक सीमित क्षेत्र है, और दृश्य को पुनर्निर्माण करने के लिए प्रति वर्ग फुट अधिक कैमरे की आवश्यकता है। स्रोत: https://neural-3d-video.github.io

इसके अलावा, DyNeRF में व्यक्तिगत पहलुओं को संपादित और संयोजित करने की क्षमता का अभाव है, और यह गणना संसाधनों के संदर्भ में विशेष रूप से महंगा है। इसके विपरीत, चीनी शोधकर्ता कहते हैं कि उनके डेटा के लिए प्रशिक्षण लागत $900-$3,000 के बीच है, जो राज्य-कला वीडियो जनरेशन मॉडल DVDGAN के लिए $30,000 की तुलना में काफी कम है, और गहन प्रणाली जैसे DyNeRF।

समीक्षकों ने यह भी उल्लेख किया है कि ST-NeRF गति के प्रशिक्षण की प्रक्रिया को छवि संश्लेषण की प्रक्रिया से अलग करने में एक प्रमुख नवाचार करता है। यह पृथक्करण संपादन और संयोजन को सक्षम बनाता है, पिछले दृष्टिकोण प्रतिबंधित और रैखिक हैं।

हालांकि 16 कैमरे एक पूर्ण अर्ध-वृत्त दृश्य के लिए एक बहुत ही सीमित सरणी है, शोधकर्ताओं को उम्मीद है कि वे बाद के काम में प्रॉक्सी प्री-स्कैन्ड स्टेटिक पृष्ठभूमि के उपयोग के माध्यम से और अधिक डेटा-चालित दृश्य मॉडलिंग दृष्टिकोण के माध्यम से इस संख्या को और कम कर सकते हैं। वे री-लाइटिंग क्षमताओं को भी शामिल करने की उम्मीद करते हैं, जो NeRF अनुसंधान में एक हाल का नवाचार है।

ST-NeRF की सीमाओं को संबोधित करना

शैक्षणिक सीएस पेपर्स के संदर्भ में जो एक नए सिस्टम की वास्तविक उपयोगिता को एक फेंक-ऑफ अंत अनुच्छेद में कूड़ा करते हैं, ST-NeRF के लिए शोधकर्ताओं द्वारा स्वीकार की गई सीमाएं असामान्य हैं।

वे यह देखते हैं कि प्रणाली वर्तमान में दृश्य में विशिष्ट वस्तुओं को अलग से पहचान और रेंडर नहीं कर सकती है, क्योंकि फुटेज में लोग एक प्रणाली द्वारा व्यक्तिगत इकाइयों में विभाजित किए जाते हैं जो मानवों को नहीं पहचानती है – एक समस्या जो YOLO और समान फ्रेमवर्क के साथ आसानी से हल हो सकती है, जिसमें मानव वीडियो को निकालने का कठिन काम पहले ही पूरा हो चुका है।

हालांकि शोधकर्ता यह देखते हैं कि यह वर्तमान में धीमी गति का उत्पादन करना संभव नहीं है, ऐसा लगता है कि मौजूदा नवाचारों जैसे DAIN और RIFE का उपयोग करके इसका कार्यान्वयन करने में कुछ भी नहीं है।

जैसा कि NeRF के सभी कार्यान्वयन में है, और कंप्यूटर विजन अनुसंधान के कई अन्य क्षेत्रों में, ST-NeRF गंभीर ऑक्लूजन के मामलों में विफल हो सकता है, जहां विषय अस्थायी रूप से किसी अन्य व्यक्ति या वस्तु द्वारा अवरुद्ध होता है, और इसका निरंतर ट्रैकिंग या बाद में सटीक रूप से पुनर्प्राप्त करना मुश्किल हो सकता है। जैसा कि कहीं और, यह कठिनाई को आगे के समाधानों की प्रतीक्षा करनी पड़ सकती है। इस बीच, शोधकर्ता स्वीकार करते हैं कि इन ऑक्लूडेड फ्रेम में मैनुअल हस्तक्षेप आवश्यक है।

अंत में, शोधकर्ता यह देखते हैं कि मानव खंडन प्रक्रियाएं वर्तमान में रंग अंतरों पर निर्भर करती हैं, जो दो लोगों को एक ही खंड ब्लॉक में अनजाने में एकत्र कर सकती है – एक बाधा जो कि ST-NeRF तक सीमित नहीं है, लेकिन पुस्तकालय का एक अंतर्निहित हिस्सा है, और जो ऑप्टिकल फ्लो विश्लेषण और अन्य उभरते तकनीकों द्वारा हल की जा सकती है।

पहली बार 7 मई 2021 को प्रकाशित।

 

 

 

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai