ठूंठ एसटी-एनईआरएफ: वीडियो संश्लेषण के लिए संयोजन और संपादन - यूनाइट.एआई
हमसे जुडे

Artificial Intelligence

एसटी-एनईआरएफ: वीडियो संश्लेषण के लिए संयोजन और संपादन

mm
Updated on
एसटी-एनईआरएफ

एक चीनी अनुसंधान संघ ने किया है विकसित पिछले वर्ष के सबसे लोकप्रिय छवि संश्लेषण अनुसंधान क्षेत्रों में से एक - न्यूरल रेडियंस फील्ड्स (एनईआरएफ) में संपादन और कंपोजिटिंग क्षमताओं को लाने की तकनीक। इस प्रणाली का शीर्षक ST-NeRF (स्पैटियो-टेम्पोरल कोहेरेंट न्यूरल रेडियंस फील्ड) है।

नीचे दी गई छवि में जो एक भौतिक कैमरा पैन प्रतीत होता है वह वास्तव में एक उपयोगकर्ता है जो 4D स्पेस में मौजूद वीडियो सामग्री पर दृष्टिकोण बिंदुओं के माध्यम से 'स्क्रॉल' कर रहा है। पीओवी वीडियो में दर्शाए गए लोगों के प्रदर्शन पर निर्भर नहीं है, जिनकी गतिविधियों को 180 डिग्री के दायरे के किसी भी हिस्से से देखा जा सकता है।

एसटी-एनईआरएफ

वीडियो का प्रत्येक पहलू एक सूक्ष्मता से कैप्चर किया गया तत्व है, जिसे एक साथ मिलाकर एक सामंजस्यपूर्ण दृश्य बनाया गया है जिसे गतिशील रूप से खोजा जा सकता है।

पहलुओं को दृश्य के भीतर स्वतंत्र रूप से दोहराया जा सकता है, या फिर से आकार दिया जा सकता है:

एसटी-एनईआरएफ

इसके अतिरिक्त, प्रत्येक पहलू के अस्थायी व्यवहार को आसानी से बदला जा सकता है, धीमा किया जा सकता है, पीछे की ओर चलाया जा सकता है, या किसी भी तरीके से हेरफेर किया जा सकता है, जिससे फ़िल्टर आर्किटेक्चर और अत्यधिक उच्च स्तर की व्याख्या का मार्ग खुल जाता है।

एक ही दृश्य में दो अलग-अलग एनईआरएफ पहलू अलग-अलग गति से चलते हैं। स्रोत: https://www.youtube.com/watch?v=Wp4HfOwFGP4

एक ही दृश्य में दो अलग-अलग एनईआरएफ पहलू अलग-अलग गति से चलते हैं। स्रोत: https://www.youtube.com/watch?v=Wp4HfOwFGP4

कलाकारों या वातावरण को घुमाने की कोई आवश्यकता नहीं है, या कलाकारों को अपनी गतिविधियों को आँख बंद करके और इच्छित दृश्य के संदर्भ से बाहर निष्पादित करने की आवश्यकता नहीं है। इसके बजाय, 16 डिग्री को कवर करने वाले 180 वीडियो कैमरों की एक श्रृंखला के माध्यम से फुटेज को स्वाभाविक रूप से कैप्चर किया जाता है:

16 कैमरे ST-NeRF

ऊपर चित्रित तीन तत्व, दो लोग और पर्यावरण, अलग-अलग हैं, और केवल उदाहरणात्मक उद्देश्यों के लिए उल्लिखित हैं। प्रत्येक को स्वैप किया जा सकता है, और प्रत्येक को उनके व्यक्तिगत कैप्चर टाइमलाइन में पहले या बाद के बिंदु पर दृश्य में डाला जा सकता है।

ऊपर चित्रित तीन तत्व, दो लोग और पर्यावरण, अलग-अलग हैं, और केवल उदाहरणात्मक उद्देश्यों के लिए उल्लिखित हैं। प्रत्येक को स्वैप किया जा सकता है, और प्रत्येक को उनके व्यक्तिगत कैप्चर टाइमलाइन में पहले या बाद के बिंदु पर दृश्य में डाला जा सकता है।

ST-NeRF न्यूरल रेडियंस फील्ड्स में अनुसंधान पर एक नवाचार है (एनईआरएफ), एक मशीन लर्निंग फ्रेमवर्क जिसके तहत कई दृष्टिकोण कैप्चर को व्यापक प्रशिक्षण द्वारा एक नेविगेशन योग्य आभासी स्थान में संश्लेषित किया जाता है (हालांकि एकल दृष्टिकोण कैप्चर भी एनईआरएफ अनुसंधान का एक उप-क्षेत्र है)।

न्यूरल रेडियंस फील्ड्स एक तंत्रिका नेटवर्क द्वारा अनुमानित और प्रस्तुत किए गए कवरेज के बीच अंतराल के साथ, एक सुसंगत और नेविगेशन योग्य 3 डी स्पेस में एकाधिक कैप्चर व्यूपॉइंट्स को एकत्रित करके काम करते हैं। जहां वीडियो (स्थिर छवियों के बजाय) का उपयोग किया जाता है, वहां आवश्यक रेंडरिंग संसाधन अक्सर काफी होते हैं। स्रोत: https://www.matthewtancik.com/nerf

न्यूरल रेडियंस फील्ड्स एक तंत्रिका नेटवर्क द्वारा अनुमानित और प्रस्तुत किए गए कवरेज के बीच अंतराल के साथ, एक सुसंगत और नेविगेशन योग्य 3 डी स्पेस में एकाधिक कैप्चर व्यूपॉइंट्स को एकत्रित करके काम करते हैं। जहां वीडियो (स्थिर छवियों के बजाय) का उपयोग किया जाता है, वहां आवश्यक रेंडरिंग संसाधन अक्सर काफी होते हैं। स्रोत: https://www.matthewtancik.com/nerf

पिछले नौ महीनों में एनईआरएफ में रुचि तीव्र हो गई है, और रेडिट-बनाए रखा गया है सूची व्युत्पन्न या खोजपूर्ण एनईआरएफ कागजात में वर्तमान में साठ परियोजनाएं सूचीबद्ध हैं।

 

मूल एनईआरएफ पेपर के कई ऑफ-शूटों में से बस कुछ। स्रोत: https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/

मूल एनईआरएफ पेपर के कई ऑफ-शूटों में से बस कुछ। स्रोत: https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/

किफायती प्रशिक्षण

यह पेपर शंघाई टेक यूनिवर्सिटी के शोधकर्ताओं के बीच एक सहयोग है डीजीन डिजिटल टेक्नोलॉजी, और कुछ उत्साह के साथ स्वीकार कर लिया गया है ओपन रिव्यू में.

एसटी-एनईआरएफ एमएल-व्युत्पन्न नेविगेशन योग्य वीडियो स्पेस में पिछली पहलों की तुलना में कई नवाचार प्रदान करता है। कम से कम, यह केवल 16 कैमरों के साथ उच्च स्तर का यथार्थवाद प्राप्त करता है। हालाँकि फेसबुक का डायनेआरएफ इससे अधिक केवल दो कैमरों का उपयोग करता है, यह कहीं अधिक प्रतिबंधित नेविगेशन योग्य आर्क प्रदान करता है।

फेसबुक के DyNeRF वातावरण का एक उदाहरण, जिसमें गतिविधि का अधिक सीमित क्षेत्र है, और दृश्य के पुनर्निर्माण के लिए प्रति वर्ग फुट अधिक कैमरों की आवश्यकता है। स्रोत: https://neural-3d-video.github.io

फेसबुक के DyNeRF वातावरण का एक उदाहरण, जिसमें गतिविधि का अधिक सीमित क्षेत्र है, और दृश्य के पुनर्निर्माण के लिए प्रति वर्ग फुट अधिक कैमरों की आवश्यकता है। स्रोत: https://neural-3d-video.github.io

व्यक्तिगत पहलुओं को संपादित करने और संयोजित करने की क्षमता की कमी के अलावा, DyNeRF कम्प्यूटेशनल संसाधनों के मामले में विशेष रूप से महंगा है। इसके विपरीत, चीनी शोधकर्ताओं का कहना है कि उनके डेटा के लिए प्रशिक्षण लागत $900-$3,000 के बीच आती है, जबकि अत्याधुनिक वीडियो जेनरेशन मॉडल DVDGAN और DyNeRF जैसी गहन प्रणालियों के लिए यह $30,000 है।

समीक्षकों ने यह भी नोट किया है कि ST-NeRF छवि संश्लेषण की प्रक्रिया से सीखने की गति की प्रक्रिया को अलग करने में एक प्रमुख नवाचार करता है। यह पृथक्करण संपादन और संयोजन को सक्षम बनाता है, जबकि पिछले दृष्टिकोण तुलनात्मक रूप से प्रतिबंधात्मक और रैखिक हैं।

हालांकि इस तरह के पूर्ण आधे-वृत्त के दृश्य के लिए 16 कैमरे एक बहुत ही सीमित सरणी हैं, शोधकर्ताओं को उम्मीद है कि प्रॉक्सी पूर्व-स्कैन किए गए स्थिर पृष्ठभूमि और अधिक डेटा-संचालित दृश्य मॉडलिंग दृष्टिकोण के उपयोग के माध्यम से बाद के काम में इस संख्या में और कटौती की जाएगी। वे पुन: प्रकाश क्षमताओं को शामिल करने की भी उम्मीद करते हैं, ए हालिया नवाचार एनईआरएफ अनुसंधान में।

एसटी-एनईआरएफ की सीमाओं को संबोधित करना

अकादमिक सीएस पेपरों के संदर्भ में, जो एक नई प्रणाली की वास्तविक प्रयोज्यता को एक फेंके हुए अंतिम पैराग्राफ में बर्बाद कर देते हैं, यहां तक ​​कि शोधकर्ता एसटी-एनईआरएफ के लिए जो सीमाएं स्वीकार करते हैं, वे भी असामान्य हैं।

उनका मानना ​​​​है कि सिस्टम वर्तमान में किसी दृश्य में विशेष वस्तुओं को अलग और अलग से प्रस्तुत नहीं कर सकता है, क्योंकि फुटेज में लोगों को वस्तुओं को नहीं बल्कि मनुष्यों को पहचानने के लिए डिज़ाइन की गई प्रणाली के माध्यम से अलग-अलग संस्थाओं में विभाजित किया गया है - एक समस्या जो YOLO और इसी तरह के साथ आसानी से हल हो जाती है फ़्रेमवर्क, मानव वीडियो निकालने का कठिन कार्य पहले ही पूरा हो चुका है।

हालांकि शोधकर्ताओं का कहना है कि वर्तमान में धीमी गति उत्पन्न करना संभव नहीं है, फ्रेम इंटरपोलेशन जैसे मौजूदा नवाचारों का उपयोग करके इसके कार्यान्वयन को रोकने के लिए बहुत कम लगता है डेन और व्याप्त.

सभी एनईआरएफ कार्यान्वयनों की तरह, और कंप्यूटर विज़न अनुसंधान के कई अन्य क्षेत्रों में, एसटी-एनईआरएफ गंभीर अवरोध के मामलों में विफल हो सकता है, जहां विषय अस्थायी रूप से किसी अन्य व्यक्ति या वस्तु द्वारा अस्पष्ट हो जाता है, और लगातार ट्रैक करना या सटीक करना मुश्किल हो सकता है बाद में पुनः प्राप्त करें। अन्य जगहों की तरह, इस कठिनाई के लिए अपस्ट्रीम समाधानों की प्रतीक्षा करनी पड़ सकती है। इस बीच, शोधकर्ता मानते हैं कि इन अवरुद्ध फ़्रेमों में मैन्युअल हस्तक्षेप आवश्यक है।

अंत में, शोधकर्ताओं का मानना ​​​​है कि मानव विभाजन प्रक्रियाएं वर्तमान में रंग के अंतर पर निर्भर करती हैं, जिससे अनजाने में दो लोगों का एक विभाजन ब्लॉक में संयोजन हो सकता है - एक बाधा जो एसटी-एनईआरएफ तक सीमित नहीं है, बल्कि उपयोग की जा रही लाइब्रेरी के लिए आंतरिक है, और जो संभवतः ऑप्टिकल प्रवाह विश्लेषण और अन्य उभरती तकनीकों द्वारा हल किया जा सकता है।

पहली बार 7 मई 2021 को प्रकाशित।