Artificial Intelligence
एसटी-एनईआरएफ: वीडियो संश्लेषण के लिए संयोजन और संपादन
एक चीनी अनुसंधान संघ ने किया है विकसित पिछले वर्ष के सबसे लोकप्रिय छवि संश्लेषण अनुसंधान क्षेत्रों में से एक - न्यूरल रेडियंस फील्ड्स (एनईआरएफ) में संपादन और कंपोजिटिंग क्षमताओं को लाने की तकनीक। इस प्रणाली का शीर्षक ST-NeRF (स्पैटियो-टेम्पोरल कोहेरेंट न्यूरल रेडियंस फील्ड) है।
नीचे दी गई छवि में जो एक भौतिक कैमरा पैन प्रतीत होता है वह वास्तव में एक उपयोगकर्ता है जो 4D स्पेस में मौजूद वीडियो सामग्री पर दृष्टिकोण बिंदुओं के माध्यम से 'स्क्रॉल' कर रहा है। पीओवी वीडियो में दर्शाए गए लोगों के प्रदर्शन पर निर्भर नहीं है, जिनकी गतिविधियों को 180 डिग्री के दायरे के किसी भी हिस्से से देखा जा सकता है।
वीडियो का प्रत्येक पहलू एक सूक्ष्मता से कैप्चर किया गया तत्व है, जिसे एक साथ मिलाकर एक सामंजस्यपूर्ण दृश्य बनाया गया है जिसे गतिशील रूप से खोजा जा सकता है।
पहलुओं को दृश्य के भीतर स्वतंत्र रूप से दोहराया जा सकता है, या फिर से आकार दिया जा सकता है:
इसके अतिरिक्त, प्रत्येक पहलू के अस्थायी व्यवहार को आसानी से बदला जा सकता है, धीमा किया जा सकता है, पीछे की ओर चलाया जा सकता है, या किसी भी तरीके से हेरफेर किया जा सकता है, जिससे फ़िल्टर आर्किटेक्चर और अत्यधिक उच्च स्तर की व्याख्या का मार्ग खुल जाता है।
कलाकारों या वातावरण को घुमाने की कोई आवश्यकता नहीं है, या कलाकारों को अपनी गतिविधियों को आँख बंद करके और इच्छित दृश्य के संदर्भ से बाहर निष्पादित करने की आवश्यकता नहीं है। इसके बजाय, 16 डिग्री को कवर करने वाले 180 वीडियो कैमरों की एक श्रृंखला के माध्यम से फुटेज को स्वाभाविक रूप से कैप्चर किया जाता है:
ST-NeRF न्यूरल रेडियंस फील्ड्स में अनुसंधान पर एक नवाचार है (एनईआरएफ), एक मशीन लर्निंग फ्रेमवर्क जिसके तहत कई दृष्टिकोण कैप्चर को व्यापक प्रशिक्षण द्वारा एक नेविगेशन योग्य आभासी स्थान में संश्लेषित किया जाता है (हालांकि एकल दृष्टिकोण कैप्चर भी एनईआरएफ अनुसंधान का एक उप-क्षेत्र है)।
पिछले नौ महीनों में एनईआरएफ में रुचि तीव्र हो गई है, और रेडिट-बनाए रखा गया है सूची व्युत्पन्न या खोजपूर्ण एनईआरएफ कागजात में वर्तमान में साठ परियोजनाएं सूचीबद्ध हैं।
किफायती प्रशिक्षण
यह पेपर शंघाई टेक यूनिवर्सिटी के शोधकर्ताओं के बीच एक सहयोग है डीजीन डिजिटल टेक्नोलॉजी, और कुछ उत्साह के साथ स्वीकार कर लिया गया है ओपन रिव्यू में.
एसटी-एनईआरएफ एमएल-व्युत्पन्न नेविगेशन योग्य वीडियो स्पेस में पिछली पहलों की तुलना में कई नवाचार प्रदान करता है। कम से कम, यह केवल 16 कैमरों के साथ उच्च स्तर का यथार्थवाद प्राप्त करता है। हालाँकि फेसबुक का डायनेआरएफ इससे अधिक केवल दो कैमरों का उपयोग करता है, यह कहीं अधिक प्रतिबंधित नेविगेशन योग्य आर्क प्रदान करता है।
व्यक्तिगत पहलुओं को संपादित करने और संयोजित करने की क्षमता की कमी के अलावा, DyNeRF कम्प्यूटेशनल संसाधनों के मामले में विशेष रूप से महंगा है। इसके विपरीत, चीनी शोधकर्ताओं का कहना है कि उनके डेटा के लिए प्रशिक्षण लागत $900-$3,000 के बीच आती है, जबकि अत्याधुनिक वीडियो जेनरेशन मॉडल DVDGAN और DyNeRF जैसी गहन प्रणालियों के लिए यह $30,000 है।
समीक्षकों ने यह भी नोट किया है कि ST-NeRF छवि संश्लेषण की प्रक्रिया से सीखने की गति की प्रक्रिया को अलग करने में एक प्रमुख नवाचार करता है। यह पृथक्करण संपादन और संयोजन को सक्षम बनाता है, जबकि पिछले दृष्टिकोण तुलनात्मक रूप से प्रतिबंधात्मक और रैखिक हैं।
हालांकि इस तरह के पूर्ण आधे-वृत्त के दृश्य के लिए 16 कैमरे एक बहुत ही सीमित सरणी हैं, शोधकर्ताओं को उम्मीद है कि प्रॉक्सी पूर्व-स्कैन किए गए स्थिर पृष्ठभूमि और अधिक डेटा-संचालित दृश्य मॉडलिंग दृष्टिकोण के उपयोग के माध्यम से बाद के काम में इस संख्या में और कटौती की जाएगी। वे पुन: प्रकाश क्षमताओं को शामिल करने की भी उम्मीद करते हैं, ए हालिया नवाचार एनईआरएफ अनुसंधान में।
एसटी-एनईआरएफ की सीमाओं को संबोधित करना
अकादमिक सीएस पेपरों के संदर्भ में, जो एक नई प्रणाली की वास्तविक प्रयोज्यता को एक फेंके हुए अंतिम पैराग्राफ में बर्बाद कर देते हैं, यहां तक कि शोधकर्ता एसटी-एनईआरएफ के लिए जो सीमाएं स्वीकार करते हैं, वे भी असामान्य हैं।
उनका मानना है कि सिस्टम वर्तमान में किसी दृश्य में विशेष वस्तुओं को अलग और अलग से प्रस्तुत नहीं कर सकता है, क्योंकि फुटेज में लोगों को वस्तुओं को नहीं बल्कि मनुष्यों को पहचानने के लिए डिज़ाइन की गई प्रणाली के माध्यम से अलग-अलग संस्थाओं में विभाजित किया गया है - एक समस्या जो YOLO और इसी तरह के साथ आसानी से हल हो जाती है फ़्रेमवर्क, मानव वीडियो निकालने का कठिन कार्य पहले ही पूरा हो चुका है।
हालांकि शोधकर्ताओं का कहना है कि वर्तमान में धीमी गति उत्पन्न करना संभव नहीं है, फ्रेम इंटरपोलेशन जैसे मौजूदा नवाचारों का उपयोग करके इसके कार्यान्वयन को रोकने के लिए बहुत कम लगता है डेन और व्याप्त.
सभी एनईआरएफ कार्यान्वयनों की तरह, और कंप्यूटर विज़न अनुसंधान के कई अन्य क्षेत्रों में, एसटी-एनईआरएफ गंभीर अवरोध के मामलों में विफल हो सकता है, जहां विषय अस्थायी रूप से किसी अन्य व्यक्ति या वस्तु द्वारा अस्पष्ट हो जाता है, और लगातार ट्रैक करना या सटीक करना मुश्किल हो सकता है बाद में पुनः प्राप्त करें। अन्य जगहों की तरह, इस कठिनाई के लिए अपस्ट्रीम समाधानों की प्रतीक्षा करनी पड़ सकती है। इस बीच, शोधकर्ता मानते हैं कि इन अवरुद्ध फ़्रेमों में मैन्युअल हस्तक्षेप आवश्यक है।
अंत में, शोधकर्ताओं का मानना है कि मानव विभाजन प्रक्रियाएं वर्तमान में रंग के अंतर पर निर्भर करती हैं, जिससे अनजाने में दो लोगों का एक विभाजन ब्लॉक में संयोजन हो सकता है - एक बाधा जो एसटी-एनईआरएफ तक सीमित नहीं है, बल्कि उपयोग की जा रही लाइब्रेरी के लिए आंतरिक है, और जो संभवतः ऑप्टिकल प्रवाह विश्लेषण और अन्य उभरती तकनीकों द्वारा हल किया जा सकता है।
पहली बार 7 मई 2021 को प्रकाशित।