कृत्रिम बुद्धिमत्ता

न्यू सीजीआई: ब्लॉक-नेर्फ के साथ न्यूरल नेबरहुड्स बनाना

Published February 11, 2022

Updated April 28, 2026

Martin Anderson

न्यूरल रेडिएंस फील्ड्स (NeRF) वस्तुओं को केवल कई दृष्टिकोण फोटोग्राफ के इनपुट के साथ तंत्रिका नेटवर्क के भीतर पुनर्निर्मित और अन्वेषण करने की अनुमति देते हैं, पारंपरिक सीजीआई विधियों की जटिलता और व्यय के बिना। हालांकि, प्रक्रिया गणनात्मक रूप से महंगी है, जिसने शुरू में नेर्फ पर्यावरण को टेबलटॉप मॉडल परिदृश्यों तक सीमित कर दिया। फिर भी, नेर्फ को एक समर्पित, यहां तक कि उत्साही अनुसंधान समुदाय द्वारा अपनाया गया है, जिसने पिछले एक वर्ष में बाहरी पुनर्निर्माण के साथ-साथ संपादन योग्य तंत्रिका मानव को भी सक्षम बनाया है, साथ ही कई अन्य नवाचारों को भी। अब एक नए अनुसंधान पहल, जिसमें गूगल रिसर्च की भागीदारी शामिल है, नेर्फ को अनुकूलित करने पर संभावित कठिन सीमाओं को पहचानता है, और इसके बजाय नेर्फ पर्यावरण को एक साथ जोड़कर मांग पर पड़ोस बनाने पर केंद्रित है, जिसमें कई समन्वित नेर्फ उदाहरण शामिल हैं।

लिंक्ड नेर्फ्स के ब्लॉक-नेर्फ नेटवर्क से दृश्य। देखें अंत में एम्बेडेड वीडियो और स्रोत लिंक के लिए उच्च-रिज़ॉल्यूशन फुल-लेंथ सप्लिमेंट्री वीडियो। स्रोत: https://waymo.com/research/block-nerf/

लिंक्ड नेर्फ्स के नेटवर्क को प्रभावी ढंग से नेविगेट करना नेर्फ को स्केलेबल और मॉड्यूलर बनाता है, जो नेविगेबल पर्यावरण प्रदान करता है जो आवश्यकतानुसार पड़ोस के अतिरिक्त भाग लोड करते हैं, वीडियोगेम्स के संसाधन अनुकूलन तरीकों के समान, जहां कोने के चारों ओर क्या है वह शायद तब तक लोड नहीं होता जब तक यह स्पष्ट नहीं हो जाता कि पर्यावरण की आवश्यकता होगी। एक प्रमुख प्रयास में विभाजित अलग-अलग पहलुओं जैसे मौसम और घंटे को, ब्लॉक-नेर्फ भी ‘अपPEARेंस कोड’ पेश करता है, जो दिन के समय को गतिशील रूप से बदलने की अनुमति देता है:

ब्लॉक-नेर्फ के साथ दिन के समय को बदलना। देखें अंत में एम्बेडेड वीडियो और स्रोत लिंक के लिए उच्च-रिज़ॉल्यूशन फुल-लेंथ सप्लिमेंट्री वीडियो। स्रोत: https://waymo.com/research/block-nerf/

नए शोध पत्र से पता चलता है कि नेर्फ अनुकूलन अपनी थर्मल सीमा तक पहुंच रहा है, और यह कि भविष्य के तैनाती न्यूरल रेडिएंस पर्यावरण में आभासी वास्तविकता, अन्य प्रकार के इंटरैक्टिव क्षेत्रों और वीएफएक्स कार्य में संभवतः समानांतर संचालन पर निर्भर करेगी, जैसे कि मूरे का नियम अंततः मल्टी-कोर आर्किटेक्चर, समानांतर अनुकूलन और नए कैशिंग दृष्टिकोण को दे दिया। शोध पत्र (शीर्षक ब्लॉक-नेर्फ: स्केलेबल लार्ज सीन न्यूरल व्यू सिंथेसिस) के लेखकों ने 2.8 मिलियन छवियों का उपयोग करके सबसे बड़ा न्यूरल दृश्य बनाने का प्रयास किया – सैन फ्रांसिस्को में पड़ोस की एक श्रृंखला।

ब्लॉक-नेर्फ सैन फ्रांसिस्को के ग्रेस कैथेड्रल को नेविगेट करता है। देखें अंत में एम्बेडेड वीडियो और स्रोत लिंक के लिए उच्च-रिज़ॉल्यूशन फुल-लेंथ सप्लिमेंट्री वीडियो। स्रोत: https://waymo.com/research/block-nerf/

शोध पत्र के प्रमुख लेखक, यूसी बर्कले का प्रतिनिधित्व करते हैं, मैथ्यू टैन्सिक हैं, जो न्यूरल रेडिएंस फील्ड्स के सह-आविष्कारक हैं, जिन्होंने स्वायत्त ड्राइविंग प्रौद्योगिकी विकास कंपनी वेमो में इंटर्न के रूप में काम किया। परियोजना पृष्ठ के अलावा, यह पहल गूगल रिसर्च के बेन मिल्डेनहॉल, प्रतुल पी. श्रीनिवासन और जोनाथन टी. बैरन द्वारा सह-लेखित है। अन्य योगदानकर्ता विन्सेंट कैसर, ज़िंचेन यान, सबीक प्रधान, हेनरिक क्रेट्ज़श्मार और विन्सेंट कैसर हैं, सभी वेमो से। ब्लॉक-नेर्फ मुख्य रूप से स्वायत्त वाहन प्रणालियों के लिए आभासी पर्यावरणों के शोध के रूप में विकसित किया गया था, जिसमें स्व-ड्राइविंग कारें और ड्रोन शामिल हैं।

ब्लॉक-नेर्फ में 180-डिग्री दृश्य से एम्बार्केडेरो रोडवे। देखें अंत में एम्बेडेड वीडियो और स्रोत लिंक के लिए उच्च-रिज़ॉल्यूशन फुल-लेंथ सप्लिमेंट्री वीडियो। स्रोत: https://waymo.com/research/block-nerf/

ब्लॉक-नेर्फ में गतिशील रूप से बदलने वाले अन्य कारक लेंस एपर्चर (ऊपर देखें), मौसम और मौसम हैं। हालांकि, मौसम बदलने से संबंधित परिवर्तन हो सकते हैं, जैसे कि पेड़ों पर पत्तियां नहीं हैं, जिसके लिए निर्मित डेटासेट से भी अधिक व्यापक इनपुट डेटासेट की आवश्यकता होती है। शोध पत्र में कहा गया है:

‘[फोलिएज] मौसमी रूप से बदलता है और हवा में चलता है; इसके परिणामस्वरूप पेड़ों और पौधों के धुंधले प्रतिनिधित्व होते हैं। इसी तरह, प्रशिक्षण डेटा में समयिक असंगतियां, जैसे कि निर्माण कार्य, स्वचालित रूप से संभाली नहीं जाती हैं और प्रभावित ब्लॉकों को मैनुअल रूप से पुनः प्रशिक्षित करने की आवश्यकता होती है।’

अपोकलिप्टिक रेंडरिंग

यदि आप अंत में एम्बेडेड वीडियो पर एक नज़र डालें, तो आप ब्लॉक-नेर्फ नेटवर्क के नेटवर्क में एक वॉकिंग डेड-शैली की खालीपन देखेंगे। विभिन्न कारणों से, न केवल रोबोटिक सिस्टम, कारों, पैदल यात्रियों और अन्य अस्थायी वस्तुओं के लिए एक सिम्युलेटेड स्टार्टर पर्यावरण प्रदान करने के लिए, स्रोत सामग्री से जानबूझकर मैट आउट किया गया था, लेकिन इससे कुछ आर्टिफैक्ट्स पीछे रह गए हैं, जैसे कि ‘मिटाए गए’ पार्क किए गए वाहनों की छाया:

एक मिटाए गए कार की छाया। स्रोत: https://waymo.com/research/block-nerf/

दिन या रात जैसे विभिन्न प्रकाश वातावरणों को समायोजित करने के लिए, नेटवर्क को विभिन्न स्थितियों से संबंधित डेटा की विभाजित धाराओं को शामिल करने के लिए प्रशिक्षित किया गया है। नीचे दी गई छवि में, हम ब्लॉक-नेर्फ फुटेज के लिए योगदानकर्ता धाराओं को देखते हैं:

एक स्पष्ट रूप से ‘बेक्ड’ ब्लॉक-नेर्फ रेंडर के पीछे मांग पर सुविधाएं, जो उपयोगकर्ता को आवश्यकतानुसार रात को स्विच करने की अनुमति देती हैं। स्रोत: https://waymo.com/research/block-nerf/

पर्यावरण और नैतिक विचार

पिछले कुछ वर्षों में, शोध प्रस्तुतियों में संभावित नैतिक और पर्यावरणीय परिणामों के बारे में सावधानियां और अस्वीकरण शामिल करना शुरू किया गया है। ब्लॉक-नेर्फ के मामले में, लेखकों का उल्लेख है कि ऊर्जा आवश्यकताएं उच्च हैं, और यह कि अल्पकालिक और दीर्घकालिक अस्थायी वस्तुओं (जैसे पेड़ों पर पत्तियां और निर्माण कार्य) के लिए खाता करने के लिए स्रोत डेटा को नियमित रूप से पुनः स्कैन करने की आवश्यकता होगी, जिससे शहरी क्षेत्रों में ‘निगरानी’ बढ़ जाएगी जिनके तंत्रिका मॉडल को अद्यतन रखने की आवश्यकता है। लेखकों का उल्लेख है:

‘यह काम लागू की जा रही स्केल के आधार पर, इसकी गणना मांगें पर्यावरणीय क्षति का कारण बन सकती हैं या बढ़ा सकती हैं यदि गणना के लिए उपयोग की जाने वाली ऊर्जा से कार्बन उत्सर्जन बढ़ जाता है। जैसा कि पत्र में उल्लेख किया गया है, हम आगे के काम की कल्पना करते हैं, जैसे कि कैशिंग विधियां, जो गणना मांग को कम कर सकती हैं और इस प्रकार पर्यावरणीय क्षति को कम कर सकती हैं।’

निगरानी के संबंध में, वे जारी रखते हैं:

‘इस काम के भविष्य के अनुप्रयोग में बड़े डेटा संग्रह प्रयास शामिल हो सकते हैं, जो आगे गोपनीयता चिंताओं को बढ़ाते हैं। जबकि सार्वजनिक सड़कों की विस्तृत छवियां पहले से ही गूगल स्ट्रीट व्यू जैसी सेवाओं पर पाई जा सकती हैं, हमारी विधि पर्यावरण की अधिक बार-बार स्कैनिंग को बढ़ावा दे सकती है। स्वायत्त वाहन स्थान में कई कंपनियां अपने वाहन बेड़े का उपयोग करके नियमित क्षेत्र स्कैन करती हैं; हालांकि, कुछ केवल लिडार स्कैन का उपयोग कर सकते हैं जो कैमरा इमेजरी की तुलना में कम संवेदनशील हो सकते हैं।’

विधियां और समाधान

व्यक्तिगत नेर्फ पर्यावरण को सिद्धांत रूप में किसी भी आकार में कम किया जा सकता है trước उन्हें ब्लॉक-नेर्फ सरणी में इकट्ठा किया जा सकता है। यह सामग्री के सूक्ष्म समावेश के लिए मार्ग प्रशस्त करता है जो निश्चित रूप से बदलने के लिए उत्तरदायी है, जैसे कि पेड़, और निर्माण कार्यों की पहचान और प्रबंधन के लिए, जो समय के साथ वर्षों में बने रह सकते हैं लेकिन अंततः सुसंगत इकाइयों में विकसित हो सकते हैं। हालांकि, इस प्रारंभिक अनुसंधान में, विविध नेर्फ ब्लॉक वास्तविक शहर ब्लॉक तक सीमित हैं, जो एक दूसरे के साथ जुड़े हुए हैं, जिसमें एक 50% ओवरलैप है जो एक ब्लॉक से दूसरे ब्लॉक में संक्रमण को सुनिश्चित करता है क्योंकि उपयोगकर्ता नेटवर्क को नेविगेट करता है। प्रत्येक ब्लॉक एक भौगोलिक फिल्टर द्वारा सीमित है। लेखकों का उल्लेख है कि इस फ्रेमवर्क का यह हिस्सा स्वचालन के लिए खुला है, और, आश्चर्यजनक रूप से, कि उनका कार्यान्वयन गूगल मैप्स के बजाय ओपनस्ट्रीटमैप पर निर्भर करता है।

ब्लॉक-नेर्फ ‘एक्टिव’ रेंडर स्पेस के लिए इंटरसेक्शन रेडियस। स्रोत: वेमो

ब्लॉक्स को समानांतर में प्रशिक्षित किया जाता है, जिसमें आवश्यक ब्लॉक्स की आवश्यकतानुसार रेंडर किया जाता है। नवाचारी उपस्थिति कोड भी ब्लॉक-सेट के बीच समन्वित होते हैं, यह सुनिश्चित करते हुए कि एक दूसरे में अप्रत्याशित रूप से यात्रा नहीं करता है। विभिन्न मौसम, समय या यहां तक कि एक अलग मौसम में।

ब्लॉक-नेर्फ सेगमेंट फोटोग्राफिक स्रोत सामग्री में उच्च गतिविधि सीमा (एचडीआर) के समान एक्सपोजर पर सशर्त हैं। स्रोत: वेमो

प्रकाश और अन्य पर्यावरणीय चर को स्विच करने की क्षमता नेर्फ इन द वाइल्ड (नेर्फ-डब्ल्यू) में पेश किए गए जेनरेटिव लेटेंट ऑप्टिमाइजेशन से प्राप्त होती है, जो खुद 2019 फेसबुक एआई शोध पत्र जेनरेटिव नेटवर्क के लेटेंट स्पेस को ऑप्टिमाइज़ करना से विधि का उद्भव हुआ। पैनोप्टिक-डीपलैब के लिए 2020 में उत्पन्न एक सेमांटिक सेगमेंटेशन मॉडल पैनोप्टिक-डीपलैब का उपयोग अवांछित तत्वों (जैसे लोगों और वाहनों) को ब्लॉक आउट करने के लिए किया जाता है।

डेटा

यह पाया गया कि सामान्य शहरी डेटासेट जैसे सिटीस्केप्स ब्लॉक-नेर्फ के लिए इतने विस्तृत कार्य के लिए उपयुक्त नहीं थे, शोधकर्ताओं ने अपना डेटासेट बनाया। छवि डेटा 12 कैमरों से 360-डिग्री दृश्य को कैप्चर करने के लिए एकत्र किया गया था, जिसमें 10 हर्ट्ज पर फुटेज लिया गया था और एक स्केलर एक्सपोजर मान के साथ। सैन फ्रांसिस्को के पड़ोस जो कवर किए गए थे वे अलामो स्क्वायर और मिशन बे थे। अलामो स्क्वायर के लिए, 960मी x 570मी के क्षेत्र को कवर किया गया था, जिसे 35 ब्लॉक-नेर्फ इंस्टेंस में विभाजित किया गया था, प्रत्येक 38 से 48 अलग-अलग डेटा संग्रह रनों से डेटा पर प्रशिक्षित, और 18-28 मिनट के कुल ड्राइव समय के साथ। प्रत्येक ब्लॉक-नेर्फ के लिए योगदानकर्ता छवियों की संख्या 64,575 से 108,216 के बीच थी, और इस क्षेत्र के लिए कुल ड्राइविंग समय 13.4 घंटे था, जो 1,330 अलग-अलग डेटा संग्रह रनों में वितरित किया गया था। इसके परिणामस्वरूप अलामो स्क्वायर के लिए 2,818,745 प्रशिक्षण छवियां हुईं। पत्र में मिशन बे के लिए डेटा संग्रह के अतिरिक्त विवरण देखें। https://www.youtube.com/watch?v=6lGMCAzBzOQ पहली बार 11 फरवरी 2022 को प्रकाशित।

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

न्यू सीजीआई: ब्लॉक-नेर्फ के साथ न्यूरल नेबरहुड्स बनाना

अपोकलिप्टिक रेंडरिंग

पर्यावरण और नैतिक विचार

विधियां और समाधान

डेटा

You may like