कृत्रिम बुद्धिमत्ता

क्या Apple के HDR ऑगमेंटेड रियलिटी वातावरण न्यूरल रेंडरिंग के लिए प्रतिबिंब को हल कर सकते हैं?

Published June 24, 2021

Updated April 5, 2026

Martin Anderson

Apple के ऑगमेंटेड रियलिटी प्रौद्योगिकियों में जोरदार, लंबी अवधि का निवेश इस वर्ष तेज हो रहा है, जिसमें विकासकर्ता उपकरणों का एक नया सेट है जो वास्तविक दुनिया की वस्तुओं को कैप्चर और परिवर्तित करने के लिए है, और एक उद्योग की बढ़ती समझ है कि समर्पित आरई eyewear आ रहा है जो इन अनुभवों का समर्थन करने के लिए इस तूफान को सक्षम बनाने के लिए।

ऐप्पल के ऑगमेंटेड रियलिटी में प्रयासों पर नए जानकारी के बीच, कंपनी के कंप्यूटर विजन रिसर्च डिवीजन से एक नया पेपर एक तरीका बताता है कि 360-डिग्री पैनोरमिक हाई डायनामिक रेंज (HDR) छवियों का उपयोग करके ऑगमेंटेड रियलिटी दृश्यों में वस्तुओं के लिए दृश्य-विशिष्ट प्रतिबिंब और प्रकाश प्रदान किया जा सकता है।

शीर्षक HDR Environment Map Estimation for Real-Time Augmented Reality, पेपर, ऐप्पल कंप्यूटर विजन रिसर्च इंजीनियर गोव्री सोमनाथ और सीनियर मशीन लर्निंग मैनेजर डैनियल कुर्ज़ द्वारा, एक मोबाइल प्रोसेसिंग वातावरण में चलने वाले एक कन्वोल्यूशनल न्यूरल नेटवर्क (सीएनएन) के माध्यम से वास्तविक समय में एचडीआर वातावरण के गतिशील निर्माण का प्रस्ताव करता है। परिणाम यह है कि प्रतिबिंबित वस्तुएं वास्तव में मांग पर नए, अनदेखे वातावरण को दर्पण कर सकती हैं:

ऐप्पल के नए एआर ऑब्जेक्ट जेनरेशन वर्कफ्लो में, एक प्रेशर कुकर को फोटोग्रामेट्री द्वारा अपने पर्यावरण के साथ उदाहरण दिया जाता है, जिससे प्रतिबिंब होते हैं जो ‘बेक्ड’ नहीं होते हैं। स्रोत: https://docs-assets.developer.apple.com/

विधि, सीवीपीआर 2021 में शुरू की गई, पूरे दृश्य की एक स्नैपशॉट लेती है और EnvMapNet सीएनएन का उपयोग करके एक दृश्य रूप से पूर्ण पैनोरमिक एचडीआर छवि का अनुमान लगाती है, जिसे ‘लाइट प्रोब’ के रूप में भी जाना जाता है।

परिणामी मानचित्र मजबूत प्रकाश स्रोतों (ऊपरी एनिमेशन में अंत में रेखांकित) की पहचान करता है और उन्हें आभासी वस्तुओं को रेंडर करते समय उनके लिए खाता है।

EnvMapNet की वास्तुकला, जो सीमित छवियों को पूर्ण दृश्य HDR लाइट प्रोब में प्रोसेस करती है। स्रोत: https://arxiv.org/pdf/2011.10687.pdf

एल्गोरिदम एक आईफोन एक्सएस पर 9 मिलीसेकंड से कम समय में चल सकता है, और वास्तविक समय में प्रतिबिंब जागरूक वस्तुओं को रेंडर करने में सक्षम है, पिछले और विभिन्न दृष्टिकोणों की तुलना में 50% कम दिशा त्रुटि के साथ।

लाइट प्रोब

एचडीआर लाइटिंग वातावरण दृश्य प्रभावों में एक कारक रहा है जब से उच्च डायनामिक रेंज छवियों (1986 में आविष्कार किया गया) ने 1990 के दशक में कंप्यूटर प्रौद्योगिकी में प्रगति के माध्यम से एक उल्लेखनीय बल बनाया। कोई भी व्यक्ति जो पीछे के दृश्यों को देख रहा है, उन्हें तकनीशियनों को देखा होगा जो मिरर्ड गेंदों को छड़ियों पर पकड़े हुए हैं – पर्यावरणीय कारकों के रूप में एकत्र की गई संदर्भ छवियां जो दृश्य के लिए सीजीआई तत्वों को पुनर्निर्माण करते समय शामिल की जाएंगी।

स्रोत: https://beforesandafters.com/

हालांकि, प्रतिबिंब मैपिंग टेक्सचर के लिए क्रोम बॉल का उपयोग 1990 के दशक से पहले का है, जो 1983 के SIGGRAPH पेपर पिरामिडल पैरामेट्रिक में वापस जाता है, जिसमें एक प्रतिबिंबित सीजीआई रोबोट की स्थिर छवियां होती हैं जो लगभग एक दशक बाद जेम्स कैमरून की टर्मिनेटर 2: जजमेंट डे के माध्यम से प्रसिद्ध हो जाती हैं।

एचडीआर एनवायरनमेंट इन न्यूरल रेंडरिंग?

न्यूरल रेंडरिंग बहुत ही खुरदरे सेगमेंटेशन मैप्स सहित बहुत ही खुरदरे इनपुट से फोटोरियलिस्टिक वीडियो उत्पन्न करने की संभावना प्रदान करती है।

इमेज न्यूरल रेंडरिंग (2017)। स्रोत: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis” width=”738″ height=”395″ /> इंटेल आईएसएल का सेगमेंटेशन>इमेज न्यूरल रेंडरिंग (2017)। स्रोत: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

मई में, इंटेल शोधकर्ताओं ने प्रकट किया एक नए पहल में न्यूरल इमेज सिंथेसिस जहां ग्रैंड थेफ्ट ऑटो वी से फुटेज का उपयोग जर्मन स्ट्रीट इमेजरी के डेटासेट पर आधारित फोटोरियलिस्टिक आउटपुट उत्पन्न करने के लिए किया गया था।

स्रोत: https://www.youtube.com/watch?v=0fhUJT21-bs

न्यूरल रेंडरिंग वातावरण विकसित करने में चुनौती जो विभिन्न प्रकाश स्थितियों के लिए अनुकूलित की जा सकती है, वस्तु सामग्री को पर्यावरणीय कारकों से अलग करना है जो इसे प्रभावित करते हैं।

जैसा कि यह खड़ा है, प्रतिबिंब और अनिसोट्रोपिक प्रभाव या तो मूल डेटासेट फुटेज (जो उन्हें लचीला बनाता है) के कार्य हैं, या इंटेल शोधकर्ताओं द्वारा नियोजित योजना की तरह ही है, जो एक खेल इंजन से सेमी-फोटोरियलिस्टिक आउटपुट उत्पन्न करता है, इस पर सेगमेंटेशन करता है और फिर एक ‘बेक्ड’ डेटासेट (जैसे हाल के शोध में उपयोग किए गए जर्मन मैपिलरी स्ट्रीट व्यू सेट) से स्टाइल ट्रांसफर लागू करता है।

इस न्यूरल रेंडरिंग (जीटीए वी फुटेज बाएं है) में, सामने की गाड़ी में प्रतिबिंब और यहां तक कि सूरज की किरणों से प्रतिबिंब के साथ वास्तविक कैमरे के सेंसर को संतृप्त करती है। लेकिन यह प्रकाश पहलू मूल गेम फुटेज से व्युत्पन्न है, क्योंकि दृश्य में न्यूरल सुविधाओं में कोई स्व-निर्देशित और स्व-निर्देशित प्रकाश संरचनाएं नहीं हैं जिन्हें बदला जा सकता है।

न्यूरल रेंडरिंग में प्रतिबिंब

न्यूरल रेडियंस फील्ड्स (नेर्फ) से प्राप्त छवियां भी इसी तरह की चुनौतियों का सामना करती हैं। हालांकि नेर्फ में हाल के शोध ने दृश्य के तत्वों को अलग करने में प्रगति की है (जैसे कि एमआईटी/गूगल नेर्फैक्टर पर सहयोग), प्रतिबिंब अभी भी एक बाधा बने हुए हैं।

एमआईटी और गूगल के नेर्फैक्टर दृष्टिकोण नॉर्मल, दृश्यता (छाया), टेक्सचर और स्थानीय अल्बेडो को अलग करता है, लेकिन यह पर्यावरण को प्रतिबिंबित नहीं करता है, क्योंकि यह एक वैक्यूम में मौजूद है। स्रोत: https://arxiv.org/pdf/2106.01970.pdf

नेर्फ इस समस्या का समाधान उसी प्रकार के एचडीआर मैपिंग के साथ कर सकता है जिसका उपयोग ऐप्पल कर रहा है। न्यूरल रेडियंस फील्ड में प्रत्येक पिक्सेल एक आभासी कैमरे से एक पथ पर गणना की जाती है जो बिंदु तक जा सकती है जहां ‘रे’ यात्रा नहीं कर सकता है, पारंपरिक सीजीआई में रे ट्रेसिंग के समान। उस रे की गणना में एचडीआर इनपुट जोड़ना वास्तविक पर्यावरणीय प्रतिबिंब प्राप्त करने का एक संभावित तरीका है, और यह सीजीआई के ‘ग्लोबल इल्युमिनेशन’ या रेडियोसिटी रेंडरिंग विधियों का एक समकक्ष है, जिसमें एक दृश्य या वस्तु आंशिक रूप से अपने पर्यावरण के प्रतिबिंब द्वारा प्रकाशित होती है।

हालांकि यह गारंटीकृत है कि एक एचडीआर मैट्रिक्स नेर्फ के उल्लेखनीय गणनात्मक बोझ को कम नहीं करेगा, इस क्षेत्र में वर्तमान में बहुत सारे शोध इस पहलू को संबोधित करने पर केंद्रित हैं। अनिवार्य रूप से, प्रतिबिंब एक कारक है जो नए-नए अनुकूलित आर्किटेक्चर को फिर से भरने और चुनौती देने के लिए प्रतीक्षा कर रहा है। हालांकि, नेर्फ को एक विविध न्यूरल इमेज और वीडियो सिंथेसिस पद्धति के रूप में अपनी पूर्ण क्षमता प्राप्त करने के लिए एक पर्यावरण के लिए खाता देने का एक तरीका अपनाने की आवश्यकता है।

न्यूरल रेंडरिंग पाइपलाइन में प्रतिबिंब

एक संभावित एचडीआर-सक्षम संस्करण में इंटेल जीटीए वी न्यूरल रेंडरिंग दृश्य में, एक एकल एचडीआर गतिशील प्रतिबिंब को व्यक्त करने के लिए आवश्यक नहीं हो सकता है जो चलती वस्तुओं में व्यक्त किया जाना चाहिए। उदाहरण के लिए, अपने वाहन को सामने की गाड़ी में प्रतिबिंबित देखने के लिए, सामने की गाड़ी को अपना खुद का एनिमेटेड एचडीआर लाइट प्रोब हो सकता है, जिसका रेजोल्यूशन धीरे-धीरे कम हो जाएगा क्योंकि यह उपयोगकर्ता के दृष्टिकोण से दूर हो जाएगा, दूरी पर कम रेजोल्यूशन और केवल प्रतिनिधित्व बन जाएगा – एक प्रॉक्सिमिटी-आधारित एलओडी समान ‘ड्रा दूरी’ डिलिमिटर्स के लिए वीडियो गेम में।

ऐप्पल के एचडीआर प्रकाश और प्रतिबिंब मैप्स में काम का वास्तविक संभावित ब्रेकथ्रू यह नहीं है कि यह विशेष रूप से नवाचारी है, क्योंकि यह सामान्य इमेज सिंथेसिस और एआर दृश्य विकास में पिछले काम पर बनाता है। बल्कि, संभावित ब्रेकथ्रू यह है कि गंभीर स्थानीय कंप्यूटिंग प्रतिबंधों के साथ मिलकर ऐप्पल के एम-सीरीज मशीन लर्निंग हार्डवेयर नवाचारों ने हल्के, कम विलंबता वाले एचडीआर मैपिंग का उत्पादन किया है जो सीमित संसाधनों के तहत काम करने के लिए डिज़ाइन किया गया है।

यदि इस समस्या का समाधान आर्थिक रूप से किया जा सकता है, तो सेमांटिक सेगमेंटेशन>फोटोरियलिस्टिक वीडियो सिंथेसिस का आगमन एक महत्वपूर्ण कदम आगे आ सकता है।

स्रोत: https://docs-assets.developer.apple.com/

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

क्या Apple के HDR ऑगमेंटेड रियलिटी वातावरण न्यूरल रेंडरिंग के लिए प्रतिबिंब को हल कर सकते हैं?

लाइट प्रोब

एचडीआर एनवायरनमेंट इन न्यूरल रेंडरिंग?

न्यूरल रेंडरिंग में प्रतिबिंब

न्यूरल रेंडरिंग पाइपलाइन में प्रतिबिंब

You may like