कृत्रिम बुद्धिमत्ता

स्प्लैटर इमेज: अल्ट्रा-फास्ट सिंगल-व्यू 3डी रिकंस्ट्रक्शन

Published January 12, 2024

Updated April 4, 2026

Kunal Kejriwal

Splatter Image: Ultra-Fast Single-View 3D Reconstruction

सिंगल-व्यू 3डी ऑब्जेक्ट रिकंस्ट्रक्शन के साथ कन्वोल्यूशनल नेटवर्क ने उल्लेखनीय क्षमताओं का प्रदर्शन किया है। सिंगल-व्यू 3डी रिकंस्ट्रक्शन मॉडल एकल छवि का उपयोग संदर्भ के रूप में करके किसी भी वस्तु का 3डी मॉडल उत्पन्न करते हैं, जिससे यह कंप्यूटर विजन में शोध के सबसे गर्म विषयों में से एक बन गया है।

उदाहरण के लिए, ऊपर दी गई छवि में मोटरबाइक पर विचार करें। इसकी 3डी संरचना को उत्पन्न करने के लिए एक जटिल पाइपलाइन की आवश्यकता होती है जो पहले निम्न-स्तर की छवियों से उच्च-स्तरीय सेमांटिक जानकारी और भागों की संरचनात्मक व्यवस्था के बारे में ज्ञान के साथ संकेतों को जोड़ती है।

जटिल प्रक्रिया के कारण, सिंगल-व्यू 3डी रिकंस्ट्रक्शन कंप्यूटर विजन में एक प्रमुख चुनौती रही है। सिंगल-व्यू 3डी रिकंस्ट्रक्शन की दक्षता में सुधार करने के प्रयास में, डेवलपर्स ने स्प्लैटर इमेज पर काम किया है, जो वस्तुओं के अल्ट्रा-फास्ट सिंगल-व्यू 3डी आकार और 3डी उपस्थिति निर्माण को प्राप्त करने का लक्ष्य रखता है। इसके मूल में, स्प्लैटर इमेज फ्रेमवर्क 3डी प्रतिनिधित्व का विश्लेषण करने के लिए गॉसियन स्प्लैटिंग विधि का उपयोग करता है, जो इसके द्वारा प्रदान की जाने वाली गति और गुणवत्ता का लाभ उठाता है।

हाल ही में, गॉसियन स्प्लैटिंग विधि को विभिन्न मल्टी-व्यू रिकंस्ट्रक्शन मॉडल द्वारा रियल-टाइम रेंडरिंग, सुधारित स्केलिंग और तेज़ प्रशिक्षण के लिए लागू किया गया है। कहा जा रहा है, स्प्लैटर इमेज पहला फ्रेमवर्क है जो सिंगल-व्यू रिकंस्ट्रक्शन कार्यों के लिए गॉसियन स्प्लैटिंग विधि को लागू करता है।

इस लेख में, हम यह देखेंगे कि स्प्लैटर इमेज फ्रेमवर्क अल्ट्रा-फास्ट सिंगल-व्यू 3डी रिकंस्ट्रक्शन प्राप्त करने के लिए गॉसियन स्प्लैटिंग का उपयोग कैसे करता है। तो आइए शुरू करें।

स्प्लैटर इमेज: अल्ट्रा-फास्ट सिंगल-व्यू 3डी रिकंस्ट्रक्शन का प्रयास

जैसा कि पहले उल्लेख किया गया है, स्प्लैटर इमेज गॉसियन स्प्लैटिंग विधि पर आधारित एक अल्ट्रा-फास्ट दृष्टिकोण है सिंगल-व्यू 3डी ऑब्जेक्ट रिकंस्ट्रक्शन के लिए। स्प्लैटर इमेज पहला कंप्यूटर विजन फ्रेमवर्क है जो मोनोक्युलर 3डी ऑब्जेक्ट जेनरेशन के लिए गॉसियन स्प्लैटिंग को लागू करता है, क्योंकि परंपरागत रूप से, गॉसियन स्प्लैटिंग ने मल्टी-व्यू 3डी ऑब्जेक्ट रिकंस्ट्रक्शन फ्रेमवर्क को शक्ति प्रदान की है। हालांकि, स्प्लैटर इमेज फ्रेमवर्क को पूर्व के तरीकों से अलग करने वाली बात यह है कि यह एक लर्निंग-आधारित दृष्टिकोण है, और परीक्षण में रिकंस्ट्रक्शन के लिए केवल न्यूरल नेटवर्क का फीड-फॉरवर्ड मूल्यांकन की आवश्यकता होती है।

स्प्लैटर इमेज मूल रूप से गॉसियन स्प्लैटिंग की रेंडरिंग गुणों और उच्च प्रसंस्करण गति पर निर्भर करता है 3डी रिकंस्ट्रक्शन उत्पन्न करने के लिए। स्प्लैटर इमेज फ्रेमवर्क में एक सीधा डिज़ाइन है: फ्रेमवर्क एक 2डी इमेज-टू-इमेज न्यूरल नेटवर्क का उपयोग प्रत्येक इनपुट इमेज पिक्सेल के लिए एक 3डी गॉसियन की भविष्यवाणी करने के लिए करता है, और इनपुट इमेज को एक 3डी गॉसियन प्रति पिक्सेल में मैप करता है। परिणामी 3डी गॉसियन एक छवि के रूप में होते हैं, जिसे स्प्लैटर इमेज के रूप में जाना जाता है, और वे गॉसियन 360 डिग्री प्रतिनिधित्व भी प्रदान करते हैं। प्रक्रिया निम्नलिखित छवि में प्रदर्शित की गई है।

हालांकि प्रक्रिया सरल और सीधी है, स्प्लैटर इमेज फ्रेमवर्क को गॉसियन स्प्लैटिंग का उपयोग करके सिंगल-व्यू 3डी प्रतिनिधित्व के लिए 3डी गॉसियन उत्पन्न करने में कुछ प्रमुख चुनौतियों का सामना करना पड़ता है। पहली बड़ी बाधा एक न्यूरल नेटवर्क को डिज़ाइन करना है जो वस्तु की छवि को इनपुट के रूप में स्वीकार करता है और आउटपुट के रूप में छवि के सभी पक्षों का प्रतिनिधित्व करने वाले गॉसियन मिश्रण को उत्पन्न करता है। इसे संबोधित करने के लिए, स्प्लैटर इमेज यह तथ्य का लाभ उठाता है कि हालांकि उत्पन्न गॉसियन मिश्रण एक सेट या एक अव्यवस्थित संग्रह है, इसे अभी भी एक व्यवस्थित डेटा संरचना में संग्रहीत किया जा सकता है। तदनुसार, फ्रेमवर्क 3डी गॉसियन के लिए एक 2डी छवि का उपयोग एक कंटेनर के रूप में करता है, जिसके परिणामस्वरूप कंटेनर में प्रत्येक पिक्सेल में एक गॉसियन के पैरामीटर होते हैं, जिनमें इसके गुण जैसे आकार, अपारदर्शिता और रंग शामिल हैं।

3डी गॉसियन सेट्स को एक छवि में संग्रहीत करके, स्प्लैटर इमेज फ्रेमवर्क इमेज-टू-इमेज न्यूरल नेटवर्क सीखने के दौरान सामना की जाने वाली रिकंस्ट्रक्शन बाधाओं को कम करने में सक्षम है। इस दृष्टिकोण का उपयोग करके, रिकंस्ट्रक्शन प्रक्रिया को केवल कुशल 2डी ऑपरेटरों का उपयोग करके लागू किया जा सकता है, 3डी ऑपरेटरों पर निर्भर नहीं है। इसके अलावा, स्प्लैटर इमेज फ्रेमवर्क में, 3डी प्रतिनिधित्व 3डी गॉसियन का मिश्रण है, जिससे यह गॉसियन स्प्लैटिंग द्वारा प्रदान की जाने वाली रेंडरिंग गति और मेमोरी दक्षता लाभ का लाभ उठा सकता है, जो प्रशिक्षण और अनुमान दोनों में दक्षता में सुधार करता है। आगे बढ़ते हुए, स्प्लैटर इमेज फ्रेमवर्क न केवल सिंगल-व्यू 3डी प्रतिनिधित्व उत्पन्न करता है, बल्कि यह उल्लेखनीय दक्षता भी प्रदर्शित करता है क्योंकि यह एकल जीपीयू पर मानक 3डी ऑब्जेक्ट बेंचमार्क पर प्रशिक्षित किया जा सकता है। इसके अलावा, स्प्लैटर इमेज फ्रेमवर्क को कई छवियों को इनपुट के रूप में लेने के लिए विस्तारित किया जा सकता है। यह एक सामान्य संदर्भ के लिए व्यक्तिगत गॉसियन मिश्रण को पंजीकृत करके और फिर व्यक्तिगत दृश्यों से पूर्वानुमानित गॉसियन मिश्रण के संयोजन को लेकर ऐसा करने में सक्षम है। फ्रेमवर्क अपनी वास्तुकला में हल्के क्रॉस-ध्यान層 भी इंजेक्ट करता है जो दृश्यों को पूर्वानुमान के दौरान एक दूसरे के साथ संवाद करने की अनुमति देता है।

एक अनुभवजन्य दृष्टिकोण से, यह ध्यान देने योग्य है कि स्प्लैटर इमेज फ्रेमवर्क वस्तु के केवल एक पक्ष को देखने के बावजूद वस्तु का 360 डिग्री पुनर्निर्माण उत्पन्न कर सकता है। फ्रेमवर्क तब 2डी पड़ोस में विभिन्न गॉसियन को 3डी वस्तु के विभिन्न भागों को संहितित करने के लिए आवंटित करता है और 2डी छवि में उत्पन्न 360 डिग्री जानकारी को संहितित करता है। इसके अलावा, फ्रेमवर्क कई गॉसियन की अपारदर्शिता को शून्य में सेट करता है, जो उन्हें निष्क्रिय करता है, जिससे उन्हें पोस्ट-प्रोसेसिंग के दौरान हटाया जा सकता है।

सारांश में, स्प्लैटर इमेज फ्रेमवर्क है

गॉसियन स्प्लैटिंग दृष्टिकोण को लागू करके सिंगल-व्यू 3डी ऑब्जेक्ट रिकंस्ट्रक्शन उत्पन्न करने के लिए एक नए दृष्टिकोण है।
मल्टी-व्यू 3डी ऑब्जेक्ट रिकंस्ट्रक्शन के लिए विधि का विस्तार करता है।
मानक बेंचमार्क पर असाधारण गति और गुणवत्ता के साथ राज्य-ऑफ-द-आर्ट 3डी ऑब्जेक्ट रिकंस्ट्रक्शन प्रदर्शन प्राप्त करता है।

स्प्लैटर इमेज: विधि और वास्तुकला

गॉसियन स्प्लैटिंग

जैसा कि पहले उल्लेख किया गया है, गॉसियन स्प्लैटिंग स्प्लैटर इमेज फ्रेमवर्क द्वारा लागू की जाने वाली प्राथमिक विधि है जो सिंगल-व्यू 3डी ऑब्जेक्ट रिकंस्ट्रक्शन उत्पन्न करती है। सरल शब्दों में, गॉसियन स्प्लैटिंग 3डी छवियों के पुनर्निर्माण और वास्तविक समय में रेंडरिंग के लिए एक रास्टराइजेशन विधि है, जिसमें कई दृष्टिकोण होते हैं। छवि में 3डी स्थान को गॉसियन के रूप में संदर्भित किया जाता है, और मशीन लर्निंग तकनीकों का उपयोग प्रत्येक गॉसियन के पैरामीटर सीखने के लिए किया जाता है। गॉसियन स्प्लैटिंग को रेंडरिंग के दौरान प्रशिक्षण की आवश्यकता नहीं होती है, जो रेंडरिंग समय को तेज़ बनाता है। निम्नलिखित छवि 3डी गॉसियन स्प्लैटिंग की वास्तुकला का सारांश देती है।

3डी गॉसियन स्प्लैटिंग पहले इनपुट छवियों का उपयोग करके एक पॉइंट क्लाउड उत्पन्न करता है। गॉसियन स्प्लैटिंग तब इनपुट छवियों का उपयोग करके कैमरे के बाहरी पैरामीटर जैसे कि झुकाव और स्थिति का अनुमान लगाता है, जो छवियों के बीच पिक्सेल को मिलाने के द्वारा किया जाता है, और इन पैरामीटर का उपयोग पॉइंट क्लाउड की गणना के लिए किया जाता है। विभिन्न मशीन लर्निंग विधियों का उपयोग करके, गॉसियन स्प्लैटिंग तब प्रत्येक गॉसियन के लिए चार पैरामीटर को अनुकूलित करता है: स्थिति (यह कहां स्थित है), संवarian्स (इसके फैलाव या स्केलिंग की सीमा 3×3 मैट्रिक्स में), रंग (इसका आरजीबी रंग योजना क्या है), और अल्फा (इसकी पारदर्शिता को मापने वाला क्या है)। अनुकूलन प्रक्रिया प्रत्येक कैमरा स्थिति के लिए छवि को रेंडर करती है और पैरामीटर को मूल छवि के करीब निर्धारित करने के लिए इसका उपयोग करती है। परिणामस्वरूप, 3डी गॉसियन स्प्लैटिंग आउटपुट एक छवि है, जिसे स्प्लैटर इमेज के रूप में जाना जाता है, जो मूल छवि को सबसे अधिक उस कैमरा स्थिति से कैप्चर की गई छवि के समान होती है।

इसके अलावा, गॉसियन स्प्लैटिंग में अपारदर्शिता फंक्शन और रंग फंक्शन 3डी बिंदु के देखने की दिशा के साथ एक रेडियंस फील्ड प्रदान करता है। फ्रेमवर्क तब रेडियंस फील्ड को एक छवि पर एकत्रित करके रेंडर करता है जो पिक्सेल के माध्यम से गुजरने वाली रे के साथ एकत्रित रंगों को एकत्रित करता है। गॉसियन स्प्लैटिंग इन फंक्शन को रंगीन गॉसियन के संयोजन के रूप में प्रस्तुत करता है, जहां गॉसियन का माध्य या केंद्र और गॉसियन का संवarian्स इसके आकार और आकार को निर्धारित करने में मदद करता है। प्रत्येक गॉसियन में एक अपारदर्शिता गुण और एक दृश्य-निर्भर रंग गुण भी होता है जो मिलकर रेडियंस फील्ड को परिभाषित करते हैं।

स्प्लैटर इमेज

रेंडरर घटक 3डी गॉसियन को एक छवि में मैप करता है। सिंगल-व्यू 3डी रिकंस्ट्रक्शन को प्राप्त करने के लिए, फ्रेमवर्क तब 3डी गॉसियन के लिए एक व्युत्क्रम फंक्शन की तलाश करता है जो एक छवि से 3डी गॉसियन के मिश्रण को पुनर्निर्माण करता है। यहां कुंजी एक प्रभावी और सरल डिज़ाइन का प्रस्ताव देना है। विशेष रूप से, एक इनपुट छवि के लिए, फ्रेमवर्क एक इमेज-टू-इमेज न्यूरल नेटवर्क आर्किटेक्चर का उपयोग करके प्रत्येक व्यक्तिगत पिक्सेल के लिए एक गॉसियन की भविष्यवाणी करता है और एक छवि को आउटपुट के रूप में उत्पन्न करता है, जिसे स्प्लैटर इमेज के रूप में जाना जाता है। नेटवर्क आकार, अपारदर्शिता, और रंग की भविष्यवाणी भी करता है।

अब, यह अनुमान लगाया जा सकता है कि स्प्लैटर इमेज फ्रेमवर्क 3डी प्रतिनिधित्व को कैसे पुनर्निर्माण कर सकता है, भले ही इसके पास केवल एक दृश्य तक पहुंच हो? वास्तविक समय में, स्प्लैटर इमेज फ्रेमवर्क सीखता है कि कुछ गॉसियन का उपयोग दृश्य को पुनर्निर्माण करने के लिए किया जाए, और शेष गॉसियन का उपयोग दृश्य के अदृश्य भागों को स्वचालित रूप से पुनर्निर्माण करने के लिए किया जाए। अपनी दक्षता को अधिकतम करने के लिए, फ्रेमवर्क अपारदर्शिता शून्य होने पर गॉसियन को स्वचालित रूप से बंद कर सकता है। यदि अपारदर्शिता शून्य है, तो गॉसियन बंद हो जाते हैं और फ्रेमवर्क इन बिंदुओं को रेंडर नहीं करता है, और इसके बजाय पोस्ट-प्रोसेसिंग में हटा दिया जाता है।

इमेज स्तर की हानि

गॉसियन स्प्लैटिंग द्वारा प्रदान की जाने वाली गति और दक्षता का लाभ उठाने का एक प्रमुख लाभ यह है कि यह फ्रेमवर्क को प्रत्येक पुनरावृत्ति में सभी छवियों को रेंडर करने में सक्षम बनाता है, यहां तक कि बड़े बैच आकार वाले बैच के लिए भी। इसके अलावा, यह इंगित करता है कि फ्रेमवर्क न केवल विभाज्य हानि का उपयोग कर सकता है, बल्कि यह छवि-स्तर की हानि का भी उपयोग कर सकता है जो प्रति-पिक्सेल में विभाजित नहीं होती है।

स्केल सामान्यीकरण

एकल दृश्य से वस्तु का आकार अनुमान लगाना चुनौतीपूर्ण है, और यह एक चुनौतीपूर्ण कार्य है जो अस्पष्टता को दूर करने के लिए प्रशिक्षण के दौरान सामना किया जाता है। यही समस्या सिंथेटिक डेटासेट में नहीं देखी जाती है क्योंकि सभी वस्तुएं समान कैमरा इन्ट्रिंसिक्स के साथ और कैमरे से एक निश्चित दूरी पर रेंडर की जाती हैं, जो अंततः अस्पष्टता को हल करने में मदद करती है। हालांकि, वास्तविक जीवन की छवियों वाले डेटासेट में, अस्पष्टता बहुत अधिक होती है, और स्प्लैटर इमेज फ्रेमवर्क वस्तुओं के पैमाने को लगभग तय करने के लिए कई पूर्व-प्रसंस्करण विधियों का उपयोग करता है।

दृश्य-निर्भर रंग

दृश्य-निर्भर रंगों का प्रतिनिधित्व करने के लिए, स्प्लैटर इमेज फ्रेमवर्क लैम्बर्टियन रंग मॉडल से परे रंगों को सामान्य बनाने के लिए गोलाकार सामंजस्य का उपयोग करता है। प्रत्येक गॉसियन के लिए, मॉडल नेटवर्क द्वारा पूर्वानुमानित स्फेरिकल सामंजस्य और गुणांक परिभाषित करता है। दृश्य परिवर्तन कैमरा स्रोत में एक देखने की दिशा को फ्रेम ऑफ रेफरेंस में इसके संबंधित देखने की दिशा में परिवर्तित करता है। मॉडल तब संबंधित गुणांक खोजने के लिए परिवर्तित रंग फंक्शन को खोजने में सक्षम होता है। मॉडल ऐसा करने में सक्षम होता है क्योंकि घूर्णन के तहत, गोलाकार सामंजस्य बंद हो जाते हैं, साथ ही हर क्रम के साथ।

न्यूरल नेटवर्क आर्किटेक्चर

प्रेडिक्टर की वास्तुकला का अधिकांश भाग जो इनपुट छवि को गॉसियन मिश्रण में मैप करता है सोंगयूनेट फ्रेमवर्क में उपयोग की जाने वाली प्रक्रिया के समान है। वास्तुकला में अंतिम परत को एक 1×1 कॉन्वोल्यूशनल लेयर द्वारा प्रतिस्थापित किया जाता है जिसमें रंग मॉडल आउटपुट चैनलों की चौड़ाई को निर्धारित करता है। दी गई इनपुट छवि के लिए, नेटवर्क एक आउटपुट चैनल टेंसर का उत्पादन करता है, और प्रत्येक पिक्सेल चैनल के लिए पैरामीटर को संकेतित करता है जो तब ऑफसेट, अपारदर्शिता, घूर्णन, गहराई और रंग में परिवर्तित हो जाता है। फ्रेमवर्क तब पैरामीटर प्राप्त करने के लिए गैर-रेखीय फंक्शन का उपयोग करता है।

मल्टी-व्यू 3डी रिकंस्ट्रक्शन को प्राप्त करने के लिए, स्प्लैटर इमेज फ्रेमवर्क को प्रत्येक इनपुट दृश्य पर लागू किया जाता है और फिर दृश्य दृष्टिकोण का उपयोग करके व्यक्तिगत रिकंस्ट्रक्शन को जोड़ता है। इसके अलावा, नेटवर्क में विभिन्न दृश्यों के बीच कुशल समन्वय और जानकारी के आदान-प्रदान की सुविधा के लिए, स्प्लैटर इमेज फ्रेमवर्क नेटवर्क में दो संशोधन करता है। पहले, फ्रेमवर्क मॉडल को इसके संबंधित कैमरा पोज़ के साथ स्थिति देता है और प्रत्येक प्रविष्टि को साइनसॉइडल पोज़िशन एम्बेडिंग का उपयोग करकें कई आयामों में एन्कोड करता है। दूसरे, फ्रेमवर्क विभिन्न दृश्यों की विशेषताओं के बीच संवाद की सुविधा के लिए क्रॉस-ध्यान層 जोड़ता है।

स्प्लैटर इमेज: प्रयोग और परिणाम

स्प्लैटर इमेज फ्रेमवर्क अपने रिकंस्ट्रक्शन की गुणवत्ता को मापता है नोवेल व्यू सिंथेसिस गुणवत्ता का मूल्यांकन करके क्योंकि फ्रेमवर्क स्रोत दृश्य का उपयोग करके 3डी आकार को रेंडर करता है और लक्ष्य दृश्यों को पुनर्निर्माण करने के लिए अनदेखे दृश्यों को प्रस्तुत करता है। फ्रेमवर्क अपने प्रदर्शन का मूल्यांकन एसएसआईएम या संरचनात्मक समानता, पीक सिग्नल-टू-नॉइज़ रेशियो या पीएसएनआर, और धारणात्मक गुणवत्ता या एलपीआईपीएस स्कोर को मापकर करता है।

सिंगल-व्यू 3डी रिकंस्ट्रक्शन प्रदर्शन

निम्नलिखित तालिका शेपनेट बेंचमार्क पर सिंगल-व्यू 3डी रिकंस्ट्रक्शन कार्य में स्प्लैटर इमेज मॉडल के प्रदर्शन को प्रदर्शित करती है।

जैसा कि देखा जा सकता है, स्प्लैटर इमेज फ्रेमवर्क एलपीआईपीएस और एसएसआईएम स्कोर में सभी निर्धारित रिकंस्ट्रक्शन विधियों को पार करता है। स्कोर इंगित करते हैं कि स्प्लैटर इमेज मॉडल तेज़ पुनर्निर्माण वाली छवियों का उत्पादन करता है। इसके अलावा, स्प्लैटर इमेज मॉडल पीएसएनआर स्कोर में भी सभी निर्धारित बेसलाइन को पार करता है, जो दर्शाता है कि उत्पन्न पुनर्निर्माण अधिक सटीक हैं। इसके अलावा, निर्धारित विधियों को पार करने के अलावा, स्प्लैटर इमेज फ्रेमवर्क को केवल संबंधित कैमरा पोज़ की आवश्यकता होती है जो प्रशिक्षण और परीक्षण दोनों चरणों में इसकी दक्षता में सुधार करता है।

निम्नलिखित छवि स्प्लैटर इमेज फ्रेमवर्क की गुणात्मक पrowess को प्रदर्शित करती है, और जैसा कि देखा जा सकता है, मॉडल पतली और रोचक ज्यामिति वाले पुनर्निर्माण का उत्पादन करता है, और स्थिति दृश्यों के विवरण को पकड़ता है।

निम्नलिखित छवि दिखाती है कि स्प्लैटर इमेज फ्रेमवर्क द्वारा उत्पन्न पुनर्निर्माण न केवल तेज़ है, बल्कि विशेष रूप से पतली संरचनाओं और सीमित दृश्यता वाली असामान्य स्थितियों में पिछले मॉडलों की तुलना में अधिक सटीक है।

मल्टी-व्यू 3डी रिकंस्ट्रक्शन

मल्टी-व्यू 3डी रिकंस्ट्रक्शन क्षमताओं का मूल्यांकन करने के लिए, स्प्लैटर इमेज फ्रेमवर्क को स्पैनेनेट-एसआरएन कार्स डेटासेट पर दो दृश्य पूर्वानुमान के लिए प्रशिक्षित किया जाता है। मौजूदा विधियां मल्टी-व्यू 3डी रिकंस्ट्रक्शन कार्यों के लिए निरपेक्ष कैमरा पोज़ कंडीशनिंग का उपयोग करती हैं जिसका अर्थ है कि मॉडल मुख्य रूप से वस्तु की मूल दिशा पर निर्भर करता है। हालांकि यह काम करता है, यह मॉडल की व्यापकता को सीमित करता है क्योंकि नए वस्तु की छवि के लिए निरपेक्ष कैमरा पोज़ अक्सर अज्ञात होता है।

अंतिम विचार

इस लेख में, हमने स्प्लैटर इमेज के बारे में बात की है, जो एक विधि है जो वस्तुओं के अल्ट्रा-फास्ट सिंगल-व्यू 3डी आकार और 3डी उपस्थिति निर्माण को प्राप्त करने का लक्ष्य रखती है। इसके मूल में, स्प्लैटर इमेज फ्रेमवर्क 3डी प्रतिनिधित्व का विश्लेषण करने के लिए गॉसियन स्प्लैटिंग विधि का उपयोग करता है, जो इसके द्वारा प्रदान की जाने वाली गति और गुणवत्ता का लाभ उठाता है। स्प्लैटर इमेज फ्रेमवर्क एक ऑफ-द-शेल्फ 2डी सीएनएन आर्किटेक्चर का उपयोग करके छवियों को संसाधित करता है जो प्रत्येक इनपुट पिक्सेल के लिए एक 3डी गॉसियन की भविष्यवाणी करता है और आउटपुट के रूप में एक छवि उत्पन्न करता है, जिसे स्प्लैटर इमेज के रूप में जाना जाता है। गॉसियन स्प्लैटिंग विधि का उपयोग करके, स्प्लैटर इमेज फ्रेमवर्क तेज़ रेंडरिंग को तेज़ अनुमान के साथ जोड़ सकता है, जिससे वास्तविक और सिंथेटिक बेंचमार्क पर तेज़ प्रशिक्षण और मूल्यांकन होता है।

Related Topics:3d reconstructions Splatter Image