Connect with us

डिफ्यूज़न मॉडल्स की दर्पण और प्रतिबिंबों की सीमित समझ को ठीक करना

Anderson का एंगल

डिफ्यूज़न मॉडल्स की दर्पण और प्रतिबिंबों की सीमित समझ को ठीक करना

mm
ChatGPT-4o and Adobe Firefly

जब से जनरेटिव AI ने सार्वजनिक रुचि आकर्षित करना शुरू किया है, कंप्यूटर विज़न शोध क्षेत्र ने भौतिक नियमों को समझने और पुनरुत्पादित करने में सक्षम AI मॉडल विकसित करने में अपनी रुचि गहरी की है; हालाँकि, मशीन लर्निंग सिस्टम को गुरुत्वाकर्षण और तरल गतिकी जैसी घटनाओं का अनुकरण करना सिखाने की चुनौती कम से कम पिछले पाँच वर्षों से शोध प्रयासों का एक महत्वपूर्ण केंद्र रही है। जब से लेटेंट डिफ्यूज़न मॉडल्स (LDMs) ने 2022 में जनरेटिव AI दृश्य पर प्रभुत्व हासिल किया, शोधकर्ताओं ने भौतिक घटनाओं को समझने और पुनरुत्पादित करने की LDM आर्किटेक्चर की सीमित क्षमता पर तेजी से ध्यान केंद्रित किया है। अब, OpenAI के जनरेटिव वीडियो मॉडल Sora, के मील के पत्थर विकास और (तर्कसंगत रूप से) अधिक परिणामी हालिया ओपन सोर्स वीडियो मॉडल्स Hunyuan Video और Wan 2.1 की रिलीज़ के साथ, यह मुद्दा और अधिक प्रमुखता प्राप्त कर गया है।

खराब प्रतिबिंब

भौतिकी की LDM समझ को सुधारने के उद्देश्य से अधिकांश शोध ने गति अनुकरण, कण भौतिकी और न्यूटोनियन गति के अन्य पहलुओं जैसे क्षेत्रों पर ध्यान केंद्रित किया है। इन क्षेत्रों ने ध्यान आकर्षित किया है क्योंकि बुनियादी भौतिक व्यवहारों में अशुद्धियाँ तुरंत AI-जनित वीडियो की प्रामाणिकता को कमजोर कर देंगी। हालाँकि, शोध की एक छोटी लेकिन बढ़ती हुई शाखा LDM की सबसे बड़ी कमजोरियों में से एक पर केंद्रित है – यह है सटीक प्रतिबिंबों का उत्पादन करने में इसकी सापेक्ष अक्षमता

जनवरी 2025 के पेपर 'रिफ्लेक्टिंग रियलिटी: एनेबलिंग डिफ्यूज़न मॉडल्स टू प्रोड्यूस फेथफुल मिरर रिफ्लेक्शन्स' से, 'रिफ्लेक्शन फेल्योर' बनाम शोधकर्ताओं की अपनी पद्धति के उदाहरण। स्रोत: https://arxiv.org/pdf/2409.14677

जनवरी 2025 के पेपर ‘रिफ्लेक्टिंग रियलिटी: एनेबलिंग डिफ्यूज़न मॉडल्स टू प्रोड्यूस फेथफुल मिरर रिफ्लेक्शन्स’ से, ‘रिफ्लेक्शन फेल्योर’ बनाम शोधकर्ताओं की अपनी पद्धति के उदाहरण। स्रोत: https://arxiv.org/pdf/2409.14677

यह मुद्दा CGI युग के दौरान भी एक चुनौती थी और वीडियो गेमिंग के क्षेत्र में अब भी बना हुआ है, जहाँ रे-ट्रेसिंग एल्गोरिदम सतहों के साथ अंतर्क्रिया करते समय प्रकाश के पथ का अनुकरण करते हैं। रे-ट्रेसिंग गणना करती है कि कैसे आभासी प्रकाश किरणें वस्तुओं से टकराकर या उनसे गुजरकर यथार्थवादी प्रतिबिंब, अपवर्तन और छायाएँ बनाती हैं। हालाँकि, क्योंकि प्रत्येक अतिरिक्त टक्कर कम्प्यूटेशनल लागत को बहुत बढ़ा देती है, रियल-टाइम अनुप्रयोगों को अनुमत प्रकाश-किरण टक्करों की संख्या को सीमित करके विलंबता के विरुद्ध सटीकता का समझौता करना पड़ता है।

एक पारंपरिक 3D-आधारित (अर्थात, CGI) परिदृश्य में आभासी रूप से गणना की गई प्रकाश-किरण का एक प्रतिनिधित्व, 1960 के दशक में पहली बार विकसित तकनीकों और सिद्धांतों का उपयोग करते हुए, और जो 1982-93 के बीच चरम पर पहुँचा ('ट्रॉन' [1982] और 'जुरासिक पार्क' [1993] के बीच का अंतराल)। स्रोत: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

एक पारंपरिक 3D-आधारित (अर्थात, CGI) परिदृश्य में आभासी रूप से गणना की गई प्रकाश-किरण का एक प्रतिनिधित्व, 1960 के दशक में पहली बार विकसित तकनीकों और सिद्धांतों का उपयोग करते हुए, और जो 1982-93 के बीच चरम पर पहुँचा (‘ट्रॉन’ [1982] और ‘जुरासिक पार्क’ [1993] के बीच का अंतराल)। स्रोत: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

उदाहरण के लिए, एक दर्पण के सामने क्रोम टीपॉट को चित्रित करना एक रे-ट्रेसिंग प्रक्रिया शामिल हो सकती है जहाँ प्रकाश किरणें परावर्तक सतहों के बीच बार-बार टकराती हैं, जिससे अंतिम छवि को बहुत कम व्यावहारिक लाभ के साथ लगभग अनंत लूप बन जाता है। अधिकांश मामलों में, दो से तीन टक्करों की प्रतिबिंब गहराई पहले से ही दर्शक जो समझ सकता है उससे अधिक होती है। एकल टक्कर से एक काला दर्पण बनेगा, क्योंकि दृश्यमान प्रतिबिंब बनाने के लिए प्रकाश को कम से कम दो यात्राएँ पूरी करनी चाहिए। प्रत्येक अतिरिक्त टक्कर कम्प्यूटेशनल लागत को तेजी से बढ़ाती है, अक्सर रेंडर समय को दोगुना कर देती है, जिससे प्रतिबिंबों का तेजी से प्रसंस्करण रे-ट्रेस्ड रेंडरिंग गुणवत्ता में सुधार के लिए सबसे महत्वपूर्ण अवसरों में से एक बन जाता है। स्वाभाविक रूप से, प्रतिबिंब बहुत कम स्पष्ट परिदृश्यों में होते हैं, और फोटोरियलिज्म के लिए आवश्यक होते हैं – जैसे कि बारिश के बाद शहर की सड़क या युद्धक्षेत्र की परावर्तक सतह; किसी दुकान की खिड़की या कांच के दरवाजे में विपरीत सड़क का प्रतिबिंब; या चित्रित पात्रों के चश्मे में, जहाँ वस्तुओं और वातावरण को दिखाई देना आवश्यक हो सकता है।

'द मैट्रिक्स' (1999) के एक प्रतिष्ठित दृश्य के लिए पारंपरिक कम्पोज़िटिंग के माध्यम से प्राप्त एक सिम्युलेटेड ट्विन-रिफ्लेक्शन।

‘द मैट्रिक्स’ (1999) के एक प्रतिष्ठित दृश्य के लिए पारंपरिक कम्पोज़िटिंग के माध्यम से प्राप्त एक सिम्युलेटेड ट्विन-रिफ्लेक्शन।

छवि समस्याएँ

इस कारण से, डिफ्यूज़न मॉडल्स के आगमन से पहले लोकप्रिय फ्रेमवर्क, जैसे न्यूरल रेडिएंस फील्ड्स (NeRF), और कुछ अधिक हाल के प्रतिद्वंद्वी जैसे गॉसियन स्प्लैटिंग ने प्रतिबिंबों को प्राकृतिक तरीके से लागू करने के लिए अपने स्वयं के संघर्ष बनाए रखे हैं। REF2-NeRF प्रोजेक्ट (नीचे चित्रित) ने ग्लास केस वाले दृश्यों के लिए NeRF-आधारित मॉडलिंग विधि प्रस्तावित की। इस विधि में, अपवर्तन और प्रतिबिंब को ऐसे तत्वों का उपयोग करके मॉडल किया गया था जो दर्शक के परिप्रेक्ष्य पर निर्भर और स्वतंत्र थे। इस दृष्टिकोण ने शोधकर्ताओं को उन सतहों का अनुमान लगाने की अनुमति दी जहाँ अपवर्तन हुआ, विशेष रूप से कांच की सतहें, और प्रत्यक्ष एवं परावर्तित प्रकाश घटकों के पृथक्करण और मॉडलिंग को सक्षम किया।

Ref2Nerf पेपर से उदाहरण। स्रोत: https://arxiv.org/pdf/2311.17116

Ref2Nerf पेपर से उदाहरण। स्रोत: https://arxiv.org/pdf/2311.17116

पिछले 4-5 वर्षों के अन्य NeRF-केंद्रित प्रतिबिंब समाधानों में NeRFReN, Reflecting Reality, और Meta का 2024 का Planar Reflection-Aware Neural Radiance Fields प्रोजेक्ट शामिल हैं। GSplat के लिए, Mirror-3DGS, Reflective Gaussian Splatting, और RefGaussian जैसे पेपरों ने प्रतिबिंब समस्या के संबंध में समाधान प्रस्तावित किए हैं, जबकि 2023 के Nero प्रोजेक्ट ने न्यूरल प्रतिनिधित्व में परावर्तक गुणों को शामिल करने की एक विशिष्ट विधि प्रस्तावित की।

मिररवर्स

एक डिफ्यूज़न मॉडल को प्रतिबिंब तर्क का सम्मान करवाना, तर्कसंगत रूप से, गॉसियन स्प्लैटिंग और NeRF जैसी स्पष्ट रूप से संरचनात्मक, गैर-सिमेंटिक पद्धतियों की तुलना में अधिक कठिन है। डिफ्यूज़न मॉडल्स में, इस प्रकार का नियम केवल तभी विश्वसनीय रूप से एम्बेड होने की संभावना है यदि प्रशिक्षण डेटा में विस्तृत परिदृश्यों में कई विविध उदाहरण शामिल हैं, जिससे यह मूल डेटासेट के वितरण और गुणवत्ता पर भारी निर्भर हो जाता है। पारंपर

लेखक मशीन लर्निंग पर, मानव छवि संश्लेषण में डोमेन विशेषज्ञ। Metaphysic.ai में पूर्व अनुसंधान सामग्री प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai