Anderson का एंगल

डिफ्यूज़न मॉडल्स की दर्पण और प्रतिबिंबों की सीमित समझ को ठीक करना

Published April 28, 2025

Updated March 17, 2026

Martin Anderson

जब से जनरेटिव AI ने सार्वजनिक रुचि आकर्षित करना शुरू किया है, कंप्यूटर विज़न शोध क्षेत्र ने भौतिक नियमों को समझने और पुनरुत्पादित करने में सक्षम AI मॉडल विकसित करने में अपनी रुचि गहरी की है; हालाँकि, मशीन लर्निंग सिस्टम को गुरुत्वाकर्षण और तरल गतिकी जैसी घटनाओं का अनुकरण करना सिखाने की चुनौती कम से कम पिछले पाँच वर्षों से शोध प्रयासों का एक महत्वपूर्ण केंद्र रही है। जब से लेटेंट डिफ्यूज़न मॉडल्स (LDMs) ने 2022 में जनरेटिव AI दृश्य पर प्रभुत्व हासिल किया, शोधकर्ताओं ने भौतिक घटनाओं को समझने और पुनरुत्पादित करने की LDM आर्किटेक्चर की सीमित क्षमता पर तेजी से ध्यान केंद्रित किया है। अब, OpenAI के जनरेटिव वीडियो मॉडल Sora, के मील के पत्थर विकास और (तर्कसंगत रूप से) अधिक परिणामी हालिया ओपन सोर्स वीडियो मॉडल्स Hunyuan Video और Wan 2.1 की रिलीज़ के साथ, यह मुद्दा और अधिक प्रमुखता प्राप्त कर गया है।

खराब प्रतिबिंब

भौतिकी की LDM समझ को सुधारने के उद्देश्य से अधिकांश शोध ने गति अनुकरण, कण भौतिकी और न्यूटोनियन गति के अन्य पहलुओं जैसे क्षेत्रों पर ध्यान केंद्रित किया है। इन क्षेत्रों ने ध्यान आकर्षित किया है क्योंकि बुनियादी भौतिक व्यवहारों में अशुद्धियाँ तुरंत AI-जनित वीडियो की प्रामाणिकता को कमजोर कर देंगी। हालाँकि, शोध की एक छोटी लेकिन बढ़ती हुई शाखा LDM की सबसे बड़ी कमजोरियों में से एक पर केंद्रित है – यह है सटीक प्रतिबिंबों का उत्पादन करने में इसकी सापेक्ष अक्षमता।

जनवरी 2025 के पेपर ‘रिफ्लेक्टिंग रियलिटी: एनेबलिंग डिफ्यूज़न मॉडल्स टू प्रोड्यूस फेथफुल मिरर रिफ्लेक्शन्स’ से, ‘रिफ्लेक्शन फेल्योर’ बनाम शोधकर्ताओं की अपनी पद्धति के उदाहरण। स्रोत: https://arxiv.org/pdf/2409.14677

यह मुद्दा CGI युग के दौरान भी एक चुनौती थी और वीडियो गेमिंग के क्षेत्र में अब भी बना हुआ है, जहाँ रे-ट्रेसिंग एल्गोरिदम सतहों के साथ अंतर्क्रिया करते समय प्रकाश के पथ का अनुकरण करते हैं। रे-ट्रेसिंग गणना करती है कि कैसे आभासी प्रकाश किरणें वस्तुओं से टकराकर या उनसे गुजरकर यथार्थवादी प्रतिबिंब, अपवर्तन और छायाएँ बनाती हैं। हालाँकि, क्योंकि प्रत्येक अतिरिक्त टक्कर कम्प्यूटेशनल लागत को बहुत बढ़ा देती है, रियल-टाइम अनुप्रयोगों को अनुमत प्रकाश-किरण टक्करों की संख्या को सीमित करके विलंबता के विरुद्ध सटीकता का समझौता करना पड़ता है।

एक पारंपरिक 3D-आधारित (अर्थात, CGI) परिदृश्य में आभासी रूप से गणना की गई प्रकाश-किरण का एक प्रतिनिधित्व, 1960 के दशक में पहली बार विकसित तकनीकों और सिद्धांतों का उपयोग करते हुए, और जो 1982-93 के बीच चरम पर पहुँचा (‘ट्रॉन’ [1982] और ‘जुरासिक पार्क’ [1993] के बीच का अंतराल)। स्रोत: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

उदाहरण के लिए, एक दर्पण के सामने क्रोम टीपॉट को चित्रित करना एक रे-ट्रेसिंग प्रक्रिया शामिल हो सकती है जहाँ प्रकाश किरणें परावर्तक सतहों के बीच बार-बार टकराती हैं, जिससे अंतिम छवि को बहुत कम व्यावहारिक लाभ के साथ लगभग अनंत लूप बन जाता है। अधिकांश मामलों में, दो से तीन टक्करों की प्रतिबिंब गहराई पहले से ही दर्शक जो समझ सकता है उससे अधिक होती है। एकल टक्कर से एक काला दर्पण बनेगा, क्योंकि दृश्यमान प्रतिबिंब बनाने के लिए प्रकाश को कम से कम दो यात्राएँ पूरी करनी चाहिए। प्रत्येक अतिरिक्त टक्कर कम्प्यूटेशनल लागत को तेजी से बढ़ाती है, अक्सर रेंडर समय को दोगुना कर देती है, जिससे प्रतिबिंबों का तेजी से प्रसंस्करण रे-ट्रेस्ड रेंडरिंग गुणवत्ता में सुधार के लिए सबसे महत्वपूर्ण अवसरों में से एक बन जाता है। स्वाभाविक रूप से, प्रतिबिंब बहुत कम स्पष्ट परिदृश्यों में होते हैं, और फोटोरियलिज्म के लिए आवश्यक होते हैं – जैसे कि बारिश के बाद शहर की सड़क या युद्धक्षेत्र की परावर्तक सतह; किसी दुकान की खिड़की या कांच के दरवाजे में विपरीत सड़क का प्रतिबिंब; या चित्रित पात्रों के चश्मे में, जहाँ वस्तुओं और वातावरण को दिखाई देना आवश्यक हो सकता है।

‘द मैट्रिक्स’ (1999) के एक प्रतिष्ठित दृश्य के लिए पारंपरिक कम्पोज़िटिंग के माध्यम से प्राप्त एक सिम्युलेटेड ट्विन-रिफ्लेक्शन।

छवि समस्याएँ

इस कारण से, डिफ्यूज़न मॉडल्स के आगमन से पहले लोकप्रिय फ्रेमवर्क, जैसे न्यूरल रेडिएंस फील्ड्स (NeRF), और कुछ अधिक हाल के प्रतिद्वंद्वी जैसे गॉसियन स्प्लैटिंग ने प्रतिबिंबों को प्राकृतिक तरीके से लागू करने के लिए अपने स्वयं के संघर्ष बनाए रखे हैं। REF²-NeRF प्रोजेक्ट (नीचे चित्रित) ने ग्लास केस वाले दृश्यों के लिए NeRF-आधारित मॉडलिंग विधि प्रस्तावित की। इस विधि में, अपवर्तन और प्रतिबिंब को ऐसे तत्वों का उपयोग करके मॉडल किया गया था जो दर्शक के परिप्रेक्ष्य पर निर्भर और स्वतंत्र थे। इस दृष्टिकोण ने शोधकर्ताओं को उन सतहों का अनुमान लगाने की अनुमति दी जहाँ अपवर्तन हुआ, विशेष रूप से कांच की सतहें, और प्रत्यक्ष एवं परावर्तित प्रकाश घटकों के पृथक्करण और मॉडलिंग को सक्षम किया।

Ref2Nerf पेपर से उदाहरण। स्रोत: https://arxiv.org/pdf/2311.17116

पिछले 4-5 वर्षों के अन्य NeRF-केंद्रित प्रतिबिंब समाधानों में NeRFReN, Reflecting Reality, और Meta का 2024 का Planar Reflection-Aware Neural Radiance Fields प्रोजेक्ट शामिल हैं। GSplat के लिए, Mirror-3DGS, Reflective Gaussian Splatting, और RefGaussian जैसे पेपरों ने प्रतिबिंब समस्या के संबंध में समाधान प्रस्तावित किए हैं, जबकि 2023 के Nero प्रोजेक्ट ने न्यूरल प्रतिनिधित्व में परावर्तक गुणों को शामिल करने की एक विशिष्ट विधि प्रस्तावित की।

मिररवर्स

एक डिफ्यूज़न मॉडल को प्रतिबिंब तर्क का सम्मान करवाना, तर्कसंगत रूप से, गॉसियन स्प्लैटिंग और NeRF जैसी स्पष्ट रूप से संरचनात्मक, गैर-सिमेंटिक पद्धतियों की तुलना में अधिक कठिन है। डिफ्यूज़न मॉडल्स में, इस प्रकार का नियम केवल तभी विश्वसनीय रूप से एम्बेड होने की संभावना है यदि प्रशिक्षण डेटा में विस्तृत परिदृश्यों में कई विविध उदाहरण शामिल हैं, जिससे यह मूल डेटासेट के वितरण और गुणवत्ता पर भारी निर्भर हो जाता है। पारंपर

Martin Anderson

लेखक मशीन लर्निंग पर, मानव छवि संश्लेषण में डोमेन विशेषज्ञ। Metaphysic.ai में पूर्व अनुसंधान सामग्री प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai