कृत्रिम बुद्धिमत्ता

पेंट3डी: इमेज जेनरेशन का उपयोग करके लाइटनिंग लेस डिफ्यूजन मॉडल

प्रकाशित 15 जुलाई 2024

अपडेट किया गया 21 मई 2026

Kunal Kejriwal

गहरे जेनरेटिव एआई मॉडल के आगमन ने प्राकृतिक भाषा जेनरेशन, 3डी जेनरेशन, इमेज जेनरेशन और स्पीच सिंथेसिस में उल्लेखनीय क्षमताओं के साथ एआई के विकास को काफी तेज कर दिया है। 3डी जेनरेटिव मॉडल ने कई उद्योगों और अनुप्रयोगों को बदल दिया है, वर्तमान 3डी उत्पादन परिदृश्य को क्रांतिकारी बना दिया है। हालांकि, कई वर्तमान गहरे जेनरेटिव मॉडल एक सामान्य बाधा का सामना करते हैं: जटिल तारों और उत्पन्न जालों के साथ प्रकाश टेक्सचर अक्सर पारंपरिक रेंडरिंग पाइपलाइनों जैसे पीबीआर (भौतिक रूप से आधारित रेंडरिंग) के साथ असंगत होते हैं। डिफ्यूजन-आधारित मॉडल, जो प्रकाश टेक्सचर के बिना 3डी संपत्ति उत्पन्न करते हैं, विविध 3डी संपत्ति जेनरेशन के लिए उल्लेखनीय क्षमता रखते हैं, जिससे फिल्म निर्माण, गेमिंग और बढ़ाया वास्तविकता जैसे उद्योगों में मौजूदा 3डी ढांचे को मजबूत किया जा सकता है।

इस लेख में, हम पेंट3डी के बारे में चर्चा करेंगे, जो एक नए, दो-चरण के ढांचे के रूप में कार्य करता है जो बिना प्रकाश टेक्सचर के उच्च-रिज़ॉल्यूशन 2के यूवी टेक्सचर मैप्स उत्पन्न करने में सक्षम है। पेंट3डी का मुख्य उद्देश्य बिना प्रकाश टेक्सचर के उच्च-गुणवत्ता वाले टेक्सचर उत्पन्न करना है, जिससे उपयोगकर्ता आधुनिक ग्राफिक्स पाइपलाइनों के भीतर पुनः संपादित या पुनः प्रकाशित कर सकें। इस समस्या को हल करने के लिए, पेंट3डी ढांचे में एक पूर्व-प्रशिक्षित 2डी डिफ्यूजन मॉडल का उपयोग करके मल्टी-व्यू टेक्सचर फ्यूजन और दृश्य-शर्त वाली छवियों का उत्पादन किया जाता है, जिससे एक प्रारंभिक टेक्सचर मैप बनाया जा सकता है। हालांकि, चूंकि 2डी मॉडल पूरी तरह से प्रकाश प्रभावों को अक्षम नहीं कर सकते हैं या 3डी आकारों का पूरी तरह से प्रतिनिधित्व नहीं कर सकते हैं, टेक्सचर मैप में प्रकाश कलाकृतियों और अपूर्ण क्षेत्रों की समस्या उत्पन्न हो सकती है।

इस लेख में, हम पेंट3डी ढांचे की गहराई से जांच करेंगे, इसके कार्य और वास्तुकला का विश्लेषण करेंगे, और इसे वर्तमान राज्य-ऑफ-द-आर्ट जेनरेटिव ढांचे के साथ तुलना करेंगे। तो आइए शुरू करें।

पेंट3डी: एक परिचय

गहरे जेनरेटिव एआई मॉडल ने प्राकृतिक भाषा जेनरेशन, 3डी जेनरेशन और इमेज सिंथेसिस में उल्लेखनीय क्षमता प्रदर्शित की है, और वास्तविक अनुप्रयोगों में लागू की गई है, 3डी जेनरेशन उद्योग को क्रांतिकारी बना दिया है। हालांकि, उनकी उल्लेखनीय क्षमताओं के बावजूद, आधुनिक गहरे जेनरेटिव एआई ढांचे अक्सर जटिल तारों और प्रकाश टेक्सचर वाले जाल उत्पन्न करते हैं जो पारंपरिक रेंडरिंग पाइपलाइनों के साथ असंगत होते हैं, जिनमें पीबीआर (भौतिक रूप से आधारित रेंडरिंग) भी शामिल है। इसी तरह, टेक्सचर सिंथेसिस तेजी से आगे बढ़ी है, विशेष रूप से 2डी डिफ्यूजन मॉडल के उपयोग के साथ। ये मॉडल पूर्व-प्रशिक्षित गहराई-से-छवि डिफ्यूजन मॉडल और पाठ शर्तों का उपयोग करके उच्च-गुणवत्ता वाले टेक्सचर उत्पन्न करने में प्रभावी ढंग से काम करते हैं। हालांकि, एक महत्वपूर्ण चुनौती बनी हुई है: पूर्व-प्रकाशित टेक्सचर अंतिम 3डी पर्यावरण रेंडरिंग को प्रभावित कर सकते हैं, सामान्य कार्य प्रवाह में प्रकाश को समायोजित करते समय प्रकाश त्रुटियों का परिचय देते हैं, जैसा कि निम्नलिखित छवि में दिखाया गया है।

जैसा कि देखा गया है, पूर्व-प्रकाश टेक्सचर के बिना टेक्सचर मैप पारंपरिक रेंडरिंग पाइपलाइनों के साथ सहजता से काम करते हैं, सटीक परिणाम प्रदान करते हैं। इसके विपरीत, पूर्व-प्रकाश टेक्सचर में पुनः प्रकाशन पर अनुचित छाया शामिल होती है। टेक्सचर जेनरेशन ढांचे जो 3डी डेटा पर प्रशिक्षित होते हैं, एक वैकल्पिक दृष्टिकोण प्रदान करते हैं, जो एक विशिष्ट 3डी वस्तु की पूरी ज्यामिति को समझकर टेक्सचर उत्पन्न करते हैं। हालांकि ये ढांचे बेहतर परिणाम प्रदान कर सकते हैं, उनमें अपने प्रशिक्षण डेटा से परे 3डी वस्तुओं पर मॉडल को लागू करने के लिए आवश्यक सामान्यीकरण क्षमता का अभाव है।

वर्तमान टेक्सचर जेनरेशन मॉडल दो महत्वपूर्ण चुनौतियों का सामना करते हैं: विभिन्न वस्तुओं में छवि मार्गदर्शन या विविध प्रेरकों के साथ व्यापक सामान्यीकरण प्राप्त करना, और पूर्व-प्रशिक्षित परिणामों से जुड़े प्रकाश को समाप्त करना। पूर्व-प्रकाशित टेक्सचर रेंडरिंग इंजनों के भीतर टेक्सचर वस्तुओं के अंतिम परिणामों में हस्तक्षेप कर सकते हैं। इसके अलावा, चूंकि पूर्व-प्रशिक्षित 2डी डिफ्यूजन मॉडल केवल दृश्य डोमेन में 2डी परिणाम प्रदान करते हैं, उनमें 3डी आकारों की व्यापक समझ का अभाव है, जो 3डी वस्तुओं के लिए दृश्य स्थिरता बनाए रखने में असंगति का कारण बनता है।

इन चुनौतियों का सामना करने के लिए, पेंट3डी ढांचा 3डी वस्तुओं के लिए एक दो-चरण टेक्सचर डिफ्यूजन मॉडल विकसित करता है जो विभिन्न पूर्व-प्रशिक्षित जेनरेटिव मॉडलों में सामान्यीकरण करता है और दृश्य स्थिरता को बनाए रखते हुए प्रकाश-मुक्त टेक्सचर उत्पन्न करता है।

पेंट3डी एक दो-चरण, दो-स्तरीय टेक्सचर जेनरेशन मॉडल है जो पूर्व-प्रशिक्षित जेनरेटिव एआई मॉडल की मजबूत प्रेरक मार्गदर्शन और छवि जेनरेशन क्षमताओं का लाभ उठाता है ताकि 3डी वस्तुओं को टेक्सचर किया जा सके। पहले चरण में, पेंट3डी एक पूर्व-प्रशिक्षित गहराई-जागरूक 2डी छवि डिफ्यूजन मॉडल से मल्टी-व्यू छवियों का नमूना लेता है, जो विविध प्रेरकों से उच्च-गुणवत्ता वाले टेक्सचर परिणामों को सामान्य बनाने में सक्षम बनाता है। मॉडल तब इन छवियों को 3डी मेश सतह पर प्रोजेक्ट करके एक प्रारंभिक टेक्सचर मैप उत्पन्न करता है। दूसरे चरण में, मॉडल प्रकाश-मुक्त टेक्सचर उत्पन्न करने पर केंद्रित है, जिसमें प्रकाश प्रभावों को हटाने और आकार-जागरूक अपूर्ण क्षेत्रों को परिष्कृत करने में माहिर डिफ्यूजन मॉडल द्वारा नियोजित दृष्टिकोणों को लागू किया जाता है। पूरी प्रक्रिया के दौरान, पेंट3डी ढांचा संगत रूप से उच्च-गुणवत्ता वाले 2के टेक्सचर मैप्स उत्पन्न करता है, जो आंतरिक प्रकाश प्रभावों को समाप्त करते हैं।

सारांश में, पेंट3डी एक नए, दो-स्तरीय जेनरेटिव एआई मॉडल है जो बिना प्रकाश टेक्सचर के विविध, उच्च-रिज़ॉल्यूशन 2के यूवी टेक्सचर मैप्स उत्पन्न करने में सक्षम है। यह टेक्स्ट और छवियों जैसे सशर्त इनपुट के साथ 3डी वस्तुओं को टेक्सचर करने में राज्य-ऑफ-द-आर्ट प्रदर्शन प्राप्त करने का लक्ष्य रखता है, सिंथेसिस और ग्राफिक्स संपादन कार्यों के लिए महत्वपूर्ण लाभ प्रदान करता है।

विधि और वास्तुकला

पेंट3डी ढांचा सशर्त इनपुट जैसे छवियों और प्रेरकों का उपयोग करके 3डी मॉडल के लिए विविध और उच्च-गुणवत्ता वाले टेक्सचर मैप्स उत्पन्न करने और परिष्कृत करने के लिए एक दो-चरण प्रक्रिया का पालन करता है, जैसा कि निम्नलिखित छवि में दिखाया गया है।

चरण 1: प्रगतिशील खुरदरा टेक्सचर जेनरेशन

प्रारंभिक खुरदरे टेक्सचर जेनरेशन चरण में, पेंट3डी पूर्व-प्रशिक्षित 2डी छवि डिफ्यूजन मॉडल का उपयोग करके मल्टी-व्यू छवियों का नमूना लेता है, जो तब 3डी मेश सतह पर प्रोजेक्ट किए जाते हैं ताकि प्रारंभिक टेक्सचर मैप बनाया जा सके। यह चरण दृश्य क्षेत्रों से शुरू होता है, जिसमें पहले कैमरा दृश्य से टेक्सचर जेनरेशन पर ध्यान केंद्रित किया जाता है। 3डी मेश को एक गहराई मैप में रेंडर किया जाता है, और फिर एक टेक्सचर छवि का नमूना लिया जाता है और मेश पर प्रोजेक्ट किया जाता है। यह प्रक्रिया बाद के दृष्टिकोणों के लिए दोहराई जाती है, जिसमें पिछले टेक्सचर को शामिल किया जाता है ताकि न केवल एक गहराई छवि बल्कि एक आंशिक रूप से रंगीन आरजीबी छवि भी उत्पन्न की जा सके जिसमें रंगहीन मास्क शामिल हों। मॉडल एक गहराई-जागरूक छवि इनपेंटिंग एनकोडर का उपयोग करके रंगहीन क्षेत्रों को भरने के लिए करता है, जो अंततः एक पूर्ण खुरदरे टेक्सचर मैप को 3डी मेश पर प्रोजेक्ट करके उत्पन्न करता है।

जटिल दृश्यों या वस्तुओं के लिए, मॉडल कई दृष्टिकोणों का उपयोग करता है। शुरुआत में, यह दो दृष्टिकोणों से दो गहराई मैप 捕获 करता है और उन्हें एक गहराई ग्रिड में मिलाता है, जो एकल गहराई छवि के बजाय मल्टी-व्यू गहराई-जागरूक टेक्सचर नमूने के लिए प्रतिस्थापित किया जाता है।

चरण 2: यूवी स्पेस में टेक्सचर परिष्करण

खुरदरे टेक्सचर मैप उत्पन्न करने के बावजूद, रेंडरिंग प्रक्रियाओं से टेक्सचर छेद और 2डी छवि डिफ्यूजन मॉडल से प्रकाश छाया जैसी चुनौतियां उत्पन्न हो सकती हैं। इन्हें हल करने के लिए, पेंट3डी यूवी स्पेस में एक डिफ्यूजन प्रक्रिया करता है, जो दृश्य आकर्षण को बढ़ाता है और मुद्दों का समाधान करता है।

हालांकि, यूवी स्पेस में टेक्सचर मैप को परिष्कृत करने से टेक्सचर टुकड़ों के विखंडन के कारण असंगति उत्पन्न हो सकती है। इसे कम करने के लिए, पेंट3डी टेक्सचर टुकड़ों की संलग्नता जानकारी का उपयोग करके टेक्सचर मैप को परिष्कृत करता है। यूवी स्पेस में, स्थिति मैप 3डी संलग्नता जानकारी का प्रतिनिधित्व करता है, जो प्रत्येक गैर-पृष्ठभूमि तत्व को 3डी बिंदु समन्वय के रूप में मानता है। मॉडल एक अतिरिक्त स्थिति मैप एनकोडर का उपयोग करता है, जो कंट्रोलनेट के समान है, संलग्नता जानकारी को डिफ्यूजन प्रक्रिया के दौरान एकीकृत करने के लिए।

मॉडल स्थिति एनकोडर और अन्य एनकोडरों का उपयोग करके यूवी स्पेस में परिष्करण कार्य करता है, जो दो क्षमताएं प्रदान करता है: यूवीएचडी (यूवी हाई डेफिनिशन) और यूवी इनपेंटिंग। यूवीएचडी दृश्य आकर्षण को बढ़ाता है, जो एक छवि उन्नति एनकोडर और स्थिति एनकोडर के साथ डिफ्यूजन मॉडल का उपयोग करता है। यूवी इनपेंटिंग टेक्सचर छेद को भरता है, जो रेंडरिंग से स्व-अवरोधन मुद्दों से बचता है। परिष्करण चरण यूवी इनपेंटिंग से शुरू होता है, उसके बाद यूवीएचडी का उपयोग करके एक अंतिम परिष्कृत टेक्सचर मैप उत्पन्न करने के लिए किया जाता है।

इन परिष्करण विधियों को एकीकृत करके, पेंट3डी ढांचा पूर्ण, विविध, उच्च-रिज़ॉल्यूशन और प्रकाश-मुक्त यूवी टेक्सचर मैप्स उत्पन्न करता है, जो 3डी वस्तुओं को टेक्सचर करने के लिए एक मजबूत समाधान प्रदान करता है।

पेंट3डी: प्रयोग और परिणाम

पेंट3डी मॉडल स्टेबल डिफ्यूजन टेक्स्ट2इमेज मॉडल का उपयोग टेक्सचर जेनरेशन कार्यों में सहायता के लिए करता है, जबकि छवि एनकोडर घटक छवि शर्तों को संभालता है। छवि इनपेंटिंग, गहराई संभंधन और उच्च-परिभाषा छवियों जैसे सशर्त कार्यों पर इसके नियंत्रण को बढ़ाने के लिए, पेंट3डी ढांचे में कंट्रोलनेट डोमेन एनकोडर का उपयोग किया जाता है। मॉडल पाइटोर्च ढांचे पर लागू किया जाता है, जिसमें रेंडरिंग और टेक्सचर प्रोजेक्शन काओलिन पर निष्पादित किए जाते हैं।

टेक्स्ट से टेक्सचर तुलना

पेंट3डी के प्रदर्शन का मूल्यांकन करने के लिए, हम टेक्सचर जेनरेशन का विश्लेषण करते हैं जब यह पाठ प्रेरकों पर सशर्त होता है, और इसे राज्य-ऑफ-द-आर्ट ढांचे जैसे टेक्स्ट2टेक्स, टेक्सचर और लेटेंटपेंट के साथ तुलना करते हैं। जैसा कि निम्नलिखित छवि में दिखाया गया है, पेंट3डी ढांचा न केवल उच्च-गुणवत्ता वाले टेक्सचर विवरण उत्पन्न करने में उत्कृष्ट है, बल्कि यह एक प्रकाश-मुक्त टेक्सचर मैप का संश्लेषण भी करता है।

स्टेबल डिफ्यूजन और कंट्रोलनेट एनकोडरों की मजबूत क्षमताओं का लाभ उठाकर, पेंट3डी टेक्सचर गुणवत्ता और बहुमुखी प्रतिभा प्रदान करता है। तुलना पेंट3डी की क्षमता को प्रकाश-मुक्त टेक्सचर मैप्स उत्पन्न करने की क्षमता को दर्शाती है, जो 3डी टेक्सचरिंग कार्यों के लिए एक अग्रणी समाधान बनाता है।

तुलना में, लेटेंट-पेंट ढांचा धुंधले टेक्सचर उत्पन्न करने के लिए प्रवण है, जो उपोत्पादक दृश्य प्रभावों का कारण बनता है। दूसरी ओर, टेक्सचर ढांचा स्पष्ट टेक्सचर उत्पन्न करता है, लेकिन यह चिकनाई का अभाव दिखाता है और स्पष्ट जोड़ और सीमा दिखाता है। अंत में, टेक्स्ट2टेक्स ढांचा चिकनी टेक्सचर उत्पन्न करने में उल्लेखनीय रूप से अच्छा प्रदर्शन करता है, लेकिन यह बारीक विवरण वाले टेक्सचर के लिए अपने प्रदर्शन को दोहराने में विफल रहता है।

जैसा कि देखा जा सकता है, पेंट3डी ढांचा सभी मौजूदा मॉडलों को पार करता है, और लगभग 30% सुधार के साथ एफआईडी बेसलाइन में और लगभग 40% सुधार के साथ कीआईडी बेसलाइन में एक महत्वपूर्ण मार्जिन के साथ। एफआईडी और कीआईडी बेसलाइन स्कोर में सुधार पेंट3डी की क्षमता को दर्शाता है विभिन्न वस्तुओं और श्रेणियों में उच्च-गुणवत्ता वाले टेक्सचर उत्पन्न करने के लिए।

छवि से टेक्सचर तुलना

पेंट3डी की जेनरेटिव क्षमताओं को दृश्य प्रेरकों का उपयोग करके उत्पन्न करने के लिए, हम टेक्सचर मॉडल को बेसलाइन के रूप में उपयोग करते हैं। जैसा कि पहले उल्लेख किया गया है, पेंट3डी मॉडल स्टेबल डिफ्यूजन से छवि एनकोडर का उपयोग करता है। जैसा कि निम्नलिखित छवि में दिखाया गया है, पेंट3डी ढांचा उत्कृष्ट टेक्सचर संश्लेषण करता है, और छवि शर्त के संबंध में उच्च विश्वासता बनाए रखने में सक्षम है।

दूसरी ओर, टेक्सचर ढांचा पेंट3डी के समान एक टेक्सचर उत्पन्न करने में सक्षम है, लेकिन यह छवि शर्त में टेक्सचर विवरण को सटीक रूप से प्रतिनिधित्व करने में विफल रहता है। इसके अलावा, जैसा कि निम्नलिखित छवि में दिखाया गया है, पेंट3डी ढांचा टेक्सचर ढांचे की तुलना में बेहतर एफआईडी और कीआईडी बेसलाइन स्कोर प्रदान करता है, जिसमें पूर्व में 40.83 से 26.86 तक और बाद में 9.76 से 4.94 तक गिरावट आती है।

अंतिम विचार

इस लेख में, हमने पेंट3डी के बारे में चर्चा की, जो एक नए, दो-स्तरीय ढांचे के रूप में कार्य करता है जो दृश्य या पाठ इनपुट पर सशर्त बिना प्रकाश टेक्सचर के विविध, उच्च-रिज़ॉल्यूशन 2के यूवी टेक्सचर मैप्स उत्पन्न करने में सक्षम है। पेंट3डी ढांचे का मुख्य आकर्षण यह है कि यह छवि या पाठ इनपुट पर सशर्त नहीं होने पर भी प्रकाश-मुक्त उच्च-रिज़ॉल्यूशन 2के यूवी टेक्सचर उत्पन्न करने में सक्षम है। अपने दो-स्तरीय दृष्टिकोण के कारण, पेंट3डी ढांचा प्रकाश-मुक्त, विविध और उच्च-रिज़ॉल्यूशन टेक्सचर मैप्स उत्पन्न करता है, और वर्तमान राज्य-ऑफ-द-आर्ट ढांचे की तुलना में बेहतर प्रदर्शन प्रदान करता है।