рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
NVIDIA рдХрд╛ eDiffi рдб╨╕╤ДреНрдпреВрдЬрди рдореЙрдбрд▓ ‘рдкреЗрдВрдЯрд┐рдВрдЧ рд╡рд┐рдж рд╡рд░реНрдбреНрд╕’ рдФрд░ рдЕрдзрд┐рдХ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИ

स्टेबल डिफ्यूजन जैसे लेटेंट डिफ्यूजन जनरेटिव इमेज मॉडल के साथ सटीक रचनाएं बनाने का प्रयास करना बिल्लियों को एक साथ रखने जैसा हो सकता है; सिस्टम को असाधारण विवरण और सरल पाठ-प्रोम्प्ट्स से असाधारण छवियों को बुलाने में सक्षम बनाने वाली कल्पनाशील और व्याख्यात्मक शक्तियां भी मुश्किल हो सकती हैं जब आप एक छवि पीढ़ी पर फोटोशॉप-स्तर का नियंत्रण चाहते हैं।
अब, NVIDIA रिसर्च से एक नया दृष्टिकोण, जिसे ensemble diffusion for images (eDiffi) कहा जाता है, पाइपलाइन के माध्यम से एक ही विधि (इसके बजाय कई एम्बेडिंग और व्याख्यात्मक विधियों का मिश्रण) का उपयोग करके उत्पन्न सामग्री पर बहुत अधिक नियंत्रण की अनुमति देता है। नीचे दिए गए उदाहरण में, हम देखते हैं कि एक उपयोगकर्ता तत्वों को पेंट कर रहा है जहां प्रत्येक रंग पाठ प्रोम्प्ट से एक शब्द का प्रतिनिधित्व करता है:
[कैप्शन id=”attachment_184579″ align=”alignnone” width=”780″]
‘पेंटिंग विद वर्ड्स’ NVIDIA के eDiffi डिफ्यूजन मॉडल में दो नए क्षमताओं में से एक है। प्रत्येक डब्ड रंग प्रोम्प्ट (पीढ़ी के दौरान बाएं दिखाई देने वाले शब्द) से एक शब्द का प्रतिनिधित्व करता है, और लागू किया गया क्षेत्र रंग केवल उस तत्व से बना होगा। अधिक उदाहरणों और बेहतर रिज़ॉल्यूशन के साथ एम्बेडेड आधिकारिक वीडियो के लिए https://www.youtube.com/watch?v=k6cOx9YjHJc पर जाएं[/caption]
यह मूल रूप से ‘मास्क के साथ पेंटिंग’ है, और स्टेबल डिफ्यूजन में इनपेंटिंग पैराडाइम को उलट देता है, जो टूटी हुई या असंतोषजनक छवियों को ठीक करने या विस्तार करने पर आधारित है, या जो पहले स्थान पर वांछित आकार हो सकती थीं।
यहाँ, इसके बजाय, पेंट किए गए डब के मार्जिन केवल एक अनोखे तत्व की अनुमानित सीमाओं का प्रतिनिधित्व करते हैं, जिससे उपयोगकर्ता अंतिम कैनवास का आकार शुरू से निर्धारित कर सकता है, और फिर विविधता जोड़ सकता है।
[कैप्शन id=”attachment_184580″ align=”alignnone” width=”1002″]
eDiffi में नियोजित विविध विधियों का अर्थ यह भी है कि प्रणाली लंबे और विस्तृत प्रोम्प्ट्स में प्रत्येक तत्व को शामिल करने में बहुत बेहतर काम करती है, जबकि स्टेबल डिफ्यूजन और ओपनएआई के डीएलएल-ई 2 कुछ हिस्सों को प्राथमिकता देने के लिए झुकते हैं प्रोम्प्ट, या तो प्रोम्प्ट में लक्ष्य शब्दों के प्रकट होने के समय पर निर्भर करता है, या अन्य कारकों जैसे कि विभिन्न तत्वों को विच्छेदन करने में संभावित कठिनाई पर।
[कैप्शन id=”attachment_184581″ align=”alignnone” width=”753″]
इसके अलावा, एक समर्पित टी5 पाठ-से-पाठ एनकोडर का उपयोग करने से eDiffi स्पष्ट अंग्रेजी पाठ को प्रस्तुत करने में सक्षम है, या तो एक प्रोम्प्ट (यानी, छवि में [x] का कुछ पाठ है) से अमूर्त रूप से अनुरोध किया जाता है, या स्पष्ट रूप से अनुरोध किया जाता है (यानी, टी-शर्ट पर ‘एनवीडिया रॉक्स’ लिखा है):
[कैप्शन id=”attachment_184582″ align=”alignnone” width=”757″]
नई फ्रेमवर्क के लिए एक और लाभ यह है कि यह संभव है एकल छवि को एक शैली प्रोम्प्ट के रूप में प्रदान करने के लिए, एक ड्रीमबूथ मॉडल या एक पाठ-टू-छवि एम्बेडिंग को कई उदाहरणों पर प्रशिक्षित करने की आवश्यकता के बजाय एक शैली या शैली के लिए।
[कैप्शन id=”attachment_184583″ align=”alignnone” width=”943″]
नया पेपर eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers शीर्षक से है,
टी5 पाठ एनकोडर
गूगल के टएक्स्ट-टू-टेक्स्ट ट्रांसफॉर्मर (टी5) का उपयोग eDiffi में सुधारित परिणामों में महत्वपूर्ण तत्व है। औसत लेटेंट डिफ्यूजन पाइपलाइन केंद्रित होती है
[कैप्शन id=”attachment_184584″ align=”alignnone” width=”900″]
लेखकों का तर्क है:
‘मौजूदा कार्यों में से अधिकांश में डिफ्यूजन मॉडल पर, शोर-मुक्त करने वाला मॉडल सभी शोर स्तरों में साझा किया जाता है, और समय गतिविधि को एक सरल समय एम्बेडिंग का उपयोग करके प्रस्तुत किया जाता है जो शोर-मुक्त करने वाले मॉडल को एक एमएलपी नेटवर्क के माध्यम से खिलाया जाता है। हम तर्क देते हैं कि शोर-मुक्त करने वाले डिफ्यूजन की जटिल समय गतिविधि को एक साझा मॉडल के साथ प्रभावी ढंग से सीखा नहीं जा सकता है जिसमें सीमित क्षमता है। ‘
‘इसके बजाय, हम शोर-मुक्त करने वाले मॉडल की क्षमता को बढ़ाने के लिए विशेषज्ञ शोर-मुक्त करने वालों के एक समूह की शुरुआत करने का प्रस्ताव करते हैं; प्रत्येक विशेषज्ञ शोर-मुक्त करने वाला एक शोर-मुक्त करने वाला मॉडल है जो विशेष रूप से एक विशिष्ट शोर स्तर के लिए विशेषज्ञ है। इस तरह, हम मॉडल की क्षमता को बढ़ा सकते हैं बिना नमूनाकरण को धीमा किए, क्योंकि प्रत्येक शोर स्तर पर [संसाधित तत्व] का मूल्यांकन करने की गणनात्मक जटिलता समान रहती है।’
[कैप्शन id=”attachment_184585″ align=”alignnone” width=”604″]
मौजूदा सीएलआईपी एनकोडिंग मॉड्यूल जो डीएलएल-ई 2 और स्टेबल डिफ्यूजन में शामिल हैं, वे भी पाठ-संबंधित छवि व्याख्याओं को खोजने में सक्षम हैं जो उपयोगकर्ता इनपुट से संबंधित हैं। हालांकि, वे मूल मॉडल के समान जानकारी पर प्रशिक्षित होते हैं, और eDiffi में टी5 की तरह एक अलग व्याख्यात्मक परत के रूप में उपयोग नहीं किया जाता है।
लेखकों का कहना है कि eDiffi पहली बार है जब एक ही पाइपलाइन में टी5 और सीएलआईपी एनकोडर दोनों को एक साथ शामिल किया गया है:
‘जैसा कि इन दोनों एनकोडर्स को विभिन्न उद्देश्यों के साथ प्रशिक्षित किया गया है, उनके एम्बेडिंग विभिन्न छवियों के गठन को एक ही इनपुट पाठ के साथ पसंद करते हैं। जबकि सीएलआईपी पाठ एम्बेडिंग उत्पन्न छवियों के वैश्विक रूप को निर्धारित करने में मदद करती है, आउटपुट पाठ में महीन विवरणों को याद करते हैं।’
‘इसके विपरीत, केवल टी5 पाठ एम्बेडिंग के साथ उत्पन्न छवियां पाठ में वर्णित व्यक्तिगत वस्तुओं को बेहतर ढंग से प्रतिबिंबित करती हैं, लेकिन उनके वैश्विक रूप कम सटीक हैं। उन्हें संयुक्त रूप से उपयोग करने से हमारे मॉडल में सर्वोत्तम छवि-पीढ़ी परिणाम उत्पन्न होते हैं। ‘
डिफ्यूजन प्रक्रिया में व्यवधान और पूरक
पेपर यह ध्यान दिलाता है कि एक विशिष्ट लेटेंट डिफ्यूजन मॉडल पाठ में शोर से छवि तक यात्रा शुरू करने के लिए शुरुआती चरणों में केवल पाठ पर निर्भर करता है।
जब शोर कुछ प्रकार के खुरदरे लेआउट में हल हो जाता है जो पाठ-प्रोम्प्ट में वर्णित है, तो प्रक्रिया का पाठ-निर्देशित पहलू मूल रूप से गिर जाता है, और प्रक्रिया का शेष भाग दृश्य विशेषताओं को बढ़ाने की ओर स्थानांतरित हो जाता है।
इसका मतलब है कि यदि कोई तत्व शोर की व्याख्या के प्रारंभिक चरण में हल नहीं हुआ है, तो इसे बाद में छवि में इंजेक्ट करना मुश्किल हो जाता है, क्योंकि दोनों प्रक्रियाएं (पाठ-से-लेआउट, और लेआउट-से-छवि) के बीच बहुत कम ओवरलैप होता है, और मूल लेआउट छवि संवर्धन प्रक्रिया तक पहुंचने से पहले ही काफी उलझ जाता है।
[कैप्शन id=”attachment_184586″ align=”alignnone” width=”1000″]
पेशेवर संभावना
परियोजना पृष्ठ और यूट्यूब वीडियो में केंद्रित उदाहरण पीआर-अनुकूल जेनरेशन पर केंद्रित हैं मीम-टास्टिक क्यूट छवियों का। जैसा कि हमेशा, NVIDIA रिसर्च अपनी नवीनतम नवाचार की क्षमता को कम आंक रहा है फोटोरियलिस्टिक या वीएफएक्स वर्कफ्लो में सुधार करने के लिए, साथ ही साथ गहरे नकली छवि और वीडियो में सुधार करने की क्षमता के लिए।
उदाहरणों में, एक शुरुआती या शौकिया उपयोगकर्ता विशिष्ट तत्व के प्लेसमेंट के लिए खुरदरे रूपरेखा स्केच करता है, जबकि एक अधिक व्यवस्थित वीएफएक्स वर्कफ्लो में, यह संभव हो सकता है कि eDiffi का उपयोग वीडियो तत्व की कई फ्रेमों को पाठ-से-छवि का उपयोग करके व्याख्या करने के लिए किया जाए, जिसमें रूपरेखा बहुत सटीक होती है और, उदाहरण के लिए, ग्रीन स्क्रीन या एल्गोरिदमिक विधियों के माध्यम से पृष्ठभूमि को हटाने के बाद आंकड़ों पर आधारित होती है।
[कैप्शन id=”attachment_184587″ align=”alignnone” width=”900″]
एक प्रशिक्षित ड्रीमबूथ पात्र और eDiffi के साथ एक छवि-से-छवि पाइपलाइन का उपयोग करके, यह संभव हो सकता है कि लेटेंट डिफ्यूजन मॉडल की एक प्रमुख समस्या को संबोधित किया जाए: समय स्थिरता। ऐसे मामले में, दोनों लगाए गए छवि के मार्जिन और छवि की सामग्री को उपयोगकर्ता के कैनवास के खिलाफ ‘प्री-फ्लोट’ किया जाएगा, और प्रस्तुत सामग्री (यानी, एक वास्तविक दुनिया के ताई ची प्रैक्टिशनर को एक रोबोट में बदलना) की समय स्थिरता को एक तालाबंदी ड्रीमबूथ मॉडल के उपयोग से प्रदान किया जाएगा जिसने अपने प्रशिक्षण डेटा को ‘याद’ रखा है – व्याख्या के लिए बुरा, पुनरुत्पादन, विश्वास और निरंतरता के लिए महान।
विधि, डेटा और परीक्षण
eDiffi मॉडल को ‘सार्वजनिक और प्रोप्राइटरी डेटासेट्स’ के संग्रह पर प्रशिक्षित किया गया था, जिसे एक पूर्व-प्रशिक्षित सीएलआईपी मॉडल द्वारा भारी फिल्टर किया गया था, ताकि उन छवियों को हटाया जा सके जो आउटपुट के सामान्य सौंदर्य स्कोर को कम कर सकती हैं। अंतिम फिल्टर्ड छवि सेट में ‘लगभग एक अरब’ पाठ-छवि जोड़े शामिल हैं। प्रशिक्षित छवियों का आकार ‘लघु पक्ष 64 पिक्सेल से अधिक’ के रूप में वर्णित किया गया है।
प्रक्रिया के लिए कई मॉडल प्रशिक्षित किए गए थे, जिनमें से दोनों बेस और सुपर-रिज़ॉल्यूशन मॉडल को एडमडब्ल्यू ऑप्टिमाइज़र पर 0.0001 की लर्निंग दर, 0.01 के वजन क्षय के साथ, और 2048 के एक प्रभावशाली बैच आकार के साथ प्रशिक्षित किया गया था।
बेस मॉडल को 256 NVIDIA A100 जीपीयू पर प्रशिक्षित किया गया था, और दो सुपर-रिज़ॉल्यूशन मॉडल प्रत्येक मॉडल के लिए 128 NVIDIA ए100 जीपीयू पर।
सिस्टम NVIDIA के अपने इमेजिनेयर पायथन लाइब्रेरी पर आधारित था। सीओसीओ और विज़ुअल जीनोम डेटासेट का उपयोग मूल्यांकन के लिए किया गया था, हालांकि उन्हें अंतिम मॉडल में शामिल नहीं किया गया था, एमएस-सीओसीओ विशिष्ट संस्करण का उपयोग परीक्षण के लिए किया गया था। प्रतिद्वंद्वी प्रणालियों में जीएलआईडीई, मेक-ए-सीन, डीएलएल-ई 2, स्टेबल डिफ्यूजन, और गूगल की दो छवि संश्लेषण प्रणालियों का परीक्षण किया गया था। , इमेजेन और पार्टी।
इसी तरह के पिछले कार्य के अनुसार, शून्य-शॉट एफआईडी-30के का उपयोग मूल्यांकन मीट्रिक के रूप में किया गया था। एफआईडी-30के के तहत, सीओसीओ पुष्टि सेट से 30,000 कैप्शन यादृच्छिक रूप से निकाले जाते हैं (यानी, छवियों या पाठ का उपयोग प्रशिक्षण में नहीं किया जाता है), जिन्हें तब छवियों को संश्लेषित करने के लिए पाठ-प्रोम्प्ट के रूप में उपयोग किया जाता है।
तब संश्लेषित और मैदानी सच्ची छवियों के बीच फ्रेचेट इन्सेप्शन डिस्टेंस (एफआईडी) की गणना की जाती है, साथ ही साथ संश्लेषित छवियों के लिए सीएलआईपी स्कोर को रिकॉर्ड किया जाता है।
[कैप्शन id=”attachment_184588″ align=”alignnone” width=”583″]
परिणामों में, eDiffi 20 बिलियन पैरामीटर जैसे प्रणालियों की तुलना में शून्य-शॉट एफआईडी पर सबसे कम (सर्वोत्तम) स्कोर प्राप्त करने में सक्षम था, जो कि 9.1 बिलियन पैरामीटर के साथ eDiffi मॉडल की तुलना में अधिक है।
निष्कर्ष
NVIDIA का eDiffi मौजूदा प्रणालियों में अधिक और अधिक डेटा और जटिलता जोड़ने के बजाय एक अधिक बुद्धिमान और परतदार दृष्टिकोण का एक स्वागत योग्य विकल्प प्रदान करता है कुछ लेटेंट डिफ्यूजन जनरेटिव इमेज सिस्टम से संबंधित सबसे कांटेदार बाधाओं के लिए।
स्टेबल डिफ्यूजन सबरेडिट और डिस्कोर्ड में पहले से ही eDiffi के लिए कोड को सीधे एकीकृत करने या इसके सिद्धांतों को एक अलग कार्यान्वयन में पुनः बनाने की चर्चा हो रही है। नई पाइपलाइन, हालांकि, इतनी क्रांतिकारी रूप से अलग है कि यह एसडी के लिए एक पूरी संस्करण संख्या परिवर्तन का गठन करेगी, कुछ पिछड़े संगतता को छोड़ देगी, हालांकि संश्लेषित छवियों पर महान स्तर के नियंत्रण की संभावना प्रदान करते हुए, लेटेंट डिफ्यूजन की आकर्षक कल्पनाशील शक्तियों को त्यागने के बिना।
पहली बार 3 नवंबर 2022 को प्रकाशित।








