कृत्रिम बुद्धिमत्ता

NVIDIA का eDiffi डиф्यूजन मॉडल ‘पेंटिंग विद वर्ड्स’ और अधिक की अनुमति देता है

Published November 3, 2022

Updated April 28, 2026

Martin Anderson

स्टेबल डिफ्यूजन जैसे लेटेंट डिफ्यूजन जनरेटिव इमेज मॉडल के साथ सटीक रचनाएं बनाने का प्रयास करना बिल्लियों को एक साथ रखने जैसा हो सकता है; सिस्टम को असाधारण विवरण और सरल पाठ-प्रोम्प्ट्स से असाधारण छवियों को बुलाने में सक्षम बनाने वाली कल्पनाशील और व्याख्यात्मक शक्तियां भी मुश्किल हो सकती हैं जब आप एक छवि पीढ़ी पर फोटोशॉप-स्तर का नियंत्रण चाहते हैं।

अब, NVIDIA रिसर्च से एक नया दृष्टिकोण, जिसे ensemble diffusion for images (eDiffi) कहा जाता है, पाइपलाइन के माध्यम से एक ही विधि (इसके बजाय कई एम्बेडिंग और व्याख्यात्मक विधियों का मिश्रण) का उपयोग करके उत्पन्न सामग्री पर बहुत अधिक नियंत्रण की अनुमति देता है। नीचे दिए गए उदाहरण में, हम देखते हैं कि एक उपयोगकर्ता तत्वों को पेंट कर रहा है जहां प्रत्येक रंग पाठ प्रोम्प्ट से एक शब्द का प्रतिनिधित्व करता है:

[कैप्शन id=”attachment_184579″ align=”alignnone” width=”780″] 'पेंटिंग विद वर्ड्स' NVIDIA के eDiffi डिफ्यूजन मॉडल में दो नए क्षमताओं में से एक है। प्रत्येक डब्ड रंग प्रोम्प्ट (पीढ़ी के दौरान बाएं दिखाई देने वाले शब्द) से एक शब्द का प्रतिनिधित्व करता है, और लागू किया गया क्षेत्र रंग केवल उस तत्व से बना होगा। अधिक उदाहरणों और बेहतर रिज़ॉल्यूशन के साथ एम्बेडेड आधिकारिक वीडियो के लिए लेख के अंत में देखें, https://www.youtube.com/watch?v=k6cOx9YjHJc ‘पेंटिंग विद वर्ड्स’ NVIDIA के eDiffi डिफ्यूजन मॉडल में दो नए क्षमताओं में से एक है। प्रत्येक डब्ड रंग प्रोम्प्ट (पीढ़ी के दौरान बाएं दिखाई देने वाले शब्द) से एक शब्द का प्रतिनिधित्व करता है, और लागू किया गया क्षेत्र रंग केवल उस तत्व से बना होगा। अधिक उदाहरणों और बेहतर रिज़ॉल्यूशन के साथ एम्बेडेड आधिकारिक वीडियो के लिए https://www.youtube.com/watch?v=k6cOx9YjHJc पर जाएं[/caption]

यह मूल रूप से ‘मास्क के साथ पेंटिंग’ है, और स्टेबल डिफ्यूजन में इनपेंटिंग पैराडाइम को उलट देता है, जो टूटी हुई या असंतोषजनक छवियों को ठीक करने या विस्तार करने पर आधारित है, या जो पहले स्थान पर वांछित आकार हो सकती थीं।

यहाँ, इसके बजाय, पेंट किए गए डब के मार्जिन केवल एक अनोखे तत्व की अनुमानित सीमाओं का प्रतिनिधित्व करते हैं, जिससे उपयोगकर्ता अंतिम कैनवास का आकार शुरू से निर्धारित कर सकता है, और फिर विविधता जोड़ सकता है।

[कैप्शन id=”attachment_184580″ align=”alignnone” width=”1002″] नई पेपर से उदाहरण। नई पेपर से उदाहरण। स्रोत: https://arxiv.org/pdf/2211.01324.pdf[/caption]

eDiffi में नियोजित विविध विधियों का अर्थ यह भी है कि प्रणाली लंबे और विस्तृत प्रोम्प्ट्स में प्रत्येक तत्व को शामिल करने में बहुत बेहतर काम करती है, जबकि स्टेबल डिफ्यूजन और ओपनएआई के डीएलएल-ई 2 कुछ हिस्सों को प्राथमिकता देने के लिए झुकते हैं प्रोम्प्ट, या तो प्रोम्प्ट में लक्ष्य शब्दों के प्रकट होने के समय पर निर्भर करता है, या अन्य कारकों जैसे कि विभिन्न तत्वों को विच्छेदन करने में संभावित कठिनाई पर।

[कैप्शन id=”attachment_184581″ align=”alignnone” width=”753″] पेपर से: eDiffi अधिकतम संभव संख्या में तत्वों को प्रस्तुत करने तक प्रोम्प्ट के माध्यम से अधिक व्यापक रूप से पुनरावृत्ति करने में सक्षम है। पेपर से: eDiffi अधिकतम संभव संख्या में तत्वों को प्रस्तुत करने तक प्रोम्प्ट के माध्यम से अधिक व्यापक रूप से पुनरावृत्ति करने में सक्षम है।[/caption]

इसके अलावा, एक समर्पित टी5 पाठ-से-पाठ एनकोडर का उपयोग करने से eDiffi स्पष्ट अंग्रेजी पाठ को प्रस्तुत करने में सक्षम है, या तो एक प्रोम्प्ट (यानी, छवि में [x] का कुछ पाठ है) से अमूर्त रूप से अनुरोध किया जाता है, या स्पष्ट रूप से अनुरोध किया जाता है (यानी, टी-शर्ट पर ‘एनवीडिया रॉक्स’ लिखा है):

[कैप्शन id=”attachment_184582″ align=”alignnone” width=”757″] eDiffi में समर्पित पाठ-से-पाठ प्रसंस्करण का अर्थ है कि पाठ को छवियों में साक्षर रूप से प्रस्तुत किया जा सकता है, न कि केवल एक पाठ-से-छवि व्याख्यात्मक परत के माध्यम से चलाया जाता है जो आउटपुट को विकृत करता है। eDiffi में समर्पित पाठ-से-पाठ प्रसंस्करण का अर्थ है कि पाठ को छवियों में साक्षर रूप से प्रस्तुत किया जा सकता है, न कि केवल एक पाठ-से-छवि व्याख्यात्मक परत के माध्यम से चलाया जाता है जो आउटपुट को विकृत करता है।[/caption]

नई फ्रेमवर्क के लिए एक और लाभ यह है कि यह संभव है एकल छवि को एक शैली प्रोम्प्ट के रूप में प्रदान करने के लिए, एक ड्रीमबूथ मॉडल या एक पाठ-टू-छवि एम्बेडिंग को कई उदाहरणों पर प्रशिक्षित करने की आवश्यकता के बजाय एक शैली या शैली के लिए।

[कैप्शन id=”attachment_184583″ align=”alignnone” width=”943″] शैली हस्तांतरण एक संदर्भ छवि से एक पाठ-से-छवि प्रोम्प्ट, या यहां तक कि एक छवि-से-छवि प्रोम्प्ट में लागू किया जा सकता है। शैली हस्तांतरण एक संदर्भ छवि से एक पाठ-से-छवि प्रोम्पट, या यहां तक कि एक छवि-से-छवि प्रोम्पट में लागू किया जा सकता है।[/caption]

नया पेपर eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers शीर्षक से है,

टी5 पाठ एनकोडर

गूगल के टएक्स्ट-टू-टेक्स्ट ट्रांसफॉर्मर (टी5) का उपयोग eDiffi में सुधारित परिणामों में महत्वपूर्ण तत्व है। औसत लेटेंट डिफ्यूजन पाइपलाइन केंद्रित होती है

[कैप्शन id=”attachment_184584″ align=”alignnone” width=”900″] टी5 के लिए जुलाई 2020 के पेपर से - पाठ-आधारित परिवर्तन, जो eDiffi (और, संभावित रूप से, अन्य लेटेंट डिफ्यूजन मॉडल) में जनरेटिव इमेज वर्कफ्लो में सहायता कर सकते हैं। टी5 के लिए जुलाई 2020 के पेपर से – पाठ-आधारित परिवर्तन, जो eDiffi (और, संभावित रूप से, अन्य लेटेंट डिफ्यूजन मॉडल) में जनरेटिव इमेज वर्कफ्लो में सहायता कर सकते हैं। स्रोत: https://arxiv.org/pdf/1910.10683.pdf[/caption]

लेखकों का तर्क है:

‘मौजूदा कार्यों में से अधिकांश में डिफ्यूजन मॉडल पर, शोर-मुक्त करने वाला मॉडल सभी शोर स्तरों में साझा किया जाता है, और समय गतिविधि को एक सरल समय एम्बेडिंग का उपयोग करके प्रस्तुत किया जाता है जो शोर-मुक्त करने वाले मॉडल को एक एमएलपी नेटवर्क के माध्यम से खिलाया जाता है। हम तर्क देते हैं कि शोर-मुक्त करने वाले डिफ्यूजन की जटिल समय गतिविधि को एक साझा मॉडल के साथ प्रभावी ढंग से सीखा नहीं जा सकता है जिसमें सीमित क्षमता है। ‘

‘इसके बजाय, हम शोर-मुक्त करने वाले मॉडल की क्षमता को बढ़ाने के लिए विशेषज्ञ शोर-मुक्त करने वालों के एक समूह की शुरुआत करने का प्रस्ताव करते हैं; प्रत्येक विशेषज्ञ शोर-मुक्त करने वाला एक शोर-मुक्त करने वाला मॉडल है जो विशेष रूप से एक विशिष्ट शोर स्तर के लिए विशेषज्ञ है। इस तरह, हम मॉडल की क्षमता को बढ़ा सकते हैं बिना नमूनाकरण को धीमा किए, क्योंकि प्रत्येक शोर स्तर पर [संसाधित तत्व] का मूल्यांकन करने की गणनात्मक जटिलता समान रहती है।’

[कैप्शन id=”attachment_184585″ align=”alignnone” width=”604″] eDiffi के लिए संकल्पनात्मक कार्य प्रवाह। eDiffi के लिए संकल्पनात्मक कार्य प्रवाह।[/caption]

मौजूदा सीएलआईपी एनकोडिंग मॉड्यूल जो डीएलएल-ई 2 और स्टेबल डिफ्यूजन में शामिल हैं, वे भी पाठ-संबंधित छवि व्याख्याओं को खोजने में सक्षम हैं जो उपयोगकर्ता इनपुट से संबंधित हैं। हालांकि, वे मूल मॉडल के समान जानकारी पर प्रशिक्षित होते हैं, और eDiffi में टी5 की तरह एक अलग व्याख्यात्मक परत के रूप में उपयोग नहीं किया जाता है।

लेखकों का कहना है कि eDiffi पहली बार है जब एक ही पाइपलाइन में टी5 और सीएलआईपी एनकोडर दोनों को एक साथ शामिल किया गया है:

‘जैसा कि इन दोनों एनकोडर्स को विभिन्न उद्देश्यों के साथ प्रशिक्षित किया गया है, उनके एम्बेडिंग विभिन्न छवियों के गठन को एक ही इनपुट पाठ के साथ पसंद करते हैं। जबकि सीएलआईपी पाठ एम्बेडिंग उत्पन्न छवियों के वैश्विक रूप को निर्धारित करने में मदद करती है, आउटपुट पाठ में महीन विवरणों को याद करते हैं।’

‘इसके विपरीत, केवल टी5 पाठ एम्बेडिंग के साथ उत्पन्न छवियां पाठ में वर्णित व्यक्तिगत वस्तुओं को बेहतर ढंग से प्रतिबिंबित करती हैं, लेकिन उनके वैश्विक रूप कम सटीक हैं। उन्हें संयुक्त रूप से उपयोग करने से हमारे मॉडल में सर्वोत्तम छवि-पीढ़ी परिणाम उत्पन्न होते हैं। ‘

डिफ्यूजन प्रक्रिया में व्यवधान और पूरक

पेपर यह ध्यान दिलाता है कि एक विशिष्ट लेटेंट डिफ्यूजन मॉडल पाठ में शोर से छवि तक यात्रा शुरू करने के लिए शुरुआती चरणों में केवल पाठ पर निर्भर करता है।

जब शोर कुछ प्रकार के खुरदरे लेआउट में हल हो जाता है जो पाठ-प्रोम्प्ट में वर्णित है, तो प्रक्रिया का पाठ-निर्देशित पहलू मूल रूप से गिर जाता है, और प्रक्रिया का शेष भाग दृश्य विशेषताओं को बढ़ाने की ओर स्थानांतरित हो जाता है।

इसका मतलब है कि यदि कोई तत्व शोर की व्याख्या के प्रारंभिक चरण में हल नहीं हुआ है, तो इसे बाद में छवि में इंजेक्ट करना मुश्किल हो जाता है, क्योंकि दोनों प्रक्रियाएं (पाठ-से-लेआउट, और लेआउट-से-छवि) के बीच बहुत कम ओवरलैप होता है, और मूल लेआउट छवि संवर्धन प्रक्रिया तक पहुंचने से पहले ही काफी उलझ जाता है।

[कैप्शन id=”attachment_184586″ align=”alignnone” width=”1000″]छवि प्रक्रिया परिपक्व होती है। हम देख सकते हैं कि निचली पंक्ति में सीएलआईपी के प्रभाव में छवि में तेज गिरावट, जबकि टी5 प्रसंस्करण प्रक्रिया में बहुत आगे तक छवि को प्रभावित करता है।” width=”1000″ height=”310″> पेपर से: पाइपलाइन के विभिन्न भागों के ध्यान मानचित्र जैसे ही शोर>छवि प्रक्रिया परिपक्व होती है। हम देख सकते हैं कि निचली पंक्ति में सीएलआईपी के प्रभाव में छवि में तेज गिरावट, जबकि टी5 प्रसंस्करण प्रक्रिया में बहुत आगे तक छवि को प्रभावित करता है।[/caption]

पेशेवर संभावना

परियोजना पृष्ठ और यूट्यूब वीडियो में केंद्रित उदाहरण पीआर-अनुकूल जेनरेशन पर केंद्रित हैं मीम-टास्टिक क्यूट छवियों का। जैसा कि हमेशा, NVIDIA रिसर्च अपनी नवीनतम नवाचार की क्षमता को कम आंक रहा है फोटोरियलिस्टिक या वीएफएक्स वर्कफ्लो में सुधार करने के लिए, साथ ही साथ गहरे नकली छवि और वीडियो में सुधार करने की क्षमता के लिए।

उदाहरणों में, एक शुरुआती या शौकिया उपयोगकर्ता विशिष्ट तत्व के प्लेसमेंट के लिए खुरदरे रूपरेखा स्केच करता है, जबकि एक अधिक व्यवस्थित वीएफएक्स वर्कफ्लो में, यह संभव हो सकता है कि eDiffi का उपयोग वीडियो तत्व की कई फ्रेमों को पाठ-से-छवि का उपयोग करके व्याख्या करने के लिए किया जाए, जिसमें रूपरेखा बहुत सटीक होती है और, उदाहरण के लिए, ग्रीन स्क्रीन या एल्गोरिदमिक विधियों के माध्यम से पृष्ठभूमि को हटाने के बाद आंकड़ों पर आधारित होती है।

[कैप्शन id=”attachment_184587″ align=”alignnone” width=”900″] रनवे एमएल पहले से ही एआई-आधारित रोटोस्कोपिंग प्रदान करता है। इस उदाहरण में, विषय के चारों ओर 'ग्रीन स्क्रीन' अल्फा परत का प्रतिनिधित्व करती है, जबकि निष्कर्षण मशीन लर्निंग के माध्यम से किया गया है, वास्तविक दुनिया की ग्रीन स्क्रीन पृष्ठभूमि को हटाने के लिए एल्गोरिदमिक रूप से नहीं। रनवे एमएल पहले से ही एआई-आधारित रोटोस्कोपिंग प्रदान करता है। इस उदाहरण में, विषय के चारों ओर ‘ग्रीन स्क्रीन’ अल्फा परत का प्रतिनिधित्व करती है, जबकि निष्कर्षण मशीन लर्निंग के माध्यम से किया गया है, वास्तविक दुनिया की ग्रीन स्क्रीन पृष्ठभूमि को हटाने के लिए एल्गोरिदमिक रूप से नहीं। स्रोत: https://twitter.com/runwayml/status/1330978385028374529[/caption]

एक प्रशिक्षित ड्रीमबूथ पात्र और eDiffi के साथ एक छवि-से-छवि पाइपलाइन का उपयोग करके, यह संभव हो सकता है कि लेटेंट डिफ्यूजन मॉडल की एक प्रमुख समस्या को संबोधित किया जाए: समय स्थिरता। ऐसे मामले में, दोनों लगाए गए छवि के मार्जिन और छवि की सामग्री को उपयोगकर्ता के कैनवास के खिलाफ ‘प्री-फ्लोट’ किया जाएगा, और प्रस्तुत सामग्री (यानी, एक वास्तविक दुनिया के ताई ची प्रैक्टिशनर को एक रोबोट में बदलना) की समय स्थिरता को एक तालाबंदी ड्रीमबूथ मॉडल के उपयोग से प्रदान किया जाएगा जिसने अपने प्रशिक्षण डेटा को ‘याद’ रखा है – व्याख्या के लिए बुरा, पुनरुत्पादन, विश्वास और निरंतरता के लिए महान।

विधि, डेटा और परीक्षण

eDiffi मॉडल को ‘सार्वजनिक और प्रोप्राइटरी डेटासेट्स’ के संग्रह पर प्रशिक्षित किया गया था, जिसे एक पूर्व-प्रशिक्षित सीएलआईपी मॉडल द्वारा भारी फिल्टर किया गया था, ताकि उन छवियों को हटाया जा सके जो आउटपुट के सामान्य सौंदर्य स्कोर को कम कर सकती हैं। अंतिम फिल्टर्ड छवि सेट में ‘लगभग एक अरब’ पाठ-छवि जोड़े शामिल हैं। प्रशिक्षित छवियों का आकार ‘लघु पक्ष 64 पिक्सेल से अधिक’ के रूप में वर्णित किया गया है।

प्रक्रिया के लिए कई मॉडल प्रशिक्षित किए गए थे, जिनमें से दोनों बेस और सुपर-रिज़ॉल्यूशन मॉडल को एडमडब्ल्यू ऑप्टिमाइज़र पर 0.0001 की लर्निंग दर, 0.01 के वजन क्षय के साथ, और 2048 के एक प्रभावशाली बैच आकार के साथ प्रशिक्षित किया गया था।

बेस मॉडल को 256 NVIDIA A100 जीपीयू पर प्रशिक्षित किया गया था, और दो सुपर-रिज़ॉल्यूशन मॉडल प्रत्येक मॉडल के लिए 128 NVIDIA ए100 जीपीयू पर।

सिस्टम NVIDIA के अपने इमेजिनेयर पायथन लाइब्रेरी पर आधारित था। सीओसीओ और विज़ुअल जीनोम डेटासेट का उपयोग मूल्यांकन के लिए किया गया था, हालांकि उन्हें अंतिम मॉडल में शामिल नहीं किया गया था, एमएस-सीओसीओ विशिष्ट संस्करण का उपयोग परीक्षण के लिए किया गया था। प्रतिद्वंद्वी प्रणालियों में जीएलआईडीई, मेक-ए-सीन, डीएलएल-ई 2, स्टेबल डिफ्यूजन, और गूगल की दो छवि संश्लेषण प्रणालियों का परीक्षण किया गया था। , इमेजेन और पार्टी।

इसी तरह के पिछले कार्य के अनुसार, शून्य-शॉट एफआईडी-30के का उपयोग मूल्यांकन मीट्रिक के रूप में किया गया था। एफआईडी-30के के तहत, सीओसीओ पुष्टि सेट से 30,000 कैप्शन यादृच्छिक रूप से निकाले जाते हैं (यानी, छवियों या पाठ का उपयोग प्रशिक्षण में नहीं किया जाता है), जिन्हें तब छवियों को संश्लेषित करने के लिए पाठ-प्रोम्प्ट के रूप में उपयोग किया जाता है।

तब संश्लेषित और मैदानी सच्ची छवियों के बीच फ्रेचेट इन्सेप्शन डिस्टेंस (एफआईडी) की गणना की जाती है, साथ ही साथ संश्लेषित छवियों के लिए सीएलआईपी स्कोर को रिकॉर्ड किया जाता है।

[कैप्शन id=”attachment_184588″ align=”alignnone” width=”583″] वर्तमान राज्य-ऑफ-द-आर्ट दृष्टिकोणों के खिलाफ शून्य-शॉट एफआईडी परीक्षणों के परिणाम सीओसीओ 2014 पुष्टि डेटासेट पर, कम परिणाम बेहतर हैं। वर्तमान राज्य-ऑफ-द-आर्ट दृष्टिकोणों के खिलाफ शून्य-शॉट एफआईडी परीक्षणों के परिणाम सीओसीओ 2014 पुष्टि डेटासेट पर, कम परिणाम बेहतर हैं।[/caption]

परिणामों में, eDiffi 20 बिलियन पैरामीटर जैसे प्रणालियों की तुलना में शून्य-शॉट एफआईडी पर सबसे कम (सर्वोत्तम) स्कोर प्राप्त करने में सक्षम था, जो कि 9.1 बिलियन पैरामीटर के साथ eDiffi मॉडल की तुलना में अधिक है।

निष्कर्ष

NVIDIA का eDiffi मौजूदा प्रणालियों में अधिक और अधिक डेटा और जटिलता जोड़ने के बजाय एक अधिक बुद्धिमान और परतदार दृष्टिकोण का एक स्वागत योग्य विकल्प प्रदान करता है कुछ लेटेंट डिफ्यूजन जनरेटिव इमेज सिस्टम से संबंधित सबसे कांटेदार बाधाओं के लिए।

स्टेबल डिफ्यूजन सबरेडिट और डिस्कोर्ड में पहले से ही eDiffi के लिए कोड को सीधे एकीकृत करने या इसके सिद्धांतों को एक अलग कार्यान्वयन में पुनः बनाने की चर्चा हो रही है। नई पाइपलाइन, हालांकि, इतनी क्रांतिकारी रूप से अलग है कि यह एसडी के लिए एक पूरी संस्करण संख्या परिवर्तन का गठन करेगी, कुछ पिछड़े संगतता को छोड़ देगी, हालांकि संश्लेषित छवियों पर महान स्तर के नियंत्रण की संभावना प्रदान करते हुए, लेटेंट डिफ्यूजन की आकर्षक कल्पनाशील शक्तियों को त्यागने के बिना।

पहली बार 3 नवंबर 2022 को प्रकाशित।