Connect with us

NVIDIA рдХрд╛ eDiffi рдб╨╕╤ДреНрдпреВрдЬрди рдореЙрдбрд▓ ‘рдкреЗрдВрдЯрд┐рдВрдЧ рд╡рд┐рдж рд╡рд░реНрдбреНрд╕’ рдФрд░ рдЕрдзрд┐рдХ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИ

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

NVIDIA рдХрд╛ eDiffi рдб╨╕╤ДреНрдпреВрдЬрди рдореЙрдбрд▓ ‘рдкреЗрдВрдЯрд┐рдВрдЧ рд╡рд┐рдж рд╡рд░реНрдбреНрд╕’ рдФрд░ рдЕрдзрд┐рдХ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИ

mm

स्टेबल डिफ्यूजन जैसे लेटेंट डिफ्यूजन जनरेटिव इमेज मॉडल के साथ सटीक रचनाएं बनाने का प्रयास करना बिल्लियों को एक साथ रखने जैसा हो सकता है; सिस्टम को असाधारण विवरण और सरल पाठ-प्रोम्प्ट्स से असाधारण छवियों को बुलाने में सक्षम बनाने वाली कल्पनाशील और व्याख्यात्मक शक्तियां भी मुश्किल हो सकती हैं जब आप एक छवि पीढ़ी पर फोटोशॉप-स्तर का नियंत्रण चाहते हैं।

अब, NVIDIA रिसर्च से एक नया दृष्टिकोण, जिसे ensemble diffusion for images (eDiffi) कहा जाता है, पाइपलाइन के माध्यम से एक ही विधि (इसके बजाय कई एम्बेडिंग और व्याख्यात्मक विधियों का मिश्रण) का उपयोग करके उत्पन्न सामग्री पर बहुत अधिक नियंत्रण की अनुमति देता है। नीचे दिए गए उदाहरण में, हम देखते हैं कि एक उपयोगकर्ता तत्वों को पेंट कर रहा है जहां प्रत्येक रंग पाठ प्रोम्प्ट से एक शब्द का प्रतिनिधित्व करता है:

[कैप्शन id=”attachment_184579″ align=”alignnone” width=”780″]'पेंटिंग विद वर्ड्स' NVIDIA के eDiffi डिफ्यूजन मॉडल में दो नए क्षमताओं में से एक है। प्रत्येक डब्ड रंग प्रोम्प्ट (पीढ़ी के दौरान बाएं दिखाई देने वाले शब्द) से एक शब्द का प्रतिनिधित्व करता है, और लागू किया गया क्षेत्र रंग केवल उस तत्व से बना होगा। अधिक उदाहरणों और बेहतर रिज़ॉल्यूशन के साथ एम्बेडेड आधिकारिक वीडियो के लिए लेख के अंत में देखें, https://www.youtube.com/watch?v=k6cOx9YjHJc ‘पेंटिंग विद वर्ड्स’ NVIDIA के eDiffi डिफ्यूजन मॉडल में दो नए क्षमताओं में से एक है। प्रत्येक डब्ड रंग प्रोम्प्ट (पीढ़ी के दौरान बाएं दिखाई देने वाले शब्द) से एक शब्द का प्रतिनिधित्व करता है, और लागू किया गया क्षेत्र रंग केवल उस तत्व से बना होगा। अधिक उदाहरणों और बेहतर रिज़ॉल्यूशन के साथ एम्बेडेड आधिकारिक वीडियो के लिए https://www.youtube.com/watch?v=k6cOx9YjHJc पर जाएं[/caption]

यह मूल रूप से ‘मास्क के साथ पेंटिंग’ है, और स्टेबल डिफ्यूजन में इनपेंटिंग पैराडाइम को उलट देता है, जो टूटी हुई या असंतोषजनक छवियों को ठीक करने या विस्तार करने पर आधारित है, या जो पहले स्थान पर वांछित आकार हो सकती थीं।

यहाँ, इसके बजाय, पेंट किए गए डब के मार्जिन केवल एक अनोखे तत्व की अनुमानित सीमाओं का प्रतिनिधित्व करते हैं, जिससे उपयोगकर्ता अंतिम कैनवास का आकार शुरू से निर्धारित कर सकता है, और फिर विविधता जोड़ सकता है।

[कैप्शन id=”attachment_184580″ align=”alignnone” width=”1002″]рдирдИ рдкреЗрдкрд░ рд╕реЗ рдЙрджрд╛рд╣рд░рдгред नई पेपर से उदाहरण। स्रोत: https://arxiv.org/pdf/2211.01324.pdf[/caption]

eDiffi में नियोजित विविध विधियों का अर्थ यह भी है कि प्रणाली लंबे और विस्तृत प्रोम्प्ट्स में प्रत्येक तत्व को शामिल करने में बहुत बेहतर काम करती है, जबकि स्टेबल डिफ्यूजन और ओपनएआई के डीएलएल-ई 2 कुछ हिस्सों को प्राथमिकता देने के लिए झुकते हैं प्रोम्प्ट, या तो प्रोम्प्ट में लक्ष्य शब्दों के प्रकट होने के समय पर निर्भर करता है, या अन्य कारकों जैसे कि विभिन्न तत्वों को विच्छेदन करने में संभावित कठिनाई पर।

[कैप्शन id=”attachment_184581″ align=”alignnone” width=”753″]рдкреЗрдкрд░ рд╕реЗ: eDiffi рдЕрдзрд┐рдХрддрдо рд╕рдВрднрд╡ рд╕рдВрдЦреНрдпрд╛ рдореЗрдВ рддрддреНрд╡реЛрдВ рдХреЛ рдкреНрд░рд╕реНрддреБрдд рдХрд░рдиреЗ рддрдХ рдкреНрд░реЛрдореНрдкреНрдЯ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдЕрдзрд┐рдХ рд╡реНрдпрд╛рдкрдХ рд░реВрдк рд╕реЗ рдкреБрдирд░рд╛рд╡реГрддреНрддрд┐ рдХрд░рдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рд╣реИред पेपर से: eDiffi अधिकतम संभव संख्या में तत्वों को प्रस्तुत करने तक प्रोम्प्ट के माध्यम से अधिक व्यापक रूप से पुनरावृत्ति करने में सक्षम है।[/caption]

इसके अलावा, एक समर्पित टी5 पाठ-से-पाठ एनकोडर का उपयोग करने से eDiffi स्पष्ट अंग्रेजी पाठ को प्रस्तुत करने में सक्षम है, या तो एक प्रोम्प्ट (यानी, छवि में [x] का कुछ पाठ है) से अमूर्त रूप से अनुरोध किया जाता है, या स्पष्ट रूप से अनुरोध किया जाता है (यानी, टी-शर्ट पर ‘एनवीडिया रॉक्स’ लिखा है):

[कैप्शन id=”attachment_184582″ align=”alignnone” width=”757″]eDiffi рдореЗрдВ рд╕рдорд░реНрдкрд┐рдд рдкрд╛рда-рд╕реЗ-рдкрд╛рда рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг рдХрд╛ рдЕрд░реНрде рд╣реИ рдХрд┐ рдкрд╛рда рдХреЛ рдЫрд╡рд┐рдпреЛрдВ рдореЗрдВ рд╕рд╛рдХреНрд╖рд░ рд░реВрдк рд╕реЗ рдкреНрд░рд╕реНрддреБрдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ, рди рдХрд┐ рдХреЗрд╡рд▓ рдПрдХ рдкрд╛рда-рд╕реЗ-рдЫрд╡рд┐ рд╡реНрдпрд╛рдЦреНрдпрд╛рддреНрдордХ рдкрд░рдд рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдЪрд▓рд╛рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ рдЬреЛ рдЖрдЙрдЯрдкреБрдЯ рдХреЛ рд╡рд┐рдХреГрдд рдХрд░рддрд╛ рд╣реИред eDiffi में समर्पित पाठ-से-पाठ प्रसंस्करण का अर्थ है कि पाठ को छवियों में साक्षर रूप से प्रस्तुत किया जा सकता है, न कि केवल एक पाठ-से-छवि व्याख्यात्मक परत के माध्यम से चलाया जाता है जो आउटपुट को विकृत करता है।[/caption]

नई फ्रेमवर्क के लिए एक और लाभ यह है कि यह संभव है एकल छवि को एक शैली प्रोम्प्ट के रूप में प्रदान करने के लिए, एक ड्रीमबूथ मॉडल या एक पाठ-टू-छवि एम्बेडिंग को कई उदाहरणों पर प्रशिक्षित करने की आवश्यकता के बजाय एक शैली या शैली के लिए।

[कैप्शन id=”attachment_184583″ align=”alignnone” width=”943″]рд╢реИрд▓реА рд╣рд╕реНрддрд╛рдВрддрд░рдг рдПрдХ рд╕рдВрджрд░реНрдн рдЫрд╡рд┐ рд╕реЗ рдПрдХ рдкрд╛рда-рд╕реЗ-рдЫрд╡рд┐ рдкреНрд░реЛрдореНрдкреНрдЯ, рдпрд╛ рдпрд╣рд╛рдВ рддрдХ рдХрд┐ рдПрдХ рдЫрд╡рд┐-рд╕реЗ-рдЫрд╡рд┐ рдкреНрд░реЛрдореНрдкреНрдЯ рдореЗрдВ рд▓рд╛рдЧреВ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред शैली हस्तांतरण एक संदर्भ छवि से एक पाठ-से-छवि प्रोम्पट, या यहां तक कि एक छवि-से-छवि प्रोम्पट में लागू किया जा सकता है।[/caption]

नया पेपर eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers शीर्षक से है,

टी5 पाठ एनकोडर

गूगल के टएक्स्ट-टू-टेक्स्ट ट्रांसफॉर्मर (टी5) का उपयोग eDiffi में सुधारित परिणामों में महत्वपूर्ण तत्व है। औसत लेटेंट डिफ्यूजन पाइपलाइन केंद्रित होती है

[कैप्शन id=”attachment_184584″ align=”alignnone” width=”900″]рдЯреА5 рдХреЗ рд▓рд┐рдП рдЬреБрд▓рд╛рдИ 2020 рдХреЗ рдкреЗрдкрд░ рд╕реЗ - рдкрд╛рда-рдЖрдзрд╛рд░рд┐рдд рдкрд░рд┐рд╡рд░реНрддрди, рдЬреЛ eDiffi (рдФрд░, рд╕рдВрднрд╛рд╡рд┐рдд рд░реВрдк рд╕реЗ, рдЕрдиреНрдп рд▓реЗрдЯреЗрдВрдЯ рдбрд┐рдлреНрдпреВрдЬрди рдореЙрдбрд▓) рдореЗрдВ рдЬрдирд░реЗрдЯрд┐рд╡ рдЗрдореЗрдЬ рд╡рд░реНрдХрдлреНрд▓реЛ рдореЗрдВ рд╕рд╣рд╛рдпрддрд╛ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред टी5 के लिए जुलाई 2020 के पेपर से – पाठ-आधारित परिवर्तन, जो eDiffi (और, संभावित रूप से, अन्य लेटेंट डिफ्यूजन मॉडल) में जनरेटिव इमेज वर्कफ्लो में सहायता कर सकते हैं। स्रोत: https://arxiv.org/pdf/1910.10683.pdf[/caption]

लेखकों का तर्क है:

‘मौजूदा कार्यों में से अधिकांश में डिफ्यूजन मॉडल पर, शोर-मुक्त करने वाला मॉडल सभी शोर स्तरों में साझा किया जाता है, और समय गतिविधि को एक सरल समय एम्बेडिंग का उपयोग करके प्रस्तुत किया जाता है जो शोर-मुक्त करने वाले मॉडल को एक एमएलपी नेटवर्क के माध्यम से खिलाया जाता है। हम तर्क देते हैं कि शोर-मुक्त करने वाले डिफ्यूजन की जटिल समय गतिविधि को एक साझा मॉडल के साथ प्रभावी ढंग से सीखा नहीं जा सकता है जिसमें सीमित क्षमता है। ‘

‘इसके बजाय, हम शोर-मुक्त करने वाले मॉडल की क्षमता को बढ़ाने के लिए विशेषज्ञ शोर-मुक्त करने वालों के एक समूह की शुरुआत करने का प्रस्ताव करते हैं; प्रत्येक विशेषज्ञ शोर-मुक्त करने वाला एक शोर-मुक्त करने वाला मॉडल है जो विशेष रूप से एक विशिष्ट शोर स्तर के लिए विशेषज्ञ है। इस तरह, हम मॉडल की क्षमता को बढ़ा सकते हैं बिना नमूनाकरण को धीमा किए, क्योंकि प्रत्येक शोर स्तर पर [संसाधित तत्व] का मूल्यांकन करने की गणनात्मक जटिलता समान रहती है।’

[कैप्शन id=”attachment_184585″ align=”alignnone” width=”604″]eDiffi рдХреЗ рд▓рд┐рдП рд╕рдВрдХрд▓реНрдкрдирд╛рддреНрдордХ рдХрд╛рд░реНрдп рдкреНрд░рд╡рд╛рд╣ред eDiffi के लिए संकल्पनात्मक कार्य प्रवाह।[/caption]

मौजूदा सीएलआईपी एनकोडिंग मॉड्यूल जो डीएलएल-ई 2 और स्टेबल डिफ्यूजन में शामिल हैं, वे भी पाठ-संबंधित छवि व्याख्याओं को खोजने में सक्षम हैं जो उपयोगकर्ता इनपुट से संबंधित हैं। हालांकि, वे मूल मॉडल के समान जानकारी पर प्रशिक्षित होते हैं, और eDiffi में टी5 की तरह एक अलग व्याख्यात्मक परत के रूप में उपयोग नहीं किया जाता है।

लेखकों का कहना है कि eDiffi पहली बार है जब एक ही पाइपलाइन में टी5 और सीएलआईपी एनकोडर दोनों को एक साथ शामिल किया गया है:

‘जैसा कि इन दोनों एनकोडर्स को विभिन्न उद्देश्यों के साथ प्रशिक्षित किया गया है, उनके एम्बेडिंग विभिन्न छवियों के गठन को एक ही इनपुट पाठ के साथ पसंद करते हैं। जबकि सीएलआईपी पाठ एम्बेडिंग उत्पन्न छवियों के वैश्विक रूप को निर्धारित करने में मदद करती है, आउटपुट पाठ में महीन विवरणों को याद करते हैं।’

‘इसके विपरीत, केवल टी5 पाठ एम्बेडिंग के साथ उत्पन्न छवियां पाठ में वर्णित व्यक्तिगत वस्तुओं को बेहतर ढंग से प्रतिबिंबित करती हैं, लेकिन उनके वैश्विक रूप कम सटीक हैं। उन्हें संयुक्त रूप से उपयोग करने से हमारे मॉडल में सर्वोत्तम छवि-पीढ़ी परिणाम उत्पन्न होते हैं। ‘

डिफ्यूजन प्रक्रिया में व्यवधान और पूरक

पेपर यह ध्यान दिलाता है कि एक विशिष्ट लेटेंट डिफ्यूजन मॉडल पाठ में शोर से छवि तक यात्रा शुरू करने के लिए शुरुआती चरणों में केवल पाठ पर निर्भर करता है।

जब शोर कुछ प्रकार के खुरदरे लेआउट में हल हो जाता है जो पाठ-प्रोम्प्ट में वर्णित है, तो प्रक्रिया का पाठ-निर्देशित पहलू मूल रूप से गिर जाता है, और प्रक्रिया का शेष भाग दृश्य विशेषताओं को बढ़ाने की ओर स्थानांतरित हो जाता है।

इसका मतलब है कि यदि कोई तत्व शोर की व्याख्या के प्रारंभिक चरण में हल नहीं हुआ है, तो इसे बाद में छवि में इंजेक्ट करना मुश्किल हो जाता है, क्योंकि दोनों प्रक्रियाएं (पाठ-से-लेआउट, और लेआउट-से-छवि) के बीच बहुत कम ओवरलैप होता है, और मूल लेआउट छवि संवर्धन प्रक्रिया तक पहुंचने से पहले ही काफी उलझ जाता है।

[कैप्शन id=”attachment_184586″ align=”alignnone” width=”1000″]छवि प्रक्रिया परिपक्व होती है। हम देख सकते हैं कि निचली पंक्ति में सीएलआईपी के प्रभाव में छवि में तेज गिरावट, जबकि टी5 प्रसंस्करण प्रक्रिया में बहुत आगे तक छवि को प्रभावित करता है।” width=”1000″ height=”310″> पेपर से: पाइपलाइन के विभिन्न भागों के ध्यान मानचित्र जैसे ही शोर>छवि प्रक्रिया परिपक्व होती है। हम देख सकते हैं कि निचली पंक्ति में सीएलआईपी के प्रभाव में छवि में तेज गिरावट, जबकि टी5 प्रसंस्करण प्रक्रिया में बहुत आगे तक छवि को प्रभावित करता है।[/caption]

पेशेवर संभावना

परियोजना पृष्ठ और यूट्यूब वीडियो में केंद्रित उदाहरण पीआर-अनुकूल जेनरेशन पर केंद्रित हैं मीम-टास्टिक क्यूट छवियों का। जैसा कि हमेशा, NVIDIA रिसर्च अपनी नवीनतम नवाचार की क्षमता को कम आंक रहा है फोटोरियलिस्टिक या वीएफएक्स वर्कफ्लो में सुधार करने के लिए, साथ ही साथ गहरे नकली छवि और वीडियो में सुधार करने की क्षमता के लिए।

उदाहरणों में, एक शुरुआती या शौकिया उपयोगकर्ता विशिष्ट तत्व के प्लेसमेंट के लिए खुरदरे रूपरेखा स्केच करता है, जबकि एक अधिक व्यवस्थित वीएफएक्स वर्कफ्लो में, यह संभव हो सकता है कि eDiffi का उपयोग वीडियो तत्व की कई फ्रेमों को पाठ-से-छवि का उपयोग करके व्याख्या करने के लिए किया जाए, जिसमें रूपरेखा बहुत सटीक होती है और, उदाहरण के लिए, ग्रीन स्क्रीन या एल्गोरिदमिक विधियों के माध्यम से पृष्ठभूमि को हटाने के बाद आंकड़ों पर आधारित होती है।

[कैप्शन id=”attachment_184587″ align=”alignnone” width=”900″]рд░рдирд╡реЗ рдПрдордПрд▓ рдкрд╣рд▓реЗ рд╕реЗ рд╣реА рдПрдЖрдИ-рдЖрдзрд╛рд░рд┐рдд рд░реЛрдЯреЛрд╕реНрдХреЛрдкрд┐рдВрдЧ рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИред рдЗрд╕ рдЙрджрд╛рд╣рд░рдг рдореЗрдВ, рд╡рд┐рд╖рдп рдХреЗ рдЪрд╛рд░реЛрдВ рдУрд░ 'рдЧреНрд░реАрди рд╕реНрдХреНрд░реАрди' рдЕрд▓реНрдлрд╛ рдкрд░рдд рдХрд╛ рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡ рдХрд░рддреА рд╣реИ, рдЬрдмрдХрд┐ рдирд┐рд╖реНрдХрд░реНрд╖рдг рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИ, рд╡рд╛рд╕реНрддрд╡рд┐рдХ рджреБрдирд┐рдпрд╛ рдХреА рдЧреНрд░реАрди рд╕реНрдХреНрд░реАрди рдкреГрд╖реНрдарднреВрдорд┐ рдХреЛ рд╣рдЯрд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдПрд▓реНрдЧреЛрд░рд┐рджрдорд┐рдХ рд░реВрдк рд╕реЗ рдирд╣реАрдВред रनवे एमएल पहले से ही एआई-आधारित रोटोस्कोपिंग प्रदान करता है। इस उदाहरण में, विषय के चारों ओर ‘ग्रीन स्क्रीन’ अल्फा परत का प्रतिनिधित्व करती है, जबकि निष्कर्षण मशीन लर्निंग के माध्यम से किया गया है, वास्तविक दुनिया की ग्रीन स्क्रीन पृष्ठभूमि को हटाने के लिए एल्गोरिदमिक रूप से नहीं। स्रोत: https://twitter.com/runwayml/status/1330978385028374529[/caption]

एक प्रशिक्षित ड्रीमबूथ पात्र और eDiffi के साथ एक छवि-से-छवि पाइपलाइन का उपयोग करके, यह संभव हो सकता है कि लेटेंट डिफ्यूजन मॉडल की एक प्रमुख समस्या को संबोधित किया जाए: समय स्थिरता। ऐसे मामले में, दोनों लगाए गए छवि के मार्जिन और छवि की सामग्री को उपयोगकर्ता के कैनवास के खिलाफ ‘प्री-फ्लोट’ किया जाएगा, और प्रस्तुत सामग्री (यानी, एक वास्तविक दुनिया के ताई ची प्रैक्टिशनर को एक रोबोट में बदलना) की समय स्थिरता को एक तालाबंदी ड्रीमबूथ मॉडल के उपयोग से प्रदान किया जाएगा जिसने अपने प्रशिक्षण डेटा को ‘याद’ रखा है – व्याख्या के लिए बुरा, पुनरुत्पादन, विश्वास और निरंतरता के लिए महान।

विधि, डेटा और परीक्षण

eDiffi मॉडल को ‘सार्वजनिक और प्रोप्राइटरी डेटासेट्स’ के संग्रह पर प्रशिक्षित किया गया था, जिसे एक पूर्व-प्रशिक्षित सीएलआईपी मॉडल द्वारा भारी फिल्टर किया गया था, ताकि उन छवियों को हटाया जा सके जो आउटपुट के सामान्य सौंदर्य स्कोर को कम कर सकती हैं। अंतिम फिल्टर्ड छवि सेट में ‘लगभग एक अरब’ पाठ-छवि जोड़े शामिल हैं। प्रशिक्षित छवियों का आकार ‘लघु पक्ष 64 पिक्सेल से अधिक’ के रूप में वर्णित किया गया है।

प्रक्रिया के लिए कई मॉडल प्रशिक्षित किए गए थे, जिनमें से दोनों बेस और सुपर-रिज़ॉल्यूशन मॉडल को एडमडब्ल्यू ऑप्टिमाइज़र पर 0.0001 की लर्निंग दर, 0.01 के वजन क्षय के साथ, और 2048 के एक प्रभावशाली बैच आकार के साथ प्रशिक्षित किया गया था।

बेस मॉडल को 256 NVIDIA A100 जीपीयू पर प्रशिक्षित किया गया था, और दो सुपर-रिज़ॉल्यूशन मॉडल प्रत्येक मॉडल के लिए 128 NVIDIA ए100 जीपीयू पर।

सिस्टम NVIDIA के अपने इमेजिनेयर पायथन लाइब्रेरी पर आधारित था। सीओसीओ और विज़ुअल जीनोम डेटासेट का उपयोग मूल्यांकन के लिए किया गया था, हालांकि उन्हें अंतिम मॉडल में शामिल नहीं किया गया था, एमएस-सीओसीओ विशिष्ट संस्करण का उपयोग परीक्षण के लिए किया गया था। प्रतिद्वंद्वी प्रणालियों में जीएलआईडीई, मेक-ए-सीन, डीएलएल-ई 2, स्टेबल डिफ्यूजन, और गूगल की दो छवि संश्लेषण प्रणालियों का परीक्षण किया गया था। , इमेजेन और पार्टी

इसी तरह के पिछले कार्य के अनुसार, शून्य-शॉट एफआईडी-30के का उपयोग मूल्यांकन मीट्रिक के रूप में किया गया था। एफआईडी-30के के तहत, सीओसीओ पुष्टि सेट से 30,000 कैप्शन यादृच्छिक रूप से निकाले जाते हैं (यानी, छवियों या पाठ का उपयोग प्रशिक्षण में नहीं किया जाता है), जिन्हें तब छवियों को संश्लेषित करने के लिए पाठ-प्रोम्प्ट के रूप में उपयोग किया जाता है।

तब संश्लेषित और मैदानी सच्ची छवियों के बीच फ्रेचेट इन्सेप्शन डिस्टेंस (एफआईडी) की गणना की जाती है, साथ ही साथ संश्लेषित छवियों के लिए सीएलआईपी स्कोर को रिकॉर्ड किया जाता है।

[कैप्शन id=”attachment_184588″ align=”alignnone” width=”583″]рд╡рд░реНрддрдорд╛рди рд░рд╛рдЬреНрдп-рдСрдл-рдж-рдЖрд░реНрдЯ рджреГрд╖реНрдЯрд┐рдХреЛрдгреЛрдВ рдХреЗ рдЦрд┐рд▓рд╛рдл рд╢реВрдиреНрдп-рд╢реЙрдЯ рдПрдлрдЖрдИрдбреА рдкрд░реАрдХреНрд╖рдгреЛрдВ рдХреЗ рдкрд░рд┐рдгрд╛рдо рд╕реАрдУрд╕реАрдУ 2014 рдкреБрд╖реНрдЯрд┐ рдбреЗрдЯрд╛рд╕реЗрдЯ рдкрд░, рдХрдо рдкрд░рд┐рдгрд╛рдо рдмреЗрд╣рддрд░ рд╣реИрдВред वर्तमान राज्य-ऑफ-द-आर्ट दृष्टिकोणों के खिलाफ शून्य-शॉट एफआईडी परीक्षणों के परिणाम सीओसीओ 2014 पुष्टि डेटासेट पर, कम परिणाम बेहतर हैं।[/caption]

परिणामों में, eDiffi 20 बिलियन पैरामीटर जैसे प्रणालियों की तुलना में शून्य-शॉट एफआईडी पर सबसे कम (सर्वोत्तम) स्कोर प्राप्त करने में सक्षम था, जो कि 9.1 बिलियन पैरामीटर के साथ eDiffi मॉडल की तुलना में अधिक है।

निष्कर्ष

NVIDIA का eDiffi मौजूदा प्रणालियों में अधिक और अधिक डेटा और जटिलता जोड़ने के बजाय एक अधिक बुद्धिमान और परतदार दृष्टिकोण का एक स्वागत योग्य विकल्प प्रदान करता है कुछ लेटेंट डिफ्यूजन जनरेटिव इमेज सिस्टम से संबंधित सबसे कांटेदार बाधाओं के लिए।

स्टेबल डिफ्यूजन सबरेडिट और डिस्कोर्ड में पहले से ही eDiffi के लिए कोड को सीधे एकीकृत करने या इसके सिद्धांतों को एक अलग कार्यान्वयन में पुनः बनाने की चर्चा हो रही है। नई पाइपलाइन, हालांकि, इतनी क्रांतिकारी रूप से अलग है कि यह एसडी के लिए एक पूरी संस्करण संख्या परिवर्तन का गठन करेगी, कुछ पिछड़े संगतता को छोड़ देगी, हालांकि संश्लेषित छवियों पर महान स्तर के नियंत्रण की संभावना प्रदान करते हुए, लेटेंट डिफ्यूजन की आकर्षक कल्पनाशील शक्तियों को त्यागने के बिना।

पहली बार 3 नवंबर 2022 को प्रकाशित।

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai

рд╡рд┐рдЬреНрдЮрд╛рдкрди рдкреНрд░рдХрдЯреАрдХрд░рдг: Unite.AI рд╕рдЯреАрдХ рдЬрд╛рдирдХрд╛рд░реА рдФрд░ рд╕рдорд╛рдЪрд╛рд░ рдкреНрд░рджрд╛рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрдареЛрд░ рд╕рдВрдкрд╛рджрдХреАрдп рдорд╛рдирдХреЛрдВ рдХреЗ рдкреНрд░рддрд┐ рдкреНрд░рддрд┐рдмрджреНрдз рд╣реИред рдЬрдм рдЖрдк рдЙрди рдЙрддреНрдкрд╛рджреЛрдВ рдХреЗ рд▓рд┐рдВрдХ рдкрд░ рдХреНрд▓рд┐рдХ рдХрд░рддреЗ рд╣реИрдВ рдЬрд┐рдирдХреА рд╣рдордиреЗ рд╕рдореАрдХреНрд╖рд╛ рдХреА рд╣реИ, рддреЛ рд╣рдореЗрдВ рдореБрдЖрд╡рдЬрд╛ рдорд┐рд▓ рд╕рдХрддрд╛ рд╣реИред