कृत्रिम बुद्धिमत्ता

स्व-ध्यान मार्गदर्शन: अपवाह मॉडल की नमूना गुणवत्ता में सुधार

Published January 2, 2024

Updated April 27, 2026

Kunal Kejriwal

Self-Attention Guidance : Improving Sample Quality of Diffusion Models

अपवाह मॉडल वे जनरेटिव एआई ढांचे हैं जो शोर से छवियों को एक पुनरावृत्ति शुद्धिकरण प्रक्रिया के माध्यम से संश्लेषित करते हैं। वे अपनी असाधारण छवि पीढ़ी क्षमताओं और विविधता के लिए जाने जाते हैं, जो बड़े पैमाने पर पाठ- या वर्ग-शर्त मार्गदर्शन विधियों के लिए जिम्मेदार है, जिनमें वर्गीकरणकर्ता मार्गदर्शन और वर्गीकरणकर्ता-मुक्त मार्गदर्शन शामिल हैं। इन मॉडलों ने विविध, उच्च-गुणवत्ता वाली छवियों को बनाने में उल्लेखनीय रूप से सफलता प्राप्त की है। हाल के अध्ययनों से पता चला है कि वर्ग कैप्शन और लेबल जैसी मार्गदर्शन तकनीकें इन मॉडलों द्वारा उत्पन्न छवियों की गुणवत्ता में सुधार करने में एक महत्वपूर्ण भूमिका निभाती हैं।

हालांकि, अपवाह मॉडल और मार्गदर्शन विधियों को कुछ बाहरी स्थितियों के तहत सीमाओं का सामना करना पड़ता है। वर्गीकरणकर्ता-मुक्त मार्गदर्शन (CFG) विधि, जो लेबल ड्रॉपिंग का उपयोग करती है, प्रशिक्षण प्रक्रिया में जटिलता जोड़ती है, जबकि वर्गीकरणकर्ता मार्गदर्शन (CG) विधि के लिए अतिरिक्त वर्गीकरणकर्ता प्रशिक्षण की आवश्यकता होती है। दोनों विधियां अपनी सीमाओं से सीमित होती हैं और उन्हें सशर्त सेटिंग्स में सीमित करती हैं।

इन सीमाओं को दूर करने के लिए, डेवलपर्स ने अपवाह मार्गदर्शन के लिए एक अधिक सामान्य दृष्टिकोण तैयार किया है, जिसे स्व-ध्यान मार्गदर्शन (SAG) के रूप में जाना जाता है। यह विधि अपवाह मॉडल के मध्यवर्ती नमूनों से जानकारी का लाभ उठाकर छवियों को उत्पन्न करती है। हम इस लेख में, SAG की कार्यप्रणाली, विधियों, और परिणामों पर चर्चा करेंगे, जो वर्तमान राज्य-ऑफ-द-आर्ट ढांचे और पाइपलाइनों के साथ तुलना में।

स्व-ध्यान मार्गदर्शन : अपवाह मॉडल की नमूना गुणवत्ता में सुधार

अपवाह मॉडल (DDMs) अपनी छवि संश्लेषण क्षमता के लिए लोकप्रिय हो गए हैं, जो शोर से छवियों को एक पुनरावृत्ति शुद्धिकरण प्रक्रिया के माध्यम से बनाते हैं। इन मॉडलों की छवि संश्लेषण क्षमता बड़े पैमाने पर नियोजित अपवाह मार्गदर्शन विधियों के लिए जिम्मेदार है। हालांकि, अपवाह मॉडल और मार्गदर्शन-आधारित विधियों को जटिलता और बढ़ी हुई गणनात्मक लागत जैसी चुनौतियों का सामना करना पड़ता है।

इन सीमाओं को दूर करने के लिए, डेवलपर्स ने स्व-ध्यान मार्गदर्शन विधि पेश की है, जो एक अधिक सामान्य अपवाह मार्गदर्शन सूत्रीकरण है जो बाहरी जानकारी पर निर्भर नहीं करता है, जिससे एक सशर्त और लचीला दृष्टिकोण प्रदान किया जा सकता है। स्व-ध्यान मार्गदर्शन विधि अंततः पारंपरिक अपवाह मार्गदर्शन विधियों की लागू करने योग्यता को बढ़ाने में मदद करती है, जो बाहरी आवश्यकताओं के साथ या बिना मामलों में लागू की जा सकती है।

स्व-ध्यान मार्गदर्शन एक सरल सिद्धांत पर आधारित है, जो यह मानता है कि मध्यवर्ती नमूनों में निहित आंतरिक जानकारी भी मार्गदर्शन के रूप में कार्य कर सकती है। इस सिद्धांत के आधार पर, SAG विधि पहले ब्लर मार्गदर्शन पेश करती है, जो एक सरल और सीधा समाधान है जो नमूना गुणवत्ता में सुधार करने के लिए उपयोग किया जाता है। ब्लर मार्गदर्शन का उद्देश्य गॉसियन ब्लर के हानिपूर्ण गुणों का लाभ उठाना है, जो मध्यवर्ती नमूनों से जानकारी को हटाकर उन्हें मार्गदर्शन के लिए उपयोग करने के लिए प्रेरित करता है। हालांकि, ब्लर मार्गदर्शन विधि बड़े पैमाने पर मार्गदर्शन पर परिणामों को दोहराने में विफल रहती है, क्योंकि यह पूरे क्षेत्र में संरचनात्मक अस्पष्टता पेश कर सकती है।

स्व-ध्यान मार्गदर्शन विधि में ब्लर मार्गदर्शन के साथ-साथ स्व-ध्यान तंत्र का भी उपयोग किया जाता है, जो आधुनिक अपवाह मॉडलों में पहले से ही मौजूद है। स्व-ध्यान मार्गदर्शन विधि स्व-ध्यान मानचित्रों का उपयोग करके मध्यवर्ती नमूनों से जानकारी को हटाने और उन्हें मार्गदर्शन के लिए उपयोग करने के लिए प्रेरित करती है, जिससे नमूना गुणवत्ता में सुधार होता है और स्व-स्थिति को कम करने में मदद मिलती है।

इस लेख में, हम स्व-ध्यान मार्गदर्शन विधि की कार्यप्रणाली, विधियों, और परिणामों पर चर्चा करेंगे, जो वर्तमान राज्य-ऑफ-द-आर्ट ढांचे और पाइपलाइनों के साथ तुलना में।

स्व-ध्यान मार्गदर्शन : प्रारंभिक बिंदु, विधियां, और वास्तुकला

अपवाह शुद्धिकरण संभाव्य मॉडल या DDPM

DDPM या अपवाह शुद्धिकरण संभाव्य मॉडल एक मॉडल है जो एक पुनरावृत्ति शुद्धिकरण प्रक्रिया के माध्यम से शोर से छवि को पुनर्प्राप्त करने के लिए उपयोग किया जाता है। पारंपरिक रूप से, एक DDPM मॉडल एक इनपुट छवि और एक समय चरण में विचरण अनुसूची प्राप्त करता है और एक आगामी प्रक्रिया के माध्यम से छवि को प्राप्त करने के लिए उपयोग किया जाता है।

वर्गीकरणकर्ता और वर्गीकरणकर्ता-मुक्त मार्गदर्शन के साथ GAN कार्यान्वयन

GAN या जनरेटिव एडवर्सेरियल नेटवर्क विशिष्ट व्यापार विविधता के लिए विश्वास के लिए जाने जाते हैं, और अपवाह मॉडलों में इस क्षमता को लाने के लिए, स्व-ध्यान मार्गदर्शन ढांचे में एक वर्गीकरणकर्ता मार्गदर्शन विधि का प्रस्ताव किया जाता है जो एक अतिरिक्त वर्गीकरणकर्ता का उपयोग करती है। इसके विपरीत, एक वर्गीकरणकर्ता-मुक्त मार्गदर्शन विधि भी लागू की जा सकती है जो एक अतिरिक्त वर्गीकरणकर्ता का उपयोग नहीं करती है और समान परिणाम प्राप्त करने के लिए उपयोग की जाती है। हालांकि, यह विधि अभी भी गणनात्मक रूप से व्यावहारिक नहीं है, क्योंकि यह अतिरिक्त लेबल की आवश्यकता होती है और ढांचे को सशर्त अपवाह मॉडलों तक सीमित करती है जो अतिरिक्त स्थितियों की आवश्यकता होती है, जैसे कि पाठ या वर्ग के साथ-साथ अतिरिक्त प्रशिक्षण विवरण जो मॉडल की जटिलता को बढ़ाते हैं।

अपवाह मार्गदर्शन को सामान्य बनाना

वर्गीकरणकर्ता और वर्गीकरणकर्ता-मुक्त मार्गदर्शन विधियां सशर्त पीढ़ी में अपवाह मॉडलों में वांछित परिणाम प्रदान करती हैं, लेकिन वे अतिरिक्त इनपुट पर निर्भर हैं। किसी भी दिए गए समय चरण के लिए, अपवाह मॉडल के लिए इनपुट में एक सामान्य स्थिति और एक प्रतिबंधित नमूना शामिल होता है जिसमें सामान्य स्थिति नहीं होती है। इसके अलावा, सामान्य स्थिति में मध्यवर्ती नमूनों में आंतरिक जानकारी या बाहरी स्थिति या दोनों शामिल हो सकती है। परिणामी मार्गदर्शन एक काल्पनिक प्रतिगामी के उपयोग के साथ सूत्रित किया जाता है जो यह मानता है कि यह सामान्य स्थिति की भविष्यवाणी कर सकता है।

स्व-ध्यान मानचित्रों का उपयोग करके छवि गुणवत्ता में सुधार

सामान्य अपवाह मार्गदर्शन यह दर्शाता है कि यह संभव है कि अपवाह मॉडलों की逆 प्रक्रिया को प्रतिबंधित नमूने में निहित सामान्य स्थिति में से सार्थक जानकारी को निकालकर मार्गदर्शन प्रदान किया जा सकता है। इसी पर आधारित, स्व-ध्यान मार्गदर्शन विधि प्रतिगामी प्रक्रियाओं के लिए सार्थक जानकारी को प्रभावी ढंग से पकड़ने का प्रयास करती है, जबकि पूर्व-प्रशिक्षित अपवाह मॉडलों में बाहरी-वितरण मुद्दों के जोखिम को सीमित करती है।

ब्लर मार्गदर्शन

स्व-ध्यान मार्गदर्शन में ब्लर मार्गदर्शन गॉसियन ब्लर पर आधारित है, जो एक रेखीय फिल्टरिंग विधि है जिसमें इनपुट सिग्नल को एक गॉसियन फिल्टर के साथ जोड़कर एक आउटपुट उत्पन्न किया जाता है। मानक विचलन में वृद्धि के साथ, गॉसियन ब्लर इनपुट सिग्नल के भीतर महीन-स्तर के विवरण को कम करता है और स्थानीय रूप से अस्पष्ट इनपुट सिग्नल को एक निरंतर में चिकना करता है। इसके अलावा, प्रयोगों से पता चलता है कि इनपुट सिग्नल और गॉसियन ब्लर आउटपुट सिग्नल के बीच जानकारी का असंतुलन है, जहां आउटपुट सिग्नल में अधिक महीन-स्तर की जानकारी होती है।

इस ज्ञान के आधार पर, स्व-ध्यान मार्गदर्शन ढांचे में ब्लर मार्गदर्शन पेश किया जाता है, जो एक सरल और सीधा समाधान है जो मध्यवर्ती पुनर्निर्माण के दौरान अपवाह प्रक्रिया में जानकारी को हटाने और इसका उपयोग भविष्यवाणियों को बढ़ाने के लिए करता है। ब्लर मार्गदर्शन मूल रूप से मूल भविष्यवाणी को धुंधली इनपुट भविष्यवाणी से अधिक विचलित करने का कारण बनता है। इसके अलावा, गॉसियन ब्लर का हानिपूर्ण गुण आउटपुट सिग्नल को मूल सिग्नल से बहुत अधिक विचलित होने से रोकता है, जो इसे पूर्व-प्रशिक्षित अपवाह मॉडलों पर लागू करने के लिए एक अधिक उपयुक्त विधि बनाता है।

स्व-ध्यान मार्गदर्शन पाइपलाइन में, इनपुट सिग्नल को पहले एक गॉसियन फिल्टर का उपयोग करके धुंधला किया जाता है, और फिर इसे अतिरिक्त शोर के साथ जोड़कर एक आउटपुट सिग्नल उत्पन्न किया जाता है। इस प्रकार, SAG पाइपलाइन गॉसियन शोर को कम करने के ब्लर के परिणामस्वरूप होने वाले दुष्प्रभाव को कम करती है और मार्गदर्शन को सामग्री पर निर्भर करती है, न कि यादृच्छिक शोर पर।

हालांकि, ब्लर मार्गदर्शन बड़े पैमाने पर मार्गदर्शन पर परिणामों को दोहराने में विफल रहता है, क्योंकि यह पूरे क्षेत्र में संरचनात्मक अस्पष्टता पेश कर सकता है, जो मूल इनपुट की भविष्यवाणियों को धुंधली इनपुट के साथ संरेखित करना मुश्किल बना देता है, जिससे शोर भरे आउटपुट होते हैं।

स्व-ध्यान तंत्र

जैसा कि पहले उल्लेख किया गया है, अपवाह मॉडल में आमतौर पर एक निर्मित स्व-ध्यान घटक होता है, और यह अपवाह मॉडल ढांचे में एक अधिक महत्वपूर्ण घटक है। स्व-ध्यान तंत्र अपवाह मॉडलों के कोर में लागू किया जाता है और यह मॉडल को पीढ़ी प्रक्रिया के दौरान इनपुट के सार्थक भागों पर ध्यान केंद्रित करने की अनुमति देता है, जैसा कि निम्नलिखित छवि में दिखाया गया है, जिसमें शीर्ष पंक्ति में उच्च-आवृत्ति मास्क और नीचे की पंक्ति में स्व-ध्यान मास्क हैं, जो अंततः उत्पन्न छवियों में देखे जा सकते हैं।

स्व-ध्यान मार्गदर्शन विधि इसी सिद्धांत पर आधारित है और अपवाह मॉडलों में स्व-ध्यान मानचित्रों की क्षमताओं का लाभ उठाती है। स्व-ध्यान मार्गदर्शन विधि मूल रूप से इनपुट सिग्नल में स्व-ध्यानित पैचों को धुंधला करती है, या सरल शब्दों में, स्व-ध्यान मॉडल द्वारा ध्यान केंद्रित किए जाने वाले पैचों की जानकारी को छुपाती है। इसके अलावा, स्व-ध्यान मार्गदर्शन में आउटपुट सिग्नल में इनपुट सिग्नल के संरक्षित क्षेत्र होते हैं, जिसका अर्थ है कि यह इनपुट की संरचनात्मक अस्पष्टता का कारण नहीं बनता है और ग्लोबल ब्लर की समस्या को हल करता है। पाइपलाइन तब स्व-ध्यान मानचित्रों को एकत्रित करके आयाम में एकत्रित करती है और निकटतम-neighbor को इनपुट सिग्नल के संकल्प से मेल खाने के लिए अपसैंपल करती है।

स्व-ध्यान मार्गदर्शन : प्रयोग और परिणाम

स्व-ध्यान मार्गदर्शन पाइपलाइन का मूल्यांकन करने के लिए, इसे 8 नविडिया जीफोर्स आरटीएक्स 3090 जीपीयू का उपयोग करके नमूना लिया जाता है और पूर्व-प्रशिक्षित IDDPM, ADM, और स्टेबल अपवाह ढांचे पर आधारित होता है।

स्व-ध्यान मार्गदर्शन के साथ असशर्त पीढ़ी

स्व-ध्यान मार्गदर्शन पाइपलाइन की प्रभावशीलता को असशर्त मॉडलों पर मापने और वर्गीकरणकर्ता मार्गदर्शन और वर्गीकरणकर्ता-मुक्त मार्गदर्शन दृष्टिकोण की सशर्त संपत्ति को प्रदर्शित करने के लिए, SAG पाइपलाइन को 50,000 नमूनों पर असशर्त रूप से प्रशिक्षित ढांचे पर चलाया जाता है।

जैसा कि देखा जा सकता है, SAG पाइपलाइन का कार्यान्वयन असशर्त इनपुट पर FID, sFID, और IS मेट्रिक्स में सुधार करता है, जबकि रिकॉल मूल्य को कम करता है। इसके अलावा, SAG पाइपलाइन के कार्यान्वयन से गुणात्मक सुधार स्पष्ट हैं, जैसा कि निम्नलिखित छवियों में देखा जा सकता है, जहां शीर्ष छवियां ADM और स्टेबल अपवाह ढांचे के परिणाम हैं, जबकि नीचे की छवियां SAG पाइपलाइन के साथ ADM और स्टेबल अपवाह ढांचे के परिणाम हैं।

स्व-ध्यान मार्गदर्शन के साथ सशर्त पीढ़ी

SAG पाइपलाइन का एकीकरण मौजूदा ढांचे में असशर्त पीढ़ी में असाधारण परिणाम प्रदान करता है, और SAG पाइपलाइन सशर्त-अज्ञेयता की क्षमता रखती है जो इसे सशर्त पीढ़ी के लिए भी लागू करने की अनुमति देती है।

स्टेबल अपवाह के साथ स्व-ध्यान मार्गदर्शन

हालांकि मूल स्टेबल अपवाह ढांचा उच्च-गुणवत्ता वाली छवियां उत्पन्न करता है, स्टेबल अपवाह ढांचे को स्व-ध्यान मार्गदर्शन पाइपलाइन के साथ एकीकृत करने से परिणामों में काफी सुधार हो सकता है। इसका मूल्यांकन करने के लिए, डेवलपर्स खाली प्रोम्प्ट्स का उपयोग स्टेबल अपवाह के साथ करते हैं और प्रत्येक छवि जोड़ी के लिए एक यादृच्छिक बीज का उपयोग करते हैं, और 500 जोड़ियों की मानव मूल्यांकन करते हैं जो स्व-ध्यान मार्गदर्शन के साथ और बिना हैं।

इसके अलावा, SAG का कार्यान्वयन स्टेबल अपवाह ढांचे की क्षमताओं को बढ़ा सकता है, क्योंकि वर्गीकरणकर्ता-मुक्त मार्गदर्शन को स्व-ध्यान मार्गदर्शन के साथ मिलाने से स्टेबल अपवाह मॉडलों की श्रृंखला को पाठ-से-छवि संश्लेषण तक बढ़ाया जा सकता है। इसके अलावा, स्टेबल अपवाह मॉडल के साथ स्व-ध्यान मार्गदर्शन के साथ उत्पन्न छवियां उच्च गुणवत्ता वाली होती हैं और कम कलाकृतियों वाली होती हैं, जो SAG पाइपलाइन के स्व-स्थिति प्रभाव के कारण होती हैं, जैसा कि निम्नलिखित छवि में दिखाया गया है।

वर्तमान सीमाएं

हालांकि स्व-ध्यान मार्गदर्शन पाइपलाइन का कार्यान्वयन उत्पन्न छवियों की गुणवत्ता में काफी सुधार कर सकता है, यह कुछ सीमाओं का सामना करता है।

एक प्रमुख सीमा वर्गीकरणकर्ता-मार्गदर्शन और वर्गीकरणकर्ता-मुक्त मार्गदर्शन के साथ ऑर्थोगोनालिटी है। जैसा कि निम्नलिखित छवि में देखा जा सकता है, SAG पाइपलाइन का कार्यान्वयन FID स्कोर और भविष्यवाणी स्कोर में सुधार करता है, जो यह दर्शाता है कि SAG पाइपलाइन में एक ऑर्थोगोनल घटक है जो पारंपरिक मार्गदर्शन विधियों के साथ एक ही समय में उपयोग किया जा सकता है।

हालांकि, यह अभी भी अपवाह मॉडलों को एक विशिष्ट तरीके से प्रशिक्षित करने की आवश्यकता है, जो जटिलता और गणनात्मक लागत को बढ़ाता है।

इसके अलावा, स्व-ध्यान मार्गदर्शन का कार्यान्वयन न तो मेमोरी और न ही समय की खपत को बढ़ाता है, जो यह दर्शाता है कि SAG में ऑपरेशन जैसे मास्किंग और ब्लरिंग से उत्पन्न होने वाला ओवरहेड नगण्य है। हालांकि, यह अभी भी गणनात्मक लागत को बढ़ाता है, क्योंकि यह एक अतिरिक्त चरण को शामिल करता है जो मार्गदर्शन की अनुपस्थिति वाले दृष्टिकोण की तुलना में अधिक है।

अंतिम विचार

इस लेख में, हमने स्व-ध्यान मार्गदर्शन पर चर्चा की, जो एक नवीन और सामान्य मार्गदर्शन विधि है जो अपवाह मॉडलों के भीतर उपलब्ध आंतरिक जानकारी का उपयोग उच्च-गुणवत्ता वाली छवियों को उत्पन्न करने के लिए करती है। स्व-ध्यान मार्गदर्शन एक साधारण सिद्धांत पर आधारित है जो यह मानता है कि मध्यवर्ती नमूनों में निहित आंतरिक जानकारी भी मार्गदर्शन के रूप में कार्य कर सकती है। स्व-ध्यान मार्गदर्शन पाइपलाइन एक सशर्त-मुक्त और प्रशिक्षण-मुक्त दृष्टिकोण है जो विभिन्न अपवाह मॉडलों पर लागू किया जा सकता है और स्व-स्थिति को कम करने के लिए उपयोग किया जाता है, जो उत्पन्न छवियों की समग्र गुणवत्ता को बढ़ाता है।

Related Topics:Denoising diffusion models

Kunal Kejriwal

एक इंजीनियर पेशे से, एक लेखक दिल से। कुनाल एक तकनीकी लेखक हैं जिन्हें एआई और एमएल के प्रति गहरा प्यार और समझ है, जो अपने आकर्षक और जानकारीपूर्ण दस्तावेज़ के माध्यम से इन क्षेत्रों में जटिल अवधारणाओं को सरल बनाने के लिए समर्पित हैं।