рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдорд╛рдирд╡ рдзреНрдпрд╛рди рдХрд╛ рд▓рд╛рдн рдЙрдард╛рдирд╛ AI рджреНрд╡рд╛рд░рд╛ рдЙрддреНрдкрдиреНрди рдЫрд╡рд┐рдпреЛрдВ рдореЗрдВ рд╕реБрдзрд╛рд░ рдХрд░ рд╕рдХрддрд╛ рд╣реИ

चीन से नए शोध ने लेटेंट डिफ्यूजन मॉडल (LDMs) मॉडल जैसे स्टेबल डिफ्यूजन के द्वारा उत्पन्न छवियों की गुणवत्ता में सुधार करने के लिए एक विधि का प्रस्ताव किया है।
यह विधि छवि के स्पष्ट क्षेत्रों को अनुकूलित करने पर केंद्रित है – क्षेत्र जो मानव ध्यान को आकर्षित करने की सबसे अधिक संभावना रखते हैं।

नई अनुसंधान ने पाया है कि सaliency मानचित्र (बायें से चौथा स्तंभ) को एक फिल्टर, या ‘मास्क’, के रूप में उपयोग किया जा सकता है ताकि ध्वनि प्रक्रियाओं में ध्यान को उन क्षेत्रों की ओर निर्देशित किया जा सके जिन पर मानव सबसे अधिक ध्यान देने की संभावना है। स्रोत: https://arxiv.org/pdf/2410.10257
पारंपरिक विधियों में, पूरी छवि को समान रूप से अनुकूलित किया जाता है, जबकि नई विधि एक सaliency डिटेक्टर का उपयोग करके अधिक ‘महत्वपूर्ण’ क्षेत्रों की पहचान और प्राथमिकता देती है, जैसा कि मानव करते हैं।
गुणात्मक और गुणात्मक परीक्षणों में, शोधकर्ताओं की विधि पिछले डिफ्यूजन-आधारित मॉडलों को पार कर गई, दोनों छवि गुणवत्ता और पाठ प्रोम्प्ट की वफादारी के मामले में।
नई विधि ने 100 प्रतिभागियों के साथ एक मानव धारणा परीक्षण में भी सर्वश्रेष्ठ स्कोर किया।
प्राकृतिक चयन
सaliency, वास्तविक दुनिया और छवियों में जानकारी को प्राथमिकता देने की क्षमता, मानव दृष्टि का एक अनिवार्य भाग है।
एक सरल उदाहरण यह है कि क्लासिक कला में महत्वपूर्ण क्षेत्रों को विस्तार से चित्रित किया जाता है, जैसे कि एक पोर्ट्रेट में चेहरा या एक समुद्र-आधारित विषय में मास्ट; ऐसे उदाहरणों में, कलाकार का ध्यान केंद्रीय विषय पर केंद्रित होता है, जिसका अर्थ है कि विस्तृत विवरण जैसे पोर्ट्रेट की पृष्ठभूमि या दूर की लहरें अधिक स्केची और व्यापक रूप से प्रतिनिधित्व करती हैं niż विस्तृत।
मानव अध्ययन से सूचित, मशीन लर्निंग विधियों ने पिछले दशक में उभरा है जो किसी भी छवि में मानव ध्यान के इस लोकус को दोहरा सकती हैं या कम से कम अनुमानित कर सकती हैं।

वस्तु सेगमेंटेशन (सेमेंटिक सेगमेंटेशन) छवि के पहलुओं को व्यक्त करने और संबंधित सaliency मानचित्रों को विकसित करने में सहायक हो सकता है। स्रोत: https://arxiv.org/pdf/1312.6034
अनुसंधान साहित्य में, पिछले पांच वर्षों में सबसे लोकप्रिय सaliency मानचित्र डिटेक्टर 2016 का ग्रेडिएंट-वेटेड क्लास एक्टिवेशन मैपिंग (ग्रेड-कैम) पहल है, जो बाद में सुधारित ग्रेड-कैम++ प्रणाली में विकसित हुई, साथ ही अन्य विविधताएं और सुधार।
ग्रेड-कैम सेमेंटिक टोकन (जैसे ‘कुत्ता’ या ‘बिल्ली’) के ग्रेडिएंट एक्टिवेशन का उपयोग करके एक दृश्य मानचित्र उत्पन्न करता है जहां अवधारणा या एनोटेशन छवि में प्रतिनिधित्व की संभावना होती है।

मूल ग्रेड-कैम पत्र से उदाहरण। दूसरे स्तंभ में, गाइडेड बैकप्रोपेगेशन सभी योगदानकर्ता विशेषताओं को व्यक्त करता है। तीसरे स्तंभ में, ‘कुत्ता’ और ‘बिल्ली’ दो अवधारणाओं के लिए सेमेंटिक मानचित्र खींचे जाते हैं। चौथा स्तंभ पिछले दो अनुमानों का संयोजन प्रस्तुत करता है। पांचवां, अनुमान से संबंधित ऑक्लूजन (मास्किंग) मानचित्र; और अंत में, छठे स्तंभ में, ग्रेड-कैम एक रेसनेट-18 परत को दृश्य बनाता है। स्रोत: https://arxiv.org/pdf/1610.02391
मानव सर्वेक्षणों ने इन विधियों द्वारा प्राप्त परिणामों पर प्रकाश डाला है कि इन गणितीय व्यक्तियों के बीच एक संबंध है छवि में रुचि के मुख्य बिंदुओं और मानव ध्यान (जब छवि को स्कैन करते हैं) के बीच।
SGOOL
नई पत्र में यह विचार किया गया है कि सaliency टेक्स्ट-टू-इमेज (और, संभावित रूप से, टेक्स्ट-टू-वीडियो) प्रणालियों जैसे स्टेबल डिफ्यूजन और फ्लक्स में क्या ला सकती है।
जब उपयोगकर्ता के पाठ-प्रोम्प्ट की व्याख्या करते हैं, तो लेटेंट डिफ्यूजन मॉडल अपने प्रशिक्षित लेटेंट स्पेस में सीखे गए दृश्य अवधारणाओं को खोजते हैं जो शब्दों या वाक्यांशों के साथ मेल खाते हैं। वे तब इन पाए गए डेटा-बिंदुओं को ध्वनि प्रक्रिया के माध्यम से पारित करते हैं, जहां यादृच्छिक शोर धीरे-धीरे उपयोगकर्ता के पाठ-प्रोम्प्ट की रचनात्मक व्याख्या में विकसित होता है।
इस बिंदु पर, हालांकि, मॉडल प्रत्येक भाग को समान ध्यान देता है छवि का। स्टेबल डिफ्यूजन फ्रेमवर्क के 2022 में ओपनएआई के डॉल-ई इमेज जेनरेटर के लॉन्च और बाद में स्टेबिलिटी.एआई के स्टेबल डिफ्यूजन फ्रेमवर्क के ओपन-सोर्सिंग के बाद से, उपयोगकर्ताओं ने पाया है कि छवि के ‘महत्वपूर्ण’ खंड अक्सर कम-सेवा वाले होते हैं।
यह देखते हुए कि एक मानव के चित्रण में, व्यक्ति का चेहरा (जो दर्शक के लिए अधिकतम महत्व का है) छवि के कुल क्षेत्र का 10-35% से अधिक नहीं होने की संभावना है, यह लोकतांत्रिक ध्यान वितरण विधि मानव धारणा और कला और फोटोग्राफी के इतिहास के खिलाफ काम करती है।
जब किसी व्यक्ति की जींस पर बटन उनकी आंखों के समान गणना शक्ति प्राप्त करते हैं, तो संसाधनों का आवंटन असामान्य हो सकता है।
अतः, लेखकों द्वारा प्रस्तावित नई विधि, जिसे सaliency गाइडेड ऑप्टिमाइजेशन ऑफ डिफ्यूजन लेटेंट (SGOOL) कहा जाता है, एक सaliency मैपर का उपयोग करके छवि के उपेक्षित क्षेत्रों पर ध्यान बढ़ाने के लिए किया जाता है, जिसमें संभवतः प्रतिभागियों के ध्यान के परिधीय क्षेत्रों में कम संसाधनों का आवंटन किया जाता है।
विधि
SGOOL पाइपलाइन में छवि उत्पादन, सaliency मैपिंग और अनुकूलन शामिल है, जिसमें समग्र छवि और सaliency-रिफाइंड छवि संयुक्त रूप से संसाधित की जाती है।

SGOOL के लिए अवधारणात्मक योजना।
डिफ्यूजन मॉडल के लेटेंट एम्बेडिंग को सीधे फाइन-ट्यूनिंग के साथ अनुकूलित किया जाता है, जिससे विशिष्ट मॉडल को प्रशिक्षित करने की आवश्यकता समाप्त हो जाती है। स्टैनफोर्ड विश्वविद्यालय की डेनोइजिंग डिफ्यूजन इम्प्लिसिट मॉडल (DDIM) नमूना विधि को स्टेबल डिफ्यूजन के उपयोगकर्ताओं के लिए परिचित है, सaliency मानचित्रों द्वारा प्रदान की गई द्वितीयक जानकारी को शामिल करने के लिए अनुकूलित किया जाता है।
पत्र में कहा गया है:
‘हम पहले एक सaliency डिटेक्टर का उपयोग करके मानव दृश्य ध्यान प्रणाली की नकल करते हैं और स्पष्ट क्षेत्रों को चिह्नित करते हैं। एक अतिरिक्त मॉडल को प्रशिक्षित करने से बचने के लिए, हमारी विधि सीधे डिफ्यूजन लेटेंट को अनुकूलित करती है।
‘इसके अलावा, SGOOL एक विवर्तित डिफ्यूजन प्रक्रिया का उपयोग करता है और इसे स्थिर स्मृति कार्यान्वयन के गुणों से संपन्न बनाता है। इसलिए, हमारी विधि एक पैरामीटर-कुशल और प्लग-एंड-प्ले फाइन-ट्यूनिंग विधि बन जाती है। व्यापक प्रयोग कई मीट्रिक और मानव मूल्यांकन के साथ किए गए हैं। ‘
चूंकि इस विधि को ध्वनि प्रक्रिया के कई पुनरावृत्तियों की आवश्यकता होती है, लेखकों ने डायरेक्ट ऑप्टिमाइजेशन ऑफ डिफ्यूजन लेटेंट (DOODL) फ्रेमवर्क को अपनाया, जो एक विवर्तित डिफ्यूजन प्रक्रिया प्रदान करता है – हालांकि यह अभी भी पूरी छवि पर ध्यान केंद्रित करता है।
क्षेत्रों को परिभाषित करने के लिए मानव रुचि के क्षेत्र, शोधकर्ताओं ने डंडी विश्वविद्यालय के 2022 ट्रांसएलनेट फ्रेमवर्क का उपयोग किया।

2022 ट्रांसएलनेट परियोजना से सaliency का पता लगाने के उदाहरण। स्रोत: https://discovery.dundee.ac.uk/ws/portalfiles/portal/89737376/1_s2.0_S0925231222004714_main.pdf
ट्रांसएलनेट द्वारा संसाधित सaliency क्षेत्रों को तब निष्कर्षात्मक सaliency अनुभागों को उत्पन्न करने के लिए फसली किया गया जो वास्तविक लोगों के लिए सबसे अधिक रुचि का होने की संभावना है।
पाठ और छवि के बीच का अंतर, एक हानि फंक्शन को परिभाषित करने के लिए विचार किया जाना चाहिए जो यह निर्धारित कर सकता है कि प्रक्रिया काम कर रही है या नहीं। इसके लिए, ओपनएआई के कंट्रास्टिव लैंग्वेज-इमेज प्री-ट्रेनिंग (CLIP) का एक संस्करण उपयोग किया गया – अब छवि संश्लेषण अनुसंधान क्षेत्र का एक मुख्य भाग – साथ ही पाठ प्रोम्प्ट और ग्लोबल (गैर-saliency) छवि आउटपुट के बीच सेमेंटिक दूरी का अनुमान लगाया गया।
लेखकों का दावा है:
‘[अंतिम हानि फंक्शन] सaliency भागों और ग्लोबल छवि के बीच संबंधों को एक साथ考虑 करता है, जो पीढ़ी प्रक्रिया में स्थानीय विवरण और ग्लोबल संगति को संतुलित करने में मदद करता है।
‘यह सaliency-जागरूक हानि फंक्शन का उपयोग छवि लेटेंट को अनुकूलित करने के लिए किया जाता है। ग्रेडिएंट्स को शोर-लेटेंट पर गणना किया जाता है और इनपुट प्रोम्प्ट के सалиंट और ग्लोबल पहलुओं दोनों पर संयोजन प्रभाव को बढ़ाने के लिए उपयोग किया जाता है। ‘
डेटा और परीक्षण
SGOOL का परीक्षण करने के लिए, लेखकों ने स्टेबल डिफ्यूजन V1.4 (परीक्षण परिणामों में ‘SD’ के रूप में चिह्नित) और स्टेबल डिफ्यूजन के साथ CLIP मार्गदर्शन (परिणामों में ‘बेसलाइन’ के रूप में चिह्नित) का उपयोग किया।
प्रणाली का मूल्यांकन तीन सार्वजनिक डेटासेट के खिलाफ किया गया: कॉमन सिंटैक्टिक प्रोसेस (CSP), ड्रॉबेंच, और डेलीडेल*।
बाद वाला 99 विस्तृत प्रोम्प्ट्स को एक कलाकार से शामिल करता है जो ओपनएआई के एक ब्लॉग पोस्ट में शामिल है, जबकि ड्रॉबेंच 11 श्रेणियों में 200 प्रोम्प्ट्स प्रदान करता है। सीएसपी आठ विविध व्याकरणिक मामलों पर आधारित 52 प्रोम्प्ट्स से बना है।
एसडी के लिए, बेसलाइन और एसजीओओएल, परीक्षणों में, सीएलआईपी मॉडल को वीआईटी/बी-32 के ऊपर 256×256 आउटपुट आकार और डिफ़ॉल्ट वजन और ट्रांसएलनेट की सेटिंग्स के साथ उपयोग किया गया था।
सीएलआईपी स्कोर मीट्रिक के अलावा, एक अनुमानित मानव प्राथमिकता स्कोर (एचपीएस) का उपयोग किया गया, साथ ही 100 प्रतिभागियों के साथ एक वास्तविक दुनिया अध्ययन।

पिछले कॉन्फ़िगरेशन की तुलना में एसजीओओएल के लिए मात्रात्मक परिणाम।
उपरोक्त तालिका में दिखाए गए मात्रात्मक परिणामों के संबंध में, पत्र में कहा गया है:
‘[हमारा] मॉडल सभी डेटासेट पर सीएलआईपी स्कोर और एचपीएस मीट्रिक दोनों के तहत एसडी और बेसलाइन से काफी बेहतर प्रदर्शन करता है। हमारे मॉडल का सीएलआईपी स्कोर और एचपीएस पर औसत परिणाम क्रमशः 3.05 और 0.0029 दूसरे स्थान से अधिक है। ‘
लेखकों ने पिछले दृष्टिकोणों के संबंध में एचपीएस और सीएलआईपी स्कोर के बॉक्स प्लॉट का अनुमान लगाया:

परीक्षणों में प्राप्त एचपीएस और सीएलआईपी स्कोर के लिए बॉक्स प्लॉट।
वे टिप्पणी करते हैं:
‘यह देखा जा सकता है कि हमारा मॉडल अन्य मॉडलों से बेहतर प्रदर्शन करता है, जो दर्शाता है कि हमारा मॉडल प्रोम्प्ट के साथ संगत छवियों को उत्पन्न करने में अधिक सक्षम है।
‘हालांकि, बॉक्स प्लॉट में तुलना को देखना मुश्किल है क्योंकि इस मूल्यांकन मीट्रिक का आकार [0, 1] है। इसलिए, हम संबंधित बार प्लॉट को प्लॉट करने के लिए आगे बढ़ते हैं।
‘यह देखा जा सकता है कि एसजीओओएल सभी डेटासेट पर सीएलआईपी स्कोर और एचपीएस मीट्रिक दोनों के तहत एसडी और बेसलाइन से बेहतर प्रदर्शन करता है। मात्रात्मक परिणाम दर्शाते हैं कि हमारा मॉडल अधिक सेमेंटिक रूप से संगत और मानव-पसंदीदा छवियों को उत्पन्न कर सकता है। ‘
शोधकर्ता यह भी बताते हैं कि जबकि बेसलाइन मॉडल छवि आउटपुट की गुणवत्ता में सुधार करने में सक्षम है, यह छवि के सaliency क्षेत्रों पर विचार नहीं करता है। वे दावा करते हैं कि एसजीओओएल, वैश्विक और सaliency छवि मूल्यांकन के बीच समझौता करके, बेहतर छवियों को प्राप्त करता है।
गुणात्मक (स्वचालित) तुलना में, एसजीओओएल और डीओओडीएल के लिए अनुकूलन की संख्या 50 पर सेट की गई थी।


परीक्षणों के लिए गुणात्मक परिणाम। स्रोत पत्र के लिए बेहतर परिभाषा के लिए संदर्भित करें।
यहाँ लेखकों का अवलोकन है:
‘[पहली पंक्ति में], प्रोम्प्ट के विषय ‘एक बिल्ली गा रही है’ और ‘एक बार्बरशॉप क्वार्टेट’ हैं। एसडी द्वारा उत्पन्न छवि में चार बिल्लियाँ हैं, और छवि की सामग्री प्रोम्प्ट के साथ खराब रूप से संरेखित है।
‘बेसलाइन द्वारा उत्पन्न छवि में बिल्ली की अनदेखी की जाती है, और छवि में विवरण की कमी है। डीओओडीएल प्रोम्प्ट के साथ संगत छवि उत्पन्न करने का प्रयास करता है।
‘हालांकि, चूंकि डीओओडीएल सीधे वैश्विक छवि को अनुकूलित करता है, छवि में व्यक्ति बिल्ली की ओर अनुकूलित होते हैं। ‘
वे आगे बताते हैं कि एसजीओओएल, इसके विपरीत, मूल प्रोम्प्ट के साथ अधिक संगत छवियों को उत्पन्न करता है।
मानव धारणा परीक्षण में, 100 स्वयंसेवकों ने गुणवत्ता और सेमेंटिक संगति (अर्थात, वे अपने स्रोत पाठ-प्रोम्प्ट के साथ कितनी बारीकी से मेल खाते हैं) के लिए परीक्षण छवियों का मूल्यांकन किया। प्रतिभागियों के पास अपनी पसंद करने के लिए असीमित समय था।

मानव धारणा परीक्षण के लिए परिणाम।
जैसा कि पत्र में बताया गया है, लेखकों की विधि पिछले दृष्टिकोणों पर đáng ध्यान देने योग्य रूप से पसंद की जाती है।
निष्कर्ष
स्टेबल डिफ्यूजन की स्थानीय स्थापना में कमियों को संबोधित करने के तुरंत बाद, विभिन्न अनुकूलित विधियां (जैसे अफ्टर डिटेलर) उभरीं जो प्रणाली को मानव हित के क्षेत्रों पर अतिरिक्त ध्यान देने के लिए मजबूर करती हैं।
हालांकि, इस तरह के दृष्टिकोण की आवश्यकता है कि डिफ्यूजन प्रणाली पहले अपनी सामान्य प्रक्रिया से गुजरे, जिसमें प्रत्येक छवि भाग पर समान ध्यान दिया जाता है, जिसमें बढ़े हुए काम को एक अतिरिक्त चरण के रूप में किया जाता है।
एसजीओओएल से साक्ष्य सuggest करता है कि छवि खंडों को प्राथमिकता देने के लिए बुनियादी मानव मनोविज्ञान को लागू करने से प्रारंभिक अनुमान में काफी सुधार हो सकता है, बिना पोस्ट-प्रोसेसिंग चरणों के।
* पत्र में सामान्य सिंटैक्टिक प्रक्रियाओं के लिए भी यही लिंक प्रदान किया गया है।
सबसे पहले बुधवार, 16 अक्टूबर, 2024 को प्रकाशित












