Connect with us

рдорд╛рдирд╡ рдзреНрдпрд╛рди рдХрд╛ рд▓рд╛рдн рдЙрдард╛рдирд╛ AI рджреНрд╡рд╛рд░рд╛ рдЙрддреНрдкрдиреНрди рдЫрд╡рд┐рдпреЛрдВ рдореЗрдВ рд╕реБрдзрд╛рд░ рдХрд░ рд╕рдХрддрд╛ рд╣реИ

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдорд╛рдирд╡ рдзреНрдпрд╛рди рдХрд╛ рд▓рд╛рдн рдЙрдард╛рдирд╛ AI рджреНрд╡рд╛рд░рд╛ рдЙрддреНрдкрдиреНрди рдЫрд╡рд┐рдпреЛрдВ рдореЗрдВ рд╕реБрдзрд╛рд░ рдХрд░ рд╕рдХрддрд╛ рд╣реИ

mm
An AI-generated image by ChatGPT. Prompt: ' a panoramic image representing salient object detection, featuring a person. The salient heat-map should be clear and obvious, and this illustration should be in the style of results from scientific papers about saliency maps'

चीन से नए शोध ने लेटेंट डिफ्यूजन मॉडल (LDMs) मॉडल जैसे स्टेबल डिफ्यूजन के द्वारा उत्पन्न छवियों की गुणवत्ता में सुधार करने के लिए एक विधि का प्रस्ताव किया है।

यह विधि छवि के स्पष्ट क्षेत्रों को अनुकूलित करने पर केंद्रित है – क्षेत्र जो मानव ध्यान को आकर्षित करने की सबसे अधिक संभावना रखते हैं।

рдирдИ рдЕрдиреБрд╕рдВрдзрд╛рди рдиреЗ рдкрд╛рдпрд╛ рд╣реИ рдХрд┐ рд╕aliency рдорд╛рдирдЪрд┐рддреНрд░ (рдмрд╛рдпреЗрдВ рд╕реЗ рдЪреМрдерд╛ рд╕реНрддрдВрдн) рдХреЛ рдПрдХ рдлрд┐рд▓реНрдЯрд░, рдпрд╛ 'рдорд╛рд╕реНрдХ', рдХреЗ рд░реВрдк рдореЗрдВ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ рддрд╛рдХрд┐ рдзреНрд╡рдирд┐ рдкреНрд░рдХреНрд░рд┐рдпрд╛рдУрдВ рдореЗрдВ рдзреНрдпрд╛рди рдХреЛ рдЙрди рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреА рдУрд░ рдирд┐рд░реНрджреЗрд╢рд┐рдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХреЗ рдЬрд┐рди рдкрд░ рдорд╛рдирд╡ рд╕рдмрд╕реЗ рдЕрдзрд┐рдХ рдзреНрдпрд╛рди рджреЗрдиреЗ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рд╣реИред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/2410.10257

नई अनुसंधान ने पाया है कि सaliency मानचित्र (बायें से चौथा स्तंभ) को एक फिल्टर, या ‘मास्क’, के रूप में उपयोग किया जा सकता है ताकि ध्वनि प्रक्रियाओं में ध्यान को उन क्षेत्रों की ओर निर्देशित किया जा सके जिन पर मानव सबसे अधिक ध्यान देने की संभावना है। स्रोत: https://arxiv.org/pdf/2410.10257

पारंपरिक विधियों में, पूरी छवि को समान रूप से अनुकूलित किया जाता है, जबकि नई विधि एक सaliency डिटेक्टर का उपयोग करके अधिक ‘महत्वपूर्ण’ क्षेत्रों की पहचान और प्राथमिकता देती है, जैसा कि मानव करते हैं।

गुणात्मक और गुणात्मक परीक्षणों में, शोधकर्ताओं की विधि पिछले डिफ्यूजन-आधारित मॉडलों को पार कर गई, दोनों छवि गुणवत्ता और पाठ प्रोम्प्ट की वफादारी के मामले में।

नई विधि ने 100 प्रतिभागियों के साथ एक मानव धारणा परीक्षण में भी सर्वश्रेष्ठ स्कोर किया।

प्राकृतिक चयन

सaliency, वास्तविक दुनिया और छवियों में जानकारी को प्राथमिकता देने की क्षमता, मानव दृष्टि का एक अनिवार्य भाग है।

एक सरल उदाहरण यह है कि क्लासिक कला में महत्वपूर्ण क्षेत्रों को विस्तार से चित्रित किया जाता है, जैसे कि एक पोर्ट्रेट में चेहरा या एक समुद्र-आधारित विषय में मास्ट; ऐसे उदाहरणों में, कलाकार का ध्यान केंद्रीय विषय पर केंद्रित होता है, जिसका अर्थ है कि विस्तृत विवरण जैसे पोर्ट्रेट की पृष्ठभूमि या दूर की लहरें अधिक स्केची और व्यापक रूप से प्रतिनिधित्व करती हैं niż विस्तृत।

मानव अध्ययन से सूचित, मशीन लर्निंग विधियों ने पिछले दशक में उभरा है जो किसी भी छवि में मानव ध्यान के इस लोकус को दोहरा सकती हैं या कम से कम अनुमानित कर सकती हैं।

рд╡рд╕реНрддреБ рд╕реЗрдЧрдореЗрдВрдЯреЗрд╢рди (рд╕реЗрдореЗрдВрдЯрд┐рдХ рд╕реЗрдЧрдореЗрдВрдЯреЗрд╢рди) рдЫрд╡рд┐ рдХреЗ рдкрд╣рд▓реБрдУрдВ рдХреЛ рд╡реНрдпрдХреНрдд рдХрд░рдиреЗ рдФрд░ рд╕рдВрдмрдВрдзрд┐рдд рд╕aliency рдорд╛рдирдЪрд┐рддреНрд░реЛрдВ рдХреЛ рд╡рд┐рдХрд╕рд┐рдд рдХрд░рдиреЗ рдореЗрдВ рд╕рд╣рд╛рдпрдХ рд╣реЛ рд╕рдХрддрд╛ рд╣реИред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/1312.6034

वस्तु सेगमेंटेशन (सेमेंटिक सेगमेंटेशन) छवि के पहलुओं को व्यक्त करने और संबंधित सaliency मानचित्रों को विकसित करने में सहायक हो सकता है। स्रोत: https://arxiv.org/pdf/1312.6034

अनुसंधान साहित्य में, पिछले पांच वर्षों में सबसे लोकप्रिय सaliency मानचित्र डिटेक्टर 2016 का ग्रेडिएंट-वेटेड क्लास एक्टिवेशन मैपिंग (ग्रेड-कैम) पहल है, जो बाद में सुधारित ग्रेड-कैम++ प्रणाली में विकसित हुई, साथ ही अन्य विविधताएं और सुधार।

ग्रेड-कैम सेमेंटिक टोकन (जैसे ‘कुत्ता’ या ‘बिल्ली’) के ग्रेडिएंट एक्टिवेशन का उपयोग करके एक दृश्य मानचित्र उत्पन्न करता है जहां अवधारणा या एनोटेशन छवि में प्रतिनिधित्व की संभावना होती है।

рдореВрд▓ рдЧреНрд░реЗрдб-рдХреИрдо рдкрддреНрд░ рд╕реЗ рдЙрджрд╛рд╣рд░рдгред рджреВрд╕рд░реЗ рд╕реНрддрдВрдн рдореЗрдВ, рдЧрд╛рдЗрдбреЗрдб рдмреИрдХрдкреНрд░реЛрдкреЗрдЧреЗрд╢рди рд╕рднреА рдпреЛрдЧрджрд╛рдирдХрд░реНрддрд╛ рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдХреЛ рд╡реНрдпрдХреНрдд рдХрд░рддрд╛ рд╣реИред рддреАрд╕рд░реЗ рд╕реНрддрдВрдн рдореЗрдВ, 'рдХреБрддреНрддрд╛' рдФрд░ 'рдмрд┐рд▓реНрд▓реА' рджреЛ рдЕрд╡рдзрд╛рд░рдгрд╛рдУрдВ рдХреЗ рд▓рд┐рдП рд╕реЗрдореЗрдВрдЯрд┐рдХ рдорд╛рдирдЪрд┐рддреНрд░ рдЦреАрдВрдЪреЗ рдЬрд╛рддреЗ рд╣реИрдВред рдЪреМрдерд╛ рд╕реНрддрдВрдн рдкрд┐рдЫрд▓реЗ рджреЛ рдЕрдиреБрдорд╛рдиреЛрдВ рдХрд╛ рд╕рдВрдпреЛрдЬрди рдкреНрд░рд╕реНрддреБрдд рдХрд░рддрд╛ рд╣реИред рдкрд╛рдВрдЪрд╡рд╛рдВ, рдЕрдиреБрдорд╛рди рд╕реЗ рд╕рдВрдмрдВрдзрд┐рдд рдСрдХреНрд▓реВрдЬрди (рдорд╛рд╕реНрдХрд┐рдВрдЧ) рдорд╛рдирдЪрд┐рддреНрд░; рдФрд░ рдЕрдВрдд рдореЗрдВ, рдЫрдареЗ рд╕реНрддрдВрдн рдореЗрдВ, рдЧреНрд░реЗрдб-рдХреИрдо рдПрдХ рд░реЗрд╕рдиреЗрдЯ-18 рдкрд░рдд рдХреЛ рджреГрд╢реНрдп рдмрдирд╛рддрд╛ рд╣реИред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/1610.02391

मूल ग्रेड-कैम पत्र से उदाहरण। दूसरे स्तंभ में, गाइडेड बैकप्रोपेगेशन सभी योगदानकर्ता विशेषताओं को व्यक्त करता है। तीसरे स्तंभ में, ‘कुत्ता’ और ‘बिल्ली’ दो अवधारणाओं के लिए सेमेंटिक मानचित्र खींचे जाते हैं। चौथा स्तंभ पिछले दो अनुमानों का संयोजन प्रस्तुत करता है। पांचवां, अनुमान से संबंधित ऑक्लूजन (मास्किंग) मानचित्र; और अंत में, छठे स्तंभ में, ग्रेड-कैम एक रेसनेट-18 परत को दृश्य बनाता है। स्रोत: https://arxiv.org/pdf/1610.02391

मानव सर्वेक्षणों ने इन विधियों द्वारा प्राप्त परिणामों पर प्रकाश डाला है कि इन गणितीय व्यक्तियों के बीच एक संबंध है छवि में रुचि के मुख्य बिंदुओं और मानव ध्यान (जब छवि को स्कैन करते हैं) के बीच।

SGOOL

नई पत्र में यह विचार किया गया है कि सaliency टेक्स्ट-टू-इमेज (और, संभावित रूप से, टेक्स्ट-टू-वीडियो) प्रणालियों जैसे स्टेबल डिफ्यूजन और फ्लक्स में क्या ला सकती है।

जब उपयोगकर्ता के पाठ-प्रोम्प्ट की व्याख्या करते हैं, तो लेटेंट डिफ्यूजन मॉडल अपने प्रशिक्षित लेटेंट स्पेस में सीखे गए दृश्य अवधारणाओं को खोजते हैं जो शब्दों या वाक्यांशों के साथ मेल खाते हैं। वे तब इन पाए गए डेटा-बिंदुओं को ध्वनि प्रक्रिया के माध्यम से पारित करते हैं, जहां यादृच्छिक शोर धीरे-धीरे उपयोगकर्ता के पाठ-प्रोम्प्ट की रचनात्मक व्याख्या में विकसित होता है।

इस बिंदु पर, हालांकि, मॉडल प्रत्येक भाग को समान ध्यान देता है छवि का। स्टेबल डिफ्यूजन फ्रेमवर्क के 2022 में ओपनएआई के डॉल-ई इमेज जेनरेटर के लॉन्च और बाद में स्टेबिलिटी.एआई के स्टेबल डिफ्यूजन फ्रेमवर्क के ओपन-सोर्सिंग के बाद से, उपयोगकर्ताओं ने पाया है कि छवि के ‘महत्वपूर्ण’ खंड अक्सर कम-सेवा वाले होते हैं।

यह देखते हुए कि एक मानव के चित्रण में, व्यक्ति का चेहरा (जो दर्शक के लिए अधिकतम महत्व का है) छवि के कुल क्षेत्र का 10-35% से अधिक नहीं होने की संभावना है, यह लोकतांत्रिक ध्यान वितरण विधि मानव धारणा और कला और फोटोग्राफी के इतिहास के खिलाफ काम करती है।

जब किसी व्यक्ति की जींस पर बटन उनकी आंखों के समान गणना शक्ति प्राप्त करते हैं, तो संसाधनों का आवंटन असामान्य हो सकता है।

अतः, लेखकों द्वारा प्रस्तावित नई विधि, जिसे सaliency गाइडेड ऑप्टिमाइजेशन ऑफ डिफ्यूजन लेटेंट (SGOOL) कहा जाता है, एक सaliency मैपर का उपयोग करके छवि के उपेक्षित क्षेत्रों पर ध्यान बढ़ाने के लिए किया जाता है, जिसमें संभवतः प्रतिभागियों के ध्यान के परिधीय क्षेत्रों में कम संसाधनों का आवंटन किया जाता है।

विधि

SGOOL पाइपलाइन में छवि उत्पादन, सaliency मैपिंग और अनुकूलन शामिल है, जिसमें समग्र छवि और सaliency-रिफाइंड छवि संयुक्त रूप से संसाधित की जाती है।

SGOOL рдХреЗ рд▓рд┐рдП рдЕрд╡рдзрд╛рд░рдгрд╛рддреНрдордХ рдпреЛрдЬрдирд╛ред

SGOOL के लिए अवधारणात्मक योजना।

डिफ्यूजन मॉडल के लेटेंट एम्बेडिंग को सीधे फाइन-ट्यूनिंग के साथ अनुकूलित किया जाता है, जिससे विशिष्ट मॉडल को प्रशिक्षित करने की आवश्यकता समाप्त हो जाती है। स्टैनफोर्ड विश्वविद्यालय की डेनोइजिंग डिफ्यूजन इम्प्लिसिट मॉडल (DDIM) नमूना विधि को स्टेबल डिफ्यूजन के उपयोगकर्ताओं के लिए परिचित है, सaliency मानचित्रों द्वारा प्रदान की गई द्वितीयक जानकारी को शामिल करने के लिए अनुकूलित किया जाता है।

पत्र में कहा गया है:

‘हम पहले एक सaliency डिटेक्टर का उपयोग करके मानव दृश्य ध्यान प्रणाली की नकल करते हैं और स्पष्ट क्षेत्रों को चिह्नित करते हैं। एक अतिरिक्त मॉडल को प्रशिक्षित करने से बचने के लिए, हमारी विधि सीधे डिफ्यूजन लेटेंट को अनुकूलित करती है।

‘इसके अलावा, SGOOL एक विवर्तित डिफ्यूजन प्रक्रिया का उपयोग करता है और इसे स्थिर स्मृति कार्यान्वयन के गुणों से संपन्न बनाता है। इसलिए, हमारी विधि एक पैरामीटर-कुशल और प्लग-एंड-प्ले फाइन-ट्यूनिंग विधि बन जाती है। व्यापक प्रयोग कई मीट्रिक और मानव मूल्यांकन के साथ किए गए हैं। ‘

चूंकि इस विधि को ध्वनि प्रक्रिया के कई पुनरावृत्तियों की आवश्यकता होती है, लेखकों ने डायरेक्ट ऑप्टिमाइजेशन ऑफ डिफ्यूजन लेटेंट (DOODL) फ्रेमवर्क को अपनाया, जो एक विवर्तित डिफ्यूजन प्रक्रिया प्रदान करता है – हालांकि यह अभी भी पूरी छवि पर ध्यान केंद्रित करता है।

क्षेत्रों को परिभाषित करने के लिए मानव रुचि के क्षेत्र, शोधकर्ताओं ने डंडी विश्वविद्यालय के 2022 ट्रांसएलनेट फ्रेमवर्क का उपयोग किया।

2022 рдЯреНрд░рд╛рдВрд╕рдПрд▓рдиреЗрдЯ рдкрд░рд┐рдпреЛрдЬрдирд╛ рд╕реЗ рд╕aliency рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рдиреЗ рдХреЗ рдЙрджрд╛рд╣рд░рдгред рд╕реНрд░реЛрдд: https://discovery.dundee.ac.uk/ws/portalfiles/portal/89737376/1_s2.0_S0925231222004714_main.pdf

2022 ट्रांसएलनेट परियोजना से सaliency का पता लगाने के उदाहरण। स्रोत: https://discovery.dundee.ac.uk/ws/portalfiles/portal/89737376/1_s2.0_S0925231222004714_main.pdf

ट्रांसएलनेट द्वारा संसाधित सaliency क्षेत्रों को तब निष्कर्षात्मक सaliency अनुभागों को उत्पन्न करने के लिए फसली किया गया जो वास्तविक लोगों के लिए सबसे अधिक रुचि का होने की संभावना है।

पाठ और छवि के बीच का अंतर, एक हानि फंक्शन को परिभाषित करने के लिए विचार किया जाना चाहिए जो यह निर्धारित कर सकता है कि प्रक्रिया काम कर रही है या नहीं। इसके लिए, ओपनएआई के कंट्रास्टिव लैंग्वेज-इमेज प्री-ट्रेनिंग (CLIP) का एक संस्करण उपयोग किया गया – अब छवि संश्लेषण अनुसंधान क्षेत्र का एक मुख्य भाग – साथ ही पाठ प्रोम्प्ट और ग्लोबल (गैर-saliency) छवि आउटपुट के बीच सेमेंटिक दूरी का अनुमान लगाया गया।

लेखकों का दावा है:

‘[अंतिम हानि फंक्शन] सaliency भागों और ग्लोबल छवि के बीच संबंधों को एक साथ考虑 करता है, जो पीढ़ी प्रक्रिया में स्थानीय विवरण और ग्लोबल संगति को संतुलित करने में मदद करता है।

‘यह सaliency-जागरूक हानि फंक्शन का उपयोग छवि लेटेंट को अनुकूलित करने के लिए किया जाता है। ग्रेडिएंट्स को शोर-लेटेंट पर गणना किया जाता है और इनपुट प्रोम्प्ट के सалиंट और ग्लोबल पहलुओं दोनों पर संयोजन प्रभाव को बढ़ाने के लिए उपयोग किया जाता है। ‘

डेटा और परीक्षण

SGOOL का परीक्षण करने के लिए, लेखकों ने स्टेबल डिफ्यूजन V1.4 (परीक्षण परिणामों में ‘SD’ के रूप में चिह्नित) और स्टेबल डिफ्यूजन के साथ CLIP मार्गदर्शन (परिणामों में ‘बेसलाइन’ के रूप में चिह्नित) का उपयोग किया।

प्रणाली का मूल्यांकन तीन सार्वजनिक डेटासेट के खिलाफ किया गया: कॉमन सिंटैक्टिक प्रोसेस (CSP), ड्रॉबेंच, और डेलीडेल*।

बाद वाला 99 विस्तृत प्रोम्प्ट्स को एक कलाकार से शामिल करता है जो ओपनएआई के एक ब्लॉग पोस्ट में शामिल है, जबकि ड्रॉबेंच 11 श्रेणियों में 200 प्रोम्प्ट्स प्रदान करता है। सीएसपी आठ विविध व्याकरणिक मामलों पर आधारित 52 प्रोम्प्ट्स से बना है।

एसडी के लिए, बेसलाइन और एसजीओओएल, परीक्षणों में, सीएलआईपी मॉडल को वीआईटी/बी-32 के ऊपर 256×256 आउटपुट आकार और डिफ़ॉल्ट वजन और ट्रांसएलनेट की सेटिंग्स के साथ उपयोग किया गया था।

सीएलआईपी स्कोर मीट्रिक के अलावा, एक अनुमानित मानव प्राथमिकता स्कोर (एचपीएस) का उपयोग किया गया, साथ ही 100 प्रतिभागियों के साथ एक वास्तविक दुनिया अध्ययन।

рдкрд┐рдЫрд▓реЗ рдХреЙрдиреНрдлрд╝рд┐рдЧрд░реЗрд╢рди рдХреА рддреБрд▓рдирд╛ рдореЗрдВ рдПрд╕рдЬреАрдУрдУрдПрд▓ рдХреЗ рд▓рд┐рдП рдорд╛рддреНрд░рд╛рддреНрдордХ рдкрд░рд┐рдгрд╛рдоред

पिछले कॉन्फ़िगरेशन की तुलना में एसजीओओएल के लिए मात्रात्मक परिणाम।

उपरोक्त तालिका में दिखाए गए मात्रात्मक परिणामों के संबंध में, पत्र में कहा गया है:

‘[हमारा] मॉडल सभी डेटासेट पर सीएलआईपी स्कोर और एचपीएस मीट्रिक दोनों के तहत एसडी और बेसलाइन से काफी बेहतर प्रदर्शन करता है। हमारे मॉडल का सीएलआईपी स्कोर और एचपीएस पर औसत परिणाम क्रमशः 3.05 और 0.0029 दूसरे स्थान से अधिक है। ‘

लेखकों ने पिछले दृष्टिकोणों के संबंध में एचपीएस और सीएलआईपी स्कोर के बॉक्स प्लॉट का अनुमान लगाया:

рдкрд░реАрдХреНрд╖рдгреЛрдВ рдореЗрдВ рдкреНрд░рд╛рдкреНрдд рдПрдЪрдкреАрдПрд╕ рдФрд░ рд╕реАрдПрд▓рдЖрдИрдкреА рд╕реНрдХреЛрд░ рдХреЗ рд▓рд┐рдП рдмреЙрдХреНрд╕ рдкреНрд▓реЙрдЯред

परीक्षणों में प्राप्त एचपीएस और सीएलआईपी स्कोर के लिए बॉक्स प्लॉट।

वे टिप्पणी करते हैं:

‘यह देखा जा सकता है कि हमारा मॉडल अन्य मॉडलों से बेहतर प्रदर्शन करता है, जो दर्शाता है कि हमारा मॉडल प्रोम्प्ट के साथ संगत छवियों को उत्पन्न करने में अधिक सक्षम है।

‘हालांकि, बॉक्स प्लॉट में तुलना को देखना मुश्किल है क्योंकि इस मूल्यांकन मीट्रिक का आकार [0, 1] है। इसलिए, हम संबंधित बार प्लॉट को प्लॉट करने के लिए आगे बढ़ते हैं।

‘यह देखा जा सकता है कि एसजीओओएल सभी डेटासेट पर सीएलआईपी स्कोर और एचपीएस मीट्रिक दोनों के तहत एसडी और बेसलाइन से बेहतर प्रदर्शन करता है। मात्रात्मक परिणाम दर्शाते हैं कि हमारा मॉडल अधिक सेमेंटिक रूप से संगत और मानव-पसंदीदा छवियों को उत्पन्न कर सकता है। ‘

शोधकर्ता यह भी बताते हैं कि जबकि बेसलाइन मॉडल छवि आउटपुट की गुणवत्ता में सुधार करने में सक्षम है, यह छवि के सaliency क्षेत्रों पर विचार नहीं करता है। वे दावा करते हैं कि एसजीओओएल, वैश्विक और सaliency छवि मूल्यांकन के बीच समझौता करके, बेहतर छवियों को प्राप्त करता है।

गुणात्मक (स्वचालित) तुलना में, एसजीओओएल और डीओओडीएल के लिए अनुकूलन की संख्या 50 पर सेट की गई थी।

рдкрд░реАрдХреНрд╖рдгреЛрдВ рдХреЗ рд▓рд┐рдП рдЧреБрдгрд╛рддреНрдордХ рдкрд░рд┐рдгрд╛рдоред рд╕реНрд░реЛрдд рдкрддреНрд░ рдХреЗ рд▓рд┐рдП рдмреЗрд╣рддрд░ рдкрд░рд┐рднрд╛рд╖рд╛ рдХреЗ рд▓рд┐рдП рд╕рдВрджрд░реНрднрд┐рдд рдХрд░реЗрдВред

рдкрд░реАрдХреНрд╖рдгреЛрдВ рдХреЗ рд▓рд┐рдП рдЧреБрдгрд╛рддреНрдордХ рдкрд░рд┐рдгрд╛рдоред рд╕реНрд░реЛрдд рдкрддреНрд░ рдХреЗ рд▓рд┐рдП рдмреЗрд╣рддрд░ рдкрд░рд┐рднрд╛рд╖рд╛ рдХреЗ рд▓рд┐рдП рд╕рдВрджрд░реНрднрд┐рдд рдХрд░реЗрдВред

परीक्षणों के लिए गुणात्मक परिणाम। स्रोत पत्र के लिए बेहतर परिभाषा के लिए संदर्भित करें।

यहाँ लेखकों का अवलोकन है:

‘[पहली पंक्ति में], प्रोम्प्ट के विषय ‘एक बिल्ली गा रही है’ और ‘एक बार्बरशॉप क्वार्टेट’ हैं। एसडी द्वारा उत्पन्न छवि में चार बिल्लियाँ हैं, और छवि की सामग्री प्रोम्प्ट के साथ खराब रूप से संरेखित है।

‘बेसलाइन द्वारा उत्पन्न छवि में बिल्ली की अनदेखी की जाती है, और छवि में विवरण की कमी है। डीओओडीएल प्रोम्प्ट के साथ संगत छवि उत्पन्न करने का प्रयास करता है।

‘हालांकि, चूंकि डीओओडीएल सीधे वैश्विक छवि को अनुकूलित करता है, छवि में व्यक्ति बिल्ली की ओर अनुकूलित होते हैं। ‘

वे आगे बताते हैं कि एसजीओओएल, इसके विपरीत, मूल प्रोम्प्ट के साथ अधिक संगत छवियों को उत्पन्न करता है।

मानव धारणा परीक्षण में, 100 स्वयंसेवकों ने गुणवत्ता और सेमेंटिक संगति (अर्थात, वे अपने स्रोत पाठ-प्रोम्प्ट के साथ कितनी बारीकी से मेल खाते हैं) के लिए परीक्षण छवियों का मूल्यांकन किया। प्रतिभागियों के पास अपनी पसंद करने के लिए असीमित समय था।

рдорд╛рдирд╡ рдзрд╛рд░рдгрд╛ рдкрд░реАрдХреНрд╖рдг рдХреЗ рд▓рд┐рдП рдкрд░рд┐рдгрд╛рдоред

मानव धारणा परीक्षण के लिए परिणाम।

जैसा कि पत्र में बताया गया है, लेखकों की विधि पिछले दृष्टिकोणों पर đáng ध्यान देने योग्य रूप से पसंद की जाती है।

निष्कर्ष

स्टेबल डिफ्यूजन की स्थानीय स्थापना में कमियों को संबोधित करने के तुरंत बाद, विभिन्न अनुकूलित विधियां (जैसे अफ्टर डिटेलर) उभरीं जो प्रणाली को मानव हित के क्षेत्रों पर अतिरिक्त ध्यान देने के लिए मजबूर करती हैं।

हालांकि, इस तरह के दृष्टिकोण की आवश्यकता है कि डिफ्यूजन प्रणाली पहले अपनी सामान्य प्रक्रिया से गुजरे, जिसमें प्रत्येक छवि भाग पर समान ध्यान दिया जाता है, जिसमें बढ़े हुए काम को एक अतिरिक्त चरण के रूप में किया जाता है।

एसजीओओएल से साक्ष्य सuggest करता है कि छवि खंडों को प्राथमिकता देने के लिए बुनियादी मानव मनोविज्ञान को लागू करने से प्रारंभिक अनुमान में काफी सुधार हो सकता है, बिना पोस्ट-प्रोसेसिंग चरणों के।

 

* पत्र में सामान्य सिंटैक्टिक प्रक्रियाओं के लिए भी यही लिंक प्रदान किया गया है।

सबसे पहले बुधवार, 16 अक्टूबर, 2024 को प्रकाशित

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai