कृत्रिम बुद्धिमत्ता

मानव ध्यान का लाभ उठाना AI द्वारा उत्पन्न छवियों में सुधार कर सकता है

Published October 16, 2024

Updated April 27, 2026

Martin Anderson

An AI-generated image by ChatGPT. Prompt: ' a panoramic image representing salient object detection, featuring a person. The salient heat-map should be clear and obvious, and this illustration should be in the style of results from scientific papers about saliency maps'

चीन से नए शोध ने लेटेंट डिफ्यूजन मॉडल (LDMs) मॉडल जैसे स्टेबल डिफ्यूजन के द्वारा उत्पन्न छवियों की गुणवत्ता में सुधार करने के लिए एक विधि का प्रस्ताव किया है।

यह विधि छवि के स्पष्ट क्षेत्रों को अनुकूलित करने पर केंद्रित है – क्षेत्र जो मानव ध्यान को आकर्षित करने की सबसे अधिक संभावना रखते हैं।

नई अनुसंधान ने पाया है कि सaliency मानचित्र (बायें से चौथा स्तंभ) को एक फिल्टर, या ‘मास्क’, के रूप में उपयोग किया जा सकता है ताकि ध्वनि प्रक्रियाओं में ध्यान को उन क्षेत्रों की ओर निर्देशित किया जा सके जिन पर मानव सबसे अधिक ध्यान देने की संभावना है। स्रोत: https://arxiv.org/pdf/2410.10257

पारंपरिक विधियों में, पूरी छवि को समान रूप से अनुकूलित किया जाता है, जबकि नई विधि एक सaliency डिटेक्टर का उपयोग करके अधिक ‘महत्वपूर्ण’ क्षेत्रों की पहचान और प्राथमिकता देती है, जैसा कि मानव करते हैं।

गुणात्मक और गुणात्मक परीक्षणों में, शोधकर्ताओं की विधि पिछले डिफ्यूजन-आधारित मॉडलों को पार कर गई, दोनों छवि गुणवत्ता और पाठ प्रोम्प्ट की वफादारी के मामले में।

नई विधि ने 100 प्रतिभागियों के साथ एक मानव धारणा परीक्षण में भी सर्वश्रेष्ठ स्कोर किया।

प्राकृतिक चयन

सaliency, वास्तविक दुनिया और छवियों में जानकारी को प्राथमिकता देने की क्षमता, मानव दृष्टि का एक अनिवार्य भाग है।

एक सरल उदाहरण यह है कि क्लासिक कला में महत्वपूर्ण क्षेत्रों को विस्तार से चित्रित किया जाता है, जैसे कि एक पोर्ट्रेट में चेहरा या एक समुद्र-आधारित विषय में मास्ट; ऐसे उदाहरणों में, कलाकार का ध्यान केंद्रीय विषय पर केंद्रित होता है, जिसका अर्थ है कि विस्तृत विवरण जैसे पोर्ट्रेट की पृष्ठभूमि या दूर की लहरें अधिक स्केची और व्यापक रूप से प्रतिनिधित्व करती हैं niż विस्तृत।

मानव अध्ययन से सूचित, मशीन लर्निंग विधियों ने पिछले दशक में उभरा है जो किसी भी छवि में मानव ध्यान के इस लोकус को दोहरा सकती हैं या कम से कम अनुमानित कर सकती हैं।

वस्तु सेगमेंटेशन (सेमेंटिक सेगमेंटेशन) छवि के पहलुओं को व्यक्त करने और संबंधित सaliency मानचित्रों को विकसित करने में सहायक हो सकता है। स्रोत: https://arxiv.org/pdf/1312.6034

अनुसंधान साहित्य में, पिछले पांच वर्षों में सबसे लोकप्रिय सaliency मानचित्र डिटेक्टर 2016 का ग्रेडिएंट-वेटेड क्लास एक्टिवेशन मैपिंग (ग्रेड-कैम) पहल है, जो बाद में सुधारित ग्रेड-कैम++ प्रणाली में विकसित हुई, साथ ही अन्य विविधताएं और सुधार।

ग्रेड-कैम सेमेंटिक टोकन (जैसे ‘कुत्ता’ या ‘बिल्ली’) के ग्रेडिएंट एक्टिवेशन का उपयोग करके एक दृश्य मानचित्र उत्पन्न करता है जहां अवधारणा या एनोटेशन छवि में प्रतिनिधित्व की संभावना होती है।

मूल ग्रेड-कैम पत्र से उदाहरण। दूसरे स्तंभ में, गाइडेड बैकप्रोपेगेशन सभी योगदानकर्ता विशेषताओं को व्यक्त करता है। तीसरे स्तंभ में, ‘कुत्ता’ और ‘बिल्ली’ दो अवधारणाओं के लिए सेमेंटिक मानचित्र खींचे जाते हैं। चौथा स्तंभ पिछले दो अनुमानों का संयोजन प्रस्तुत करता है। पांचवां, अनुमान से संबंधित ऑक्लूजन (मास्किंग) मानचित्र; और अंत में, छठे स्तंभ में, ग्रेड-कैम एक रेसनेट-18 परत को दृश्य बनाता है। स्रोत: https://arxiv.org/pdf/1610.02391

मानव सर्वेक्षणों ने इन विधियों द्वारा प्राप्त परिणामों पर प्रकाश डाला है कि इन गणितीय व्यक्तियों के बीच एक संबंध है छवि में रुचि के मुख्य बिंदुओं और मानव ध्यान (जब छवि को स्कैन करते हैं) के बीच।

SGOOL

नई पत्र में यह विचार किया गया है कि सaliency टेक्स्ट-टू-इमेज (और, संभावित रूप से, टेक्स्ट-टू-वीडियो) प्रणालियों जैसे स्टेबल डिफ्यूजन और फ्लक्स में क्या ला सकती है।

जब उपयोगकर्ता के पाठ-प्रोम्प्ट की व्याख्या करते हैं, तो लेटेंट डिफ्यूजन मॉडल अपने प्रशिक्षित लेटेंट स्पेस में सीखे गए दृश्य अवधारणाओं को खोजते हैं जो शब्दों या वाक्यांशों के साथ मेल खाते हैं। वे तब इन पाए गए डेटा-बिंदुओं को ध्वनि प्रक्रिया के माध्यम से पारित करते हैं, जहां यादृच्छिक शोर धीरे-धीरे उपयोगकर्ता के पाठ-प्रोम्प्ट की रचनात्मक व्याख्या में विकसित होता है।

इस बिंदु पर, हालांकि, मॉडल प्रत्येक भाग को समान ध्यान देता है छवि का। स्टेबल डिफ्यूजन फ्रेमवर्क के 2022 में ओपनएआई के डॉल-ई इमेज जेनरेटर के लॉन्च और बाद में स्टेबिलिटी.एआई के स्टेबल डिफ्यूजन फ्रेमवर्क के ओपन-सोर्सिंग के बाद से, उपयोगकर्ताओं ने पाया है कि छवि के ‘महत्वपूर्ण’ खंड अक्सर कम-सेवा वाले होते हैं।

यह देखते हुए कि एक मानव के चित्रण में, व्यक्ति का चेहरा (जो दर्शक के लिए अधिकतम महत्व का है) छवि के कुल क्षेत्र का 10-35% से अधिक नहीं होने की संभावना है, यह लोकतांत्रिक ध्यान वितरण विधि मानव धारणा और कला और फोटोग्राफी के इतिहास के खिलाफ काम करती है।

जब किसी व्यक्ति की जींस पर बटन उनकी आंखों के समान गणना शक्ति प्राप्त करते हैं, तो संसाधनों का आवंटन असामान्य हो सकता है।

अतः, लेखकों द्वारा प्रस्तावित नई विधि, जिसे सaliency गाइडेड ऑप्टिमाइजेशन ऑफ डिफ्यूजन लेटेंट (SGOOL) कहा जाता है, एक सaliency मैपर का उपयोग करके छवि के उपेक्षित क्षेत्रों पर ध्यान बढ़ाने के लिए किया जाता है, जिसमें संभवतः प्रतिभागियों के ध्यान के परिधीय क्षेत्रों में कम संसाधनों का आवंटन किया जाता है।

विधि

SGOOL पाइपलाइन में छवि उत्पादन, सaliency मैपिंग और अनुकूलन शामिल है, जिसमें समग्र छवि और सaliency-रिफाइंड छवि संयुक्त रूप से संसाधित की जाती है।

SGOOL के लिए अवधारणात्मक योजना।

डिफ्यूजन मॉडल के लेटेंट एम्बेडिंग को सीधे फाइन-ट्यूनिंग के साथ अनुकूलित किया जाता है, जिससे विशिष्ट मॉडल को प्रशिक्षित करने की आवश्यकता समाप्त हो जाती है। स्टैनफोर्ड विश्वविद्यालय की डेनोइजिंग डिफ्यूजन इम्प्लिसिट मॉडल (DDIM) नमूना विधि को स्टेबल डिफ्यूजन के उपयोगकर्ताओं के लिए परिचित है, सaliency मानचित्रों द्वारा प्रदान की गई द्वितीयक जानकारी को शामिल करने के लिए अनुकूलित किया जाता है।

पत्र में कहा गया है:

‘हम पहले एक सaliency डिटेक्टर का उपयोग करके मानव दृश्य ध्यान प्रणाली की नकल करते हैं और स्पष्ट क्षेत्रों को चिह्नित करते हैं। एक अतिरिक्त मॉडल को प्रशिक्षित करने से बचने के लिए, हमारी विधि सीधे डिफ्यूजन लेटेंट को अनुकूलित करती है।

‘इसके अलावा, SGOOL एक विवर्तित डिफ्यूजन प्रक्रिया का उपयोग करता है और इसे स्थिर स्मृति कार्यान्वयन के गुणों से संपन्न बनाता है। इसलिए, हमारी विधि एक पैरामीटर-कुशल और प्लग-एंड-प्ले फाइन-ट्यूनिंग विधि बन जाती है। व्यापक प्रयोग कई मीट्रिक और मानव मूल्यांकन के साथ किए गए हैं। ‘

चूंकि इस विधि को ध्वनि प्रक्रिया के कई पुनरावृत्तियों की आवश्यकता होती है, लेखकों ने डायरेक्ट ऑप्टिमाइजेशन ऑफ डिफ्यूजन लेटेंट (DOODL) फ्रेमवर्क को अपनाया, जो एक विवर्तित डिफ्यूजन प्रक्रिया प्रदान करता है – हालांकि यह अभी भी पूरी छवि पर ध्यान केंद्रित करता है।

क्षेत्रों को परिभाषित करने के लिए मानव रुचि के क्षेत्र, शोधकर्ताओं ने डंडी विश्वविद्यालय के 2022 ट्रांसएलनेट फ्रेमवर्क का उपयोग किया।

2022 ट्रांसएलनेट परियोजना से सaliency का पता लगाने के उदाहरण। स्रोत: https://discovery.dundee.ac.uk/ws/portalfiles/portal/89737376/1_s2.0_S0925231222004714_main.pdf

ट्रांसएलनेट द्वारा संसाधित सaliency क्षेत्रों को तब निष्कर्षात्मक सaliency अनुभागों को उत्पन्न करने के लिए फसली किया गया जो वास्तविक लोगों के लिए सबसे अधिक रुचि का होने की संभावना है।

पाठ और छवि के बीच का अंतर, एक हानि फंक्शन को परिभाषित करने के लिए विचार किया जाना चाहिए जो यह निर्धारित कर सकता है कि प्रक्रिया काम कर रही है या नहीं। इसके लिए, ओपनएआई के कंट्रास्टिव लैंग्वेज-इमेज प्री-ट्रेनिंग (CLIP) का एक संस्करण उपयोग किया गया – अब छवि संश्लेषण अनुसंधान क्षेत्र का एक मुख्य भाग – साथ ही पाठ प्रोम्प्ट और ग्लोबल (गैर-saliency) छवि आउटपुट के बीच सेमेंटिक दूरी का अनुमान लगाया गया।

लेखकों का दावा है:

‘[अंतिम हानि फंक्शन] सaliency भागों और ग्लोबल छवि के बीच संबंधों को एक साथ考虑 करता है, जो पीढ़ी प्रक्रिया में स्थानीय विवरण और ग्लोबल संगति को संतुलित करने में मदद करता है।

‘यह सaliency-जागरूक हानि फंक्शन का उपयोग छवि लेटेंट को अनुकूलित करने के लिए किया जाता है। ग्रेडिएंट्स को शोर-लेटेंट पर गणना किया जाता है और इनपुट प्रोम्प्ट के सалиंट और ग्लोबल पहलुओं दोनों पर संयोजन प्रभाव को बढ़ाने के लिए उपयोग किया जाता है। ‘

डेटा और परीक्षण

SGOOL का परीक्षण करने के लिए, लेखकों ने स्टेबल डिफ्यूजन V1.4 (परीक्षण परिणामों में ‘SD’ के रूप में चिह्नित) और स्टेबल डिफ्यूजन के साथ CLIP मार्गदर्शन (परिणामों में ‘बेसलाइन’ के रूप में चिह्नित) का उपयोग किया।

प्रणाली का मूल्यांकन तीन सार्वजनिक डेटासेट के खिलाफ किया गया: कॉमन सिंटैक्टिक प्रोसेस (CSP), ड्रॉबेंच, और डेलीडेल*।

बाद वाला 99 विस्तृत प्रोम्प्ट्स को एक कलाकार से शामिल करता है जो ओपनएआई के एक ब्लॉग पोस्ट में शामिल है, जबकि ड्रॉबेंच 11 श्रेणियों में 200 प्रोम्प्ट्स प्रदान करता है। सीएसपी आठ विविध व्याकरणिक मामलों पर आधारित 52 प्रोम्प्ट्स से बना है।

एसडी के लिए, बेसलाइन और एसजीओओएल, परीक्षणों में, सीएलआईपी मॉडल को वीआईटी/बी-32 के ऊपर 256×256 आउटपुट आकार और डिफ़ॉल्ट वजन और ट्रांसएलनेट की सेटिंग्स के साथ उपयोग किया गया था।

सीएलआईपी स्कोर मीट्रिक के अलावा, एक अनुमानित मानव प्राथमिकता स्कोर (एचपीएस) का उपयोग किया गया, साथ ही 100 प्रतिभागियों के साथ एक वास्तविक दुनिया अध्ययन।

पिछले कॉन्फ़िगरेशन की तुलना में एसजीओओएल के लिए मात्रात्मक परिणाम।

उपरोक्त तालिका में दिखाए गए मात्रात्मक परिणामों के संबंध में, पत्र में कहा गया है:

‘[हमारा] मॉडल सभी डेटासेट पर सीएलआईपी स्कोर और एचपीएस मीट्रिक दोनों के तहत एसडी और बेसलाइन से काफी बेहतर प्रदर्शन करता है। हमारे मॉडल का सीएलआईपी स्कोर और एचपीएस पर औसत परिणाम क्रमशः 3.05 और 0.0029 दूसरे स्थान से अधिक है। ‘

लेखकों ने पिछले दृष्टिकोणों के संबंध में एचपीएस और सीएलआईपी स्कोर के बॉक्स प्लॉट का अनुमान लगाया:

परीक्षणों में प्राप्त एचपीएस और सीएलआईपी स्कोर के लिए बॉक्स प्लॉट।

वे टिप्पणी करते हैं:

‘यह देखा जा सकता है कि हमारा मॉडल अन्य मॉडलों से बेहतर प्रदर्शन करता है, जो दर्शाता है कि हमारा मॉडल प्रोम्प्ट के साथ संगत छवियों को उत्पन्न करने में अधिक सक्षम है।

‘हालांकि, बॉक्स प्लॉट में तुलना को देखना मुश्किल है क्योंकि इस मूल्यांकन मीट्रिक का आकार [0, 1] है। इसलिए, हम संबंधित बार प्लॉट को प्लॉट करने के लिए आगे बढ़ते हैं।

‘यह देखा जा सकता है कि एसजीओओएल सभी डेटासेट पर सीएलआईपी स्कोर और एचपीएस मीट्रिक दोनों के तहत एसडी और बेसलाइन से बेहतर प्रदर्शन करता है। मात्रात्मक परिणाम दर्शाते हैं कि हमारा मॉडल अधिक सेमेंटिक रूप से संगत और मानव-पसंदीदा छवियों को उत्पन्न कर सकता है। ‘

शोधकर्ता यह भी बताते हैं कि जबकि बेसलाइन मॉडल छवि आउटपुट की गुणवत्ता में सुधार करने में सक्षम है, यह छवि के सaliency क्षेत्रों पर विचार नहीं करता है। वे दावा करते हैं कि एसजीओओएल, वैश्विक और सaliency छवि मूल्यांकन के बीच समझौता करके, बेहतर छवियों को प्राप्त करता है।

गुणात्मक (स्वचालित) तुलना में, एसजीओओएल और डीओओडीएल के लिए अनुकूलन की संख्या 50 पर सेट की गई थी।

परीक्षणों के लिए गुणात्मक परिणाम। स्रोत पत्र के लिए बेहतर परिभाषा के लिए संदर्भित करें।

यहाँ लेखकों का अवलोकन है:

‘[पहली पंक्ति में], प्रोम्प्ट के विषय ‘एक बिल्ली गा रही है’ और ‘एक बार्बरशॉप क्वार्टेट’ हैं। एसडी द्वारा उत्पन्न छवि में चार बिल्लियाँ हैं, और छवि की सामग्री प्रोम्प्ट के साथ खराब रूप से संरेखित है।

‘बेसलाइन द्वारा उत्पन्न छवि में बिल्ली की अनदेखी की जाती है, और छवि में विवरण की कमी है। डीओओडीएल प्रोम्प्ट के साथ संगत छवि उत्पन्न करने का प्रयास करता है।

‘हालांकि, चूंकि डीओओडीएल सीधे वैश्विक छवि को अनुकूलित करता है, छवि में व्यक्ति बिल्ली की ओर अनुकूलित होते हैं। ‘

वे आगे बताते हैं कि एसजीओओएल, इसके विपरीत, मूल प्रोम्प्ट के साथ अधिक संगत छवियों को उत्पन्न करता है।

मानव धारणा परीक्षण में, 100 स्वयंसेवकों ने गुणवत्ता और सेमेंटिक संगति (अर्थात, वे अपने स्रोत पाठ-प्रोम्प्ट के साथ कितनी बारीकी से मेल खाते हैं) के लिए परीक्षण छवियों का मूल्यांकन किया। प्रतिभागियों के पास अपनी पसंद करने के लिए असीमित समय था।

मानव धारणा परीक्षण के लिए परिणाम।

जैसा कि पत्र में बताया गया है, लेखकों की विधि पिछले दृष्टिकोणों पर đáng ध्यान देने योग्य रूप से पसंद की जाती है।

निष्कर्ष

स्टेबल डिफ्यूजन की स्थानीय स्थापना में कमियों को संबोधित करने के तुरंत बाद, विभिन्न अनुकूलित विधियां (जैसे अफ्टर डिटेलर) उभरीं जो प्रणाली को मानव हित के क्षेत्रों पर अतिरिक्त ध्यान देने के लिए मजबूर करती हैं।

हालांकि, इस तरह के दृष्टिकोण की आवश्यकता है कि डिफ्यूजन प्रणाली पहले अपनी सामान्य प्रक्रिया से गुजरे, जिसमें प्रत्येक छवि भाग पर समान ध्यान दिया जाता है, जिसमें बढ़े हुए काम को एक अतिरिक्त चरण के रूप में किया जाता है।

एसजीओओएल से साक्ष्य सuggest करता है कि छवि खंडों को प्राथमिकता देने के लिए बुनियादी मानव मनोविज्ञान को लागू करने से प्रारंभिक अनुमान में काफी सुधार हो सकता है, बिना पोस्ट-प्रोसेसिंग चरणों के।

* पत्र में सामान्य सिंटैक्टिक प्रक्रियाओं के लिए भी यही लिंक प्रदान किया गया है।

सबसे पहले बुधवार, 16 अक्टूबर, 2024 को प्रकाशित

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai