कृत्रिम बुद्धिमत्ता
मानव ध्यान का लाभ उठाकर एआई-जनित छवियों को सुधारा जा सकता है

चीन से नए शोध ने लेटेंट डिफ्यूजन मॉडल (एलडीएम) जैसे स्टेबल डिफ्यूजन मॉडल द्वारा उत्पन्न छवियों की गुणवत्ता सुधारने के लिए एक विधि प्रस्तावित की है। यह विधि किसी छवि के प्रमुख क्षेत्रों – वे क्षेत्र जो मानव ध्यान को सबसे अधिक आकर्षित करने की संभावना रखते हैं – के अनुकूलन पर केंद्रित है।

नए शोध में पाया गया है कि सैलिएंसी मैप्स (बाएं से चौथा कॉलम) का उपयोग डीनॉइज़िंग प्रक्रियाओं में ध्यान के केंद्र को उन छवि क्षेत्रों की ओर मोड़ने के लिए एक फ़िल्टर या ‘मास्क’ के रूप में किया जा सकता है जिन पर मानव सबसे अधिक ध्यान देने की संभावना रखते हैं। स्रोत: https://arxiv.org/pdf/2410.10257
पारंपरिक विधियाँ पूरी छवि को एक समान रूप से अनुकूलित करती हैं, जबकि नया दृष्टिकोण एक सैलिएंसी डिटेक्टर का उपयोग करके अधिक ‘महत्वपूर्ण’ क्षेत्रों की पहचान करता है और उन्हें प्राथमिकता देता है, जैसा कि मानव करते हैं। मात्रात्मक और गुणात्मक परीक्षणों में, शोधकर्ताओं की विधि छवि गुणवत्ता और पाठ संकेतों के प्रति निष्ठा दोनों ही मामलों में पूर्व के डिफ्यूजन-आधारित मॉडलों से बेहतर प्रदर्शन करने में सक्षम रही। नए दृष्टिकोण ने 100 प्रतिभागियों के साथ एक मानव धारणा परीक्षण में भी सर्वश्रेष्ठ अंक प्राप्त किए।
प्राकृतिक चयन
सैलिएंसी, वास्तविक दुनिया और छवियों में सूचना को प्राथमिकता देने की क्षमता, मानव दृष्टि का एक आवश्यक हिस्सा है। इसका एक सरल उदाहरण वह बढ़ा हुआ विस्तार है जो शास्त्रीय कला किसी चित्र के महत्वपूर्ण क्षेत्रों, जैसे कि एक चित्र में चेहरे, या समुद्री विषय में जहाज के मस्तूलों को देती है; ऐसे उदाहरणों में, कलाकार का ध्यान केंद्रीय विषय-वस्तु पर केंद्रित होता है, जिसका अर्थ है कि व्यापक विवरण जैसे कि चित्र पृष्ठभूमि या तूफान की दूर की लहरें अधिक रेखाचित्रात्मक और विस्तृत होने के बजाय व्यापक रूप से प्रतिनिधित्वात्मक होते हैं। मानव अध्ययनों से सूचित होकर, पिछले एक दशक में मशीन लर्निंग विधियाँ उभरी हैं जो किसी भी चित्र में मानव रुचि के इस केंद्र की नकल कर सकती हैं या कम से कम उसका अनुमान लगा सकती हैं।

ऑब्जेक्ट सेगमेंटेशन (सिमेंटिक सेगमेंटेशन) किसी छवि के पहलुओं को अलग करने और संबंधित सैलिएंसी मैप्स विकसित करने में सहायक हो सकता है। स्रोत: https://arxiv.org/pdf/1312.6034
शोध साहित्य की श्रृंखला में, पिछले पाँच वर्षों में सबसे लोकप्रिय सैलिएंसी मैप डिटेक्टर 2016 की ग्रेडिएंट-वेटेड क्लास एक्टिवेशन मैपिंग (ग्रेड-कैम) पहल रही है, जो बाद में बेहतर ग्रेड-कैम++ प्रणाली सहित अन्य वेरिएंट और परिष्करणों में विकसित हुई। ग्रेड-कैम किसी सिमेंटिक टोकन (जैसे ‘कुत्ता’ या ‘बिल्ली’) के ग्रेडिएंट एक्टिवेशन का उपयोग एक दृश्य मानचित्र बनाने के लिए करता है जो दर्शाता है कि संकल्पना या एनोटेशन छवि में कहाँ प्रतिनिधित्व करती प्रतीत होती है।

मूल ग्रेड-कैम पेपर से उदाहरण। दूसरे कॉलम में, गाइडेड बैकप्रोपेगेशन सभी योगदान देने वाली विशेषताओं को अलग करता है। तीसरे कॉलम में, दो संकल्पनाओं ‘कुत्ता’ और ‘बिल्ली’ के लिए सिमेंटिक मैप्स बनाए गए हैं। चौथा कॉलम पिछले दो अनुमानों के संयोजन का प्रतिनिधित्व करता है। पाँचवां, अनुमान के अनुरूप ओक्लूज़न (मास्किंग) मैप; और अंत में, छठे कॉलम में, ग्रेड-कैम एक रेसनेट-18 लेयर को विज़ुअलाइज़ करता है। स्रोत: https://arxiv.org/pdf/1610.02391
इन विधियों द्वारा प्राप्त परिणामों पर किए गए मानव सर्वेक्षणों ने छवि में प्रमुख रुचि बिंदुओं की इन गणितीय व्यक्तिगतताओं और मानव ध्यान (जब छवि को स्कैन करते हैं) के बीच एक सहसंबंध प्रकट किया है।
SGOOL
नए पेपर में विचार किया गया है कि सैलिएंसी टेक्स्ट-टू-इमेज (और संभावित रूप से, टेक्स्ट-टू-वीडियो) प्रणालियों जैसे स्टेबल डिफ्यूजन और फ्लक्स में क्या योगदान दे सकती है। उपयोगकर्ता के टेक्स्ट-प्रॉम्प्ट की व्याख्या करते समय, लेटेंट डिफ्यूजन मॉडल उनके प्रशिक्षित लेटेंट स्पेस में सीखी गई दृश्य संकल्पनाओं की खोज करते हैं जो प्रयुक्त शब्दों या वाक्यांशों के अनुरूप होती हैं। फिर वे इन पाए गए डेटा-पॉइंट्स को एक डीनॉइज़िंग प्रक्रिया के माध्यम से पार्स करते हैं, जहाँ यादृच्छिक शोर धीरे-धीरे उपयोगकर्ता के टेक्स्ट-प्रॉम्प्ट की एक रचनात्मक व्याख्या में विकसित होता है। हालाँकि, इस बिंदु पर, मॉडल छवि के हर एक हिस्से पर समान ध्यान देता है। 2022 में डिफ्यूजन मॉडल के लोकप्रिय होने के बाद, ओपनएआई के उपलब्ध डॉल-ई इमेज जेनरेटर के लॉन्च और बाद में स्टेबिलिटी.एआई के स्टेबल डिफ्यूजन फ्रेमवर्क के ओपन-सोर्सिंग के साथ, उपयोगकर्ताओं ने पाया है कि छवि के ‘आवश्यक’ खंड अक्सर अपर्याप्त रूप से प्रस्तुत किए जाते हैं। इस बात को ध्यान में रखते हुए कि मानव के एक विशिष्ट चित्रण में, व्यक्ति का चेहरा (जो दर्शक के लिए अधिकतम महत्व का होता है) संपूर्ण छवि के 10-35% से अधिक स्थान पर कब्जा नहीं करने की संभावना है, ध्यान के वितरण की यह लोकतांत्रिक विधि मानव धारणा की प्रकृति और कला एवं फोटोग्राफी के इतिहास दोनों के विरुद्ध काम करती है। जब किसी व्यक्ति की जींस के बटन को उसकी आँखों के समान कंप्यूटिंग शक्ति प्राप्त होती है, तो संसाधनों का आवंटन गैर-इष्टतम कहा जा सकता है। इसलिए, लेखकों द्वारा प्रस्तावित नई विधि, जिसका शीर्षक सैलिएंसी गाइडेड ऑप्टिमाइज़ेशन ऑफ डिफ्यूजन लेटेंट्स (एसजीओओएल) है, एक सैलिएंसी मैपर का उपयोग करके किसी चित्र के उपेक्षित क्षेत्रों पर ध्यान बढ़ाती है, और उन खंडों पर कम संसाधन समर्पित करती है जो दर्शक के ध्यान की परिधि पर रहने की संभावना रखते हैं।
विधि
एसजीओओएल पाइपलाइन में छवि निर्माण, सैलिएंसी मैपिंग और अनुकूलन शामिल है, जिसमें समग्र छवि और सैलिएंसी-परिष्कृत छवि का संयुक्त रूप से प्रसंस्करण किया जाता है।

एसजीओओएल की संकल्पनात्मक योजना।
डिफ्यूजन मॉडल के लेटेंट एम्बेडिंग्स को सीधे फाइन-ट्यूनिंग के साथ अनुकूलित किया जाता है, जिससे किसी विशिष्ट मॉडल को प्रशिक्षित करने की आवश










