Connect with us

मानव ध्यान का लाभ उठाकर एआई-जनित छवियों को सुधारा जा सकता है

कृत्रिम बुद्धिमत्ता

मानव ध्यान का लाभ उठाकर एआई-जनित छवियों को सुधारा जा सकता है

mm
An AI-generated image by ChatGPT. Prompt: ' a panoramic image representing salient object detection, featuring a person. The salient heat-map should be clear and obvious, and this illustration should be in the style of results from scientific papers about saliency maps'

चीन से नए शोध ने लेटेंट डिफ्यूजन मॉडल (एलडीएम) जैसे स्टेबल डिफ्यूजन मॉडल द्वारा उत्पन्न छवियों की गुणवत्ता सुधारने के लिए एक विधि प्रस्तावित की है। यह विधि किसी छवि के प्रमुख क्षेत्रों – वे क्षेत्र जो मानव ध्यान को सबसे अधिक आकर्षित करने की संभावना रखते हैं – के अनुकूलन पर केंद्रित है।

नए शोध में पाया गया है कि सैलिएंसी मैप्स (बाएं से चौथा कॉलम) का उपयोग डीनॉइज़िंग प्रक्रियाओं में ध्यान के केंद्र को उन छवि क्षेत्रों की ओर मोड़ने के लिए एक फ़िल्टर या 'मास्क' के रूप में किया जा सकता है जिन पर मानव सबसे अधिक ध्यान देने की संभावना रखते हैं।

नए शोध में पाया गया है कि सैलिएंसी मैप्स (बाएं से चौथा कॉलम) का उपयोग डीनॉइज़िंग प्रक्रियाओं में ध्यान के केंद्र को उन छवि क्षेत्रों की ओर मोड़ने के लिए एक फ़िल्टर या ‘मास्क’ के रूप में किया जा सकता है जिन पर मानव सबसे अधिक ध्यान देने की संभावना रखते हैं। स्रोत: https://arxiv.org/pdf/2410.10257

पारंपरिक विधियाँ पूरी छवि को एक समान रूप से अनुकूलित करती हैं, जबकि नया दृष्टिकोण एक सैलिएंसी डिटेक्टर का उपयोग करके अधिक ‘महत्वपूर्ण’ क्षेत्रों की पहचान करता है और उन्हें प्राथमिकता देता है, जैसा कि मानव करते हैं। मात्रात्मक और गुणात्मक परीक्षणों में, शोधकर्ताओं की विधि छवि गुणवत्ता और पाठ संकेतों के प्रति निष्ठा दोनों ही मामलों में पूर्व के डिफ्यूजन-आधारित मॉडलों से बेहतर प्रदर्शन करने में सक्षम रही। नए दृष्टिकोण ने 100 प्रतिभागियों के साथ एक मानव धारणा परीक्षण में भी सर्वश्रेष्ठ अंक प्राप्त किए।

प्राकृतिक चयन

सैलिएंसी, वास्तविक दुनिया और छवियों में सूचना को प्राथमिकता देने की क्षमता, मानव दृष्टि का एक आवश्यक हिस्सा है। इसका एक सरल उदाहरण वह बढ़ा हुआ विस्तार है जो शास्त्रीय कला किसी चित्र के महत्वपूर्ण क्षेत्रों, जैसे कि एक चित्र में चेहरे, या समुद्री विषय में जहाज के मस्तूलों को देती है; ऐसे उदाहरणों में, कलाकार का ध्यान केंद्रीय विषय-वस्तु पर केंद्रित होता है, जिसका अर्थ है कि व्यापक विवरण जैसे कि चित्र पृष्ठभूमि या तूफान की दूर की लहरें अधिक रेखाचित्रात्मक और विस्तृत होने के बजाय व्यापक रूप से प्रतिनिधित्वात्मक होते हैं। मानव अध्ययनों से सूचित होकर, पिछले एक दशक में मशीन लर्निंग विधियाँ उभरी हैं जो किसी भी चित्र में मानव रुचि के इस केंद्र की नकल कर सकती हैं या कम से कम उसका अनुमान लगा सकती हैं।

ऑब्जेक्ट सेगमेंटेशन (सिमेंटिक सेगमेंटेशन) किसी छवि के पहलुओं को अलग करने और संबंधित सैलिएंसी मैप्स विकसित करने में सहायक हो सकता है।

ऑब्जेक्ट सेगमेंटेशन (सिमेंटिक सेगमेंटेशन) किसी छवि के पहलुओं को अलग करने और संबंधित सैलिएंसी मैप्स विकसित करने में सहायक हो सकता है। स्रोत: https://arxiv.org/pdf/1312.6034

शोध साहित्य की श्रृंखला में, पिछले पाँच वर्षों में सबसे लोकप्रिय सैलिएंसी मैप डिटेक्टर 2016 की ग्रेडिएंट-वेटेड क्लास एक्टिवेशन मैपिंग (ग्रेड-कैम) पहल रही है, जो बाद में बेहतर ग्रेड-कैम++ प्रणाली सहित अन्य वेरिएंट और परिष्करणों में विकसित हुई। ग्रेड-कैम किसी सिमेंटिक टोकन (जैसे ‘कुत्ता’ या ‘बिल्ली’) के ग्रेडिएंट एक्टिवेशन का उपयोग एक दृश्य मानचित्र बनाने के लिए करता है जो दर्शाता है कि संकल्पना या एनोटेशन छवि में कहाँ प्रतिनिधित्व करती प्रतीत होती है।

मूल ग्रेड-कैम पेपर से उदाहरण। दूसरे कॉलम में, गाइडेड बैकप्रोपेगेशन सभी योगदान देने वाली विशेषताओं को अलग करता है। तीसरे कॉलम में, दो संकल्पनाओं 'कुत्ता' और 'बिल्ली' के लिए सिमेंटिक मैप्स बनाए गए हैं। चौथा कॉलम पिछले दो अनुमानों के संयोजन का प्रतिनिधित्व करता है। पाँचवां, अनुमान के अनुरूप ओक्लूज़न (मास्किंग) मैप; और अंत में, छठे कॉलम में, ग्रेड-कैम एक रेसनेट-18 लेयर को विज़ुअलाइज़ करता है।

मूल ग्रेड-कैम पेपर से उदाहरण। दूसरे कॉलम में, गाइडेड बैकप्रोपेगेशन सभी योगदान देने वाली विशेषताओं को अलग करता है। तीसरे कॉलम में, दो संकल्पनाओं ‘कुत्ता’ और ‘बिल्ली’ के लिए सिमेंटिक मैप्स बनाए गए हैं। चौथा कॉलम पिछले दो अनुमानों के संयोजन का प्रतिनिधित्व करता है। पाँचवां, अनुमान के अनुरूप ओक्लूज़न (मास्किंग) मैप; और अंत में, छठे कॉलम में, ग्रेड-कैम एक रेसनेट-18 लेयर को विज़ुअलाइज़ करता है। स्रोत: https://arxiv.org/pdf/1610.02391

इन विधियों द्वारा प्राप्त परिणामों पर किए गए मानव सर्वेक्षणों ने छवि में प्रमुख रुचि बिंदुओं की इन गणितीय व्यक्तिगतताओं और मानव ध्यान (जब छवि को स्कैन करते हैं) के बीच एक सहसंबंध प्रकट किया है।

SGOOL

नए पेपर में विचार किया गया है कि सैलिएंसी टेक्स्ट-टू-इमेज (और संभावित रूप से, टेक्स्ट-टू-वीडियो) प्रणालियों जैसे स्टेबल डिफ्यूजन और फ्लक्स में क्या योगदान दे सकती है। उपयोगकर्ता के टेक्स्ट-प्रॉम्प्ट की व्याख्या करते समय, लेटेंट डिफ्यूजन मॉडल उनके प्रशिक्षित लेटेंट स्पेस में सीखी गई दृश्य संकल्पनाओं की खोज करते हैं जो प्रयुक्त शब्दों या वाक्यांशों के अनुरूप होती हैं। फिर वे इन पाए गए डेटा-पॉइंट्स को एक डीनॉइज़िंग प्रक्रिया के माध्यम से पार्स करते हैं, जहाँ यादृच्छिक शोर धीरे-धीरे उपयोगकर्ता के टेक्स्ट-प्रॉम्प्ट की एक रचनात्मक व्याख्या में विकसित होता है। हालाँकि, इस बिंदु पर, मॉडल छवि के हर एक हिस्से पर समान ध्यान देता है। 2022 में डिफ्यूजन मॉडल के लोकप्रिय होने के बाद, ओपनएआई के उपलब्ध डॉल-ई इमेज जेनरेटर के लॉन्च और बाद में स्टेबिलिटी.एआई के स्टेबल डिफ्यूजन फ्रेमवर्क के ओपन-सोर्सिंग के साथ, उपयोगकर्ताओं ने पाया है कि छवि के ‘आवश्यक’ खंड अक्सर अपर्याप्त रूप से प्रस्तुत किए जाते हैं। इस बात को ध्यान में रखते हुए कि मानव के एक विशिष्ट चित्रण में, व्यक्ति का चेहरा (जो दर्शक के लिए अधिकतम महत्व का होता है) संपूर्ण छवि के 10-35% से अधिक स्थान पर कब्जा नहीं करने की संभावना है, ध्यान के वितरण की यह लोकतांत्रिक विधि मानव धारणा की प्रकृति और कला एवं फोटोग्राफी के इतिहास दोनों के विरुद्ध काम करती है। जब किसी व्यक्ति की जींस के बटन को उसकी आँखों के समान कंप्यूटिंग शक्ति प्राप्त होती है, तो संसाधनों का आवंटन गैर-इष्टतम कहा जा सकता है। इसलिए, लेखकों द्वारा प्रस्तावित नई विधि, जिसका शीर्षक सैलिएंसी गाइडेड ऑप्टिमाइज़ेशन ऑफ डिफ्यूजन लेटेंट्स (एसजीओओएल) है, एक सैलिएंसी मैपर का उपयोग करके किसी चित्र के उपेक्षित क्षेत्रों पर ध्यान बढ़ाती है, और उन खंडों पर कम संसाधन समर्पित करती है जो दर्शक के ध्यान की परिधि पर रहने की संभावना रखते हैं।

विधि

एसजीओओएल पाइपलाइन में छवि निर्माण, सैलिएंसी मैपिंग और अनुकूलन शामिल है, जिसमें समग्र छवि और सैलिएंसी-परिष्कृत छवि का संयुक्त रूप से प्रसंस्करण किया जाता है।

एसजीओओएल की संकल्पनात्मक योजना।

एसजीओओएल की संकल्पनात्मक योजना।

डिफ्यूजन मॉडल के लेटेंट एम्बेडिंग्स को सीधे फाइन-ट्यूनिंग के साथ अनुकूलित किया जाता है, जिससे किसी विशिष्ट मॉडल को प्रशिक्षित करने की आवश

लेखक मशीन लर्निंग पर, मानव छवि संश्लेषण में डोमेन विशेषज्ञ। Metaphysic.ai में पूर्व अनुसंधान सामग्री प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai