कृत्रिम बुद्धिमत्ता

मानव ध्यान का लाभ उठाकर एआई-जनित छवियों को सुधारा जा सकता है

Published October 16, 2024

Updated March 17, 2026

Martin Anderson

An AI-generated image by ChatGPT. Prompt: ' a panoramic image representing salient object detection, featuring a person. The salient heat-map should be clear and obvious, and this illustration should be in the style of results from scientific papers about saliency maps'

चीन से नए शोध ने लेटेंट डिफ्यूजन मॉडल (एलडीएम) जैसे स्टेबल डिफ्यूजन मॉडल द्वारा उत्पन्न छवियों की गुणवत्ता सुधारने के लिए एक विधि प्रस्तावित की है। यह विधि किसी छवि के प्रमुख क्षेत्रों – वे क्षेत्र जो मानव ध्यान को सबसे अधिक आकर्षित करने की संभावना रखते हैं – के अनुकूलन पर केंद्रित है।

नए शोध में पाया गया है कि सैलिएंसी मैप्स (बाएं से चौथा कॉलम) का उपयोग डीनॉइज़िंग प्रक्रियाओं में ध्यान के केंद्र को उन छवि क्षेत्रों की ओर मोड़ने के लिए एक फ़िल्टर या ‘मास्क’ के रूप में किया जा सकता है जिन पर मानव सबसे अधिक ध्यान देने की संभावना रखते हैं। स्रोत: https://arxiv.org/pdf/2410.10257

पारंपरिक विधियाँ पूरी छवि को एक समान रूप से अनुकूलित करती हैं, जबकि नया दृष्टिकोण एक सैलिएंसी डिटेक्टर का उपयोग करके अधिक ‘महत्वपूर्ण’ क्षेत्रों की पहचान करता है और उन्हें प्राथमिकता देता है, जैसा कि मानव करते हैं। मात्रात्मक और गुणात्मक परीक्षणों में, शोधकर्ताओं की विधि छवि गुणवत्ता और पाठ संकेतों के प्रति निष्ठा दोनों ही मामलों में पूर्व के डिफ्यूजन-आधारित मॉडलों से बेहतर प्रदर्शन करने में सक्षम रही। नए दृष्टिकोण ने 100 प्रतिभागियों के साथ एक मानव धारणा परीक्षण में भी सर्वश्रेष्ठ अंक प्राप्त किए।

प्राकृतिक चयन

सैलिएंसी, वास्तविक दुनिया और छवियों में सूचना को प्राथमिकता देने की क्षमता, मानव दृष्टि का एक आवश्यक हिस्सा है। इसका एक सरल उदाहरण वह बढ़ा हुआ विस्तार है जो शास्त्रीय कला किसी चित्र के महत्वपूर्ण क्षेत्रों, जैसे कि एक चित्र में चेहरे, या समुद्री विषय में जहाज के मस्तूलों को देती है; ऐसे उदाहरणों में, कलाकार का ध्यान केंद्रीय विषय-वस्तु पर केंद्रित होता है, जिसका अर्थ है कि व्यापक विवरण जैसे कि चित्र पृष्ठभूमि या तूफान की दूर की लहरें अधिक रेखाचित्रात्मक और विस्तृत होने के बजाय व्यापक रूप से प्रतिनिधित्वात्मक होते हैं। मानव अध्ययनों से सूचित होकर, पिछले एक दशक में मशीन लर्निंग विधियाँ उभरी हैं जो किसी भी चित्र में मानव रुचि के इस केंद्र की नकल कर सकती हैं या कम से कम उसका अनुमान लगा सकती हैं।

ऑब्जेक्ट सेगमेंटेशन (सिमेंटिक सेगमेंटेशन) किसी छवि के पहलुओं को अलग करने और संबंधित सैलिएंसी मैप्स विकसित करने में सहायक हो सकता है। स्रोत: https://arxiv.org/pdf/1312.6034

शोध साहित्य की श्रृंखला में, पिछले पाँच वर्षों में सबसे लोकप्रिय सैलिएंसी मैप डिटेक्टर 2016 की ग्रेडिएंट-वेटेड क्लास एक्टिवेशन मैपिंग (ग्रेड-कैम) पहल रही है, जो बाद में बेहतर ग्रेड-कैम++ प्रणाली सहित अन्य वेरिएंट और परिष्करणों में विकसित हुई। ग्रेड-कैम किसी सिमेंटिक टोकन (जैसे ‘कुत्ता’ या ‘बिल्ली’) के ग्रेडिएंट एक्टिवेशन का उपयोग एक दृश्य मानचित्र बनाने के लिए करता है जो दर्शाता है कि संकल्पना या एनोटेशन छवि में कहाँ प्रतिनिधित्व करती प्रतीत होती है।

मूल ग्रेड-कैम पेपर से उदाहरण। दूसरे कॉलम में, गाइडेड बैकप्रोपेगेशन सभी योगदान देने वाली विशेषताओं को अलग करता है। तीसरे कॉलम में, दो संकल्पनाओं ‘कुत्ता’ और ‘बिल्ली’ के लिए सिमेंटिक मैप्स बनाए गए हैं। चौथा कॉलम पिछले दो अनुमानों के संयोजन का प्रतिनिधित्व करता है। पाँचवां, अनुमान के अनुरूप ओक्लूज़न (मास्किंग) मैप; और अंत में, छठे कॉलम में, ग्रेड-कैम एक रेसनेट-18 लेयर को विज़ुअलाइज़ करता है। स्रोत: https://arxiv.org/pdf/1610.02391

इन विधियों द्वारा प्राप्त परिणामों पर किए गए मानव सर्वेक्षणों ने छवि में प्रमुख रुचि बिंदुओं की इन गणितीय व्यक्तिगतताओं और मानव ध्यान (जब छवि को स्कैन करते हैं) के बीच एक सहसंबंध प्रकट किया है।

SGOOL

नए पेपर में विचार किया गया है कि सैलिएंसी टेक्स्ट-टू-इमेज (और संभावित रूप से, टेक्स्ट-टू-वीडियो) प्रणालियों जैसे स्टेबल डिफ्यूजन और फ्लक्स में क्या योगदान दे सकती है। उपयोगकर्ता के टेक्स्ट-प्रॉम्प्ट की व्याख्या करते समय, लेटेंट डिफ्यूजन मॉडल उनके प्रशिक्षित लेटेंट स्पेस में सीखी गई दृश्य संकल्पनाओं की खोज करते हैं जो प्रयुक्त शब्दों या वाक्यांशों के अनुरूप होती हैं। फिर वे इन पाए गए डेटा-पॉइंट्स को एक डीनॉइज़िंग प्रक्रिया के माध्यम से पार्स करते हैं, जहाँ यादृच्छिक शोर धीरे-धीरे उपयोगकर्ता के टेक्स्ट-प्रॉम्प्ट की एक रचनात्मक व्याख्या में विकसित होता है। हालाँकि, इस बिंदु पर, मॉडल छवि के हर एक हिस्से पर समान ध्यान देता है। 2022 में डिफ्यूजन मॉडल के लोकप्रिय होने के बाद, ओपनएआई के उपलब्ध डॉल-ई इमेज जेनरेटर के लॉन्च और बाद में स्टेबिलिटी.एआई के स्टेबल डिफ्यूजन फ्रेमवर्क के ओपन-सोर्सिंग के साथ, उपयोगकर्ताओं ने पाया है कि छवि के ‘आवश्यक’ खंड अक्सर अपर्याप्त रूप से प्रस्तुत किए जाते हैं। इस बात को ध्यान में रखते हुए कि मानव के एक विशिष्ट चित्रण में, व्यक्ति का चेहरा (जो दर्शक के लिए अधिकतम महत्व का होता है) संपूर्ण छवि के 10-35% से अधिक स्थान पर कब्जा नहीं करने की संभावना है, ध्यान के वितरण की यह लोकतांत्रिक विधि मानव धारणा की प्रकृति और कला एवं फोटोग्राफी के इतिहास दोनों के विरुद्ध काम करती है। जब किसी व्यक्ति की जींस के बटन को उसकी आँखों के समान कंप्यूटिंग शक्ति प्राप्त होती है, तो संसाधनों का आवंटन गैर-इष्टतम कहा जा सकता है। इसलिए, लेखकों द्वारा प्रस्तावित नई विधि, जिसका शीर्षक सैलिएंसी गाइडेड ऑप्टिमाइज़ेशन ऑफ डिफ्यूजन लेटेंट्स (एसजीओओएल) है, एक सैलिएंसी मैपर का उपयोग करके किसी चित्र के उपेक्षित क्षेत्रों पर ध्यान बढ़ाती है, और उन खंडों पर कम संसाधन समर्पित करती है जो दर्शक के ध्यान की परिधि पर रहने की संभावना रखते हैं।

विधि

एसजीओओएल पाइपलाइन में छवि निर्माण, सैलिएंसी मैपिंग और अनुकूलन शामिल है, जिसमें समग्र छवि और सैलिएंसी-परिष्कृत छवि का संयुक्त रूप से प्रसंस्करण किया जाता है।

एसजीओओएल की संकल्पनात्मक योजना।

डिफ्यूजन मॉडल के लेटेंट एम्बेडिंग्स को सीधे फाइन-ट्यूनिंग के साथ अनुकूलित किया जाता है, जिससे किसी विशिष्ट मॉडल को प्रशिक्षित करने की आवश

Related Topics:AI image generation image recognition Stable Diffusion

Martin Anderson

लेखक मशीन लर्निंग पर, मानव छवि संश्लेषण में डोमेन विशेषज्ञ। Metaphysic.ai में पूर्व अनुसंधान सामग्री प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai