Connect with us

рдПрдЖрдИ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдлреЛрдЯреЛ рдХреЛ рд▓реЗрдиреЗ рд╕реЗ рдкрд╣рд▓реЗ рдЙрдиреНрд╣реЗрдВ рдмреЗрд╣рддрд░ рдмрдирд╛рдирд╛

Anderson рдХрд╛ рдПрдВрдЧрд▓

рдПрдЖрдИ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдлреЛрдЯреЛ рдХреЛ рд▓реЗрдиреЗ рд╕реЗ рдкрд╣рд▓реЗ рдЙрдиреНрд╣реЗрдВ рдмреЗрд╣рддрд░ рдмрдирд╛рдирд╛

mm
Sample images from the Arxiv paper 'How to Take a Memorable Picture? Empowering Users with Actionable Feedback'. Source - https://arxiv.org/abs/2602.21877

जेनएआई का उपयोग फोटो को शूट करने के बाद उन्हें ठीक करने के बजाय, शोधकर्ताओं ने एक प्रणाली को प्रशिक्षित किया है जो आपको बताती है कि पहले से कैसे चलना है, मुद्रा बनानी है और शॉट को फ्रेम करना है, जो चित्रों को यादगार बनाने वाले ज्ञान के अध्ययन के आधार पर है।

 

फोटो को事実 के बाद ठीक करना काफी समय से आसान होता जा रहा है, क्योंकि निर्माता और तकनीकी प्लेटफ़ॉर्म बढ़ती तरह से कैमरे में संपादन प्रदान करते हैं जो उपयोगकर्ताओं को छवियों को बदलने की अनुमति देते हैं जैसे ही उन्हें लिया जाता है। इस तरह की लोकप्रिय प्रणालियों में गूगल का कॉन्वर्सेशनल एडिटिंग, और सैमसंग का जेनरेटिव एडिट शामिल हैं, अन्य लोगों के अलावा।

हालांकि, एक नवजात रुझान जो ‘प्रामाणिकता’ को एआई-‘सुधार’ परिणामों पर पसंद करता है, इसका मतलब यह हो सकता है कि कई उपभोक्ता जिनके लिए ऐसी प्रणालियां हैं, उन्हें ‘संशोधित’ फोटो को एआई स्लोप के रूप में देखना शुरू कर देंगे।

शायद यही कारण है कि गूगल ने जेमिनी से सूचित एक एआई-प्रशिक्षित ‘कैमरा कोच’ बनाने के लिए प्रेरित किया है, जो फोटो लेने की प्रक्रिया के दौरान सीधे निर्देश देने में सक्षम है:

<img class=" wp-image-286015" src="https://www.unite.ai/wp-content/uploads/2026/02/google-camera-coach.jpg" alt="गूगल का कैमरा कोच उपयोगकर्ता को बताता है कि फोटो को कैसे रीफ्रेम करना है, साथ ही अन्य बुनियादी सलाह। स्रोत: https://store.google.com/intl/en_uk/ideas/articles/camera-coach/” width=”532″ height=”468″ /> गूगल का कैमरा कोच उपयोगकर्ता को बताता है कि फोटो को कैसे रीफ्रेम करना है, साथ ही अन्य बुनियादी सलाह。 स्रोत

एक प्रोप्राइटरी सिस्टम के रूप में, और लगभग शून्य जानकारी ऑनलाइन उपलब्ध होने के साथ, कैमरा कोच जेमिनी का लाभ उठाता है ताकि उपयोगकर्ता फ्रेमिंग में सुधार कर सकें (ऊपर देखें) या मुद्रा में छोटे बदलाव कर सकें (जैसे कि एक दूसरे के करीब जाना या कैमरे की ओर देखना)।

इस प्रकार, जैसा कि कोई भी बता सकता है, उत्पाद मेडियन की ओर संरचना को धक्का देता है, संभवतः जेमिनी के प्रशिक्षण डेटा में योगदान देने वाले लाखों अपलोड किए गए सामग्री डेटा बिंदुओं के आधार पर। इस अर्थ में, अपलोड करने वाले उपयोगकर्ताओं ने असंतोषजनक शॉट्स को अस्वीकार करके और जो उन्हें पसंद है उसे अपलोड करके एआई के कैलिब्रेशन का निर्माण किया है – एक प्रभावी (और मुफ्त) रूप से डेटासेट क्यूरेशन!

उस कहा, फोटो जो संरचना के मामले में ‘औसत’ होते हैं, उनमें आवश्यक रूप से एक ही सौंदर्य मूल्य या दर्शक-प्रभाव नहीं होता है जो फोटो में होता है जो यादगार होते हैं।

बeyond ‘चीज़!’ और तीसरे नियम

इस उद्देश्य के लिए, और एक प्रणाली की ओर जो अधिक सुलभ है जो प्लेटफ़ॉर्म के पार है, इटली से नए शोध में एक कोच-शैली की प्रणाली है जो फोटो को याद रखने वाले के पूर्व ज्ञान पर आधारित है:

<img class="size-full wp-image-286017" src="https://www.unite.ai/wp-content/uploads/2026/02/details-from-figure-7.jpg" alt="लेखकों की नई प्रणाली से सलाह के विभिन्न उदाहरण। स्रोत – https://arxiv.org/pdf/2602.21877” width=”1200″ height=”448″ /> लेखकों की नई प्रणाली से सलाह के विभिन्न उदाहरण。 स्रोत

ऊपर दिए गए उदाहरणों में, हम लेखकों की नई प्रणाली – जिसे मेमकोच कहा जाता है – द्वारा दी गई सलाह देखते हैं, जो कि कैमरा कोच जैसे संरचना-केंद्रित एआई द्वारा प्रदान की जाने वाली सलाह की कल्पना करना मुश्किल है। पहले (बाएं) मामले में, हेडड्रेस को हटाने की सलाह विशेष रूप से संदेहास्पद है; दूसरी तस्वीर में, यह कल्पना करना मुश्किल है कि एक सामान्य संदर्भ में एक संरचना-केंद्रित एआई क्या निकाल सकता है (अर्थात, एक ‘कलात्मक’ तस्वीर एक युवा महिला को फर्श पर लेटे हुए अपनी आँखें बंद करके)।

फोटोग्राफी में यादगारपन के बारे में मूल समझ, मेमकोच विकसित करने के लिए विभिन्न पूर्व कार्यों से ली गई है, जिनमें 2015 आउटिंग क्या एक वस्तु को यादगार बनाता है?, और 2013 पेपर एक फोटो को यादगार बनाता है? शामिल हैं।

<img class="size-full wp-image-286022" src="https://www.unite.ai/wp-content/uploads/2026/02/What-makes-a-photograph-memorable.jpg" alt="2013 के पेपर से एक फोटो को यादगार बनाता है?, यादगारपन के मामले में अच्छे, मध्यम और खराब फोटो के प्रतिनिधि उदाहरण। स्रोत – https://people.csail.mit.edu/torralba/publications/Isola_memorabilityPhotos_PAMI2014.pdf” width=”1200″ height=”240″ /> 2013 के पेपर से एक फोटो को यादगार बनाता है?, यादगारपन के मामले में अच्छे, मध्यम और खराब फोटो के प्रतिनिधि उदाहरण。 स्रोत

कोई भी, जैसे मैं, जिनका यूनिक्स जन्मदिन नकारात्मक है, शायद ‘सबसे कम यादगार छवियों’ (ऊपर दिए गए चित्र के ऊपरी दाएं) के लिए टेम्पलेट को पहचानेंगे, जो हमारे बचपन को शापित करने वाली अनगिनत स्लाइड रात से है। जैसा कि लेखक कहते हैं*:

‘इन कार्यों ने लोगों की उपस्थिति, इनडोर दृश्य, या भावनात्मक अभिव्यक्तियों जैसे अंतर्निहित कारकों की पहचान की, वस्तुओं और पैनोरमिक दृश्य के बजाय, साथ ही साथ संदर्भ और पर्यवेक्षक जैसे बाहरी कारक। ‘

परियोजना ‘यादगारपन प्रतिक्रिया’ (मेमफीड) पर केंद्रित है, जो मेमकोच ट्यूटर एप्लिकेशन में व्यक्त की जाती है, और एक बेंचमार्क (शीर्षक मेमबेंच) जो पीपीआर10के डेटासेट पर आधारित है।

<img class="size-full wp-image-286025" src="https://www.unite.ai/wp-content/uploads/2026/02/PPR10K-figure-1.jpg" alt="पेपर पीपीआर10के: एक लार्ज-स्केल पोर्ट्रेट फोटो रीटचिंग डेटासेट के साथ मानव-क्षेत्र मास्क और समूह-स्तर की स्थिरता से विविध नमूने, शीर्ष पंक्ति में मूल छवियां दिखाई गई हैं, नीचे की पंक्ति में विशेषज्ञ-रीटच्ड संस्करण और संबंधित मानव-क्षेत्र मास्क दिखाए गए हैं। मूल फोटो दृष्टिकोण, पृष्ठभूमि, प्रकाश और कैमरा सेटिंग्स में व्यापक रूप से भिन्न होते हैं, जबकि रीटच्ड परिणाम बेहतर दृश्य गुणवत्ता और प्रत्येक समूह के भीतर मजबूत स्थिरता प्रदर्शित करते हैं। स्रोत – https://arxiv.org/pdf/2105.09180” width=”1200″ height=”494″ /> पेपर पीपीआर10के: एक लार्ज-स्केल पोर्ट्रेट फोटो रीटचिंग डेटासेट के साथ मानव-क्षेत्र मास्क और समूह-स्तर की स्थिरता से विविध नमूने, शीर्ष पंक्ति में मूल छवियां दिखाई गई हैं, नीचे की पंक्ति में विशेषज्ञ-रीटच्ड संस्करण और संबंधित मानव-क्षेत्र मास्क दिखाए गए हैं। मूल फोटो दृष्टिकोण, पृष्ठभूमि, प्रकाश और कैमरा सेटिंग्स में व्यापक रूप से भिन्न होते हैं, जबकि रीटच्ड परिणाम बेहतर दृश्य गुणवत्ता और प्रत्येक समूह के भीतर मजबूत स्थिरता प्रदर्शित करते हैं। स्रोत

लेख में कहा गया है कि यादगारपन फोटो में मात्रात्मक है, न कि व्यक्तिपरक निर्णयों का पंजीकरण, और लेखक आगे ध्यान देते हैं कि यह संपत्ति फोटो (विभिन्न कार्यों में) और वीडियो (विभिन्न कार्यों में) दोनों के लिए पहचानी गई है।

नई पेपर का शीर्षक एक यादगार तस्वीर कैसे लें? उपयोगकर्ताओं को क्रियाशील प्रतिक्रिया प्रदान करना है, और यह चार शोधकर्ताओं से आता है जो ट्रेंटो विश्वविद्यालय, पिसा विश्वविद्यालय, और फोंडाज़ियोने ब्रूनो केसलर में हैं। सहयोगी परियोजना पृष्ठ सुझाव देता है कि गिटहब कोड और हगिंग फेस-होस्टेड डेटा अगले महीने (मार्च 2026) उपलब्ध होगा।

विधि

मेमबेंच डेटासेट को स्रोत पीपीआर10के पोर्ट्रेट डेटासेट से बनाने के लिए, शोधकर्ताओं ने फोटो को एक ही दृश्य से समूहित किया और प्रत्येक छवि को यादगारपन के लिए एक प्रशिक्षित पूर्वानुमानकर्ता का उपयोग करके स्कोर किया, जो सीएलआईपी विशेषताओं पर आधारित है। उन्होंने तब प्रत्येक दृश्य के भीतर फोटो को कम से अधिक यादगार तक रैंक किया और उन्हें तदनुसार जोड़ा:

рдореЗрдордмреЗрдВрдЪ рдирд┐рд░реНрдорд╛рдг рдФрд░ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд╛ рдЕрд╡рд▓реЛрдХрдиред рд╢реАрд░реНрд╖ рдкрдВрдХреНрддрд┐ рдбреЗрдЯрд╛ рдкрд╛рдЗрдкрд▓рд╛рдЗрди рдХреЛ рджрд░реНрд╢рд╛рддреА рд╣реИ, рдЬреЛ рдЫрд╡рд┐рдпреЛрдВ рдХреЛ рджреГрд╢реНрдп рджреНрд╡рд╛рд░рд╛ рд╕рдореВрд╣рд┐рдд рдХрд░рдиреЗ рдФрд░ рдпрд╛рджрдЧрд╛рд░рдкрди рдХрд╛ рдкреВрд░реНрд╡рд╛рдиреБрдорд╛рди рд▓рдЧрд╛рдиреЗ рд╕реЗ рд▓реЗрдХрд░ рдлреЛрдЯреЛ рдХреЛ рд░реИрдВрдХ рдХрд░рдиреЗ рдФрд░ рдпрд╛рджрдЧрд╛рд░рдкрди-рдЬрд╛рдЧрд░реВрдХ рдХреНрд░рд┐рдпрд╛ рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рдЙрддреНрдкрдиреНрди рдХрд░рдиреЗ рддрдХ рд╣реИред рдиреАрдЪреЗ рдХреА рдкрдВрдХреНрддрд┐ рдореВрд▓реНрдпрд╛рдВрдХрди рдХреЛ рджрд░реНрд╢рд╛рддреА рд╣реИ, рдЬреЛ рд╕рдВрдкрд╛рджрди-рдЖрдзрд╛рд░рд┐рдд рдпрд╛рджрдЧрд╛рд░рдкрди рд▓рд╛рдн рдФрд░ рдкрд░реЗрд╢рд╛рдиреА рд╕реНрдХреЛрд░рд┐рдВрдЧ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рдХреА рдЧреБрдгрд╡рддреНрддрд╛ рдХреЛ рдорд╛рдкрддреА рд╣реИред

मेमबेंच निर्माण और मूल्यांकन का अवलोकन। शीर्ष पंक्ति डेटा पाइपलाइन को दर्शाती है, जो छवियों को दृश्य द्वारा समूहित करने और यादगारपन का पूर्वानुमान लगाने से लेकर फोटो को रैंक करने और यादगारपन-जागरूक क्रिया प्रतिक्रिया उत्पन्न करने तक है। नीचे की पंक्ति मूल्यांकन को दर्शाती है, जो संपादन-आधारित यादगारपन लाभ और परेशानी स्कोरिंग के माध्यम से प्रतिक्रिया की गुणवत्ता को मापती है।

प्रत्येक जोड़ी के लिए, दृश्य रूप से दिखाई देने वाले अंतरों को समझाने के लिए प्राकृतिक भाषा विवरण इंटरनवीएल3.5 मॉडल के साथ उत्पन्न किए गए थे; और ये विवरण यादगारपन प्रतिक्रिया प्रणाली के लिए प्रशिक्षण संकेत का गठन करेंगे।

गूगल के कैमरा कोच के अंतर्गत आने वाले तर्क के विपरीत, शोधकर्ताओं ने एक अधिक सूक्ष्म सेट की व्याख्या की मांग की:

‘गणनात्मक फोटोग्राफी समायोजन पर ध्यान केंद्रित करने के विपरीत जो पोस्ट-हॉक सुधार पर केंद्रित हैं (जैसे “छवि को उज्जवल बनाएं”), हम उन सेमेंटिक क्रियाओं पर ध्यान केंद्रित करते हैं जो एक उपयोगकर्ता बेहतर शॉट के लिए तत्काल ले सकता है, जैसे “एक-दूसरे का सामना करें। ‘

मेमबेंच संग्रह में लगभग 10,000 छवियां शामिल हैं जो 1,570 दृश्यों में समूहित हैं, जिनमें प्रति दृश्य औसतन 6.5 छवियां हैं। लेखकों द्वारा उत्पन्न शब्द-वृक्ष (नीचे दिए गए चित्र में देखें) सुझाव देता है कि डेटासेट में व्यापक सेमेंटिक श्रेणियां हैं:

рдореЗрдордмреЗрдВрдЪ рдореЗрдВ рд╕рдмрд╕реЗ рдЕрдзрд┐рдХ рдмрд╛рд░ рдЖрдиреЗ рд╡рд╛рд▓реЗ рд╢рдмреНрджреЛрдВ рдХрд╛ рдПрдХ рд╢рдмреНрдж-рд╡реГрдХреНрд╖ред

मेमबेंच में सबसे अधिक बार आने वाले शब्दों का एक शब्द-वृक्ष。

स्रोत फोटो ने 0.63 का यादगारपन स्कोर का औसत किया, जबकि एक ही दृश्य से सबसे यादगार शॉट 0.51 से लेकर 1.0 तक फैले थे, दोनों समूहों के बीच ध्यान देने योग्य ओवरलैप के साथ:

рдкреНрд░рддреНрдпреЗрдХ рджреГрд╢реНрдп рдХреЗ рднреАрддрд░ рдХрдо рд╕реЗ рдЕрдзрд┐рдХ рдпрд╛рджрдЧрд╛рд░ рдЫрд╡рд┐рдпреЛрдВ рдХреА рдпрд╛рджрдЧрд╛рд░рдкрди рд╕реНрдХреЛрд░ рд╡рд┐рддрд░рдг рдХреА рддреБрд▓рдирд╛ред

प्रत्येक दृश्य के भीतर कम से अधिक यादगार छवियों की यादगारपन स्कोर वितरण की तुलना।

प्रतिक्रिया छोटे सात-शब्द नोट्स से लेकर उल्लेखनीय रूप से लंबे निर्देशों (बाएं, नीचे दिए गए चित्र में) तक भिन्न होती है। प्रत्येक सलाह को जीपीटी-5 मिनी का उपयोग करके छोटे क्रिया प्रकारों में तोड़ दिया गया था (दाएं, नीचे दिए गए चित्र में):

рд╕рд╛рдордЧреНрд░реА рд╢рдмреНрджреЛрдВ рдореЗрдВ рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рд▓рдВрдмрд╛рдИ рд╡рд┐рддрд░рдг, рдФрд░ рдХреЙрд░реНрдб рдХреА рдЪреМрдбрд╝рд╛рдИ рдХреЗ рд╕рд╛рде рд╕рд╣-рдЖрд╡реГрддреНрддрд┐ рдХреА рдЖрд╡реГрддреНрддрд┐ рдХреЛ рджрд░реНрд╢рд╛рддреЗ рд╣реБрдП рдкрд░рдорд╛рдгреБ рдЙрдк-рдХреНрд░рд┐рдпрд╛рдУрдВ рдХрд╛ рд╡рд░реНрдЧреАрдХрд░рдгред

सामग्री शब्दों में प्रतिक्रिया लंबाई वितरण, और कॉर्ड की चौड़ाई के साथ सह-आवृत्ति की आवृत्ति को दर्शाते हुए परमाणु उप-क्रियाओं का वर्गीकरण。

लेखकों का उल्लेख है कि अधिकांश सुझाव विषय की मुद्रा पर केंद्रित थे, उसके बाद दृश्य या सामग्री में परिवर्तन, अक्सर फ्रेमिंग को मुद्रा से जोड़ा गया, और प्रकाश समायोजन अक्सर सेमेंटिक परिवर्तनों से जुड़े हुए थे।

फ्लक्स कैपेसिटर

यादगारपन में वृद्धि का मूल्यांकन करने के लिए कि क्या प्रतिक्रिया द्वारा यह बढ़ाया गया था, उपयोगकर्ता अनुपालन को फ्लक्स.1 कॉन्टेक्स्ट जेनरेटिव मॉडल का उपयोग करके अनुकरण किया गया था, जो एक फोटोग्राफर के लिए एक प्रॉक्सी के रूप में कार्य करता है। एक स्रोत छवि और एक पाठ प्रतिक्रिया दिए जाने पर, फ्लक्स ने सुझाए गए परिवर्तनों का अनुकरण करके एक संपादित संस्करण उत्पन्न किया:

рдмрд╛рдПрдВ рдЫрд╡рд┐рдпрд╛рдВ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╣реИрдВ, рдбреЗрдЯрд╛рд╕реЗрдЯ рд╕реЗ, рдФрд░ рдкреНрд░рддреНрдпреЗрдХ рдорд╛рдорд▓реЗ рдореЗрдВ рджрд╛рдИрдВ рдЫрд╡рд┐рдпрд╛рдВ (рдиреАрдЪреЗ рдкреАрд▓реЗ рд░рдВрдЧ рдореЗрдВ рдкреНрд░реЙрдореНрдкреНрдЯ рдХреЗ рд╕рд╛рде) рдлреНрд▓рдХреНрд╕ рджреНрд╡рд╛рд░рд╛ рдмрдирд╛рдИ рдЧрдИ рд╣реИрдВред рдЗрд╕ рдкреНрд░рдХрд╛рд░, рдкреНрд░реЙрдореНрдкреНрдЯ рдХреА рдкреНрд░рднрд╛рд╡рд╢реАрд▓рддрд╛ рдХрд╛ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ рдмрд┐рдирд╛ рд╡реНрдпрд╛рдкрдХ рдорд╛рдирд╡ рдЬреБрдбрд╝рд╛рд╡ рдХреЗред рдпрд╣ рдЬреНрдЮрд╛рди рдЕрдВрддрддрдГ рдореЗрдордХреЛрдЪ рдлреНрд░реЗрдорд╡рд░реНрдХ рдореЗрдВ рд╡рд╛рдкрд╕ рдЖ рдЬрд╛рдПрдЧрд╛, рдФрд░ рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рдПрдХ рдРрд╕реА рдкреНрд░рдгрд╛рд▓реА рдХреЛ рдмреЗрд╣рддрд░ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдХрд╛рд░реНрдп рдкреНрд░рд╡рд╛рд╣ рдХрд╛ рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡ рдХрд░рддрд╛ рд╣реИ рдЬреЛ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рджреБрдирд┐рдпрд╛ рдХреЗ рдЙрджрд╛рд╣рд░рдгреЛрдВ (рди рдХрд┐ рдлреНрд▓рдХреНрд╕ рдЙрджрд╛рд╣рд░рдгреЛрдВ) рдХреЗ рд╕рд╛рде рдЕрдВрддрддрдГ рдмреЗрд╣рддрд░ рд╣реЛ рд╕рдХрддрд╛ рд╣реИред

बाएं छवियां वास्तविक हैं, डेटासेट से, और प्रत्येक मामले में दाईं छवियां (नीचे पीले रंग में प्रॉम्प्ट के साथ) फ्लक्स द्वारा बनाई गई हैं। इस प्रकार, प्रॉम्प्ट की प्रभावशीलता का मूल्यांकन किया जा सकता है बिना व्यापक मानव जुड़ाव के। यह ज्ञान अंततः मेमकोच फ्रेमवर्क में वापस आ जाएगा, और वास्तव में एक ऐसी प्रणाली को बेहतर बनाने के लिए एक कार्य प्रवाह का प्रतिनिधित्व करता है जो वास्तविक दुनिया के उदाहरणों (न कि फ्लक्स उदाहरणों) के साथ अंततः बेहतर हो सकता है।

मूल और संपादित छवियों दोनों को एक यादगारपन पूर्वानुमानकर्ता के माध्यम से पारित किया गया, जो माप करने की अनुमति देता है कि कितनी बार संपादित संस्करण ने एक उच्च स्कोर प्राप्त किया – सुधार अनुपात नामक – और प्रारंभिक छवि के सापेक्ष लाभ कितना बड़ा था – सापेक्ष यादगारपन नामक।

यादगारपन-केंद्रित संदर्भ सलाह के लिए समानता को परेशानी की गणना करके मापा गया था, और दृश्य स्तर पर 80-20 विभाजन लागू किया गया था ताकि परीक्षण केवल उन दृश्यों पर किया जा सके जिनका उपयोग प्रशिक्षण के दौरान नहीं किया गया था।

राज्य की कला

वर्तमान बहुमोडल बड़े भाषा मॉडल की यादगारपन जागरूकता का परीक्षण किया गया था। लामेम डेटासेट की छवियों को कई अग्रणी मॉडलों को दिखाया गया था, जिनसे पूछा गया था कि क्या छवि यादगार है; मॉडल का आत्मविश्वास अनुमान तब मानव दर्शकों द्वारा मूल अध्ययन में सौंपे गए स्कोर के साथ तुलना किया गया था:

<img class=" wp-image-286044" src="https://www.unite.ai/wp-content/uploads/2026/02/table-1-and-figure-4.jpg" alt="बेसलाइन बहुमोडल मॉडल यादगारपन को पकड़ते नहीं हैं। बाएं, मॉडल पूर्वानुमान और लामेम ग्राउंड-ट्रुथ स्कोर के बीच स्पीयरमैन रैंक संबंध, लामेम से अंतर-annotator समझौते के साथ संदर्भ के लिए दिखाया गया है। दाएं, शून्य-शॉट प्रतिक्रिया द्वारा प्राप्त सुधार अनुपात, संपादन बेसलाइन के सापेक्ष केवल सीमित लाभ दिखा रहा है।” width=”727″ height=”275″ /> बेसलाइन बहुमोडल मॉडल यादगारपन को पकड़ते नहीं हैं। बाएं, मॉडल पूर्वानुमान और लामेम ग्राउंड-ट्रुथ स्कोर के बीच स्पीयरमैन रैंक संबंध, लामेम से अंतर-annotator समझौते के साथ संदर्भ के लिए दिखाया गया है। दाएं, शून्य-शॉट प्रतिक्रिया द्वारा प्राप्त सुधार अनुपात, संपादन बेसलाइन के सापेक्ष केवल सीमित लाभ दिखा रहा है।

मानव निर्णयों के साथ लगभग कोई अर्थपूर्ण संबंध नहीं पाया गया, और बड़े पैमाने पर प्री-प्रशिक्षण के बावजूद, लेखकों का दावा है कि मॉडल ने लोगों द्वारा लगातार याद की जाने वाली चीजों का अनुसरण नहीं किया।

<img class="size-full wp-image-286049" src="https://www.unite.ai/wp-content/uploads/2026/02/lamem-dataset-samples.jpg" alt="लामेम डेटासेट के उदाहरण। ऊपरी-बाएं, हम उस छवि के लिए एक हीटमैप भी देखते हैं। स्रोत – http://memorability.csail.mit.edu/explore.html” width=”1200″ height=”490″ /> लामेम डेटासेट के उदाहरण। ऊपरी-बाएं, हम उस छवि के लिए एक हीटमैप भी देखते हैं। स्रोत

मेमकोच

मेमकोच फोटो लेने से पहले की जा सकने वाली सेमेंटिक, ऑन-द-फ्लाई निर्देशों पर केंद्रित है – जैसे कि मुद्रा को समायोजित करना, विषयों के बीच परस्पर क्रिया को बदलना, या दृश्य तत्वों को संशोधित करना। मेमकोच द्वारा प्रदान की जाने वाली प्रतिक्रिया 7-102 सामग्री शब्दों के बीच भिन्न होती है। यादगारपन, पेपर का तर्क है, विषय कॉन्फ़िगरेशन और कथा संकेतों द्वारा अधिक संचालित प्रतीत होता है, न कि साधारण संरचनात्मक ट्वीक्स द्वारा:

рдореЗрдордХреЛрдЪ рдкрд╛рдЗрдкрд▓рд╛рдЗрди рдХрд╛ рдЕрд╡рд▓реЛрдХрди, рдЬрд┐рд╕рдореЗрдВ рдПрдХ рд╢рд┐рдХреНрд╖рдХ рдПрдордПрд▓рдПрд▓рдПрдо рд╕реЗ рдпрд╛рджрдЧрд╛рд░рдкрди-рдЬрд╛рдЧрд░реВрдХ рдорд╛рд░реНрдЧрджрд░реНрд╢рди рдХреЛ рдПрдХ рдЫрд╛рддреНрд░ рдХреА рддрдЯрд╕реНрде рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛рдУрдВ рдХреЗ рд╕рд╛рде рдЬреЛрдбрд╝рд╛ рдЬрд╛рддрд╛ рд╣реИ; рдкрд░рддреЛрдВ рднрд░ рдореЗрдВ рд╕рдХреНрд░рд┐рдпрдг рдЕрдВрддрд░ рдХреЛ рдФрд╕рдд рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ рддрд╛рдХрд┐ рдпрд╛рджрдЧрд╛рд░рдкрди рдХреЛ рдирд┐рд░реНрджреЗрд╢рд┐рдд рдХрд░рдиреЗ рд╡рд╛рд▓рд╛ рдПрдХ рд╡реЗрдХреНрдЯрд░ рдкреНрд░рд╛рдкреНрдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХреЗ; рдФрд░ рдЙрд╕ рд╡реЗрдХреНрдЯрд░ рдХреЛ рдЕрдиреБрдорд╛рди рдореЗрдВ рдЗрдВрдЬреЗрдХреНрдЯ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ рддрд╛рдХрд┐ рдЫрд╛рддреНрд░ рдХреА рд╕рдХреНрд░рд┐рдпрддрд╛ рдХреЛ рдмрд┐рдирд╛ рдХрд┐рд╕реА рдЕрддрд┐рд░рд┐рдХреНрдд рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХреЗ рдпрд╛рджрдЧрд╛рд░рдкрди-рдЙрдиреНрдореБрдЦ рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рдХрд╛ рдЙрддреНрдкрд╛рджрди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рд╕реНрдерд╛рдирд╛рдВрддрд░рд┐рдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХреЗред

मेमकोच पाइपलाइन का अवलोकन, जिसमें एक शिक्षक एमएलएलएम से यादगारपन-जागरूक मार्गदर्शन को एक छात्र की तटस्थ प्रतिक्रियाओं के साथ जोड़ा जाता है; परतों भर में सक्रियण अंतर को औसत किया जाता है ताकि यादगारपन को निर्देशित करने वाला एक वेक्टर प्राप्त किया जा सके; और उस वेक्टर को अनुमान में इंजेक्ट किया जाता है ताकि छात्र की सक्रियता को बिना किसी अतिरिक्त प्रशिक्षण के यादगारपन-उन्मुख प्रतिक्रिया का उत्पादन करने के लिए स्थानांतरित किया जा सके।

परीक्षण

मेमकोच प्रणाली के लिए परीक्षण चरण में सात बहुमोडल बड़े भाषा मॉडल (एमएलएलएम) का उपयोग किया गया था: क्वेन2.5वीएल; इंटरनवीएल3_5-8बी; आईडेफिक्स3-8बी; और एलएलएवी-वनविजन-1.5. इसके अलावा जीपीटी-5 मिनी को एक प्रतिनिधि के रूप में शामिल किया गया था। स्वामित्व वाले मॉडल, साथ ही साथ क्यू-इन्सट्रक्ट और एएसएक्सपर्ट मॉडल जैसे सौंदर्य विशेषज्ञता वाले मॉडल। एमएलएलएम ने शून्य-शॉट और शिक्षक ऑरेकल के रूप में विभिन्न रूप से संचालित किया।

इंटरनवीएल3.5 का उपयोग शिक्षक और छात्र मॉडल दोनों के लिए किया गया था, मेमबेंच प्रशिक्षण विभाजन का उपयोग करके विरोधाभासी उदाहरण बनाने के लिए:

рдореЗрдордХреЛрдЪ рдХрд╛ рдкреНрд░рджрд░реНрд╢рди рд░рд╛рдЬреНрдп-рдСрдл-рдж-рдЖрд░реНрдЯ рдПрдордПрд▓рдПрд▓рдПрдо рдХреЗ рд╕рд╛рде рддреБрд▓рдирд╛ рдореЗрдВ рд╢рд┐рдХреНрд╖рдХ рдСрд░реЗрдХрд▓, рд╕реМрдВрджрд░реНрдп рд╡рд┐рд╢реЗрд╖рдЬреНрдЮрддрд╛ рд╡рд╛рд▓реЗ рдореЙрдбрд▓, рдФрд░ рд╢реВрдиреНрдп-рд╢реЙрдЯ рдмреЗрд╕рд▓рд╛рдЗрди рдХреЗ рд╕рд╛рде, рдЙрдЪреНрдЪ рд╕реБрдзрд╛рд░ рдЕрдиреБрдкрд╛рдд рдФрд░ рдкреНрд░рддрд┐рд╕реНрдкрд░реНрдзреА рд╕рд╛рдкреЗрдХреНрд╖ рдпрд╛рджрдЧрд╛рд░рдкрди рдХреЗ рд╕рд╛рде-рд╕рд╛рде рдирд┐рдореНрди рдкрд░реЗрд╢рд╛рдиреА рджрд┐рдЦрд╛ рд░рд╣рд╛ рд╣реИ, рдЬреЛ рдЕрдзрд┐рдХ рд╕рдВрдЧрдд рдФрд░ рдпрд╛рджрдЧрд╛рд░рдкрди-рдЙрдиреНрдореБрдЦ рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рдХрд╛ рд╕рдВрдХреЗрдд рджреЗрддрд╛ рд╣реИред

मेमकोच का प्रदर्शन राज्य-ऑफ-द-आर्ट एमएलएलएम के साथ तुलना में शिक्षक ऑरेकल, सौंदर्य विशेषज्ञता वाले मॉडल, और शून्य-शॉट बेसलाइन के साथ, उच्च सुधार अनुपात और प्रतिस्पर्धी सापेक्ष यादगारपन के साथ-साथ निम्न परेशानी दिखा रहा है, जो अधिक संगत और यादगारपन-उन्मुख प्रतिक्रिया का संकेत देता है।

तालिका में (ऊपर दिखाया गया है), हम देखते हैं कि मेमकोच तुलना मॉडल की तुलना में अधिक प्रभावी यादगारपन सलाह प्रदान करता है – और स्टीयर्ड इंटरनवीएल3.5 मॉडल यादगारपन को अधिक बार और एक बड़े पैमाने पर बढ़ाता है, जीपीटी-5 मिनी पर 5% सुधार अनुपात और अपने अनस्टीयर्ड संस्करण पर 31.81% की रिलेटिव मेमोरेबिलिटी में छलांग के साथ।

यह सौंदर्य-केंद्रित प्रणालियों को भी पार करता है, जिसके लिए किसी अतिरिक्त प्रशिक्षण की आवश्यकता नहीं होती है। कम परेशानी का दावा किया जाता है कि इसकी प्रतिक्रिया मानव यादगारपन निर्णयों को पुरस्कृत करने वाली भाषाई पैटर्न का अनुसरण करती है:

рд╕рд╛рдорд╛рдиреНрдпреАрдХрд░рдг рдкрд░рд┐рдгрд╛рдо рдЬреЛ рджрд┐рдЦрд╛рддреЗ рд╣реИрдВ рдХрд┐ рдореЗрдордХреЛрдЪ рд╡рд┐рднрд┐рдиреНрди рдмрд╣реБрдореЛрдбрд▓ рдмреИрдХрдмреЛрди рдХреЗ рдкрд╛рд░ рдпрд╛рджрдЧрд╛рд░рдкрди-рдЙрдиреНрдореБрдЦ рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рдореЗрдВ рд╕реБрдзрд╛рд░ рдХрд░рддрд╛ рд╣реИ, рд▓рдЧрд╛рддрд╛рд░ рд╕реБрдзрд╛рд░ рдЕрдиреБрдкрд╛рдд рдФрд░ рд╕рд╛рдкреЗрдХреНрд╖ рдпрд╛рджрдЧрд╛рд░рдкрди рдХреЛ рдмрдврд╝рд╛рддрд╛ рд╣реИ, рд╕рд╛рде рд╣реА рдЕрдзрд┐рдХрд╛рдВрд╢ рдореЙрдбрд▓реЛрдВ рдХреЗ рд▓рд┐рдП рдкрд░реЗрд╢рд╛рдиреА рдХреЛ рдХрдо рдХрд░рддрд╛ рд╣реИред

सामान्यीकरण परिणाम जो दिखाते हैं कि मेमकोच विभिन्न बहुमोडल बैकबोन के पार यादगारपन-उन्मुख प्रतिक्रिया में सुधार करता है, लगातार सुधार अनुपात और सापेक्ष यादगारपन को बढ़ाता है, साथ ही अधिकांश मॉडलों के लिए परेशानी को कम करता है।

एक आगे का परीक्षण (ऊपर दिखाया गया है) संकेत देता है कि मेमकोच जोड़ने से यादगारपन-जागरूक प्रतिक्रिया में वृद्धि हुई है, जिसमें क्यूवेन2.5वीएल और एलएलएवी-ओवी के लिए सबसे बड़े लाभ दिखाई दे रहे हैं।

एक गुणात्मक मूल्यांकन तब आयोजित किया गया था, जिसमें मेमकोच प्रतिक्रिया के उदाहरणों का विश्लेषण किया गया था, जिसमें स्रोत छवि, प्राकृतिक भाषा सुझाव, और परिणामी संपादित छवि को एक साथ देखा गया था:

рдореЗрдордХреЛрдЪ рджреНрд╡рд╛рд░рд╛ рдЙрддреНрдкрдиреНрди рдпрд╛рджрдЧрд╛рд░рдкрди-рдЙрдиреНрдореБрдЦ рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рдХреЗ рдЧреБрдгрд╛рддреНрдордХ рдЙрджрд╛рд╣рд░рдгред рдкреНрд░рддреНрдпреЗрдХ рддреНрд░рд┐рдкрджреА рд╕реНрд░реЛрдд рдЫрд╡рд┐, рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдирд┐рд░реНрджреЗрд╢, рдФрд░ рдкрд░рд┐рдгрд╛рдореА рд╕рдВрдкрд╛рджрд┐рдд рдЫрд╡рд┐ рдХреЛ рджрд┐рдЦрд╛рддреА рд╣реИ, рд╕рд╛рдкреЗрдХреНрд╖ рдпрд╛рджрдЧрд╛рд░рдкрди (рдЖрд░рдПрдо) рдорд╛рдк рдХреЗ рд╕рд╛рде рдорд╛рдкрд╛ рдЧрдпрд╛ рдкрд░рд┐рд╡рд░реНрддрдиред рдорд╛рд░реНрдЧрджрд░реНрд╢рди рдореБрджреНрд░рд╛ рдФрд░ рдЧреЗрдЬ рд╕рдорд╛рдпреЛрдЬрди рд╕реЗ рд▓реЗрдХрд░ рд╕реЗрдореЗрдВрдЯрд┐рдХ рд╣рд╕реНрддрдХреНрд╖реЗрдк рдЬреИрд╕реЗ рд╡рд╕реНрддреБ рд╣рдЯрд╛рдиреЗ рддрдХ рд╣реЛрддрд╛ рд╣реИ, рдЬреЛ рд╕рдлрд▓ рд▓рд╛рдн рдФрд░ рдпрд╛рджрдЧрд╛рд░рдкрди рдХреЛ рдХрдо рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рдЕрд╕рд╛рдорд╛рдиреНрдп рддрддреНрд╡реЛрдВ рдХреЛ рд╣рдЯрд╛рдиреЗ рдХреЗ рдорд╛рдорд▓реЛрдВ рдХреЛ рджрд░реНрд╢рд╛рддрд╛ рд╣реИред

मेमकोच द्वारा उत्पन्न यादगारपन-उन्मुख प्रतिक्रिया के गुणात्मक उदाहरण। प्रत्येक त्रिपदी स्रोत छवि, प्राकृतिक भाषा निर्देश, और परिणामी संपादित छवि को दिखाती है, सापेक्ष यादगारपन (आरएम) माप के साथ मापा गया परिवर्तन। मार्गदर्शन मुद्रा और गेज समायोजन से लेकर सेमेंटिक हस्तक्षेप जैसे वस्तु हटाने तक होता है, जो सफल लाभ और यादगारपन को कम करने वाले असामान्य तत्वों को हटाने के मामलों को दर्शाता है।

इन परिणामों से, लेखक कहते हैं:

‘उदाहरणों में दिखाया गया है कि मॉडल कितनी विविधता से सुझाव देता है, जो मुद्रा को बदलने, दृष्टि को बदलने, या हाथ की स्थिति को बदलने जैसे सूक्ष्म संरचनात्मक समायोजन से लेकर वस्तु हटाने या चेहरे की अभिव्यक्ति को बदलने जैसे सेमेंटिक हस्तक्षेप तक होता है। ‘

‘प्रतिक्रिया स्वाभाविक रूप से व्याख्यात्मक और क्रियाशील है, संक्षिप्त पाठ निर्देशों में व्यक्त की जाती है (ज्यादातर क्रियाओं “लाओ”, ” खड़े हो जाओ”, “हटाओ” शामिल हैं) जो सीधे लागू की जा सकती हैं, वास्तव में यह बताते हुए कि एक यादगार तस्वीर कैसे लें। ‘

निष्कर्ष

यह जानना सबसे दिलचस्प होगा कि गूगल के बंद-बॉक्स दृष्टिकोण की विधि की तुलना मेमबेंच परियोजना से की जाए – न कि केवल यह जानने के लिए कि गूगल ने प्रणाली के सौंदर्य मानकों को परिभाषित करने के लिए किन केंद्रीय मानकों, संदर्भों और डेटाबेस का उपयोग किया है।

इस तरह की प्रणालियों का नकारात्मक पहलू यह है कि वे पैमाने पर एक समान मानक लागू करने का जोखिम रखते हैं जो अंततः मीम और क्लिच के रूप में समाप्त हो जाते हैं – एक तरह का दृश्य समकक्ष, एआई एम-डैश विवाद, जहां ‘सही’ प्रक्रिया कुछ हद तक शापित हो गई है अनौपचारिक उपयोग में।

 

* मैंने लेखकों के इनलाइन उद्धरणों को हाइपरलिंक में परिवर्तित किया है, यदि लिंक को लेख में कहीं और प्रस्तुत नहीं किया गया है।

लेख यहाँ, जैसे कई अन्य स्थानों पर, ‘पूरक सामग्री’ का उल्लेख करता है जिसे मैं न तो लेख से, न ही मूल अर्काइव लिस्टिंग से, और न ही परियोजना साइट से प्राप्त कर सकता हूं।

पहली बार गुरुवार, 26 फरवरी, 2026 को प्रकाशित

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai

рд╡рд┐рдЬреНрдЮрд╛рдкрди рдкреНрд░рдХрдЯреАрдХрд░рдг: Unite.AI рд╕рдЯреАрдХ рдЬрд╛рдирдХрд╛рд░реА рдФрд░ рд╕рдорд╛рдЪрд╛рд░ рдкреНрд░рджрд╛рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрдареЛрд░ рд╕рдВрдкрд╛рджрдХреАрдп рдорд╛рдирдХреЛрдВ рдХреЗ рдкреНрд░рддрд┐ рдкреНрд░рддрд┐рдмрджреНрдз рд╣реИред рдЬрдм рдЖрдк рдЙрди рдЙрддреНрдкрд╛рджреЛрдВ рдХреЗ рд▓рд┐рдВрдХ рдкрд░ рдХреНрд▓рд┐рдХ рдХрд░рддреЗ рд╣реИрдВ рдЬрд┐рдирдХреА рд╣рдордиреЗ рд╕рдореАрдХреНрд╖рд╛ рдХреА рд╣реИ, рддреЛ рд╣рдореЗрдВ рдореБрдЖрд╡рдЬрд╛ рдорд┐рд▓ рд╕рдХрддрд╛ рд╣реИред