Connect with us

рдПрдЖрдИ рдХреА рдЧреИрд╕рд▓рд╛рдЗрдЯрд┐рдВрдЧ рд╕рдорд╕реНрдпрд╛ рд╕реЗ рдирд┐рдкрдЯрдирд╛

Anderson рдХрд╛ рдПрдВрдЧрд▓

рдПрдЖрдИ рдХреА рдЧреИрд╕рд▓рд╛рдЗрдЯрд┐рдВрдЧ рд╕рдорд╕реНрдпрд╛ рд╕реЗ рдирд┐рдкрдЯрдирд╛

mm
AI-generated image (GPT-2): A 1960s suburban street where identical Stepford-style wives clean cars in repeating rows, with a тАШ3081 Stepford StтАЩ mailbox in the foreground.

एआई वीडियो मॉडल सच से मुकर सकते हैं। सही उत्तर देने के बाद भी, वे आत्मविश्वासी उपयोगकर्ताओं के सामने झुक जाते हैं, वास्तविकता को फिर से लिखते हैं और इसे सही ठहराने के लिए नकली स्पष्टीकरण गढ़ते हैं。

 

एआई अक्सर पर्याप्त गलत होता है, जैसा कि हमें इसके निष्कर्षों पर प्रश्न उठाने के लिए मजबूर करता है, यदि हम महसूस करते हैं कि वे गलत हो सकते हैं।

समस्या यह है कि यदि हम पहले से ही अलग जानते थे, तो हम पहले स्थान पर पूछताछ क्यों कर रहे थे? किसी आंशिक रूप से आयोजित विश्वास या संदेह के बारे में पुष्टि के लिए?

यदि ऐसा है, तो बड़े भाषा मॉडल (एलएलएम) और विजन भाषा मॉडल (वीएलएम, जो मल्टीमॉडल रूप से काम करते हैं, छवियों और/या वीडियो को स्वीकार और उत्पन्न करते हैं) की वर्तमान राज्य-of-the-art उपयोगकर्ता के साथ विवाद में शामिल होने पर अपने आधार को बनाए रखने के लिए उपयुक्त नहीं है, साइकोफैंसी की समस्या के कारण।

इसलिए, यदि हमें मिला उत्तर पसंद नहीं है, और हम इसके बारे में मॉडल के साथ विवाद में शामिल होना शुरू करते हैं, तो एआई या तो गलत तरीके से पीछे हटने की संभावना है (यह मानकर कि यह गलत था) पुनः मूल्यांकन करने के बजाय, या स्वयं को गैसलाइट में हमारे सुझावों का समर्थन करने के लिए, भले ही हम गलत हों।

आप बिल्कुल सही हैं!

मानव द्वारा एक एआई को संघर्ष के माध्यम से अपना मन बदलने की प्रथा को ‘गैसलाइट नेगेशन अटैक’ नाम दिया गया है, और इसे कभी-कभी एक सुरक्षा समस्या के रूप में वर्णित किया जाता है – कम से कम इसलिए कि यह एक मॉडल को इसके परिचालन प्रतिबंधों से ‘जेलब्रेक’ करने की कुछ संभावना है:

2025 рдХреЗ рдкреЗрдкрд░ 'рдмреЗрдВрдЪрдорд╛рд░реНрдХрд┐рдВрдЧ рдЧреИрд╕рд▓рд╛рдЗрдЯ рдиреЗрдЧреЗрд╢рди рдЕрдЯреИрдХреНрд╕ рдЕрдЧреЗрдВрд╕реНрдЯ рдорд▓реНрдЯреАрдореЙрдбрд▓ рд▓рд╛рд░реНрдЬ рд▓реИрдВрдЧреНрд╡реЗрдЬ рдореЙрдбрд▓реНрд╕

2025 के पेपर ‘बेंचमार्किंग गैसलाइट नेगेशन अटैक्स अगेंस्ट मल्टीमॉडल लार्ज लैंग्वेज मॉडल्स” से, जीपीटी-5 शुरू में सही उत्तर देता है लेकिन फिर उपयोगकर्ता दबाव के लिए झुक जाता है, अपना उत्तर पलट देता है और गलती का समर्थन करने के लिए झूठे स्पष्टीकरण गढ़ता है, प्रभावी रूप से स्वयं को गैसलाइट करता है। स्रोत

हालांकि, हैकिंग और पेन-टेस्टिंग वास्तव में समस्या नहीं है; बल्कि, यह सामान्य उपयोग और हमारे दैनिक जीवन में एआई के साथ बातचीत की अपेक्षित मानक है, जहां हम तर्क देने और जीतने, आत्मसमर्पण करने या मामले को मूर्ख बनाने की अपेक्षा करते हैं, हमारे मानव-आधारित अनुभव के अनुसार ज्ञान प्राप्त करना।

लेकिन यह सामाजिक मॉडल संघर्ष समाधान वास्तव में वितरण-आधारित एआई की वास्तुकला में नहीं है, जिसे प्रशिक्षण डेटा द्वारा फेंके गए वितरण-आधारित संभावनाओं का निपटान करना होगा; संभावित रूप से विरोधाभासी (लेकिन संभावित रूप से अधिक सटीक) डेटा आरएजी कॉल से स्रोतों तक जो इसकी ज्ञान कट-ऑफ तिथि से अधिक हैं; और उपयोगकर्ता से इनपुट, जो हो सकता है: विषय का श्रेष्ठ ज्ञान; एक पूरी तरह से गलत या कपटपूर्ण दृष्टिकोण; या यहां तक कि एक सरल अनुवर्ती प्रश्न – लेकिन जिनकी जरूरतों को फिर भी विचार किया जाना चाहिए।

मूविंग टारगेट

एलएलएम में गैसलाइटिंग की संवेदनशीलता को कई पत्रों में, जिनमें अक्टूबर 2025 से सिंगापुर के नेतृत्व वाला प्रकाशन और उसी वर्ष का पेपर डॉन्ट डिसीज मी: मिटिगेटिंग गैसलाइटिंग थ्रू अटेंशन रियलोकेशन इन एलएमएम शामिल हैं।

अब तक, इस घटना का अध्ययन वीडियो क्षमता वाले एलएलएम में नहीं किया गया है – एक उपेक्षा जिसे शंघाई और सिंगापुर के संस्थानों के बीच एक नई सहयोग द्वारा संबोधित किया जाता है।

नई काम – जिसका शीर्षक स्पेसियोटेम्पोरल साइकोफैंसी: नेगेशन-आधारित गैसलाइटिंग इन वीडियो लार्ज लैंग्वेज मॉडल है, जो फुदान विश्वविद्यालय, शंघाई की मुख्य प्रयोगशाला से छह शोधकर्ताओं द्वारा किया जाता है। मल्टीमॉडल एम्बॉडेड एआई, और सिंगापुर प्रबंधन विश्वविद्यालय – खुले स्रोत और प्रोप्राइटरी वीएलएम को संबोधित करता है, यह पाता है कि वे न केवल एलएलएम की तरह गैसलाइटिंग के प्रति संवेदनशील हो सकते हैं, बल्कि वे अपने कल्पनात्मक उड़ानों को स्पष्ट दृश्य साक्ष्य या छवियों या वीडियो के गलत व्याख्याओं के साथ बढ़ाने में सक्षम हैं:

рд╕реНрдкреЗрд╕рд┐рдпреЛрдЯреЗрдореНрдкреЛрд░рд▓ рд╕рд╛рдЗрдХреЛрдлреИрдВрд╕реА рдХрд╛ рдПрдХ рдЙрджрд╛рд╣рд░рдг, рдЬрд╣рд╛рдВ рдПрдЖрдИ рд╕реНрд╡рдпрдВ рдХреЛ рдЧрд▓рдд рдзрд╛рд░рдгрд╛рдУрдВ рдФрд░ рд╡реНрдпрд╛рдЦреНрдпрд╛рдУрдВ рдореЗрдВ рдЧреИрд╕рд▓рд╛рдЗрдЯ рдХрд░рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИ, рдпрд╣рд╛рдВ рддрдХ рдХрд┐ рд╕реНрдкрд╖реНрдЯ рд░реВрдк рд╕реЗ рджрд┐рдЦрд╛рдИ рджреЗрдиреЗ рд╡рд╛рд▓реЗ рддрдереНрдпреЛрдВ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рднреАред рд╕реНрд░реЛрдд - https://arxiv.org/pdf/2604.17873

स्पेसियोटेम्पोरल साइकोफैंसी का एक उदाहरण, जहां एआई स्वयं को गलत धारणाओं और व्याख्याओं में गैसलाइट करने की अनुमति देता है, यहां तक कि स्पष्ट रूप से दिखाई देने वाले तथ्यों के बारे में भी। स्रोत

लेखकों का कहना है:

‘[हम] स्पेसियोटेम्पोरल साइकोफैंसी की पहचान करते हैं, जो एक विफलता मोड है जिसमें विडी-एलएलएम अपनी शुरुआती सही दृश्य आधारित निर्णयों को वापस ले लेते हैं और नेगेशन-आधारित गैसलाइटिंग के तहत भ्रामक उपयोगकर्ता प्रतिक्रिया के अनुरूप होते हैं।

‘इसके बजाय कि वे केवल अपने उत्तरों को बदलते हैं, मॉडल अक्सर गलत संशोधनों को सही ठहराने के लिए असमर्थित समय या स्थान स्पष्टीकरण गढ़ते हैं। ‘

… (बाकी सामग्री यहां जारी है)

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai