Anderson का एंगल

एआई की गैसलाइटिंग समस्या से निपटना

Published April 23, 2026

Martin Anderson

AI-generated image (GPT-2): A 1960s suburban street where identical Stepford-style wives clean cars in repeating rows, with a ‘3081 Stepford St’ mailbox in the foreground.

एआई वीडियो मॉडल सच से मुकर सकते हैं। सही उत्तर देने के बाद भी, वे आत्मविश्वासी उपयोगकर्ताओं के सामने झुक जाते हैं, वास्तविकता को फिर से लिखते हैं और इसे सही ठहराने के लिए नकली स्पष्टीकरण गढ़ते हैं。

एआई अक्सर पर्याप्त गलत होता है, जैसा कि हमें इसके निष्कर्षों पर प्रश्न उठाने के लिए मजबूर करता है, यदि हम महसूस करते हैं कि वे गलत हो सकते हैं।

समस्या यह है कि यदि हम पहले से ही अलग जानते थे, तो हम पहले स्थान पर पूछताछ क्यों कर रहे थे? किसी आंशिक रूप से आयोजित विश्वास या संदेह के बारे में पुष्टि के लिए?

यदि ऐसा है, तो बड़े भाषा मॉडल (एलएलएम) और विजन भाषा मॉडल (वीएलएम, जो मल्टीमॉडल रूप से काम करते हैं, छवियों और/या वीडियो को स्वीकार और उत्पन्न करते हैं) की वर्तमान राज्य-of-the-art उपयोगकर्ता के साथ विवाद में शामिल होने पर अपने आधार को बनाए रखने के लिए उपयुक्त नहीं है, साइकोफैंसी की समस्या के कारण।

इसलिए, यदि हमें मिला उत्तर पसंद नहीं है, और हम इसके बारे में मॉडल के साथ विवाद में शामिल होना शुरू करते हैं, तो एआई या तो गलत तरीके से पीछे हटने की संभावना है (यह मानकर कि यह गलत था) पुनः मूल्यांकन करने के बजाय, या स्वयं को गैसलाइट में हमारे सुझावों का समर्थन करने के लिए, भले ही हम गलत हों।

आप बिल्कुल सही हैं!

मानव द्वारा एक एआई को संघर्ष के माध्यम से अपना मन बदलने की प्रथा को ‘गैसलाइट नेगेशन अटैक’ नाम दिया गया है, और इसे कभी-कभी एक सुरक्षा समस्या के रूप में वर्णित किया जाता है – कम से कम इसलिए कि यह एक मॉडल को इसके परिचालन प्रतिबंधों से ‘जेलब्रेक’ करने की कुछ संभावना है:

2025 के पेपर ‘बेंचमार्किंग गैसलाइट नेगेशन अटैक्स अगेंस्ट मल्टीमॉडल लार्ज लैंग्वेज मॉडल्स” से, जीपीटी-5 शुरू में सही उत्तर देता है लेकिन फिर उपयोगकर्ता दबाव के लिए झुक जाता है, अपना उत्तर पलट देता है और गलती का समर्थन करने के लिए झूठे स्पष्टीकरण गढ़ता है, प्रभावी रूप से स्वयं को गैसलाइट करता है। स्रोत

हालांकि, हैकिंग और पेन-टेस्टिंग वास्तव में समस्या नहीं है; बल्कि, यह सामान्य उपयोग और हमारे दैनिक जीवन में एआई के साथ बातचीत की अपेक्षित मानक है, जहां हम तर्क देने और जीतने, आत्मसमर्पण करने या मामले को मूर्ख बनाने की अपेक्षा करते हैं, हमारे मानव-आधारित अनुभव के अनुसार ज्ञान प्राप्त करना।

लेकिन यह सामाजिक मॉडल संघर्ष समाधान वास्तव में वितरण-आधारित एआई की वास्तुकला में नहीं है, जिसे प्रशिक्षण डेटा द्वारा फेंके गए वितरण-आधारित संभावनाओं का निपटान करना होगा; संभावित रूप से विरोधाभासी (लेकिन संभावित रूप से अधिक सटीक) डेटा आरएजी कॉल से स्रोतों तक जो इसकी ज्ञान कट-ऑफ तिथि से अधिक हैं; और उपयोगकर्ता से इनपुट, जो हो सकता है: विषय का श्रेष्ठ ज्ञान; एक पूरी तरह से गलत या कपटपूर्ण दृष्टिकोण; या यहां तक कि एक सरल अनुवर्ती प्रश्न – लेकिन जिनकी जरूरतों को फिर भी विचार किया जाना चाहिए।

मूविंग टारगेट

एलएलएम में गैसलाइटिंग की संवेदनशीलता को कई पत्रों में, जिनमें अक्टूबर 2025 से सिंगापुर के नेतृत्व वाला प्रकाशन और उसी वर्ष का पेपर डॉन्ट डिसीज मी: मिटिगेटिंग गैसलाइटिंग थ्रू अटेंशन रियलोकेशन इन एलएमएम शामिल हैं।

अब तक, इस घटना का अध्ययन वीडियो क्षमता वाले एलएलएम में नहीं किया गया है – एक उपेक्षा जिसे शंघाई और सिंगापुर के संस्थानों के बीच एक नई सहयोग द्वारा संबोधित किया जाता है।

नई काम – जिसका शीर्षक स्पेसियोटेम्पोरल साइकोफैंसी: नेगेशन-आधारित गैसलाइटिंग इन वीडियो लार्ज लैंग्वेज मॉडल है, जो फुदान विश्वविद्यालय, शंघाई की मुख्य प्रयोगशाला से छह शोधकर्ताओं द्वारा किया जाता है। मल्टीमॉडल एम्बॉडेड एआई, और सिंगापुर प्रबंधन विश्वविद्यालय – खुले स्रोत और प्रोप्राइटरी वीएलएम को संबोधित करता है, यह पाता है कि वे न केवल एलएलएम की तरह गैसलाइटिंग के प्रति संवेदनशील हो सकते हैं, बल्कि वे अपने कल्पनात्मक उड़ानों को स्पष्ट दृश्य साक्ष्य या छवियों या वीडियो के गलत व्याख्याओं के साथ बढ़ाने में सक्षम हैं:

स्पेसियोटेम्पोरल साइकोफैंसी का एक उदाहरण, जहां एआई स्वयं को गलत धारणाओं और व्याख्याओं में गैसलाइट करने की अनुमति देता है, यहां तक कि स्पष्ट रूप से दिखाई देने वाले तथ्यों के बारे में भी। स्रोत

लेखकों का कहना है:

‘[हम] स्पेसियोटेम्पोरल साइकोफैंसी की पहचान करते हैं, जो एक विफलता मोड है जिसमें विडी-एलएलएम अपनी शुरुआती सही दृश्य आधारित निर्णयों को वापस ले लेते हैं और नेगेशन-आधारित गैसलाइटिंग के तहत भ्रामक उपयोगकर्ता प्रतिक्रिया के अनुरूप होते हैं।

‘इसके बजाय कि वे केवल अपने उत्तरों को बदलते हैं, मॉडल अक्सर गलत संशोधनों को सही ठहराने के लिए असमर्थित समय या स्थान स्पष्टीकरण गढ़ते हैं। ‘

… (बाकी सामग्री यहां जारी है)

Related Topics:large language model Large Language Models (LLMs)

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

एआई की गैसलाइटिंग समस्या से निपटना

आप बिल्कुल सही हैं!

मूविंग टारगेट

You may like