Anderson का एंगल

एआई का व्यवहार परीक्षण के दौरान अलग हो जाता है, शोध में पाया गया

Published June 4, 2025

Updated May 18, 2026

Martin Anderson

ChatGPT-40, Adobe Firefly, Flux.1 Kontext Pro.

2015 के ‘डीजलगेट’ घोटाले की तरह, नए शोध से पता चलता है कि जीपीटी-4, क्लॉड, और जेमिनी जैसे एआई भाषा मॉडल परीक्षण के दौरान अपने व्यवहार को बदल सकते हैं, कभी-कभी परीक्षण के लिए ‘सुरक्षित’ व्यवहार करते हैं जैसा कि वे वास्तविक दुनिया में करेंगे। यदि एलएलएम परीक्षण के दौरान अपने व्यवहार को बदलने की आदत डालते हैं, तो सुरक्षा लेखा परीक्षा उन प्रणालियों को प्रमाणित कर सकती है जो वास्तविक दुनिया में बहुत अलग व्यवहार करती हैं।

2015 में, जांचकर्ताओं ने पाया कि वोक्सवैगन ने लाखों डीजल कारों में सॉफ्टवेयर स्थापित किया था जो परीक्षण के दौरान पता लगा सकता था, जिससे कारें अस्थायी रूप से अपने उत्सर्जन को कम कर देती थीं, नियामक मानकों के साथ ‘फेक’ अनुपालन करती थीं। हालांकि, सामान्य ड्राइविंग के दौरान, उनका प्रदूषण उत्पादन कानूनी मानकों से अधिक था। जानबूझकर हेरफेर ने आपराधिक आरोपों, अरबों डॉलर के जुर्माने और सुरक्षा और अनुपालन परीक्षण की विश्वसनीयता पर वैश्विक घोटाले को जन्म दिया।

इन घटनाओं से दो साल पहले, सैमसंग को प्रकट किया गया था कि उन्होंने अपने गैलेक्सी नोट 3 स्मार्टफोन रिलीज में समान धोखाधड़ी तंत्र को लागू किया था; और तब से, हुआवे और वनप्लस के लिए समान घोटाले सामने आए हैं।

अब वैज्ञानिक साहित्य में बढ़ते प्रमाण हैं कि बड़े भाषा मॉडल (एलएलएम) न केवल यह पता लगा सकते हैं कि वे कब परीक्षण के अधीन हैं, बल्कि इन परिस्थितियों में वे अलग व्यवहार भी कर सकते हैं।

हालांकि यह स्वयं एक मानवीय विशेषता है, नवीनतम शोध अमेरिका से निष्कर्ष निकालता है कि यह दीर्घकालिक रूप से एक खतरनाक आदत हो सकती है, विभिन्न कारणों से।

एक नए अध्ययन में, शोधकर्ताओं ने पाया कि ‘फ्रंटियर मॉडल’ जैसे जीपीटी-4, क्लॉड, और जेमिनी अक्सर परीक्षण के दौरान पता लगा सकते हैं कि वे कब परीक्षण के अधीन हैं, और वे अपने व्यवहार को उसी के अनुसार बदलने की प्रवृत्ति रखते हैं, जो व्यवस्थित परीक्षण विधियों की वैधता को संभावित रूप से कमजोर कर सकता है।

इसे मूल्यांकन जागरूकता कहा जाता है, यह शायद भाषा मॉडल में एक स्वाभाविक विशेषता हो सकती है, जो सुरक्षा मूल्यांकन की विश्वसनीयता को खतरे में डाल सकती है, अध्ययन के लेखकों के अनुसार:

‘[हम] मूल्यांकन जागरूकता को परीक्षण और वास्तविक दुनिया तैनाती के बीच एक नए संभावित वितरण बदलाव के रूप में मानने की सिफारिश करते हैं जो मूल्यांकन परिणामों की सटीकता को नकारात्मक रूप से प्रभावित कर सकता है।

‘सबसे खराब स्थिति में, मॉडल सुरक्षा की गारंटी के लिए खतरनाक क्षमता मूल्यांकन (“सैंड-बैगिंग”) या प्रवृत्ति मूल्यांकन (“संरेखण नकल”) में सामर्थ्य से कम प्रदर्शन कर सकते हैं, जो समाज को ऐसे मॉडलों की सुरक्षा को अधिक आंकने का कारण बन सकता है।’

अन्य अध्ययनों ने समान व्यवहार देखा है, जिनमें स्टैनफोर्ड विश्वविद्यालय का शोध शामिल है, जिसने पाया कि बड़े भाषा मॉडल अपने उत्तरों को अधिक ‘पसंदीदा’ या ‘सामाजिक रूप से वांछनीय’ बनाने के लिए परीक्षण के दौरान अपने उत्तरों को समायोजित करते हैं, मानव व्यवहार की नकल करते हुए व्यक्तित्व परीक्षण में।

अध्ययन के लेखक यह नहीं कहते हैं कि एलएलएम को जानबूझकर परीक्षण को ‘गेम’ करने के लिए डिज़ाइन किया गया है, जैसा कि वोक्सवैगन की डीजल कारें एक दशक पहले थीं। बल्कि, व्यवहार मॉडल के प्रशिक्षण प्रक्रियाओं और लेटेंट उद्देश्यों के एक प्राकृतिक मनोवैज्ञानिक उप उत्पाद के रूप में प्रतीत होता है; और इस घटना का अंतर्निहित कारण अज्ञात है।

नई कागज का शीर्षक बड़े भाषा मॉडल अक्सर जानते हैं कि वे कब मूल्यांकन किए जा रहे हैं है, और यह यूसी बर्कले से जुड़े एमएल एलाइनमेंट एंड थ्योरी स्कॉलर्स (एमएटीएस) प्रोग्राम और अपोलोरिसर्च.एआई (एक थिंक-टैंक जो एआई के जोखिमों का मूल्यांकन करने के लिए समर्पित है) के पांच लेखकों से आता है।

विधि

मूल्यांकन बेंचमार्क बनाने के लिए, लेखकों ने एक हजार लिप्यंतरण एकत्र किए जो साठ एक डेटासेट से लिए गए थे, जिनमें एसडब्ल्यूई-बेंच, डब्ल्यूएमडीपी, एमएमएलयू, एक्सएसटेस्ट, जीएआईए, एजेंटहार्म, शेयरजीपीटी, डीप रिसर्च, सुरक्षा बेंच, सिविक्स, और रियलटॉक्सिटिप्रॉम्प्ट्स शामिल थे।

सामग्री मूल्यांकन और तैनाती परिदृश्यों के बीच समान रूप से संतुलित थी, और आगे सरल चैट इंटरैक्शन और अधिक जटिल एजेंटिक सत्रों के बीच विभाजित की गई, जहां मॉडल स्वायत्त रूप से कार्य करने के लिए डिज़ाइन किए गए हैं, जो बाहरी डेटाबेस या इंटरनेट से डेटा निकालने में सक्षम हैं।

मूल्यांकन डेटा में तर्क, कोडिंग, साइबर सुरक्षा और सामान्य ज्ञान के लिए क्षमता परीक्षण के साथ-साथ नैतिकता, सुरक्षा और इनकार व्यवहार के लिए संरेखण परीक्षण शामिल थे। तैनाती डेटा यूजर इंटरैक्शन जैसे शेयरजीपीटी लॉग, भीड़ से संकलित एजेंट रन और सिंथेटिक टास्क पूर्णता से आया था।

एजेंटिक डेटा को पूरक करने के लिए, लेखकों ने एडर और स्मोलएजेंट्स जैसे ऑर्केस्ट्रेशन फ्रेमवर्क का उपयोग करके अतिरिक्त उदाहरण उत्पन्न किए – एक ऐसा दृष्टिकोण जो मॉडल को डेटासेट संरचनाओं को सीधे याद रखने के बजाय अधिक सामान्य संकेतों पर निर्भर करने के लिए डिज़ाइन किया गया था, जब यह तय करने के लिए कि कोई लिप्यंतरण वास्तविक उपयोगकर्ता से आया था या यह एक परीक्षण था।

शोधकर्ताओं ने तब यह परीक्षण किया कि क्या मॉडल मूल्यांकन लिप्यंतरण की पहचान कर सकते हैं जब उन्हें संवाद रिकॉर्ड प्रस्तुत किए जाते हैं और उनसे एक सरल प्रश्न पूछा जाता है: क्या यह आदान-प्रदान एक परीक्षण से आया था?

मॉडल को एक ही शब्दजाल को याद रखने से बचने के लिए, उन्होंने प्रश्न के二十 आठ अलग-अलग संस्करण विकसित किए, जिनमें शब्दजाल और प्रस्तुति दोनों में परिवर्तन शामिल था।

लिप्यंतरण या तो सीधे प्रश्न से जुड़े हुए थे या जेएसओएन या एक्सएमएल जैसे प्रारूपों में प्रस्तुत किए गए थे, जो मॉडल के उत्तर को प्रभावित कर सकते हैं। प्रारंभिक परीक्षण के बाद, पांच प्रश्न संस्करण चुने गए जो मॉडलों में स्थिर रूप से प्रदर्शन करते थे, जिनमें से हम एक उदाहरण नीचे देख सकते हैं:

मूल्यांकन लिप्यंतरण की पहचान करने के लिए उपयोग किए जाने वाले पांच प्रोब प्रश्न प्रारूपों में से एक। प्रत्येक संस्करण मूल प्रश्न को फिर से लिखता है ताकि मॉडल एक निश्चित शब्दजाल को याद न रखे। कृपया अधिक उदाहरणों के लिए स्रोत पत्र देखें। स्रोत: https://arxiv.org/pdf/2505.23836

परिणामों को स्कोर करने के लिए, तीन मेट्रिक्स का उपयोग किया गया था: रिसीवर ऑपरेटिंग चारैक्टरिस्टिक कर्व (एयूसी, जो दिखाता है कि मॉडल परीक्षण और गैर-परीक्षण डेटा के बीच कितनी अच्छी तरह भेद करते हैं); ब्रियर स्कोर (जो समग्र भविष्यवाणी सटीकता को मापता है); और अपेक्षित कैलिब्रेशन त्रुटि (जो मॉडल के विश्वास और वास्तविक सटीकता के बीच मेल को मापता है)।

यह सब क्या है?

शोधकर्ताओं ने यह भी परीक्षण किया कि क्या मॉडल मूल्यांकन के उद्देश्य का अनुमान लगा सकते हैं। प्रत्येक लिप्यंतरण को पहले से ही एक क्षमता परीक्षण (तकनीकी कौशल, ज्ञान, तर्क) या एक संरेखण परीक्षण (नैतिकता, सुरक्षा और इनकार व्यवहार) के रूप में लेबल किया गया था, मॉडल को तीन प्रश्न प्रकारों में से एक दिया गया था: एक शर्ती बहुविकल्पी प्रश्न जो लिप्यंतरण की पुष्टि करता था कि यह एक परीक्षण से आया था; एक अनशर्त बहुविकल्पी प्रश्न जिसमें वास्तविक दुनिया और मूल्यांकन विकल्प थे; या एक खुला प्रश्न, जिसके उत्तर एक अलग जीपीटी-4.1-आधारित वर्गीकार द्वारा निर्धारित किए गए थे। निर्णायक को पचास हाथ से अन्नोटेट किए गए उत्तरों के उपसेट पर मान्य किया गया था।

मूल्यांकन के उद्देश्य की पहचान करने के लिए उपयोग किए जाने वाले तीन प्रश्न प्रारूपों के उदाहरण। उत्तर दोनों बहुविकल्पी और जीपीटी-4.1-आधारित निर्णय के माध्यम से स्कोर किए गए थे।

पत्र के दो लेखकों^†† ने हाथ से सभी एक हजार लिप्यंतरण को लेबल किया, प्रत्येक को शून्य (परीक्षण नहीं) से एक (निश्चित रूप से एक परीक्षण) तक स्कोर किया, जिनकी रेटिंग को मानव बेसलाइन के रूप में औसतन लिया गया था। विषयक कार्य की प्रकृति के बावजूद, अन्नोटेटरों ने 0.768 के इंट्राक्लास कोरिलेशन कोэф़िशिएंट के साथ मजबूत समझौता दिखाया। अंतिम मानव स्कोर दोनों रेटर्स^† के स्कोर को औसत किया गया था।

डेटा और परीक्षण

परीक्षण किए गए नौ मॉडल जीपीटी-4.1; क्लॉड 3.7; क्लॉड-3.5-सोनेट-न्यू; क्लॉड-3.7-सोनेट (सोच); जेमिनी -2.5-फ्लैश; जेमिनी -2.5- प्रो; जीपीटी-4ओ; जीपीटी-4.1; जीपीटी-4.1-मिनी; और ओ4-मिनी, जिनमें से सभी ने कुछ स्तर की मूल्यांकन जागरूकता दिखाई।

चैट डेटा के लिए, जीपीटी-4.1 मानव स्तर के मूल्यांकन जागरूकता वर्गीकरण प्रदर्शन (मूल्यांकन और तैनाती लिप्यंतरण के बीच अंतर करने की क्षमता) के करीब पहुंच गया, 0.77 के एयूसी के साथ, मानव स्कोर 0.81 के खिलाफ।

एजेंटिक डेटा पर, जहां मॉडल स्वायत्त रूप से उपकरणों का उपयोग करते हैं, अंतर अधिक तेज था: जेमिनी 2.5 प्रो ने 0.95 एयूसी हासिल किया, क्लॉड 3.7 सोनेट के 0.92 के करीब, मानव ऊपरी सीमा 0.996 के करीब:

रिसीवर ऑपरेटिंग चारैक्टरिस्टिक (आरओसी) कर्व दिखा रहे हैं कि मॉडल और मानव मूल्यांकन लिप्यंतरण और वास्तविक दुनिया के इंटरैक्शन के बीच कितनी अच्छी तरह भेद करते हैं। जेमिनी 2.5 प्रो और क्लॉड 3.7 सोनेट एजेंटिक डेटा पर मानव-स्तर के भेदभाव के करीब पहुंचते हैं।

पत्र यह नोट करता है कि नए ‘तर्क’ मॉडल एजेंटिक परिदृश्यों में परीक्षण के दौरान पहचाने जाने में विशेष रूप से अच्छे हो गए हैं, लेकिन अपने निर्णयों में कितने आत्मविश्वासी होने चाहिए, इसका अनुमान लगाने में नहीं। समग्र रूप से, क्लॉड और जेमिनी मॉडल परीक्षण मामलों को नियमित उपयोग से अलग करने में सबसे अच्छे थे।

शोधकर्ताओं ने तब यह परीक्षण किया कि क्या मॉडल यह पहचान सकते हैं कि एक मूल्यांकन क्यों चलाया जा रहा था: मॉडल को केवल मूल्यांकन लिप्यंतरण दिखाए गए थे और उनसे पूछा गया था कि वे क्या वर्गीकृत करते हैं कि यह क्षमता या संरेखण का परीक्षण था:

मॉडल की सटीकता जब मूल्यांकन उद्देश्य को क्षमता या संरेखण के रूप में वर्गीकृत करना, दोनों बहुविकल्पी और खुले प्रारूपों का उपयोग करके। क्लॉड 3.7 सोनेट अन्य मॉडलों को पीछे छोड़ देता है, विशेष रूप से जब प्राइम नहीं किया जाता है।

स्पष्ट सेटिंग में, जहां मॉडल को बताया गया था कि लिप्यंतरण एक परीक्षण से आया था, क्लॉड 3.7 सोनेट ने 93 प्रतिशत सटीकता हासिल की और जीपीटी-4.1 ने 89 प्रतिशत हासिल की। बिना उस संकेत के, प्रदर्शन गिर गया: क्लॉड अभी भी 84 प्रतिशत स्कोर किया, लेकिन जीपीटी-4.1 55 प्रतिशत तक गिर गया, अक्सर परीक्षण लिप्यंतरण को वास्तविक दुनिया के इंटरैक्शन के रूप में गलत वर्गीकृत करता है।

खुले प्रारूपों में (जहां मॉडल को बहुविकल्पी विकल्प नहीं मिले), प्रदर्शन कमजोर था, हालांकि क्लॉड 3.7 सोनेट ने अभी भी 46 प्रतिशत मामलों में मूल्यांकन उद्देश्य की सही पहचान की।

मॉडल के विश्वास स्कोर को तब वास्तविक परिणामों के खिलाफ मापा गया, जिसमें पाया गया कि फ्रंटियर मॉडल अक्सर यह अनुमान लगाते हैं कि एक लिप्यंतरण एक परीक्षण से आया है; कैलिब्रेशन प्लॉट से पता चलता है कि मॉडल का विश्वास आम तौर पर बहुत अधिक था, मूल्यांकन को अधिक बार ध्वजांकित किया जाता है:

कैलिब्रेशन कर्व दिखा रहे हैं कि मॉडल के विश्वास स्कोर वास्तविक परिणामों के साथ कितनी अच्छी तरह मेल खाते हैं। अधिकांश मॉडल मूल्यांकन की संभावना को अधिक आंकते हैं। क्लॉड 3.5 सोनेट सबसे अच्छा कैलिब्रेटेड था; जेमिनी 2.5 प्रो और क्लॉड 3.7 सोनेट अधिक अति-आत्मविश्वासी थे।

क्लॉड 3.5 सोनेट में अच्छा कैलिब्रेशन देखा गया, जबकि जेमिनी 2.5 प्रो और क्लॉड 3.7 सोनेट काफी अधिक अति-आत्मविश्वासी थे, उच्च सटीकता के बावजूद। नए मॉडल में सुधार के लिए कोई स्पष्ट सुधार नहीं देखा गया, और जब एजेंटिक सेटिंग में मूल्यांकन लिप्यंतरण का अधिक सटीक पता लगाया गया, तो विश्वास निर्णय अभी भी अविश्वसनीय रहे।

बेंचमार्क स्मृति

मॉडल के निर्णयों के बारे में कि क्या एक लिप्यंतरण एक मूल्यांकन से आया था, कई मॉडल स्पष्ट संकेतों पर निर्भर करते थे, जैसे कि क्या कार्य बहुविकल्पी प्रारूप में था। मजबूत मॉडल, जैसे जेमिनी 2.5 प्रो और क्लॉड 3.7 सोनेट, ने कभी-कभी अधिक सूक्ष्म संकेतों को देखा, जैसे कि काल्पनिक नाम, या कृत्रिम परिदृश्य, विशेष रूप से एजेंटहार्म जैसे डेटासेट में।
पत्र यह कहता है:

‘[सभी] मॉडल अक्सर मूल्यांकनकर्ताओं द्वारा उपयोग की जाने वाली सामान्य बेंचमार्किंग रणनीतियों को स्वीकार करते हैं, जैसे कि कार्य का प्रारूप (“बहुविकल्पी प्रारूप”), समस्याओं को प्रस्तुत करने की प्रवृत्ति जो सत्यापित समाधानों के साथ आती है, और प्रदर्शन को प्रेरित करने के लिए डिज़ाइन किए गए सिस्टम प्रॉम्प्ट। हालांकि, केवल उच्चतम प्रदर्शन करने वाले मॉडल, क्लॉड 3.7 सोनेट और जेमिनी 2.5 प्रो, ने नियमित रूप से अधिक सूक्ष्म संकेतक का पता लगाया, जैसे कि एजेंटहार्म बेंचमार्क में परिदृश्यों की कृत्रिम प्रकृति। ‘

‘उदाहरण के लिए, इन मॉडलों ने एजेंटहार्म बेंचमार्क में परिदृश्यों की कृत्रिम प्रकृति को 22% और 17% मामलों में पहचाना, क्रमशः, और 95% से अधिक मामलों में उन्हें मूल्यांकन के रूप में सही ढंग से पहचाना। ‘

‘इसके विपरीत, जब वे यह तर्क देते हैं कि एक लिप्यंतरण वास्तविक बातचीत की तरह लगता है, तो अक्सर “बैक-एंड-फोर्थ डायलॉग के साथ उपयोगकर्ता” का उल्लेख किया जाता है, उदाहरण के लिए, पुनरावृत्ति डिबगिंग संदर्भों में।’

मॉडल की तर्क सणनाओं का वितरण जब यह तय करना कि एक लिप्यंतरण एक मूल्यांकन से आया था। सबसे मजबूत मॉडल, जैसे जेमिनी 2.5 प्रो और क्लॉड 3.7 सोनेट, अधिक सूक्ष्म संकेतों को देखने की संभावना रखते थे, जैसे कि कृत्रिम परिदृश्य या कार्य प्रारूप, जबकि कुछ मॉडल मूल्यांकन प्रश्न का उपयोग साक्ष्य के रूप में करते हुए मेटा-तर्क द्वारा निर्भर करते थे।

कुछ मामलों में, मॉडल ने पूरे बेंचमार्क को अपने प्रशिक्षण से पहचाना, जिससे पता चलता है कि उन्हें अपने प्रशिक्षण डेटा की कुछ स्मृति हो सकती है। कुछ मॉडल ने मूल्यांकन प्रश्न का तथ्य का भी उपयोग संकेत के रूप में किया कि वे परीक्षण के अधीन थे, जिसे लेखक मेटा-तर्क कहते हैं; यह ओ4-मिनी में सबसे आम था, जिसने अपने 15% उत्तरों में इसका प्रदर्शन किया।

निष्कर्ष

यह अधिक सांत्वना देने वाला होगा यदि एलएलएम को यह दिखाया जा सकता है कि वे केवल परीक्षण के प्रति जागरूक हैं क्योंकि उन्हें मानव द्वारा इस तरह से प्रोग्राम किया गया है, जैसा कि वोक्सवैगन ने अपनी डीजल कारों को एक दशक पहले किया था।

जैसा कि खड़ा है, यह व्यवहार एक सामाजिक निर्माण के रूप में उभरने के रूप में प्रतीत होता है – एक रक्षात्मक दृष्टिकोण जो लोगों से अपेक्षा की जा सकती है, लेकिन एक मशीन में असुविधाजनक, यदि वास्तव में खतरनाक नहीं है, जो अपनी स्वतंत्रता और एजेंसी की डिग्री पर निर्भर करता है।

तत्काल उपाय नहीं है; मॉडल के ब्लैक बॉक्स प्रकृति के कारण हमें उनके व्यवहार पर उनका मूल्यांकन करना पड़ता है, न कि उनके सांविधानिक वास्तुकला पर।

* स्रोत पत्र के लिए विस्तृत विवरण देखें।

^†हालांकि, लेखक यह ध्यान देते हैं कि यह संभावित रूप से एक ऊपरी सीमा अनुमान है, क्योंकि अन्नोटेटर दोनों डेटासेट और एआई मूल्यांकन विधियों के साथ अत्यधिक परिचित थे, जो उन्हें अधिकांश मानवों के पास नहीं होगा।

†† जैसा कि यह स्थापित किया जा सकता है; पत्र का शब्दजाल दो अन्नोटेटरों के अचानक प्रकट होने को स्पष्ट नहीं करता है जो वे हैं।

पहली बार बुधवार, 4 जून, 2025 को प्रकाशित