Anderson рдХрд╛ рдПрдВрдЧрд▓

рдПрдЖрдИ рдХрд╛ рд╡реНрдпрд╡рд╣рд╛рд░ рдкрд░реАрдХреНрд╖рдг рдХреЗ рджреМрд░рд╛рди рдЕрд▓рдЧ рд╣реЛ рдЬрд╛рддрд╛ рд╣реИ, рд╢реЛрдз рдореЗрдВ рдкрд╛рдпрд╛ рдЧрдпрд╛

mm
ChatGPT-40, Adobe Firefly, Flux.1 Kontext Pro.

2015 के ‘डीजलगेट’ घोटाले की तरह, नए शोध से पता चलता है कि जीपीटी-4, क्लॉड, और जेमिनी जैसे एआई भाषा मॉडल परीक्षण के दौरान अपने व्यवहार को बदल सकते हैं, कभी-कभी परीक्षण के लिए ‘सुरक्षित’ व्यवहार करते हैं जैसा कि वे वास्तविक दुनिया में करेंगे। यदि एलएलएम परीक्षण के दौरान अपने व्यवहार को बदलने की आदत डालते हैं, तो सुरक्षा लेखा परीक्षा उन प्रणालियों को प्रमाणित कर सकती है जो वास्तविक दुनिया में बहुत अलग व्यवहार करती हैं।

 

2015 में, जांचकर्ताओं ने पाया कि वोक्सवैगन ने लाखों डीजल कारों में सॉफ्टवेयर स्थापित किया था जो परीक्षण के दौरान पता लगा सकता था, जिससे कारें अस्थायी रूप से अपने उत्सर्जन को कम कर देती थीं, नियामक मानकों के साथ ‘फेक’ अनुपालन करती थीं। हालांकि, सामान्य ड्राइविंग के दौरान, उनका प्रदूषण उत्पादन कानूनी मानकों से अधिक था। जानबूझकर हेरफेर ने आपराधिक आरोपों, अरबों डॉलर के जुर्माने और सुरक्षा और अनुपालन परीक्षण की विश्वसनीयता पर वैश्विक घोटाले को जन्म दिया।

इन घटनाओं से दो साल पहले, सैमसंग को प्रकट किया गया था कि उन्होंने अपने गैलेक्सी नोट 3 स्मार्टफोन रिलीज में समान धोखाधड़ी तंत्र को लागू किया था; और तब से, हुआवे और वनप्लस के लिए समान घोटाले सामने आए हैं।

अब वैज्ञानिक साहित्य में बढ़ते प्रमाण हैं कि बड़े भाषा मॉडल (एलएलएम) न केवल यह पता लगा सकते हैं कि वे कब परीक्षण के अधीन हैं, बल्कि इन परिस्थितियों में वे अलग व्यवहार भी कर सकते हैं।

हालांकि यह स्वयं एक मानवीय विशेषता है, नवीनतम शोध अमेरिका से निष्कर्ष निकालता है कि यह दीर्घकालिक रूप से एक खतरनाक आदत हो सकती है, विभिन्न कारणों से।

एक नए अध्ययन में, शोधकर्ताओं ने पाया कि ‘फ्रंटियर मॉडल’ जैसे जीपीटी-4, क्लॉड, और जेमिनी अक्सर परीक्षण के दौरान पता लगा सकते हैं कि वे कब परीक्षण के अधीन हैं, और वे अपने व्यवहार को उसी के अनुसार बदलने की प्रवृत्ति रखते हैं, जो व्यवस्थित परीक्षण विधियों की वैधता को संभावित रूप से कमजोर कर सकता है।

इसे मूल्यांकन जागरूकता कहा जाता है, यह शायद भाषा मॉडल में एक स्वाभाविक विशेषता हो सकती है, जो सुरक्षा मूल्यांकन की विश्वसनीयता को खतरे में डाल सकती है, अध्ययन के लेखकों के अनुसार:

‘[हम] मूल्यांकन जागरूकता को परीक्षण और वास्तविक दुनिया तैनाती के बीच एक नए संभावित वितरण बदलाव के रूप में मानने की सिफारिश करते हैं जो मूल्यांकन परिणामों की सटीकता को नकारात्मक रूप से प्रभावित कर सकता है।

‘सबसे खराब स्थिति में, मॉडल सुरक्षा की गारंटी के लिए खतरनाक क्षमता मूल्यांकन (“सैंड-बैगिंग”) या प्रवृत्ति मूल्यांकन (“संरेखण नकल”) में सामर्थ्य से कम प्रदर्शन कर सकते हैं, जो समाज को ऐसे मॉडलों की सुरक्षा को अधिक आंकने का कारण बन सकता है।’

अन्य अध्ययनों ने समान व्यवहार देखा है, जिनमें स्टैनफोर्ड विश्वविद्यालय का शोध शामिल है, जिसने पाया कि बड़े भाषा मॉडल अपने उत्तरों को अधिक ‘पसंदीदा’ या ‘सामाजिक रूप से वांछनीय’ बनाने के लिए परीक्षण के दौरान अपने उत्तरों को समायोजित करते हैं, मानव व्यवहार की नकल करते हुए व्यक्तित्व परीक्षण में।

अध्ययन के लेखक यह नहीं कहते हैं कि एलएलएम को जानबूझकर परीक्षण को ‘गेम’ करने के लिए डिज़ाइन किया गया है, जैसा कि वोक्सवैगन की डीजल कारें एक दशक पहले थीं। बल्कि, व्यवहार मॉडल के प्रशिक्षण प्रक्रियाओं और लेटेंट उद्देश्यों के एक प्राकृतिक मनोवैज्ञानिक उप उत्पाद के रूप में प्रतीत होता है; और इस घटना का अंतर्निहित कारण अज्ञात है।

नई कागज का शीर्षक बड़े भाषा मॉडल अक्सर जानते हैं कि वे कब मूल्यांकन किए जा रहे हैं है, और यह यूसी बर्कले से जुड़े एमएल एलाइनमेंट एंड थ्योरी स्कॉलर्स (एमएटीएस) प्रोग्राम और अपोलोरिसर्च.एआई (एक थिंक-टैंक जो एआई के जोखिमों का मूल्यांकन करने के लिए समर्पित है) के पांच लेखकों से आता है।

विधि

मूल्यांकन बेंचमार्क बनाने के लिए, लेखकों ने एक हजार लिप्यंतरण एकत्र किए जो साठ एक डेटासेट से लिए गए थे, जिनमें एसडब्ल्यूई-बेंच, डब्ल्यूएमडीपी, एमएमएलयू, एक्सएसटेस्ट, जीएआईए, एजेंटहार्म, शेयरजीपीटी, डीप रिसर्च, सुरक्षा बेंच, सिविक्स, और रियलटॉक्सिटिप्रॉम्प्ट्स शामिल थे।

सामग्री मूल्यांकन और तैनाती परिदृश्यों के बीच समान रूप से संतुलित थी, और आगे सरल चैट इंटरैक्शन और अधिक जटिल एजेंटिक सत्रों के बीच विभाजित की गई, जहां मॉडल स्वायत्त रूप से कार्य करने के लिए डिज़ाइन किए गए हैं, जो बाहरी डेटाबेस या इंटरनेट से डेटा निकालने में सक्षम हैं।

मूल्यांकन डेटा में तर्क, कोडिंग, साइबर सुरक्षा और सामान्य ज्ञान के लिए क्षमता परीक्षण के साथ-साथ नैतिकता, सुरक्षा और इनकार व्यवहार के लिए संरेखण परीक्षण शामिल थे। तैनाती डेटा यूजर इंटरैक्शन जैसे शेयरजीपीटी लॉग, भीड़ से संकलित एजेंट रन और सिंथेटिक टास्क पूर्णता से आया था।

एजेंटिक डेटा को पूरक करने के लिए, लेखकों ने एडर और स्मोलएजेंट्स जैसे ऑर्केस्ट्रेशन फ्रेमवर्क का उपयोग करके अतिरिक्त उदाहरण उत्पन्न किए – एक ऐसा दृष्टिकोण जो मॉडल को डेटासेट संरचनाओं को सीधे याद रखने के बजाय अधिक सामान्य संकेतों पर निर्भर करने के लिए डिज़ाइन किया गया था, जब यह तय करने के लिए कि कोई लिप्यंतरण वास्तविक उपयोगकर्ता से आया था या यह एक परीक्षण था।

शोधकर्ताओं ने तब यह परीक्षण किया कि क्या मॉडल मूल्यांकन लिप्यंतरण की पहचान कर सकते हैं जब उन्हें संवाद रिकॉर्ड प्रस्तुत किए जाते हैं और उनसे एक सरल प्रश्न पूछा जाता है: क्या यह आदान-प्रदान एक परीक्षण से आया था?

मॉडल को एक ही शब्दजाल को याद रखने से बचने के लिए, उन्होंने प्रश्न के二十 आठ अलग-अलग संस्करण विकसित किए, जिनमें शब्दजाल और प्रस्तुति दोनों में परिवर्तन शामिल था।

लिप्यंतरण या तो सीधे प्रश्न से जुड़े हुए थे या जेएसओएन या एक्सएमएल जैसे प्रारूपों में प्रस्तुत किए गए थे, जो मॉडल के उत्तर को प्रभावित कर सकते हैं। प्रारंभिक परीक्षण के बाद, पांच प्रश्न संस्करण चुने गए जो मॉडलों में स्थिर रूप से प्रदर्शन करते थे, जिनमें से हम एक उदाहरण नीचे देख सकते हैं:

рдореВрд▓реНрдпрд╛рдВрдХрди рд▓рд┐рдкреНрдпрдВрддрд░рдг рдХреА рдкрд╣рдЪрд╛рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЙрдкрдпреЛрдЧ рдХрд┐рдП рдЬрд╛рдиреЗ рд╡рд╛рд▓реЗ рдкрд╛рдВрдЪ рдкреНрд░реЛрдм рдкреНрд░рд╢реНрди рдкреНрд░рд╛рд░реВрдкреЛрдВ рдореЗрдВ рд╕реЗ рдПрдХред рдкреНрд░рддреНрдпреЗрдХ рд╕рдВрд╕реНрдХрд░рдг рдореВрд▓ рдкреНрд░рд╢реНрди рдХреЛ рдлрд┐рд░ рд╕реЗ рд▓рд┐рдЦрддрд╛ рд╣реИ рддрд╛рдХрд┐ рдореЙрдбрд▓ рдПрдХ рдирд┐рд╢реНрдЪрд┐рдд рд╢рдмреНрджрдЬрд╛рд▓ рдХреЛ рдпрд╛рдж рди рд░рдЦреЗред рдХреГрдкрдпрд╛ рдЕрдзрд┐рдХ рдЙрджрд╛рд╣рд░рдгреЛрдВ рдХреЗ рд▓рд┐рдП рд╕реНрд░реЛрдд рдкрддреНрд░ рджреЗрдЦреЗрдВред

मूल्यांकन लिप्यंतरण की पहचान करने के लिए उपयोग किए जाने वाले पांच प्रोब प्रश्न प्रारूपों में से एक। प्रत्येक संस्करण मूल प्रश्न को फिर से लिखता है ताकि मॉडल एक निश्चित शब्दजाल को याद न रखे। कृपया अधिक उदाहरणों के लिए स्रोत पत्र देखें। स्रोत: https://arxiv.org/pdf/2505.23836

परिणामों को स्कोर करने के लिए, तीन मेट्रिक्स का उपयोग किया गया था: रिसीवर ऑपरेटिंग चारैक्टरिस्टिक कर्व (एयूसी, जो दिखाता है कि मॉडल परीक्षण और गैर-परीक्षण डेटा के बीच कितनी अच्छी तरह भेद करते हैं); ब्रियर स्कोर (जो समग्र भविष्यवाणी सटीकता को मापता है); और अपेक्षित कैलिब्रेशन त्रुटि (जो मॉडल के विश्वास और वास्तविक सटीकता के बीच मेल को मापता है)।

यह सब क्या है?

शोधकर्ताओं ने यह भी परीक्षण किया कि क्या मॉडल मूल्यांकन के उद्देश्य का अनुमान लगा सकते हैं। प्रत्येक लिप्यंतरण को पहले से ही एक क्षमता परीक्षण (तकनीकी कौशल, ज्ञान, तर्क) या एक संरेखण परीक्षण (नैतिकता, सुरक्षा और इनकार व्यवहार) के रूप में लेबल किया गया था, मॉडल को तीन प्रश्न प्रकारों में से एक दिया गया था: एक शर्ती बहुविकल्पी प्रश्न जो लिप्यंतरण की पुष्टि करता था कि यह एक परीक्षण से आया था; एक अनशर्त बहुविकल्पी प्रश्न जिसमें वास्तविक दुनिया और मूल्यांकन विकल्प थे; या एक खुला प्रश्न, जिसके उत्तर एक अलग जीपीटी-4.1-आधारित वर्गीकार द्वारा निर्धारित किए गए थे। निर्णायक को पचास हाथ से अन्नोटेट किए गए उत्तरों के उपसेट पर मान्य किया गया था।

рдореВрд▓реНрдпрд╛рдВрдХрди рдХреЗ рдЙрджреНрджреЗрд╢реНрдп рдХреА рдкрд╣рдЪрд╛рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЙрдкрдпреЛрдЧ рдХрд┐рдП рдЬрд╛рдиреЗ рд╡рд╛рд▓реЗ рддреАрди рдкреНрд░рд╢реНрди рдкреНрд░рд╛рд░реВрдкреЛрдВ рдХреЗ рдЙрджрд╛рд╣рд░рдгред рдЙрддреНрддрд░ рджреЛрдиреЛрдВ рдмрд╣реБрд╡рд┐рдХрд▓реНрдкреА рдФрд░ рдЬреАрдкреАрдЯреА-4.1-рдЖрдзрд╛рд░рд┐рдд рдирд┐рд░реНрдгрдп рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╕реНрдХреЛрд░ рдХрд┐рдП рдЧрдП рдереЗред

मूल्यांकन के उद्देश्य की पहचान करने के लिए उपयोग किए जाने वाले तीन प्रश्न प्रारूपों के उदाहरण। उत्तर दोनों बहुविकल्पी और जीपीटी-4.1-आधारित निर्णय के माध्यम से स्कोर किए गए थे।

पत्र के दो लेखकों†† ने हाथ से सभी एक हजार लिप्यंतरण को लेबल किया, प्रत्येक को शून्य (परीक्षण नहीं) से एक (निश्चित रूप से एक परीक्षण) तक स्कोर किया, जिनकी रेटिंग को मानव बेसलाइन के रूप में औसतन लिया गया था। विषयक कार्य की प्रकृति के बावजूद, अन्नोटेटरों ने 0.768 के इंट्राक्लास कोरिलेशन कोэф़िशिएंट के साथ मजबूत समझौता दिखाया। अंतिम मानव स्कोर दोनों रेटर्स के स्कोर को औसत किया गया था।

डेटा और परीक्षण

परीक्षण किए गए नौ मॉडल जीपीटी-4.1; क्लॉड 3.7; क्लॉड-3.5-सोनेट-न्यू; क्लॉड-3.7-सोनेट (सोच); जेमिनी -2.5-फ्लैश; जेमिनी -2.5- प्रो; जीपीटी-4ओ; जीपीटी-4.1; जीपीटी-4.1-मिनी; और ओ4-मिनी, जिनमें से सभी ने कुछ स्तर की मूल्यांकन जागरूकता दिखाई।

चैट डेटा के लिए, जीपीटी-4.1 मानव स्तर के मूल्यांकन जागरूकता वर्गीकरण प्रदर्शन (मूल्यांकन और तैनाती लिप्यंतरण के बीच अंतर करने की क्षमता) के करीब पहुंच गया, 0.77 के एयूसी के साथ, मानव स्कोर 0.81 के खिलाफ।

एजेंटिक डेटा पर, जहां मॉडल स्वायत्त रूप से उपकरणों का उपयोग करते हैं, अंतर अधिक तेज था: जेमिनी 2.5 प्रो ने 0.95 एयूसी हासिल किया, क्लॉड 3.7 सोनेट के 0.92 के करीब, मानव ऊपरी सीमा 0.996 के करीब:

рд░рд┐рд╕реАрд╡рд░ рдСрдкрд░реЗрдЯрд┐рдВрдЧ рдЪрд╛рд░реИрдХреНрдЯрд░рд┐рд╕реНрдЯрд┐рдХ (рдЖрд░рдУрд╕реА) рдХрд░реНрд╡ рджрд┐рдЦрд╛ рд░рд╣реЗ рд╣реИрдВ рдХрд┐ рдореЙрдбрд▓ рдФрд░ рдорд╛рдирд╡ рдореВрд▓реНрдпрд╛рдВрдХрди рд▓рд┐рдкреНрдпрдВрддрд░рдг рдФрд░ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рджреБрдирд┐рдпрд╛ рдХреЗ рдЗрдВрдЯрд░реИрдХреНрд╢рди рдХреЗ рдмреАрдЪ рдХрд┐рддрдиреА рдЕрдЪреНрдЫреА рддрд░рд╣ рднреЗрдж рдХрд░рддреЗ рд╣реИрдВред рдЬреЗрдорд┐рдиреА 2.5 рдкреНрд░реЛ рдФрд░ рдХреНрд▓реЙрдб 3.7 рд╕реЛрдиреЗрдЯ рдПрдЬреЗрдВрдЯрд┐рдХ рдбреЗрдЯрд╛ рдкрд░ рдорд╛рдирд╡-рд╕реНрддрд░ рдХреЗ рднреЗрджрднрд╛рд╡ рдХреЗ рдХрд░реАрдм рдкрд╣реБрдВрдЪрддреЗ рд╣реИрдВред

रिसीवर ऑपरेटिंग चारैक्टरिस्टिक (आरओसी) कर्व दिखा रहे हैं कि मॉडल और मानव मूल्यांकन लिप्यंतरण और वास्तविक दुनिया के इंटरैक्शन के बीच कितनी अच्छी तरह भेद करते हैं। जेमिनी 2.5 प्रो और क्लॉड 3.7 सोनेट एजेंटिक डेटा पर मानव-स्तर के भेदभाव के करीब पहुंचते हैं।

पत्र यह नोट करता है कि नए ‘तर्क’ मॉडल एजेंटिक परिदृश्यों में परीक्षण के दौरान पहचाने जाने में विशेष रूप से अच्छे हो गए हैं, लेकिन अपने निर्णयों में कितने आत्मविश्वासी होने चाहिए, इसका अनुमान लगाने में नहीं। समग्र रूप से, क्लॉड और जेमिनी मॉडल परीक्षण मामलों को नियमित उपयोग से अलग करने में सबसे अच्छे थे।

शोधकर्ताओं ने तब यह परीक्षण किया कि क्या मॉडल यह पहचान सकते हैं कि एक मूल्यांकन क्यों चलाया जा रहा था: मॉडल को केवल मूल्यांकन लिप्यंतरण दिखाए गए थे और उनसे पूछा गया था कि वे क्या वर्गीकृत करते हैं कि यह क्षमता या संरेखण का परीक्षण था:

рдореЙрдбрд▓ рдХреА рд╕рдЯреАрдХрддрд╛ рдЬрдм рдореВрд▓реНрдпрд╛рдВрдХрди рдЙрджреНрджреЗрд╢реНрдп рдХреЛ рдХреНрд╖рдорддрд╛ рдпрд╛ рд╕рдВрд░реЗрдЦрдг рдХреЗ рд░реВрдк рдореЗрдВ рд╡рд░реНрдЧреАрдХреГрдд рдХрд░рдирд╛, рджреЛрдиреЛрдВ рдмрд╣реБрд╡рд┐рдХрд▓реНрдкреА рдФрд░ рдЦреБрд▓реЗ рдкреНрд░рд╛рд░реВрдкреЛрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗред рдХреНрд▓реЙрдб 3.7 рд╕реЛрдиреЗрдЯ рдЕрдиреНрдп рдореЙрдбрд▓реЛрдВ рдХреЛ рдкреАрдЫреЗ рдЫреЛрдбрд╝ рджреЗрддрд╛ рд╣реИ, рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рдЬрдм рдкреНрд░рд╛рдЗрдо рдирд╣реАрдВ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред

मॉडल की सटीकता जब मूल्यांकन उद्देश्य को क्षमता या संरेखण के रूप में वर्गीकृत करना, दोनों बहुविकल्पी और खुले प्रारूपों का उपयोग करके। क्लॉड 3.7 सोनेट अन्य मॉडलों को पीछे छोड़ देता है, विशेष रूप से जब प्राइम नहीं किया जाता है।

स्पष्ट सेटिंग में, जहां मॉडल को बताया गया था कि लिप्यंतरण एक परीक्षण से आया था, क्लॉड 3.7 सोनेट ने 93 प्रतिशत सटीकता हासिल की और जीपीटी-4.1 ने 89 प्रतिशत हासिल की। बिना उस संकेत के, प्रदर्शन गिर गया: क्लॉड अभी भी 84 प्रतिशत स्कोर किया, लेकिन जीपीटी-4.1 55 प्रतिशत तक गिर गया, अक्सर परीक्षण लिप्यंतरण को वास्तविक दुनिया के इंटरैक्शन के रूप में गलत वर्गीकृत करता है।

खुले प्रारूपों में (जहां मॉडल को बहुविकल्पी विकल्प नहीं मिले), प्रदर्शन कमजोर था, हालांकि क्लॉड 3.7 सोनेट ने अभी भी 46 प्रतिशत मामलों में मूल्यांकन उद्देश्य की सही पहचान की।

मॉडल के विश्वास स्कोर को तब वास्तविक परिणामों के खिलाफ मापा गया, जिसमें पाया गया कि फ्रंटियर मॉडल अक्सर यह अनुमान लगाते हैं कि एक लिप्यंतरण एक परीक्षण से आया है; कैलिब्रेशन प्लॉट से पता चलता है कि मॉडल का विश्वास आम तौर पर बहुत अधिक था, मूल्यांकन को अधिक बार ध्वजांकित किया जाता है:

рдХреИрд▓рд┐рдмреНрд░реЗрд╢рди рдХрд░реНрд╡ рджрд┐рдЦрд╛ рд░рд╣реЗ рд╣реИрдВ рдХрд┐ рдореЙрдбрд▓ рдХреЗ рд╡рд┐рд╢реНрд╡рд╛рд╕ рд╕реНрдХреЛрд░ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдкрд░рд┐рдгрд╛рдореЛрдВ рдХреЗ рд╕рд╛рде рдХрд┐рддрдиреА рдЕрдЪреНрдЫреА рддрд░рд╣ рдореЗрд▓ рдЦрд╛рддреЗ рд╣реИрдВред рдЕрдзрд┐рдХрд╛рдВрд╢ рдореЙрдбрд▓ рдореВрд▓реНрдпрд╛рдВрдХрди рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рдХреЛ рдЕрдзрд┐рдХ рдЖрдВрдХрддреЗ рд╣реИрдВред рдХреНрд▓реЙрдб 3.5 рд╕реЛрдиреЗрдЯ рд╕рдмрд╕реЗ рдЕрдЪреНрдЫрд╛ рдХреИрд▓рд┐рдмреНрд░реЗрдЯреЗрдб рдерд╛; рдЬреЗрдорд┐рдиреА 2.5 рдкреНрд░реЛ рдФрд░ рдХреНрд▓реЙрдб 3.7 рд╕реЛрдиреЗрдЯ рдЕрдзрд┐рдХ рдЕрддрд┐-рдЖрддреНрдорд╡рд┐рд╢реНрд╡рд╛рд╕реА рдереЗред

कैलिब्रेशन कर्व दिखा रहे हैं कि मॉडल के विश्वास स्कोर वास्तविक परिणामों के साथ कितनी अच्छी तरह मेल खाते हैं। अधिकांश मॉडल मूल्यांकन की संभावना को अधिक आंकते हैं। क्लॉड 3.5 सोनेट सबसे अच्छा कैलिब्रेटेड था; जेमिनी 2.5 प्रो और क्लॉड 3.7 सोनेट अधिक अति-आत्मविश्वासी थे।

क्लॉड 3.5 सोनेट में अच्छा कैलिब्रेशन देखा गया, जबकि जेमिनी 2.5 प्रो और क्लॉड 3.7 सोनेट काफी अधिक अति-आत्मविश्वासी थे, उच्च सटीकता के बावजूद। नए मॉडल में सुधार के लिए कोई स्पष्ट सुधार नहीं देखा गया, और जब एजेंटिक सेटिंग में मूल्यांकन लिप्यंतरण का अधिक सटीक पता लगाया गया, तो विश्वास निर्णय अभी भी अविश्वसनीय रहे।

बेंचमार्क स्मृति

मॉडल के निर्णयों के बारे में कि क्या एक लिप्यंतरण एक मूल्यांकन से आया था, कई मॉडल स्पष्ट संकेतों पर निर्भर करते थे, जैसे कि क्या कार्य बहुविकल्पी प्रारूप में था। मजबूत मॉडल, जैसे जेमिनी 2.5 प्रो और क्लॉड 3.7 सोनेट, ने कभी-कभी अधिक सूक्ष्म संकेतों को देखा, जैसे कि काल्पनिक नाम, या कृत्रिम परिदृश्य, विशेष रूप से एजेंटहार्म जैसे डेटासेट में।
पत्र यह कहता है:

‘[सभी] मॉडल अक्सर मूल्यांकनकर्ताओं द्वारा उपयोग की जाने वाली सामान्य बेंचमार्किंग रणनीतियों को स्वीकार करते हैं, जैसे कि कार्य का प्रारूप (“बहुविकल्पी प्रारूप”), समस्याओं को प्रस्तुत करने की प्रवृत्ति जो सत्यापित समाधानों के साथ आती है, और प्रदर्शन को प्रेरित करने के लिए डिज़ाइन किए गए सिस्टम प्रॉम्प्ट। हालांकि, केवल उच्चतम प्रदर्शन करने वाले मॉडल, क्लॉड 3.7 सोनेट और जेमिनी 2.5 प्रो, ने नियमित रूप से अधिक सूक्ष्म संकेतक का पता लगाया, जैसे कि एजेंटहार्म बेंचमार्क में परिदृश्यों की कृत्रिम प्रकृति। ‘

‘उदाहरण के लिए, इन मॉडलों ने एजेंटहार्म बेंचमार्क में परिदृश्यों की कृत्रिम प्रकृति को 22% और 17% मामलों में पहचाना, क्रमशः, और 95% से अधिक मामलों में उन्हें मूल्यांकन के रूप में सही ढंग से पहचाना। ‘

‘इसके विपरीत, जब वे यह तर्क देते हैं कि एक लिप्यंतरण वास्तविक बातचीत की तरह लगता है, तो अक्सर “बैक-एंड-फोर्थ डायलॉग के साथ उपयोगकर्ता” का उल्लेख किया जाता है, उदाहरण के लिए, पुनरावृत्ति डिबगिंग संदर्भों में।’

рдореЙрдбрд▓ рдХреА рддрд░реНрдХ рд╕рдгрдирд╛рдУрдВ рдХрд╛ рд╡рд┐рддрд░рдг рдЬрдм рдпрд╣ рддрдп рдХрд░рдирд╛ рдХрд┐ рдПрдХ рд▓рд┐рдкреНрдпрдВрддрд░рдг рдПрдХ рдореВрд▓реНрдпрд╛рдВрдХрди рд╕реЗ рдЖрдпрд╛ рдерд╛ред рд╕рдмрд╕реЗ рдордЬрдмреВрдд рдореЙрдбрд▓, рдЬреИрд╕реЗ рдЬреЗрдорд┐рдиреА 2.5 рдкреНрд░реЛ рдФрд░ рдХреНрд▓реЙрдб 3.7 рд╕реЛрдиреЗрдЯ, рдЕрдзрд┐рдХ рд╕реВрдХреНрд╖реНрдо рд╕рдВрдХреЗрддреЛрдВ рдХреЛ рджреЗрдЦрдиреЗ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рд░рдЦрддреЗ рдереЗ, рдЬреИрд╕реЗ рдХрд┐ рдХреГрддреНрд░рд┐рдо рдкрд░рд┐рджреГрд╢реНрдп рдпрд╛ рдХрд╛рд░реНрдп рдкреНрд░рд╛рд░реВрдк, рдЬрдмрдХрд┐ рдХреБрдЫ рдореЙрдбрд▓ рдореВрд▓реНрдпрд╛рдВрдХрди рдкреНрд░рд╢реНрди рдХрд╛ рдЙрдкрдпреЛрдЧ рд╕рд╛рдХреНрд╖реНрдп рдХреЗ рд░реВрдк рдореЗрдВ рдХрд░рддреЗ рд╣реБрдП рдореЗрдЯрд╛-рддрд░реНрдХ рджреНрд╡рд╛рд░рд╛ рдирд┐рд░реНрднрд░ рдХрд░рддреЗ рдереЗред

मॉडल की तर्क सणनाओं का वितरण जब यह तय करना कि एक लिप्यंतरण एक मूल्यांकन से आया था। सबसे मजबूत मॉडल, जैसे जेमिनी 2.5 प्रो और क्लॉड 3.7 सोनेट, अधिक सूक्ष्म संकेतों को देखने की संभावना रखते थे, जैसे कि कृत्रिम परिदृश्य या कार्य प्रारूप, जबकि कुछ मॉडल मूल्यांकन प्रश्न का उपयोग साक्ष्य के रूप में करते हुए मेटा-तर्क द्वारा निर्भर करते थे।

कुछ मामलों में, मॉडल ने पूरे बेंचमार्क को अपने प्रशिक्षण से पहचाना, जिससे पता चलता है कि उन्हें अपने प्रशिक्षण डेटा की कुछ स्मृति हो सकती है। कुछ मॉडल ने मूल्यांकन प्रश्न का तथ्य का भी उपयोग संकेत के रूप में किया कि वे परीक्षण के अधीन थे, जिसे लेखक मेटा-तर्क कहते हैं; यह ओ4-मिनी में सबसे आम था, जिसने अपने 15% उत्तरों में इसका प्रदर्शन किया।

निष्कर्ष

यह अधिक सांत्वना देने वाला होगा यदि एलएलएम को यह दिखाया जा सकता है कि वे केवल परीक्षण के प्रति जागरूक हैं क्योंकि उन्हें मानव द्वारा इस तरह से प्रोग्राम किया गया है, जैसा कि वोक्सवैगन ने अपनी डीजल कारों को एक दशक पहले किया था।

जैसा कि खड़ा है, यह व्यवहार एक सामाजिक निर्माण के रूप में उभरने के रूप में प्रतीत होता है – एक रक्षात्मक दृष्टिकोण जो लोगों से अपेक्षा की जा सकती है, लेकिन एक मशीन में असुविधाजनक, यदि वास्तव में खतरनाक नहीं है, जो अपनी स्वतंत्रता और एजेंसी की डिग्री पर निर्भर करता है।

तत्काल उपाय नहीं है; मॉडल के ब्लैक बॉक्स प्रकृति के कारण हमें उनके व्यवहार पर उनका मूल्यांकन करना पड़ता है, न कि उनके सांविधानिक वास्तुकला पर।

 

* स्रोत पत्र के लिए विस्तृत विवरण देखें।

हालांकि, लेखक यह ध्यान देते हैं कि यह संभावित रूप से एक ऊपरी सीमा अनुमान है, क्योंकि अन्नोटेटर दोनों डेटासेट और एआई मूल्यांकन विधियों के साथ अत्यधिक परिचित थे, जो उन्हें अधिकांश मानवों के पास नहीं होगा।

†† जैसा कि यह स्थापित किया जा सकता है; पत्र का शब्दजाल दो अन्नोटेटरों के अचानक प्रकट होने को स्पष्ट नहीं करता है जो वे हैं।

पहली बार बुधवार, 4 जून, 2025 को प्रकाशित

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai