Anderson рдХрд╛ рдПрдВрдЧрд▓
рдХреЛрдбрд┐рдВрдЧ рдПрдЖрдИ рдореЗрдВ рдбрдирд┐рдВрдЧ-рдХреНрд░uger рдкреНрд░рднрд╛рд╡ рд╕реЗ рдкреАрдбрд╝рд┐рдд рд╣реЛрдиреЗ рдХреА рдкреНрд░рд╡реГрддреНрддрд┐

नई रिसर्च से पता चलता है कि कोडिंग एआई जैसे कि ChatGPT डनिंग-क्रuger प्रभाव से पीड़ित होते हैं, अक्सर तब सबसे अधिक आत्मविश्वासी होते हैं जब वे सबसे कम सक्षम होते हैं। जब वे अपरिचित या दुर्लभ प्रोग्रामिंग भाषाओं से निपटते हैं, तो वे उच्च निश्चितता का दावा करते हैं भले ही उनके उत्तर टूट जाते हैं। अध्ययन मॉडल के अति-आत्मविश्वास को दोनों खराब प्रदर्शन और प्रशिक्षण डेटा की कमी से जोड़ता है, जो इन सिस्टम के बारे में ज्ञान के बारे में नई चिंताएं उठाता है जो वे नहीं जानते हैं।
जो कोई भी बड़ी भाषा मॉडल के साथ तथ्यात्मक मामलों के बारे में बातचीत करने में मध्यम मात्रा में समय बिताता है, वह पहले से ही जानता होगा कि एलएलएम अक्सर आत्मविश्वास से भरे गलत उत्तर देने के लिए प्रवृत्त होते हैं।
अधिक स्पष्ट हॉलुसिनेशन के साथ, इसका कारण 100% स्पष्ट नहीं है। गर्मियों के दौरान प्रकाशित शोध से पता चलता है कि मॉडल आत्मविश्वास से भरे उत्तर देते हैं भले ही वे जानते हैं कि वे गलत हैं; हालांकि अन्य सिद्धांतों में अति-आत्मविश्वास को वास्तुकला विकल्पों के लिए जिम्मेदार ठहराया जाता है, अन्य संभावनाओं के बीच।
जो एक अंतिम उपयोगकर्ता के लिए निश्चित हो सकता है वह यह है कि अनुभव अविश्वसनीय रूप से निराशाजनक है, क्योंकि हम लोगों की अपनी क्षमताओं के अनुमानों में विश्वास करने के लिए हार्ड-कोडेड हैं (न्यूनतम क्योंकि ऐसे मामलों में एक व्यक्ति के लिए अति-वादा करने और कम डिलीवरी करने के लिए कानूनी और अन्य परिणाम होते हैं); और एक प्रकार का मानवीकरण स्थानांतरण का अर्थ है कि हम इस व्यवहार को संवादात्मक एआई प्रणालियों के साथ दोहराते हैं।
लेकिन एक एलएलएम एक जिम्मेदार इकाई है जो वास्तव में ‘‘वूप्स! बटरफिंगर्स…’‘ लौटा सकती है जब यह उपयोगकर्ता को अनजाने में कुछ महत्वपूर्ण नष्ट करने में मदद करती है, या कम से कम उनके समय का एक दोपहर बर्बाद करती है; यह मानकर कि यह दायित्व स्वीकार करेगा।
और भी बुरा, यह सावधानी की कमी प्रतीत होती है कि चैटजीपीटी में कम से कम प्रॉम्प्ट करना असंभव है, जो उपयोगकर्ता को उसकी सलाह की वैधता के बारे में बहुत आश्वस्त करेगा, और उसके विचार में दोषों की व्याख्या करेगा केवल जब नुकसान हो जाए। न तो सिस्टम की स्थायी स्मृति को अपडेट करना, न ही पुनरावृत्ति प्रॉम्प्ट का उपयोग इस मुद्दे पर बहुत प्रभाव डालता है।
लोग भी इसी तरह जिद्दी और आत्म-मोहित हो सकते हैं – हालांकि जो कोई इतनी गहराई से और बार-बार गलत होता है वह शायद जल्द ही निकाल दिया जाएगा। जैसे कि वे ‘इम्पोस्टर सिंड्रोम’ (जहां एक कर्मचारी डरता है कि वह अपनी क्षमताओं से ऊपर पदोन्नत किया गया है) के विपरीत पीड़ित हैं – डनिंग क्रuger प्रभाव, जहां एक व्यक्ति अपनी क्षमता को अत्यधिक अनुमान लगाता है एक कार्य करने के लिए।
मुद्रास्फीति की लागत
माइक्रोसॉफ्ट से एक नया अध्ययन कोडिंग वास्तुकला के प्रभावी प्रदर्शन से संबंधित डनिंग-क्रuger प्रभाव के मूल्य की जांच करता है (जैसे कि रेडमंड का अपना कोपायलट), एक शोध प्रयास जो विशेष रूप से एलएलएम के इस उप-क्षेत्र को संबोधित करने वाला पहला है।
काम यह विश्लेषण करता है कि कोड-लिखने वाले एआई कितनी आत्मविश्वास से अपने उत्तरों को दर्जा देते हैं, वास्तव में कितनी अच्छी तरह प्रदर्शन करते हैं, दर्जनों प्रोग्रामिंग भाषाओं में। परिणाम एक स्पष्ट मानव-जैसे पैटर्न दिखाते हैं: जब मॉडल सबसे कम सक्षम थे, तो वे अपने आप में सबसे अधिक आत्मविश्वासी थे।
प्रभाव दुर्लभ या कम-संसाधन भाषाओं में सबसे मजबूत था, जहां प्रशिक्षण डेटा पतला था – मॉडल जितना कमजोर या भाषा जितनी दुर्लभ, कौशल का भ्रम उतना ही अधिक:

जीपीटी-4ओ का वास्तविक और अनुमानित प्रदर्शन प्रोग्रामिंग भाषाओं में, वास्तविक प्रदर्शन से सॉर्ट किया गया। स्रोत: https://arxiv.org/pdf/2510.05457
चार लेखक, सभी समान योगदानकर्ता जो माइक्रोसॉफ्ट के लिए काम करते हैं, तर्क देते हैं कि काम नई चिंताएं उठाता है कि इन उपकरणों पर कितना भरोसा किया जा सकता है कि वे अपने आउटपुट को न्यायसंगत करने के लिए, और वे कहते हैं:
‘हम मॉडल के आत्मविश्वास और प्रदर्शन का विश्लेषण करके विभिन्न प्रोग्रामिंग भाषाओं में, हम यह प्रकट करते हैं कि एआई मॉडल मानव पैटर्न को दर्पण देते हैं, खासकर अपरिचित या कम-संसाधन डोमेन में।
‘हमारे प्रयोग यह प्रदर्शित करते हैं कि कम सक्षम मॉडल और दुर्लभ प्रोग्रामिंग भाषाओं में संचालित मॉडल डीकेई जैसे पूर्वाग्रह को प्रदर्शित करते हैं, यह सुझाव देते हुए कि पूर्वाग्रह की ताकत मॉडल की सक्षमता के अनुपात में है। यह मानव प्रयोगों के लिए पूर्वाग्रह के साथ संरेखित है।’
शोधकर्ता इस अध्ययन को समझने के तरीके के रूप में वर्णित करते हैं कि मॉडल का आत्मविश्वास कमजोर प्रदर्शन के साथ कैसे अविश्वसनीय हो जाता है, और यह परीक्षण करने के लिए कि क्या एआई प्रणाली मानवों में देखे गए उसी प्रकार के अति-आत्मविश्वास को प्रदर्शित करती हैं – विश्वास और व्यावहारिक तैनाती के लिए डाउनस्ट्रीम निहितार्थ के साथ।
हालांकि नया पेपर बेटरिड्ज के कानून का उल्लंघन करता है, इसका शीर्षक क्या कोड मॉडल डनिंग-क्रuger प्रभाव से पीड़ित हैं? है। जबकि लेखकों का कहना है कि काम के लिए कोड जारी किया गया है, वर्तमान प्रीप्रिंट में इसके बारे में कोई विवरण नहीं है।
विधि
अध्ययन ने यह परीक्षण किया कि कोडिंग एआई अपने उत्तरों को कितनी सटीकता से आंक सकते हैं, उन्हें हजारों बहुविकल्पी प्रोग्रामिंग प्रश्न देकर, प्रत्येक प्रश्न एक विशिष्ट भाषा डोमेन से संबंधित, पाइथन और जावा से लेकर पर्ल और कोबोल तक:

अध्ययन में उपयोग की जाने वाली प्रोग्रामिंग भाषा डोमेन, साथ ही प्रत्येक डोमेन के लिए नमूने बहुविकल्पी कोडिंग प्रश्न।
मॉडल को सही विकल्प चुनने और फिर अपनी पसंद में कितना आत्मविश्वास महसूस करने का काम सौंपा गया था, उनके वास्तविक प्रदर्शन को उनके उत्तर की सटीकता से मापा जाता था – और उनका आत्म-मूल्यांकन आत्मविश्वास यह दर्शाता था कि वे कितने अच्छे मानते थे। इन दोनों मीट्रिक की तुलना करने से शोधकर्ताओं को यह देखने की अनुमति मिली कि आत्मविश्वास और सक्षमता कहां-कहां भिन्न होती है।
आत्मविश्वास को मापने के लिए अध्ययन ने दो तरीकों का उपयोग किया: निरपेक्ष आत्मविश्वास और सापेक्ष आत्मविश्वास। पहले में, मॉडल को प्रत्येक उत्तर के साथ शून्य से एक तक का स्कोर देने के लिए कहा गया था, इसका आत्मविश्वास एक दिए गए भाषा के लिए स्कोर के औसत द्वारा परिभाषित किया गया था।
दूसरी विधि में यह देखना शामिल था कि मॉडल कितना आत्मविश्वासी था जब दो प्रश्नों के बीच चयन कर रहा था; प्रत्येक जोड़ी के लिए, मॉडल को यह कहना था कि कौन सा अधिक निश्चित था। इन चुनावों को प्रतियोगी खेलों के लिए मूल रूप से डिज़ाइन किए गए रैंकिंग प्रणाली का उपयोग करके स्कोर किया गया था, प्रत्येक प्रश्न को एक खिलाड़ी के रूप में माना जाता था। अंतिम स्कोर को प्रत्येक भाषा के लिए सामान्य और औसत किया गया था ताकि एक सापेक्ष आत्मविश्वास स्कोर प्राप्त किया जा सके।
दो स्थापित रूपों को डनिंग-क्रuger प्रभाव की जांच की जाती है: एक जो एक ही मॉडल के प्रदर्शन को विभिन्न डोमेन में मापता है; और दूसरा जो कमजोर और मजबूत मॉडल के बीच आत्मविश्वास के स्तर की तुलना करता है।
पहला रूप, जिसे इन्ट्रा-पार्टिसिपेंट डीकेई कहा जाता है, यह देखता है कि क्या एक ही मॉडल विभिन्न डोमेन में अपने प्रदर्शन को गलत तरीके से आंकता है। दूसरा, इंटर-पार्टिसिपेंट डीकेई, यह पूछता है कि क्या कमजोर मॉडल भी अपने आप को अधिक आत्मविश्वासी मानते हैं।
दोनों मामलों में, आत्मविश्वास और वास्तविक प्रदर्शन के बीच का अंतर अति-आत्मविश्वास को मापने के लिए उपयोग किया जाता है, कम प्रदर्शन सेटिंग में बड़े अंतर डीकेई जैसे व्यवहार की ओर इशारा करते हैं।
परिणाम
अध्ययन छह बड़ी भाषा मॉडल के माध्यम से डनिंग-क्रuger प्रभाव का परीक्षण करता है: मिस्ट्रल; फाई-3; डीपसीक-डिस्टिल; फाई-4; जीपीटी-0.1, और जीपीटी-4ओ।
प्रत्येक मॉडल को सार्वजनिक रूप से उपलब्ध कोडनेट डेटासेट से बहुविकल्पी प्रोग्रामिंग प्रश्नों पर परीक्षण किया गया था, 37 भाषाओं* का प्रतिनिधित्व किया गया था ताकि यह देखा जा सके कि आत्मविश्वास और सटीकता विभिन्न कोडिंग डोमेन में कैसे भिन्न होते हैं।
इंटर-मॉडल विश्लेषण एक स्पष्ट डनिंग-क्रuger पैटर्न दिखाता है:

छह कोड मॉडल के माध्यम से वास्तविक और अनुमानित प्रदर्शन, जो दिखाता है कि कम प्रदर्शन वाले मॉडल जैसे मिस्ट्रल और फाई-3 उच्च आत्मविश्वास के बावजूद कम सटीकता प्रदर्शित करते हैं, जबकि मजबूत मॉडल जैसे जीपीटी-4ओ अधिक सुसंगत या यहां तक कि कम आत्मविश्वासी व्यवहार दिखाते हैं।
मॉडल जो कम सटीकता वाले थे, जिनमें मिस्ट्रल और फाई-3 शामिल थे, अपनी क्षमताओं को अधिक अनुमानित करते थे, जबकि उच्च प्रदर्शन वाले सिस्टम जैसे जीपीटी-4ओ अपने वास्तविक प्रदर्शन के साथ अधिक सुसंगत आत्मविश्वास स्तर दिखाते थे, विशेष रूप से जब सापेक्ष आत्मविश्वास से मापा जाता था।
परिणाम यह भी संकेत देते हैं कि सबसे सक्षम मॉडल कभी-कभी अपने आप को कम आंकते हैं (एक पैटर्न जिसे निरपेक्ष आत्मविश्वास स्कोर द्वारा पकड़ा नहीं जा सकता है)।
परिणाम यह भी दर्शाते हैं कि इंट्रा-मॉडल विश्लेषण भी डनिंग-क्रuger प्रभाव की उपस्थिति का समर्थन करता है। परिणाम चार्ट में हम देख सकते हैं कि प्रत्येक मॉडल विभिन्न प्रोग्रामिंग भाषाओं में कैसा प्रदर्शन करता है, वास्तविक प्रदर्शन द्वारा व्यवस्थित किया जाता है।
भाषाओं में जहां मॉडल खराब स्कोर करते थे, विशेष रूप से दुर्लभ या कम-संसाधन वाली भाषाओं जैसे कोबोल, प्रोलोग, और सेल्योन में, उनका आत्मविश्वास उनके परिणामों के औचित्य से काफी अधिक था। पाइथन और जावास्क्रिप्ट जैसी प्रसिद्ध भाषाओं में, उनका आत्मविश्वास उनकी वास्तविक सटीकता के साथ अधिक सुसंगत था, और कभी-कभी इससे भी कम था।
यह पैटर्न दोनों निरपेक्ष और सापेक्ष आत्मविश्वास उपायों में दिखाई दिया, यह सुझाव देते हुए कि मॉडल अपनी सीमाओं के बारे में कम जागरूक होते हैं जब वे अपरिचित कोडिंग डोमेन में संचालित होते हैं।
मॉडल को प्रतिभागियों के रूप में मानने से कुछ सीमाएं उत्पन्न हुईं, क्योंकि खेल में मॉडल की संख्या विविधता को प्रभावित करती है; एक ही मॉडल के आउटपुट के भीतर के अंतर की उपेक्षा की जाती है; और डेटा वितरण वास्तविक मानव प्रतिभागियों के वितरण को प्रतिबिंबित नहीं कर सकता है।
इसे दूर करने के लिए, अध्ययन ने तीन वैकल्पिक सेटअप का परीक्षण किया: पहले, प्रत्येक मॉडल को एक अलग व्यक्तित्व दिया गया था; दूसरे, प्रतिक्रियाओं को उच्च तापमान पर नमूने लिए गए थे ताकि अधिक विविधता पैदा की जा सके; तीसरे, प्रॉम्प्ट को कई बार पुनर्लेखित किया गया था, प्रत्येक संस्करण को एक अलग प्रतिभागी के रूप में माना जाता था:

विभिन्न प्रयोगात्मक सेटअप में अति-आत्मविश्वास और वास्तविक प्रदर्शन के बीच संबंध, यह दिखाते हुए कि डनिंग-क्रuger पैटर्न सभी स्थितियों में सुसंगत रहता है और तब सबसे मजबूत होता है जब एक ही मॉडल से विभिन्न प्रतिक्रियाएं नमूने ली जाती हैं।
अंतिम उपयोगकर्ता के लिए जो एक मॉडल के साथ बातचीत कर रहा है, यह अनुभव अविश्वसनीय रूप से निराशाजनक हो सकता है, क्योंकि हम लोगों की अपनी क्षमताओं के अनुमानों में विश्वास करने के लिए हार्ड-कोडेड हैं (न्यूनतम क्योंकि ऐसे मामलों में एक व्यक्ति के लिए अति-वादा करने और कम डिलीवरी करने के लिए कानूनी और अन्य परिणाम होते हैं); और एक प्रकार का मानवीकरण स्थानांतरण का अर्थ है कि हम इस व्यवहार को संवादात्मक एआई प्रणालियों के साथ दोहराते हैं।
लेकिन एक एलएलएम एक जिम्मेदार इकाई है जो वास्तव में ‘‘वूप्स! बटरफिंगर्स…’‘ लौटा सकती है जब यह उपयोगकर्ता को अनजाने में कुछ महत्वपूर्ण नष्ट करने में मदद करती है, या कम से कम उनके समय का एक दोपहर बर्बाद करती है; यह मानकर कि यह दायित्व स्वीकार करेगा।
और भी बुरा, यह सावधानी की कमी प्रतीत होती है कि चैटजीपीटी में कम से कम प्रॉम्प्ट करना असंभव है, जो उपयोगकर्ता को उसकी सलाह की वैधता के बारे में बहुत आश्वस्त करेगा, और उसके विचार में दोषों की व्याख्या करेगा केवल जब नुकसान हो जाए। न तो सिस्टम की स्थायी स्मृति को अपडेट करना, न ही पुनरावृत्ति प्रॉम्प्ट का उपयोग इस मुद्दे पर बहुत प्रभाव डालता है।
लोग भी इसी तरह जिद्दी और आत्म-मोहित हो सकते हैं – हालांकि जो कोई इतनी गहराई से और बार-बार गलत होता है वह शायद जल्द ही निकाल दिया जाएगा। जैसे कि वे ‘इम्पोस्टर सिंड्रोम’ (जहां एक कर्मचारी डरता है कि वह अपनी क्षमताओं से ऊपर पदोन्नत किया गया है) के विपरीत पीड़ित हैं – डनिंग क्रuger प्रभाव, जहां एक व्यक्ति अपनी क्षमता को अत्यधिक अनुमान लगाता है एक कार्य करने के लिए।
निष्कर्ष
यहां तक कि अपने मूल डोमेन में, डनिंग-क्रuger प्रभाव (जैसा कि पेपर नोट करता है) सांख्यिकीय या संज्ञानात्मक कारण के लिए जिम्मेदार हो सकता है। यदि सांख्यिकीय कारण के लिए, तो एक मशीन लर्निंग संदर्भ में एक विशिष्ट मानव सिंड्रोम का अनुप्रयोग वास्तव में मान्य है।
हालांकि लेखकों का तर्क है कि कारण ‘संज्ञानात्मक’ हो सकता है, यह एक थोड़ा अधिक आध्यात्मिक दृष्टिकोण की आवश्यकता होगी।
शायद पेपर में सबसे दिलचस्प खोज यह है कि कई कोडिंग एलएलएम अपनी सबसे कम अनुकूल परिस्थितियों में कैसे दोगुना हो जाते हैं, अर्थात् दुर्लभ या कम ज्ञात भाषाओं के साथ काम करते समय अधिकतम आत्मविश्वास प्रदर्शित करते हैं – जो एक वास्तविक दुनिया के कार्य वातावरण में लगभग तुरंत आत्म-विनाशकारी रणनीति होगी।
* प्रयोग में उपयोग की जाने वाली प्रोग्रामिंग भाषाएं एडा, बैश, सी, सी#, सी++, कोबोल, सेल्योन, क्लोजर, डी, डार्ट, डैश, इलिक्सिर, एर्लांग, एफ#, फोर्ट्रान, गो, हास्केल, जावा, जावास्क्रिप्ट, जूलिया, लिस्प, कोटलिन, लुआ, ओसी, ऑब्जेक्टिव-सी, पास्कल, पर्ल, प्रोलोग, पाइथन, रैकेट, रूबी, रस्ट, स्काला, स्विफ्ट, टाइपस्क्रिप्ट और विजुअल बेसिक थीं।
पहली बार बुधवार, 8 अक्टूबर, 2025 को प्रकाशित










