рд░рд┐рдкреЛрд░реНрдЯреНрд╕
рд▓реАрдбрд┐рдВрдЧ рдПрд▓рдПрд▓рдПрдореНрд╕ рдХреА рдХреЛрдбрд┐рдВрдЧ рд╡реНрдпрдХреНрддрд┐рддреНрд╡ рдХреЗ рдЕрдВрджрд░ – рд╕реЛрдирд╛рд░ рд╕реНрдЯреЗрдЯ рдСрдл рдХреЛрдб рд░рд┐рдкреЛрд░реНрдЯ рд╕реЗ рдЕрдВрддрд░реНрджреГрд╖реНрдЯрд┐

अगस्त 2025 में, Sonar ने अपनी नवीनतम स्टेट ऑफ कोड अध्ययन, लीडिंग एलएलएम्स की कोडिंग व्यक्तित्व – एक स्टेट ऑफ कोड रिपोर्ट जारी की। यह शोध सटीकता स्कोर से परे जाता है, यह जांचता है कि वास्तव में बड़े भाषा मॉडल कोड कैसे लिखते हैं और प्रत्येक के लिए विशिष्ट “कोडिंग व्यक्तित्व” का खुलासा करता है।
अध्ययन ने क्लाउड सोनेट 4, क्लाउड 3.7 सोनेट, जीपीटी-4ओ, लामा 3.2 90बी, और ओपनकोडर-8बी का मूल्यांकन किया, जो सोनार के अपने स्टेटिक-विश्लेषण इंजन का उपयोग करके 4,400 से अधिक जावा असाइनमेंट में किया गया था – 16 वर्षों से इसके फ्लैगशिप सोनारक्यूब एंटरप्राइज प्लेटफॉर्म के माध्यम से परिष्कृत प्रौद्योगिकी।
साझा ताकत
पांचों मॉडलों ने मजबूत वाक्य रचना विश्वसनीयता का प्रदर्शन किया, जिसका अर्थ है कि उनके द्वारा उत्पन्न कोड अधिकांश मामलों में सफलतापूर्वक संकलित और चलाया गया। यह उनके ह्यूमनइवल स्कोर में परिलक्षित होता है, एक बेंचमार्क परीक्षण जहां मॉडलों को कोडिंग समस्याओं का समाधान करने के लिए कहा जाता है और उनके समाधानों की स्वचालित रूप से सहीपन की जांच की जाती है। क्लाउड सोनेट 4 ने 95.57% ह्यूमनइवल स्कोर और 77.04% वेटेड पास@1 दर के साथ सूची में शीर्ष स्थान हासिल किया, जिसका अर्थ है कि इसका पहला प्रयास तीन-चौथाई मामलों में सही था। क्लाउड 3.7 सोनेट ने 72.46% स्कोर किया, जीपीटी-4ओ 69.67%, लामा 3.2 61.47%, और ओपनकोडर-8बी 60.43%।
यह प्रदर्शन विभिन्न प्रोग्रामिंग भाषाओं में बना रहा, जो दर्शाता है कि ये मॉडल केवल वाक्य रचना पर निर्भर नहीं हैं, बल्कि समस्याओं का तर्कसंगत समाधान कर रहे हैं।
सामान्य कमजोरियां
सबसे चिंताजनक साझा दोष खराब सुरक्षा स्वच्छता थी। सोनार ने ब्लॉकर-स्तर के दोष को मापा, जो दोषों की सबसे गंभीर श्रेणी है – सुरक्षा मुद्दे जो सीधे बड़े उल्लंघन या प्रणाली के समझौते का कारण बन सकते हैं यदि उनका फायदा उठाया जाता है। उदाहरणों में शामिल हैं कोड जो मनमाने फ़ाइल एक्सेस की अनुमति देता है, एसक्यूएल या कमांड इंजेक्शन, हार्डकोडेड पासवर्ड, गलत तरीके से कॉन्फ़िगर किए गए एन्क्रिप्शन, या अविश्वसनीय प्रमाणपत्र स्वीकार करता है। ये बहुत आम थे: क्लाउड सोनेट 4 में 59.57% दोष इस गंभीरता के थे, जीपीटी-4ओ में 62.5% थे, और लामा 3.2 में 70.73%।
रिपोर्ट में बार-बार संसाधन रिसाव का उल्लेख किया गया है, एक प्रकार का बग जहां कोड एक संसाधन – जैसे फ़ाइल हैंडल, नेटवर्क सॉकेट, या डेटाबेस कनेक्शन – खोलता है लेकिन इसे ठीक से बंद नहीं करता है। समय के साथ, ये रिसाव सिस्टम संसाधनों को समाप्त कर सकते हैं, जिससे प्रदर्शन मुद्दे या दुर्घटनाएं हो सकती हैं। क्लाउड सोनेट 4 में 54 ऐसे उल्लंघन थे, लामा 3.2 में 50 थे, और जीपीटी-4ओ में 25 थे।
रखरखाव के संदर्भ में, अधिकांश मुद्दे कोड गंध थे – पैटर्न जो तुरंत कार्यक्रम को तोड़ते नहीं हैं, लेकिन इसे बनाए रखना कठिन बना देते हैं और भविष्य में बग के लिए अधिक प्रवण बना देते हैं। 90% से अधिक पहचाने गए मुद्दे इस श्रेणी में थे, जिनमें अक्सर अनुपयोगी कोड, खराब नामकरण, अत्यधिक जटिलता, या डिज़ाइन सर्वोत्तम प्रथाओं के उल्लंघन शामिल थे।
विशिष्ट व्यक्तित्व
इस ताकत और दोषों के मिश्रण से, सोनार ने स्पष्ट “व्यक्तित्व” प्रोफाइल की पहचान की।
क्लाउड सोनेट 4 ने “द सीनियर आर्किटेक्ट” का खिताब अर्जित किया। यह सबसे विस्तृत कोड लिखता है – परीक्षण सेट में 370,816 पंक्तियों के साथ – उच्च संज्ञानात्मक जटिलता के साथ, जिसका अर्थ है कि इसके तर्क पथों का अनुसरण करना कठिन है। यह अच्छा प्रदर्शन करता है लेकिन जटिल बग जैसे संसाधन रिसाव और समांतरता त्रुटियों के लिए प्रवण है, जो तब हो सकता है जब कई थ्रेड या प्रक्रियाएं अनपेक्षित तरीके से परस्पर क्रिया करती हैं।
ओपनकोडर-8बी “द रैपिड प्रोटोटाइपर” था, जो संक्षिप्त, केंद्रित कोड – कुल 120,288 पंक्तियों – का उत्पादन करता है, लेकिन सबसे अधिक मुद्दे घनत्व के साथ। इसकी गति और संक्षिप्तता इसे प्रूफ ऑफ कॉन्सेप्ट के लिए उपयुक्त बनाती है, लेकिन बिना सावधानी से समीक्षा किए उत्पादन के लिए खतरनाक है।
लामा 3.2 90बी “द अनफुलफिल्ड प्रॉमिस” था। यह मध्यम परिणाम देता है लेकिन सबसे खराब सुरक्षा मुद्रा के साथ, 70% से अधिक दोष ब्लॉकर-स्तर के थे।
जीपीटी-4ओ “द एफिशिएंट जनरलिस्ट” था, जो कार्यक्षमता और जटिलता के बीच संतुलन बनाता है, लेकिन अक्सर नियंत्रण-प्रवाह त्रुटियों पर ठोकर खाता है – गलतियां जो कार्यों के तार्किक क्रम में होती हैं और जो गलत परिणाम या छोड़े गए कोड का कारण बन सकती हैं।
क्लाउड 3.7 सोनेट “द बैलेंस्ड प्रीडेसेसर” था, जो कम विस्तृत कोड का उत्पादन करता है लेकिन 16.4% की उच्चतम टिप्पणी घनत्व के साथ, जिसका अर्थ है कि यह अपने तर्क को अन्य मॉडलों की तुलना में अधिक समझाता है। हालांकि यह दस्तावेज़ीकरण में बेहतर है, फिर भी यह महत्वपूर्ण उच्च-गंभीरता वाले दोषों को ले जाता है।
सबसे आकर्षक निष्कर्ष क्लाउड सोनेट 4 और क्लाउड 3.7 की तुलना से आया। हालांकि सोनेट 4 ने अपनी पास दर में 6.3% सुधार किया, इसके बग का प्रतिशत जो ब्लॉकर के रूप में दर्जा दिया गया था, लगभग दोगुना हो गया, 7.10% से 13.71% तक। ब्लॉकर-स्तर के दोष भी 56.03% से 59.57% तक बढ़ गए। सबक: प्रदर्शन में सुधार सुरक्षा की लागत पर आ सकता है।
निष्कर्ष
सोनार की लीडिंग एलएलएम्स की कोडिंग व्यक्तित्व – एक स्टेट ऑफ कोड रिपोर्ट यह स्पष्ट करती है कि बेंचमार्क सटीकता केवल कहानी का एक हिस्सा बताती है। सुरक्षा जोखिमों, रखरखाव, और कोडिंग शैली को समझना उतना ही महत्वपूर्ण है जितना कि यह जानना कि एक मॉडल कितनी बार “सही” होता है।
प्रत्येक व्यक्तित्व – चाहे वह आर्किटेक्ट, प्रोटोटाइपर, जनरलिस्ट, या संतुलित पूर्ववर्ती हो – ताकत और व्यापार-बंद के साथ आता है। विकासकर्ताओं और संगठनों के लिए निष्कर्ष यह है कि “विश्वास लेकिन सत्यापित करें”, एआई कोडिंग सहायता को मानव पर्यवेक्षण, व्यापक कोड समीक्षा, और सख्त सुरक्षा जांच के साथ जोड़ें, ताकि यह सुनिश्चित किया जा सके कि गति और सुविधा सुरक्षा या दीर्घकालिक स्थिरता के साथ समझौता न करें।












