Connect with us

рд▓реАрдбрд┐рдВрдЧ рдПрд▓рдПрд▓рдПрдореНрд╕ рдХреА рдХреЛрдбрд┐рдВрдЧ рд╡реНрдпрдХреНрддрд┐рддреНрд╡ рдХреЗ рдЕрдВрджрд░ – рд╕реЛрдирд╛рд░ рд╕реНрдЯреЗрдЯ рдСрдл рдХреЛрдб рд░рд┐рдкреЛрд░реНрдЯ рд╕реЗ рдЕрдВрддрд░реНрджреГрд╖реНрдЯрд┐

рд░рд┐рдкреЛрд░реНрдЯреНрд╕

рд▓реАрдбрд┐рдВрдЧ рдПрд▓рдПрд▓рдПрдореНрд╕ рдХреА рдХреЛрдбрд┐рдВрдЧ рд╡реНрдпрдХреНрддрд┐рддреНрд╡ рдХреЗ рдЕрдВрджрд░ – рд╕реЛрдирд╛рд░ рд╕реНрдЯреЗрдЯ рдСрдл рдХреЛрдб рд░рд┐рдкреЛрд░реНрдЯ рд╕реЗ рдЕрдВрддрд░реНрджреГрд╖реНрдЯрд┐

mm

अगस्त 2025 में, Sonar ने अपनी नवीनतम स्टेट ऑफ कोड अध्ययन, लीडिंग एलएलएम्स की कोडिंग व्यक्तित्व – एक स्टेट ऑफ कोड रिपोर्ट जारी की। यह शोध सटीकता स्कोर से परे जाता है, यह जांचता है कि वास्तव में बड़े भाषा मॉडल कोड कैसे लिखते हैं और प्रत्येक के लिए विशिष्ट “कोडिंग व्यक्तित्व” का खुलासा करता है।

अध्ययन ने क्लाउड सोनेट 4, क्लाउड 3.7 सोनेट, जीपीटी-4ओ, लामा 3.2 90बी, और ओपनकोडर-8बी का मूल्यांकन किया, जो सोनार के अपने स्टेटिक-विश्लेषण इंजन का उपयोग करके 4,400 से अधिक जावा असाइनमेंट में किया गया था – 16 वर्षों से इसके फ्लैगशिप सोनारक्यूब एंटरप्राइज प्लेटफॉर्म के माध्यम से परिष्कृत प्रौद्योगिकी।

साझा ताकत

पांचों मॉडलों ने मजबूत वाक्य रचना विश्वसनीयता का प्रदर्शन किया, जिसका अर्थ है कि उनके द्वारा उत्पन्न कोड अधिकांश मामलों में सफलतापूर्वक संकलित और चलाया गया। यह उनके ह्यूमनइवल स्कोर में परिलक्षित होता है, एक बेंचमार्क परीक्षण जहां मॉडलों को कोडिंग समस्याओं का समाधान करने के लिए कहा जाता है और उनके समाधानों की स्वचालित रूप से सहीपन की जांच की जाती है। क्लाउड सोनेट 4 ने 95.57% ह्यूमनइवल स्कोर और 77.04% वेटेड पास@1 दर के साथ सूची में शीर्ष स्थान हासिल किया, जिसका अर्थ है कि इसका पहला प्रयास तीन-चौथाई मामलों में सही था। क्लाउड 3.7 सोनेट ने 72.46% स्कोर किया, जीपीटी-4ओ 69.67%, लामा 3.2 61.47%, और ओपनकोडर-8बी 60.43%।

यह प्रदर्शन विभिन्न प्रोग्रामिंग भाषाओं में बना रहा, जो दर्शाता है कि ये मॉडल केवल वाक्य रचना पर निर्भर नहीं हैं, बल्कि समस्याओं का तर्कसंगत समाधान कर रहे हैं।

सामान्य कमजोरियां

सबसे चिंताजनक साझा दोष खराब सुरक्षा स्वच्छता थी। सोनार ने ब्लॉकर-स्तर के दोष को मापा, जो दोषों की सबसे गंभीर श्रेणी है – सुरक्षा मुद्दे जो सीधे बड़े उल्लंघन या प्रणाली के समझौते का कारण बन सकते हैं यदि उनका फायदा उठाया जाता है। उदाहरणों में शामिल हैं कोड जो मनमाने फ़ाइल एक्सेस की अनुमति देता है, एसक्यूएल या कमांड इंजेक्शन, हार्डकोडेड पासवर्ड, गलत तरीके से कॉन्फ़िगर किए गए एन्क्रिप्शन, या अविश्वसनीय प्रमाणपत्र स्वीकार करता है। ये बहुत आम थे: क्लाउड सोनेट 4 में 59.57% दोष इस गंभीरता के थे, जीपीटी-4ओ में 62.5% थे, और लामा 3.2 में 70.73%।

रिपोर्ट में बार-बार संसाधन रिसाव का उल्लेख किया गया है, एक प्रकार का बग जहां कोड एक संसाधन – जैसे फ़ाइल हैंडल, नेटवर्क सॉकेट, या डेटाबेस कनेक्शन – खोलता है लेकिन इसे ठीक से बंद नहीं करता है। समय के साथ, ये रिसाव सिस्टम संसाधनों को समाप्त कर सकते हैं, जिससे प्रदर्शन मुद्दे या दुर्घटनाएं हो सकती हैं। क्लाउड सोनेट 4 में 54 ऐसे उल्लंघन थे, लामा 3.2 में 50 थे, और जीपीटी-4ओ में 25 थे।

रखरखाव के संदर्भ में, अधिकांश मुद्दे कोड गंध थे – पैटर्न जो तुरंत कार्यक्रम को तोड़ते नहीं हैं, लेकिन इसे बनाए रखना कठिन बना देते हैं और भविष्य में बग के लिए अधिक प्रवण बना देते हैं। 90% से अधिक पहचाने गए मुद्दे इस श्रेणी में थे, जिनमें अक्सर अनुपयोगी कोड, खराब नामकरण, अत्यधिक जटिलता, या डिज़ाइन सर्वोत्तम प्रथाओं के उल्लंघन शामिल थे।

विशिष्ट व्यक्तित्व

इस ताकत और दोषों के मिश्रण से, सोनार ने स्पष्ट “व्यक्तित्व” प्रोफाइल की पहचान की।

क्लाउड सोनेट 4 ने “द सीनियर आर्किटेक्ट” का खिताब अर्जित किया। यह सबसे विस्तृत कोड लिखता है – परीक्षण सेट में 370,816 पंक्तियों के साथ – उच्च संज्ञानात्मक जटिलता के साथ, जिसका अर्थ है कि इसके तर्क पथों का अनुसरण करना कठिन है। यह अच्छा प्रदर्शन करता है लेकिन जटिल बग जैसे संसाधन रिसाव और समांतरता त्रुटियों के लिए प्रवण है, जो तब हो सकता है जब कई थ्रेड या प्रक्रियाएं अनपेक्षित तरीके से परस्पर क्रिया करती हैं।

ओपनकोडर-8बी “द रैपिड प्रोटोटाइपर” था, जो संक्षिप्त, केंद्रित कोड – कुल 120,288 पंक्तियों – का उत्पादन करता है, लेकिन सबसे अधिक मुद्दे घनत्व के साथ। इसकी गति और संक्षिप्तता इसे प्रूफ ऑफ कॉन्सेप्ट के लिए उपयुक्त बनाती है, लेकिन बिना सावधानी से समीक्षा किए उत्पादन के लिए खतरनाक है।

लामा 3.2 90बी “द अनफुलफिल्ड प्रॉमिस” था। यह मध्यम परिणाम देता है लेकिन सबसे खराब सुरक्षा मुद्रा के साथ, 70% से अधिक दोष ब्लॉकर-स्तर के थे।

जीपीटी-4ओ “द एफिशिएंट जनरलिस्ट” था, जो कार्यक्षमता और जटिलता के बीच संतुलन बनाता है, लेकिन अक्सर नियंत्रण-प्रवाह त्रुटियों पर ठोकर खाता है – गलतियां जो कार्यों के तार्किक क्रम में होती हैं और जो गलत परिणाम या छोड़े गए कोड का कारण बन सकती हैं।

क्लाउड 3.7 सोनेट “द बैलेंस्ड प्रीडेसेसर” था, जो कम विस्तृत कोड का उत्पादन करता है लेकिन 16.4% की उच्चतम टिप्पणी घनत्व के साथ, जिसका अर्थ है कि यह अपने तर्क को अन्य मॉडलों की तुलना में अधिक समझाता है। हालांकि यह दस्तावेज़ीकरण में बेहतर है, फिर भी यह महत्वपूर्ण उच्च-गंभीरता वाले दोषों को ले जाता है।

सबसे आकर्षक निष्कर्ष क्लाउड सोनेट 4 और क्लाउड 3.7 की तुलना से आया। हालांकि सोनेट 4 ने अपनी पास दर में 6.3% सुधार किया, इसके बग का प्रतिशत जो ब्लॉकर के रूप में दर्जा दिया गया था, लगभग दोगुना हो गया, 7.10% से 13.71% तक। ब्लॉकर-स्तर के दोष भी 56.03% से 59.57% तक बढ़ गए। सबक: प्रदर्शन में सुधार सुरक्षा की लागत पर आ सकता है।

निष्कर्ष

सोनार की लीडिंग एलएलएम्स की कोडिंग व्यक्तित्व – एक स्टेट ऑफ कोड रिपोर्ट यह स्पष्ट करती है कि बेंचमार्क सटीकता केवल कहानी का एक हिस्सा बताती है। सुरक्षा जोखिमों, रखरखाव, और कोडिंग शैली को समझना उतना ही महत्वपूर्ण है जितना कि यह जानना कि एक मॉडल कितनी बार “सही” होता है।

प्रत्येक व्यक्तित्व – चाहे वह आर्किटेक्ट, प्रोटोटाइपर, जनरलिस्ट, या संतुलित पूर्ववर्ती हो – ताकत और व्यापार-बंद के साथ आता है। विकासकर्ताओं और संगठनों के लिए निष्कर्ष यह है कि “विश्वास लेकिन सत्यापित करें”, एआई कोडिंग सहायता को मानव पर्यवेक्षण, व्यापक कोड समीक्षा, और सख्त सुरक्षा जांच के साथ जोड़ें, ताकि यह सुनिश्चित किया जा सके कि गति और सुविधा सुरक्षा या दीर्घकालिक स्थिरता के साथ समझौता न करें।

рдПрдВрдЯреЛрдиреА рдПрдХ рджреВрд░рджрд░реНрд╢реА рдиреЗрддрд╛ рдФрд░ Unite.AI рдХреЗ рд╕рдВрд╕реНрдерд╛рдкрдХ рднрд╛рдЧреАрджрд╛рд░ рд╣реИрдВ, рдЬреЛ рдХрд┐ рдПрдЖрдИ рдФрд░ рд░реЛрдмреЛрдЯрд┐рдХреНрд╕ рдХреЗ рднрд╡рд┐рд╖реНрдп рдХреЛ рдЖрдХрд╛рд░ рджреЗрдиреЗ рдФрд░ рдмрдврд╝рд╛рд╡рд╛ рджреЗрдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдЕрдЯреВрдЯ рдЬреБрдиреВрди рд╕реЗ рдкреНрд░реЗрд░рд┐рдд рд╣реИрдВред рдПрдХ рд╢реНрд░реГрдВрдЦрд▓рд╛ рдЙрджреНрдпрдореА, рд╡рд╣ рдорд╛рдирддрд╛ рд╣реИ рдХрд┐ рдПрдЖрдИ рд╕рдорд╛рдЬ рдХреЗ рд▓рд┐рдП рдЙрддрдирд╛ рд╣реА рд╡рд┐рдШрдЯрдирдХрд╛рд░реА рд╣реЛрдЧрд╛ рдЬрд┐рддрдирд╛ рдХрд┐ рдмрд┐рдЬрд▓реА, рдФрд░ рдЕрдХреНрд╕рд░ рд╡рд┐рдШрдЯрдирдХрд╛рд░реА рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдФрд░ рдПрдЬреАрдЖрдИ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЙрддреНрд╕рд╛рд╣рд┐рдд рд╣реЛрддрд╛ рд╣реИред

рдПрдХ рдлреНрдпреВрдЪрд░рд┐рд╕реНрдЯ рдХреЗ рд░реВрдк рдореЗрдВ, рд╡рд╣ рдЗрди рдирд╡рд╛рдЪрд╛рд░реЛрдВ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╣рдорд╛рд░реА рджреБрдирд┐рдпрд╛ рдХреЛ рдЖрдХрд╛рд░ рджреЗрдиреЗ рдХреА рдЦреЛрдЬ рдореЗрдВ рд╕рдорд░реНрдкрд┐рдд рд╣реИред рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рд╡рд╣ рд╕рд┐рдХреНрдпреЛрд░рд┐рдЯреАрдЬрд╝.io рдХреЗ рд╕рдВрд╕реНрдерд╛рдкрдХ рд╣реИрдВ, рдПрдХ рдордВрдЪ рдЬреЛ рднрд╡рд┐рд╖реНрдп рдХреЛ рдлрд┐рд░ рд╕реЗ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рдиреЗ рдФрд░ рдкреВрд░реЗ рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреЛ рдлрд┐рд░ рд╕реЗ рдЖрдХрд╛рд░ рджреЗрдиреЗ рд╡рд╛рд▓реА рдЕрддреНрдпрд╛рдзреБрдирд┐рдХ рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдореЗрдВ рдирд┐рд╡реЗрд╢ рдкрд░ рдХреЗрдВрджреНрд░рд┐рдд рд╣реИред

рд╡рд┐рдЬреНрдЮрд╛рдкрди рдкреНрд░рдХрдЯреАрдХрд░рдг: Unite.AI рд╕рдЯреАрдХ рдЬрд╛рдирдХрд╛рд░реА рдФрд░ рд╕рдорд╛рдЪрд╛рд░ рдкреНрд░рджрд╛рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрдареЛрд░ рд╕рдВрдкрд╛рджрдХреАрдп рдорд╛рдирдХреЛрдВ рдХреЗ рдкреНрд░рддрд┐ рдкреНрд░рддрд┐рдмрджреНрдз рд╣реИред рдЬрдм рдЖрдк рдЙрди рдЙрддреНрдкрд╛рджреЛрдВ рдХреЗ рд▓рд┐рдВрдХ рдкрд░ рдХреНрд▓рд┐рдХ рдХрд░рддреЗ рд╣реИрдВ рдЬрд┐рдирдХреА рд╣рдордиреЗ рд╕рдореАрдХреНрд╖рд╛ рдХреА рд╣реИ, рддреЛ рд╣рдореЗрдВ рдореБрдЖрд╡рдЬрд╛ рдорд┐рд▓ рд╕рдХрддрд╛ рд╣реИред