تقارير
داخل الشخصيات البرمجية لأعلى LLMs – رؤى من تقرير حالة الكود Sonar

في أغسطس 2025 ، أصدرت Sonar أحدث حالة الكود دراسة ، الشخصيات البرمجية لأعلى LLMs – تقرير حالة الكود. هذه الدراسة تتجاوز درجات الدقة ، وتحقق في كيفية كتابة نماذج اللغة الكبيرة للبرمجيات ، وتكشف عن “شخصيات برمجية” فريدة من نوعها لكل منها.
قيمت الدراسة Claude Sonnet 4 و Claude 3.7 Sonnet و GPT-4o و Llama 3.2 90B و OpenCoder-8B عبر أكثر من 4400 مهمة جافا باستخدام محرك التحليل الساكن الخاص بهم – التكنولوجيا المطورة خلال 16 عامًا من خلال منصة SonarQube Enterprise الرائدة.
القوة المشتركة
أظهرت جميع النماذج الخمس موثوقية صياغية قوية ، مما يعني أن البرمجيات التي تم إنشاؤها تم تجميعها وتنفيذها بنجاح في معظم الحالات. هذا ما يعكس درجات HumanEval ، وهو اختبار معيار حيث يُطلب من النماذج حل مشاكل برمجية ويتحقق من حلولها تلقائيًا لضمان دقتها. تصدر Claude Sonnet 4 القائمة بدرجة 95.57٪ و 77.04٪ معدل مرجح Pass@1 ، مما يعني أن محاولته الأولى كانت صحيحة في أكثر من ثلاثة أرباع الحالات. سجل Claude 3.7 Sonnet 72.46٪ ، و GPT-4o 69.67٪ ، و Llama 3.2 61.47٪ ، و OpenCoder-8B 60.43٪.
استمر هذا الأداء عبر لغات برمجة مختلفة ، مما يظهر أن هذه النماذج تعتمد على التفكير من خلال المشاكل بدلاً من الاعتماد فقط على بناء الجملة المخزنة.
الضعف الشائع
الخطأ المشترك الأكثر إثارة للقلق هو سوء النظافة الأمنية. قاس الضعف على مستوى الحظر ، وهو الفئة الأكثر خطورة من العيوب – مشاكل أمنية يمكن أن تؤدي إلى انتهاكات أو تعطيل نظام إذا استغلها. وتشمل الأمثلة على ذلك البرمجيات التي تسمح بالوصول الملف التعسفي ، أو الحقن SQL أو أوامر ، أو كلمات المرور المدمجة ، أو تشفير غير صحيح ، أو قبول شهادات غير موثوق بها. كانت هذه العيوب شائعة للغاية: كان 59.57٪ من عيوب Claude Sonnet 4 على هذا المستوى ، و 62.5٪ من عيوب GPT-4o ، و 70.73٪ من عيوب Llama 3.2.
أشار التقرير أيضًا إلى تسربات الموارد المتكررة ، وهو نوع من الحشرات التي تفتح فيها البرمجيات موردًا (مثل معالج الملف أو مقابس الشبكة أو الاتصال بالقاعدة البيانية) ولكنها تفشل في إغلاقها بشكل صحيح. مع مرور الوقت ، يمكن أن تؤدي هذه التسربات إلى استنفاد الموارد المتاحة ، مما يؤدي إلى مشاكل في الأداء أو تعطل النظام. كان لديها 54 انتهاكًا ، و Llama 3.2 50 ، و GPT-4o 25.
فيما يتعلق بالصيانة ، كانت الغالبية العظمى من المشاكل رائحة الكود – الأنماط التي لا تكسر البرنامج على الفور ولكن تجعله أكثر صعوبة في الصيانة وأكثر عرضة للأخطاء في المستقبل. كان أكثر من 90٪ من جميع القضايا المحددة في هذه الفئة ، وغالبًا ما涉لت رمزًا غير مستخدم ، أو تسمية سيئة ، أو تعقيد زائد ، أو انتهاكات لأفضل ممارسات التصميم.
شخصيات مميزة
من هذا المزيج من القوة والضعف ، حددت Sonar ملفات تعريف “شخصية” واضحة.
حصل Claude Sonnet 4 على لقب “المهندس المعماري الرائد”. يكتب أكثر الكود冗长 – 370،816 سطر عبر مجموعة الاختبار – مع تعقيد认知 عالٍ ، مما يعني أن مسارات منطقيته أكثر صعوبة في المتابعة. يعمل بشكل جيد ولكنه عرضة للأخطاء المتطورة مثل تسربات الموارد وأخطاء التزامن ، والتي يمكن أن تحدث عند التفاعل بين الخيوط أو العمليات بطريقة غير مقصودة.
كان OpenCoder-8B “المُنشئ السريع” ، مما أدى إلى إنشاء كود قصير ومحدد – 120،288 سطر إجمالي – ولكن مع أعلى كثافة مشكلة. يجعله سرعته ووجزه مناسبًا للبراهين الملموسة ، ولكنه خطر على الإنتاج بدون مراجعة دقيقة.
كان Llama 3.2 90B “الوعد غير المulfilled”. قدم نتائج متوسطة ولكنه كان لديه أسوأ موقف أمني ، مع أكثر من 70٪ من العيوب مصنفة على أنها عيوب حظر.
كان GPT-4o “العاملي الكفء” ، الذي يوازن بين الوظائف والتعقيد ولكن غالبًا ما يتعثر على أخطاء تدفق التحكم – الأخطاء في التسلسل المنطقي للعمليات التي يمكن أن تؤدي إلى نتائج غير صحيحة أو تخطي الكود.
كان Claude 3.7 Sonnet “السلف المتوازن” ، الذي أنتج كودًا أقل冗长ًا من سلفه ولكن مع أعلى كثافة تعليق عند 16.4٪ ، مما يعني أنه أوضح منطقيته أكثر من أي نموذج آخر. على الرغم من أنه كان أفضل في التوثيق ، إلا أنه لا يزال يحمل عيوبًا خطيرة.
كان أحد أكثر الاكتشافات إثارة للدهشة هو مقارنة Claude Sonnet 4 مع Claude 3.7. على الرغم من أن Sonnet 4 حسنت معدل المرور بنسبة 6.3٪ ، إلا أن نسبة عيوبها التي تم تصنيفها على أنها حظر几乎 تضاعفت ، من 7.10٪ إلى 13.71٪. كما ارتفعت عيوب الحظر من 56.03٪ إلى 59.57٪. الدرس: يمكن أن تأتي تحسينات الأداء على حساب السلامة.
الخلاصة
يُظهر تقرير الشخصيات البرمجية لأعلى LLMs – تقرير حالة الكود أن دقة المعيار告诉 فقط جزءًا من القصة. فهم المخاطر الأمنية والصيانة وأسلوب البرمجة هو أمر مهم مثل معرفة كيفية الحصول على نموذج “صحيح”.
لكل شخصية – سواء كانت مهندسًا معماريًا أو منشئًا سريعًا أو عامليًا أو سلفًا متوازنًا – لديها نقاط قوة وتضحيات. النتيجة للمطورين والمنظمات هي “الثقة ولكن التحقق” ، حيث يتم ربط مساعدة الترميز الذكية بالمراجعة البشرية والتحقق الأمني الشامل لضمان أن السرعة والراحة لا تؤدي إلى تساهل في السلامة أو الاستقرار على المدى الطويل.












