Connect with us

Önde Gelen LLM’lerin Kodlama Kişilikleri İçinde – Sonar Kod Durumu Raporundan Bilgiler

Raporlar

Önde Gelen LLM’lerin Kodlama Kişilikleri İçinde – Sonar Kod Durumu Raporundan Bilgiler

mm

Ağustos 2025’te, Sonar en son Kod Durumu çalışmasını, Önde Gelen LLM’lerin Kodlama Kişilikleri – Bir Kod Durumu Raporu yayınladı. Bu araştırma, doğruluk puanlarının ötesine geçerek, büyük dil modellerinin nasıl kod yazdığını incelemekte ve her biri için benzersiz “kodlama kişilikleri” ortaya koymaktadır.

Çalışma, Claude Sonnet 4, Claude 3.7 Sonnet, GPT-4o, Llama 3.2 90B ve OpenCoder-8B’yi, Sonar’ın kendi statik analiz motorunu kullanarak 4.400’den fazla Java görevi üzerinden değerlendirdi—16 yıl boyunca SonarQube Enterprise platformu aracılığıyla geliştirilen teknoloji.

Paylaşılan Güçlü Yönler

Beş model de güçlü sözdizimi güvenilirliği gösterdi, yani oluşturdukları kodların çoğu durumda derlenmesi ve başarılı bir şekilde çalışması anlamına geliyordu. Bu, HumanEval puanları ile yansıtıldı, burada modeller kodlama sorunlarını çözmeye davet edilir ve çözümleri otomatik olarak doğruluk için kontrol edilir. Claude Sonnet 4, 95.57% HumanEval puanı ve 77.04% ağırlıklı Pass@1 oranı ile listede ilk sırayı aldı, yani ilk denemesi üçte ikiden fazla durumda doğruydu. Claude 3.7 Sonnet 72.46% puan alırken, GPT-4o 69.67%, Llama 3.2 61.47% ve OpenCoder-8B 60.43% puan aldı.

Bu performans, farklı programlama dilleri boyunca korunarak, bu modellerin yalnızca bellekte depolanan sözdizimine güvenmek yerine sorunları neden-sonuç ilişkisiyle çözdüğünü gösterdi.

Ortak Zayıflıklar

Paylaşılan en endişe verici zayıflık, kötü güvenlik hijyeni idi. Sonar, engel düzeyindeki güvenlik açıklarını ölçtü, ki bu, en ciddi kategorinin güvenlik açıklarıdır—sistemde büyük ihlallere veya sistem tehlikesine neden olabilecek güvenlik sorunları. Örnekler arasında keyfi dosya erişimi, SQL veya komut enjeksiyonu, sabitlenmiş parolalar, yanlış yapılandırılmış şifreleme veya güvenilmeyen sertifikaların kabul edilmesi yer alır. Bunlar çok yaygındı: Claude Sonnet 4’ün %59.57’si bu ciddiyettedir, GPT-4o %62.5 ve Llama 3.2 endişe verici bir şekilde %70.73.

Raporda ayrıca, tekrar eden kaynak sızıntıları not edildi, bu bir hata türüdür ve kod bir kaynağı—dosya tutamağı, ağ soketi veya veritabanı bağlantısı gibi—açar ancak düzgün bir şekilde kapatamaz. Zamanla, bu sızıntılar sistem kaynaklarını tüketerek performans sorunlarına veya çökmelere neden olabilir. Claude Sonnet 4, 54 böyle ihlal kaydetti, Llama 3.2 50 ve GPT-4o 25.

Bakımlılık açısından, sorunların büyük çoğunluğu kod kokuları idi—programı hemen bozmaz ancak gelecekte daha fazla hata oluşturmasına ve bakımı daha zor hale getirmesine neden olan kalıplar. Tanımlanan tüm sorunların %90’ından fazlası bu kategoriye giriyordu ve genellikle kullanılmayan kod, kötü adlandırmalar, aşırı karmaşıklık veya tasarım en iyi uygulamalarına aykırılıkları içeriyordu.

Ayrıntılı Kişilikler

Bu güçler ve zayıflıklar karışımından, Sonar net “kişilik” profillerini tanımladı.

Claude Sonnet 4, “Senior Mimar” unvanını kazandı. En çok kodu yazdı—test seti boyunca 370.816 satır—ve yüksek bilişsel karmaşıklığa sahipti, yani mantık yolları daha zor takip ediliyordu. İyi performans gösterdi ancak kaynak sızıntıları ve paralellik hataları gibi sofistike hatalara eğilim gösteriyordu, bunlar birden fazla iş parçacığı veya sürecin beklenmedik şekillerde etkileşime girdiğinde ortaya çıkabilirdi.

OpenCoder-8B, “Hızlı Prototipleyici” idi, kısa ve odaklanmış kodu üretiyordu—toplam 120.288 satır—ancak en yüksek sorun yoğunluğuna sahipti. Hızı ve özlülüğü, üretim öncesi dikkatli bir inceleme olmadan tehlikeli olabilecek kanıtlar için uygun hale getiriyordu.

Llama 3.2 90B, “Gerçekleşmeyen Vaat” idi, orta düzeyde sonuçlar elde etti ancak en kötü güvenlik duruşuna sahipti, güvenlik açıklarının %70’ten fazlası engel düzeyindeydi.

GPT-4o, “Verimli Genel Uzman” idi, işlevsellik ve karmaşıklık arasında denge kuruyordu ancak sık sık kontrol akışı hatalarına takılıyordu—mantıksal işlemler dizisindeki hatalar, yanlış sonuçlara veya atlanan koda neden olabilirdi.

Claude 3.7 Sonnet, “Dengeli Öncül” idi, halefinden daha az verböz kodu üretiyordu ancak %16.4 ile en yüksek yorum yoğunluğuna sahipti, yani diğer herhangi bir modelden daha fazla mantığını açıklıyordu. Belgelendirmede daha iyi olmasına rağmen, önemli yüksek düzeyli güvenlik açıklarını仍 devam ettiriyordu.

En çarpıcı bulgulardan biri, Claude Sonnet 4 ile Claude 3.7 arasında bir karşılaştırmadan geldi. Sonnet 4, geçerlilik oranını %6.3 oranında iyileştirdi, ancak hatalarının %13.71’i engelleme düzeyindeydi, bu da %7.10’dan %13.71’e yükseldi. Engelleme düzeyindeki güvenlik açıkları da %56.03’ten %59.57’ye yükseldi. Ders: performans iyileştirmeleri güvenlik maliyetine gelebilir.

Sonuç

Sonar’ın Önde Gelen LLM’lerin Kodlama Kişilikleri – Bir Kod Durumu Raporu, benchmark doğruluğunun sadece kısmi bir hikaye anlattığını gösteriyor. Güvenlik risklerini, bakımlılık ve kodlama stilini anlamak, bir modelin ne sıklıkla “doğru” olduğunu bilmekten daha önemli.

Her bir kişilik—mimar, prototipleyici, uzman veya dengeli öncül—güçlü ve zayıf yönleri barındırıyor. Geliştiriciler ve organizasyonlar için çıkarımlar, AI kodlama yardımı ile insan denetimini, dikkatli kod incelemesini ve katı güvenlik kontrollerini birleştirmek, böylece hız ve kolaylığın güvenlik veya uzun vadeli istikrarı tehlikeye atmadığını garantilemektir.

Antoine bir vizyoner lider ve Unite.AI'in kurucu ortağıdır ve AI ve robotik geleceğini şekillendirmek ve tanıtmak için sarsılmaz bir tutkuyla hareket etmektedir. Bir seri girişimci olarak, toplum için elektrik kadar yıkıcı olacağına inandığı AI'nin potansiyeli hakkında sık sık konuşur ve coşkusunu dile getirir.
Bir futurist olarak, bu yeniliklerin dünyamızı nasıl şekillendireceğini keşfetmeye adanmıştır. Ayrıca, Securities.io kurucusudur, bu platform geleceği yeniden tanımlayan ve tüm sektörleri yeniden şekillendiren teknolojilere yatırım yapmaya odaklanmıştır.