Connect with us

Wewnątrz osobowości kodowania wiodących LLM – spostrzeżenia z raportu Sonar State of Code

Raporty

Wewnątrz osobowości kodowania wiodących LLM – spostrzeżenia z raportu Sonar State of Code

mm

W sierpniu 2025 roku Sonar opublikował swój najnowszy State of Code study, The Coding Personalities of Leading LLMs – A State of Code Report. To badanie wykracza poza wyniki dokładności, analizując, jak duże modele językowe naprawdę piszą kod i ujawniają unikalne „osobowości kodowania” dla każdego.

Badanie oceniło Claude Sonnet 4, Claude 3.7 Sonnet, GPT-4o, Llama 3.2 90B i OpenCoder-8B w ponad 4 400 zadaniach Java przy użyciu własnego silnika analizy statycznej Sonar — technologii ulepszanej przez 16 lat za pośrednictwem platformy SonarQube Enterprise.

Wspólne zalety

Wszystkie pięć modeli wykazało silną niezawodność składniową, co oznacza, że ich wygenerowany kod został skompilowany i uruchomiony pomyślnie w większości przypadków. Wynikało to z ich wyników HumanEval, testu benchmarkowego, w którym modele są proszone o rozwiązanie problemów programistycznych, a ich rozwiązania są automatycznie sprawdzane pod kątem poprawności. Claude Sonnet 4 znalazł się na liście z wynikiem 95,57% i wskaźnikiem Pass@1 na poziomie 77,04%, co oznacza, że jego pierwsza próba była poprawna w ponad trzech czwartych przypadków. Claude 3.7 Sonnet uzyskał 72,46%, GPT-4o 69,67%, Llama 3.2 61,47%, a OpenCoder-8B 60,43%.

Ten wynik utrzymywał się we wszystkich językach programowania, co pokazuje, że te modele rozwiązują problemy poprzez rozumowanie, a nie polegając wyłącznie na zapamiętanej składni.

Wspólne słabości

Najbardziej niepokojącą wspólną wadą była słaba higiena bezpieczeństwa. Sonar zmierzył blokujące luki bezpieczeństwa, które są najpoważniejszą kategorią błędów — problemów z bezpieczeństwem, które mogą prowadzić bezpośrednio do poważnych naruszeń lub kompromitacji systemu, jeśli zostaną wykorzystane. Przykłady obejmują kod, który pozwala na dowolny dostęp do plików, wstrzyknięcie SQL lub polecenia, zakodowane hasła, błędnie skonfigurowane szyfrowanie lub akceptowanie niezaufanych certyfikatów. Były one zbyt powszechne: Claude Sonnet 4 miał 59,57% swoich luk bezpieczeństwa na tym poziomie, GPT-4o miał 62,5%, a Llama 3.2 aż 70,73%.

Raport zauważył również powtarzające się przecieki zasobów, rodzaj błędu, w którym kod otwiera zasób — taki jak uchwyt pliku, gniazdo sieciowe lub połączenie z bazą danych — ale nie zamyka go prawidłowo. Z czasem te przecieki mogą wyczerpać dostępne zasoby systemu, prowadząc do problemów z wydajnością lub awarii. Claude Sonnet 4 miał 54 takie naruszenia, Llama 3.2 miał 50, a GPT-4o 25.

Jeśli chodzi o utrzymanie, większość problemów stanowiły code smells — wzorce, które nie powodują awarii programu od razu, ale utrudniają jego utrzymanie i sprawiają, że jest on bardziej podatny na błędy w przyszłości. Ponad 90% wszystkich zidentyfikowanych problemów należało do tej kategorii, często dotycząc niepotrzebnego kodu, złej nazwy, nadmiernej złożoności lub naruszeń najlepszych praktyk projektowych.

Odrębne osobowości

Z tego połączenia zalet i wad Sonar zidentyfikował wyraźne profile „osobowości”.

Claude Sonnet 4 zdobył tytuł „Starszy Architekt”. Pisze najbardziej rozwlekły kod — 370 816 linii w całym zestawie testowym — z wysoką złożonością poznawczą, co oznacza, że jego ścieżki logiczne są trudniejsze do naśladowania. Radzi sobie dobrze, ale jest skłonny do sofistykowanych błędów, takich jak przecieki zasobów i błędy współbieżności, które mogą wystąpić, gdy wiele wątków lub procesów oddziałuje w niezamierzony sposób.

OpenCoder-8B był „Szybkim Prototypistą”, produkując krótki, ukierunkowany kod — 120 288 linii łącznie — ale z najwyższą gęstością problemów. Jego szybkość i zwięzłość sprawiają, że jest dobrze przystosowany do dowodów pojęciowych, ale niebezpieczny dla produkcji bez starannej recenzji.

Llama 3.2 90B był „Niespełnioną Obietnicą”. Dostarczył umiarkowane wyniki, ale miał najgorszą postawę bezpieczeństwa, z ponad 70% luk bezpieczeństwa sklasyfikowanych jako blokujące.

GPT-4o był „Wydajnym Ogólnym”, balansującym funkcjonalność i złożoność, ale często potykał się o błędy przepływu sterowania — błędy w logicznej sekwencji operacji, które mogą prowadzić do niepoprawnych wyników lub pominiętego kodu.

Claude 3.7 Sonnet był „Zbalansowanym Poprzednikiem”, produkując mniej rozwlekły kod niż jego następca, ale z najwyższą gęstością komentarzy na poziomie 16,4%, co oznacza, że wyjaśniał swoją logikę bardziej niż jakikolwiek inny model. Chociaż był lepszy w dokumentacji, nadal miał znaczące luki bezpieczeństwa o wysokim poziomie.

Jednym z najbardziej uderzających spostrzeżeń było porównanie Claude Sonnet 4 z Claude 3.7. Chociaż Sonnet 4 poprawił swój wynik o 6,3%, odsetek jego błędów sklasyfikowanych jako blokujące niemal podwoił się, z 7,10% do 13,71%. Luki bezpieczeństwa na poziomie blokowania wzrosły również z 56,03% do 59,57%. Lekcja: poprawy wydajności mogą przynieść kosztem bezpieczeństwa.

Podsumowanie

Raport Sonar The Coding Personalities of Leading LLMs – A State of Code Report pokazuje wyraźnie, że dokładność benchmarkowa mówi tylko część historii. Zrozumienie ryzyka bezpieczeństwa, utrzymania i stylu kodowania jest równie ważne, jak wiedza o tym, jak często model „trafi w punkt”.

Każda osobowość — czy to architekt, prototypista, ogólny czy zbalansowany poprzednik — ma zalety i wady. Wnioskiem dla deweloperów i organizacji jest „zaufaj, ale sprawdź”, łącząc pomoc kodowania AI z nadzorem ludzkim, dokładnym przeglądem kodu i rygorystycznymi kontrolami bezpieczeństwa, aby upewnić się, że szybkość i wygoda nie szkodzą bezpieczeństwu ani długoterminowej stabilności.

Antoine jest wizjonerskim liderem i współzałożycielem Unite.AI, z niezachwianą pasją do kształtowania i promowania przyszłości sztucznej inteligencji i robotyki. Jako serialowy przedsiębiorca, uważa, że sztuczna inteligencja będzie tak samo przełomowa dla społeczeństwa, jak elektryczność, i często zachwycany jest potencjałem technologie przełomowych i AGI. Jako futurysta, poświęca się badaniu, jak te innowacje ukształtują nasz świat. Ponadto jest założycielem Securities.io, platformy skupiającej się na inwestowaniu w najnowocześniejsze technologie, które przeobrażają przyszłość i zmieniają całe sektory.