Rapporter

Inn i kodingspersonlighetene til ledende LLM-er – Innsikt fra Sonar State of Code-rapporten

mm

I august 2025 utga Sonar sin nyeste State of Code studie, Kodingspersonlighetene til ledende LLM-er – En State of Code-rapport. Denne forskningen går ut over nøyaktighetspoeng, og undersøker hvordan store språkmodeller faktisk skriver kode og avslører unike “kodingspersonligheter” for hver.

Studien vurderte Claude Sonnet 4, Claude 3.7 Sonnet, GPT-4o, Llama 3.2 90B og OpenCoder-8B over mer enn 4 400 Java-oppdrag ved hjelp av Sonars egen statiske analyse-motor – teknologi som er forbedret over 16 år gjennom sitt flaggskip SonarQube Enterprise-plattform.

Felles styrker

Alle fem modellene viste sterke syntaktiske påliteligheter, noe som betyr at deres genererte kode ble kompilert og kjørt med hell i de fleste tilfeller. Dette ble reflektert i deres HumanEval-poeng, en benchmark-test hvor modellene blir bedt om å løse kodeproblemer og deres løsninger blir automatisk kontrollert for riktighet. Claude Sonnet 4 toppet listen med en HumanEval-poeng på 95,57 % og en vektet Pass@1-rate på 77,04 %, noe som betyr at dens første forsøk var korrekt i over tre fjerdedeler av tilfellene. Claude 3.7 Sonnet fikk 72,46 %, GPT-4o 69,67 %, Llama 3.2 61,47 % og OpenCoder-8B 60,43 %.

Denne ytelsen holdt seg over forskjellige programmeringsspråk, og viste at disse modellene resonerer gjennom problemer i stedet for å bare stole på memorisert syntaks.

Felles svakheter

Den mest alarmerende felles svakheten var dårlig sikkerhets hygiene. Sonar målte blokkeringsnivå-vulnerabiliteter, som er den mest alvorlige kategorien av feil – sikkerhetsproblemer som kan føre direkte til større brudd eller system-kompromittering hvis de utnyttes. Eksempler inkluderer kode som tillater vilkårlig fil-tilgang, SQL- eller kommando-injeksjon, hardkodede passord, feilkonfigurert kryptering eller aksept av uventede sertifikater. Disse var alt for vanlige: Claude Sonnet 4 hadde 59,57 % av sine sårbarheter på dette nivået, GPT-4o hadde 62,5 % og Llama 3.2 en bekymringsverdig 70,73 %.

Rapporten noterte også gjentatte ressurs-lekkasjer, en type feil hvor koden åpner en ressurs – som en fil-håndtering, nettverks-socket eller database-forbindelse – men ikke lukker den ordentlig. Over tid kan disse lekkasjene utarme tilgjengelige system-ressurser, noe som kan føre til ytelsesproblemer eller krasj. Claude Sonnet 4 hadde 54 slike overtredelser, Llama 3.2 hadde 50 og GPT-4o 25.

Vedrørende vedlikehold, var de fleste problemene kode-lukt – mønster som ikke bryter programmet umiddelbart, men gjør det vanskeligere å vedlikeholde og mer utsatt for feil i fremtiden. Mer enn 90 % av alle identifiserte problemer falt i denne kategorien, ofte involverende ubrukt kode, dårlig navngiving, eksessiv kompleksitet eller overtredelser av design-beste praksis.

Distinkte personligheter

Fra denne blandingen av styrker og svakheter, identifiserte Sonar klare “personlighets”-profiler.

Claude Sonnet 4 fikk tittelen “Den senior-arkitekten”. Den skriver den mest verbale koden – 370 816 linjer over testsettet – med høy kognitiv kompleksitet, noe som betyr at dens logiske stier er vanskeligere å følge. Den presterte godt, men var utsatt for sofistikerte feil som ressurs-lekkasjer og konkurranse-feil, som kan oppstå når flere tråder eller prosesser samhandler på uventede måter.

OpenCoder-8B var “Den raske prototypen”, som produserte kort og fokusert kode – 120 288 linjer totalt – men med den høyeste feil-tettheten. Dens hastighet og korthet gjør den godt egnet for bevis på konsept, men farlig for produksjon uten omfattende gjennomgang.

Llama 3.2 90B var “Det uppfylte løftet”. Den leverte moderate resultater, men hadde den dårligste sikkerhets-posturen, med over 70 % av sårbarhetene klassifisert som blokkeringsnivå.

GPT-4o var “Den effektive generalisten”, som balanserte funksjonalitet og kompleksitet, men ofte stolte over kontroll-flows-feil – feil i den logiske sekvensen av operasjoner som kan føre til feil eller utelatte kode.

Claude 3.7 Sonnet var “Den balanserte forgjengeren”, som produserte mindre verbale kode enn sin etterfølger, men med den høyeste kommentar-tettheten på 16,4 %, noe som betyr at den forklarte sin logikk mer enn noen annen modell. Selv om den var bedre på dokumentasjon, hadde den likevel betydelige høyt-nivå-sårbarheter.

En av de mest slående funnene kom fra sammenligningen av Claude Sonnet 4 og Claude 3.7. Selv om Sonnet 4 forbedret sin pass-rate med 6,3 %, økte prosenten av dens feil som ble klassifisert som blokker fra 7,10 % til 13,71 %. Blokkeringsnivå-sårbarheter økte også fra 56,03 % til 59,57 %. Leksjonen: ytelsesforbedringer kan komme på bekostning av sikkerhet.

Konklusjon

Sonars Kodingspersonlighetene til ledende LLM-er – En State of Code-rapport gjør det klart at benchmark-nøyaktighet forteller bare en del av historien. Å forstå sikkerhetsrisiko, vedlikehold og kodestil er like viktig som å vite hvor ofte en modell “får det rett”.

Hver personlighet – enten arkitekt, prototyper, generalist eller balansert forgjenger – har styrker og svakheter. Leksjonen for utviklere og organisasjoner er å ” stole, men verifisere”, ved å kombinere AI-kodehjelp med menneskelig tilsyn, omfattende kode-gjennomgang og strenge sikkerhetskontroller for å sikre at hastighet og komfort ikke kompromitterer sikkerhet eller langvarig stabilitet.

Antoine er en visjonær leder og grunnleggende partner i Unite.AI, drevet av en urokkelig lidenskap for å forme og fremme fremtiden for AI og robotikk. En seriegründer, han tror at AI vil være like disruptiv for samfunnet som elektrisitet, og blir ofte tatt i å tale om potensialet for disruptiv teknologi og AGI.
Som en futurist, er han dedikert til å utforske hvordan disse innovasjonene vil forme vår verden. I tillegg er han grunnleggeren av Securities.io, en plattform som fokuserer på å investere i banebrytende teknologier som omdefinerer fremtiden og omformer hele sektorer.