Connect with us

All’interno delle Personalità di Codifica dei Principali LLM – Approfondimenti dal Rapporto Sonar State of Code

Report

All’interno delle Personalità di Codifica dei Principali LLM – Approfondimenti dal Rapporto Sonar State of Code

mm

Nell’agosto 2025, Sonar ha pubblicato il suo ultimo State of Code studio, The Coding Personalities of Leading LLMs – A State of Code Report. Questa ricerca va oltre i punteggi di accuratezza, esaminando come i grandi modelli linguistici scrivono effettivamente il codice e rivelando uniche “personalità di codifica” per ciascuno.

Lo studio ha valutato Claude Sonnet 4, Claude 3.7 Sonnet, GPT-4o, Llama 3.2 90B e OpenCoder-8B su oltre 4.400 assegnazioni Java utilizzando il motore di analisi statica di Sonar – tecnologia raffinata nel corso di 16 anni attraverso la sua piattaforma SonarQube Enterprise.

Punti di Forza Condivisi

Tutti e cinque i modelli hanno dimostrato una forte affidabilità sintattica, il che significa che il codice generato si compila e si esegue con successo nella maggior parte dei casi. Ciò è stato riflesso nei loro HumanEval punteggi, un test di benchmark in cui i modelli vengono chiesti di risolvere problemi di codifica e le loro soluzioni vengono controllate automaticamente per la correttezza. Claude Sonnet 4 ha guidato la classifica con un punteggio HumanEval del 95,57% e un tasso ponderato Pass@1 dell’77,04%, il che significa che il suo primo tentativo era corretto in oltre tre quarti dei casi. Claude 3.7 Sonnet ha ottenuto il 72,46%, GPT-4o il 69,67%, Llama 3.2 il 61,47% e OpenCoder-8B il 60,43%.

Questa prestazione si è mantenuta costante attraverso diversi linguaggi di programmazione, mostrando che questi modelli stanno ragionando attraverso i problemi piuttosto che affidarsi solo alla sintassi memorizzata.

Punti di Debolezza Comuni

Il difetto condiviso più allarmante è stata la scarsa igiene della sicurezza. Sonar ha misurato vulnerabilità a livello di blocco, che sono la categoria più grave di difetti – problemi di sicurezza che possono portare direttamente a violazioni importanti o compromissione del sistema se sfruttati. Esempi includono codice che consente l’accesso arbitrario a file, iniezione SQL o di comando, password hardcoded, crittografia non configurata o accettazione di certificati non attendibili. Questi erano fin troppo comuni: Claude Sonnet 4 aveva il 59,57% delle sue vulnerabilità a questo livello di gravità, GPT-4o il 62,5% e Llama 3.2 un preoccupante 70,73%.

Il rapporto ha anche notato perdite di risorse ripetute, un tipo di bug in cui il codice apre una risorsa – come un handle di file, una socket di rete o una connessione al database – ma non chiude correttamente. Nel tempo, queste perdite possono esaurire le risorse di sistema disponibili, portando a problemi di prestazioni o crash. Claude Sonnet 4 aveva 54 violazioni di questo tipo, Llama 3.2 ne aveva 50 e GPT-4o 25.

Per quanto riguarda la manutenibilità, la maggior parte dei problemi sono stati code smells – modelli che non rompono il programma immediatamente ma lo rendono più difficile da mantenere e più propenso a bug in futuro. Oltre il 90% di tutti i problemi identificati rientrava in questa categoria, spesso coinvolgendo codice non utilizzato, nomi scadenti, eccessiva complessità o violazioni delle migliori pratiche di progettazione.

Personalità Distinte

Da questo mix di punti di forza e debolezza, Sonar ha identificato chiari profili di “personalità”.

Claude Sonnet 4 ha guadagnato il titolo “L’Architetto Senior”. Scrive il codice più verboso – 370.816 righe nell’intero set di test – con alta complessità cognitiva, il che significa che i suoi percorsi logici sono più difficili da seguire. Si esegue bene ma è propenso a bug sofisticati come perdite di risorse e errori di concorrenza, che possono verificarsi quando più thread o processi interagiscono in modo non inteso.

OpenCoder-8B è stato “Il Prototipista Rapido”, producendo codice breve e focalizzato – 120.288 righe totali – ma con la densità di problemi più alta. La sua velocità e brevità lo rendono adatto per prove di concetto, ma pericoloso per la produzione senza una revisione attenta.

Llama 3.2 90B è stata “La Promessa Non Mantenuta”. Ha conseguito risultati moderati ma ha avuto la peggiore postura di sicurezza, con oltre il 70% delle vulnerabilità classificate come di blocco.

GPT-4o è stato “L’Efficiente Generalista”, bilanciando funzionalità e complessità ma spesso inciampando in errori di controllo del flusso – errori nella sequenza logica delle operazioni che possono portare a risultati errati o a codice saltato.

Claude 3.7 Sonnet è stato “Il Predecessore Equilibrato”, producendo codice meno verboso rispetto al suo successore ma con la densità di commenti più alta al 16,4%, il che significa che spiega la sua logica più di qualsiasi altro modello. Sebbene sia migliore nella documentazione, porta ancora vulnerabilità di alto livello significative.

Una delle scoperte più sorprendenti è emersa dal confronto tra Claude Sonnet 4 e Claude 3.7. Sebbene Sonnet 4 abbia migliorato il suo tasso di passaggio del 6,3%, la percentuale dei suoi bug classificati come blocker è quasi raddoppiata, dal 7,10% al 13,71%. Le vulnerabilità a livello di blocco sono anche aumentate dal 56,03% al 59,57%. La lezione: i miglioramenti delle prestazioni possono avvenire a scapito della sicurezza.

Conclusione

Il rapporto The Coding Personalities of Leading LLMs – A State of Code Report di Sonar rende chiaro che l’accuratezza dei benchmark racconta solo una parte della storia. Comprendere i rischi di sicurezza, la manutenibilità e lo stile di codifica è altrettanto importante quanto sapere quanto spesso un modello “ce la fa”.

Ogni personalità – sia architetto, prototipista, generalista o predecessore equilibrato – ha punti di forza e compromessi. Il takeaway per gli sviluppatori e le organizzazioni è di “fidarsi ma verificare”, accoppiando l’assistenza di codifica AI con la supervisione umana, la revisione del codice approfondita e controlli di sicurezza rigorosi per assicurarsi che velocità e comodità non compromettano la sicurezza o la stabilità a lungo termine.

Antoine è un leader visionario e socio fondatore di Unite.AI, guidato da una passione incrollabile per plasmare e promuovere il futuro dell'AI e della robotica. Un imprenditore seriale, crede che l'AI sarà altrettanto disruptiva per la società quanto l'elettricità, e spesso viene colto a parlare con entusiasmo del potenziale delle tecnologie disruptive e dell'AGI.
Come futurist, è dedicato a esplorare come queste innovazioni plasmeranno il nostro mondo. Inoltre, è il fondatore di Securities.io, una piattaforma focalizzata sugli investimenti in tecnologie all'avanguardia che stanno ridefinendo il futuro e ridisegnando interi settori.