Connect with us

Relatórios

Dentro das Personalidades de Codificação dos Principais LLMs – Insights do Relatório Sonar State of Code

mm

Em agosto de 2025, Sonar lançou seu último State of Code estudo, The Coding Personalities of Leading LLMs – A State of Code Report. Esta pesquisa vai além das pontuações de precisão, examinando como os grandes modelos de linguagem realmente escrevem código e revelando personalidades de codificação únicas para cada um.

O estudo avaliou Claude Sonnet 4, Claude 3.7 Sonnet, GPT-4o, Llama 3.2 90B e OpenCoder-8B em mais de 4.400 atribuições Java usando o próprio mecanismo de análise estática da Sonar — tecnologia aprimorada ao longo de 16 anos por meio de sua plataforma SonarQube Enterprise.

Pontos Fortes Compartilhados

Os cinco modelos demonstraram forte confiabilidade sintática, o que significa que o código gerado compilou e foi executado com sucesso na maioria dos casos. Isso foi refletido em suas pontuações HumanEval, um teste de benchmark onde os modelos são solicitados a resolver problemas de codificação e suas soluções são verificadas automaticamente para correção. Claude Sonnet 4 liderou a lista com uma pontuação HumanEval de 95,57% e uma taxa ponderada Pass@1 de 77,04%, o que significa que sua primeira tentativa foi correta em mais de três quartos dos casos. Claude 3.7 Sonnet marcou 72,46%, GPT-4o 69,67%, Llama 3.2 61,47% e OpenCoder-8B 60,43%.

Este desempenho se manteve em diferentes linguagens de programação, mostrando que esses modelos estão raciocinando sobre os problemas em vez de confiar apenas na sintaxe memorizada.

Fraquezas Comuns

A falha compartilhada mais alarmante foi a má higiene de segurança. A Sonar mediu vulnerabilidades de nível de bloqueio, que são a categoria mais severa de falhas — problemas de segurança que podem levar diretamente a violações ou comprometimento do sistema se explorados. Exemplos incluem código que permite acesso arbitrário a arquivos, injeção SQL ou de comando, senhas hardcoded, criptografia mal configurada ou aceitação de certificados não confiáveis. Essas foram muito comuns: Claude Sonnet 4 teve 59,57% de suas vulnerabilidades nesse nível de gravidade, GPT-4o teve 62,5% e Llama 3.2 um preocupante 70,73%.

O relatório também notou vazamentos de recursos repetidos, um tipo de bug onde o código abre um recurso — como um manipulador de arquivos, soquete de rede ou conexão de banco de dados — mas falha em fechá-lo corretamente. Com o tempo, esses vazamentos podem esgotar os recursos do sistema disponíveis, levando a problemas de desempenho ou falhas. Claude Sonnet 4 teve 54 violações desse tipo, Llama 3.2 teve 50 e GPT-4o 25.

Em termos de manutenibilidade, a maioria dos problemas foi cheiros de código — padrões que não quebram o programa imediatamente, mas o tornam mais difícil de manter e mais propenso a bugs no futuro. Mais de 90% de todos os problemas identificados caíram nessa categoria, frequentemente envolvendo código não utilizado, nomeação ruim, complexidade excessiva ou violações de boas práticas de design.

Personalidades Distintas

A partir dessa mistura de forças e fraquezas, a Sonar identificou perfis de personalidade claros.

Claude Sonnet 4 ganhou o título de “O Arquiteto Sênior”. Ele escreve o código mais verboso — 370.816 linhas em todo o conjunto de testes — com alta complexidade cognitiva, o que significa que seus caminhos lógicos são mais difíceis de seguir. Ele se sai bem, mas é propenso a bugs sofisticados, como vazamentos de recursos e erros de concorrência, que podem ocorrer quando múltiplos threads ou processos interagem de maneira inesperada.

OpenCoder-8B foi “O Prototipador Rápido”, produzindo código curto e focado — 120.288 linhas no total —, mas com a maior densidade de problemas. Sua velocidade e brevidade o tornam adequado para provas de conceito, mas perigoso para produção sem revisão cuidadosa.

Llama 3.2 90B foi “A Promessa Não Cumprida”. Ele entregou resultados moderados, mas teve a pior postura de segurança, com mais de 70% das vulnerabilidades classificadas como de nível de bloqueio.

GPT-4o foi “O Generalista Eficiente”, equilibrando funcionalidade e complexidade, mas frequentemente tropeçando em erros de fluxo de controle — erros na sequência lógica de operações que podem levar a resultados incorretos ou código pulado.

Claude 3.7 Sonnet foi “O Predecessor Equilibrado”, produzindo código menos verboso do que seu sucessor, mas com a maior densidade de comentários, em 16,4%, o que significa que ele explica sua lógica mais do que qualquer outro modelo. Embora seja melhor na documentação, ele ainda carrega vulnerabilidades de alto nível significativas.

Uma das descobertas mais surpreendentes veio da comparação entre Claude Sonnet 4 e Claude 3.7. Embora Sonnet 4 tenha melhorado sua taxa de aprovação em 6,3%, a porcentagem de seus bugs classificados como de nível de bloqueio quase dobrou, de 7,10% para 13,71%. As vulnerabilidades de nível de bloqueio também subiram de 56,03% para 59,57%. A lição: melhorias no desempenho podem vir com o custo da segurança.

Conclusão

O relatório The Coding Personalities of Leading LLMs – A State of Code Report da Sonar deixa claro que a precisão dos benchmarks conta apenas parte da história. Entender os riscos de segurança, manutenibilidade e estilo de codificação é tão importante quanto saber quantas vezes um modelo “acerta”.

Cada personalidade — seja arquiteto, prototipador, generalista ou predecessor equilibrado — tem forças e trade-offs. A lição para os desenvolvedores e organizações é “confiar, mas verificar”, combinando a assistência de codificação de IA com supervisão humana, revisão de código rigorosa e verificações de segurança para garantir que a velocidade e a conveniência não comprometam a segurança ou a estabilidade a longo prazo.

Antoine é um líder visionário e sócio-fundador da Unite.AI, impulsionado por uma paixão inabalável em moldar e promover o futuro da IA e da robótica. Um empreendedor serial, ele acredita que a IA será tão disruptiva para a sociedade quanto a eletricidade, e é frequentemente pego falando sobre o potencial das tecnologias disruptivas e da AGI. Como um futurista, ele está dedicado a explorar como essas inovações moldarão nosso mundo. Além disso, ele é o fundador da Securities.io, uma plataforma focada em investir em tecnologias de ponta que estão redefinindo o futuro e remodelando setores inteiros.