Berichte
Innerhalb der Codier-Persönlichkeiten führender LLMs – Erkenntnisse aus dem Sonar State of Code Report

Im August 2025 veröffentlichte Sonar seinen neuesten State of Code Studie, Die Codier-Persönlichkeiten führender LLMs – Ein State of Code Report. Diese Forschung geht über Genauigkeitsbewertungen hinaus und untersucht, wie große Sprachmodelle tatsächlich Code schreiben und einzigartige “Codier-Persönlichkeiten” für jedes aufdeckt.
Die Studie bewertete Claude Sonnet 4, Claude 3.7 Sonnet, GPT-4o, Llama 3.2 90B und OpenCoder-8B über mehr als 4.400 Java-Aufgaben hinweg mithilfe von Sonars eigener statischer Analyse-Engine – Technologie, die über 16 Jahre durch seine Flaggschiff-Plattform SonarQube Enterprise verfeinert wurde.
Gemeinsame Stärken
Alle fünf Modelle demonstrierten eine starke syntaktische Zuverlässigkeit, was bedeutet, dass ihr generierter Code in den meisten Fällen erfolgreich kompiliert und ausgeführt wurde. Dies spiegelte sich in ihren HumanEval-Bewertungen wider, einem Benchmark-Test, bei dem Modelle aufgefordert werden, Codierprobleme zu lösen und deren Lösungen automatisch auf Korrektheit überprüft werden. Claude Sonnet 4 führte die Liste mit einer HumanEval-Bewertung von 95,57 % und einem gewichteten Pass@1-Satz von 77,04 % an, was bedeutet, dass sein erster Versuch in über drei Vierteln der Fälle korrekt war. Claude 3.7 Sonnet erzielte 72,46 %, GPT-4o 69,67 %, Llama 3.2 61,47 % und OpenCoder-8B 60,43 %.
Diese Leistung hielt sich über verschiedene Programmiersprachen hinweg, was zeigt, dass diese Modelle Probleme durchdenken, anstatt sich allein auf memorisierte Syntax zu verlassen.
Gemeinsame Schwächen
Der beunruhigendste gemeinsame Fehler war eine schlechte SicherheitsHygiene. Sonar maß Blockierungsstufe-Schwachstellen, die die schwerwiegendste Kategorie von Fehlern darstellen – Sicherheitsprobleme, die direkt zu schwerwiegenden Verletzungen oder Systemkompromittierungen führen können, wenn sie ausgenutzt werden. Beispiele umfassen Code, der willkürlichen Dateizugriff ermöglicht, SQL- oder Befehlsinjektion, hartcodierte Passwörter, fehlerhaft konfigurierte Verschlüsselung oder das Akzeptieren nicht vertrauenswürdiger Zertifikate. Diese waren viel zu häufig: Claude Sonnet 4 hatte 59,57 % seiner Schwachstellen in dieser Schwere, GPT-4o hatte 62,5 % und Llama 3.2 eine besorgniserregende 70,73 %.
Der Bericht wies auch wiederholte Ressourcenlecks nach, eine Art von Bug, bei dem der Code eine Ressource – wie einen Dateihandler, ein Netzwerkslot oder eine Datenbankverbindung – öffnet, aber nicht ordnungsgemäß schließt. Im Laufe der Zeit können diese Lecks verfügbare Systemressourcen erschöpfen, was zu Leistungsproblemen oder Abstürzen führen kann. Claude Sonnet 4 hatte 54 solcher Verletzungen, Llama 3.2 hatte 50 und GPT-4o 25.
Bei der Wartbarkeit waren die meisten Probleme Code-Gerüche – Muster, die das Programm nicht sofort brechen, aber es schwieriger machen, es zu warten, und es anfälliger für Fehler in der Zukunft machen. Mehr als 90 % aller identifizierten Probleme fielen in diese Kategorie, oft mit ungenutztem Code, schlechter Benennung, übermäßiger Komplexität oder Verletzungen von Design-Best-Praktiken.
Unterschiedliche Persönlichkeiten
Aus dieser Mischung aus Stärken und Fehlern identifizierte Sonar klare “Persönlichkeitsprofile”.
Claude Sonnet 4 erhielt den Titel “Der Senior-Architekt”. Es schreibt den umfangreichsten Code – 370.816 Zeilen über das Testset hinweg – mit hoher kognitiver Komplexität, was bedeutet, dass seine Logikpfade schwerer zu verfolgen sind. Es performt gut, aber neigt zu anspruchsvollen Fehlern wie Ressourcenlecks und Konkurrenzfehlern, die auftreten können, wenn mehrere Threads oder Prozesse auf unerwartete Weise interagieren.
OpenCoder-8B war “Der schnelle Prototyper”, der kurzen, fokussierten Code – 120.288 Zeilen insgesamt – produzierte, aber mit der höchsten Fehlerdichte. Seine Geschwindigkeit und Knappheit machen es gut geeignet für Konzepte, aber gefährlich für die Produktion ohne sorgfältige Überprüfung.
Llama 3.2 90B war “Das unerfüllte Versprechen”. Es lieferte moderate Ergebnisse, aber hatte die schlechteste Sicherheitspostur, mit mehr als 70 % der Schwachstellen als Blockierungsstufe klassifiziert.
GPT-4o war “Der effiziente Generalist”, der Funktionalität und Komplexität ausglich, aber oft über Steuerflussfehler stolperte – Fehler in der logischen Abfolge von Operationen, die zu falschen Ergebnissen oder übersprungenem Code führen können.
Claude 3.7 Sonnet war “Der ausgewogene Vorgänger”, der weniger umfangreichen Code als sein Nachfolger produzierte, aber mit der höchsten Kommentardichte von 16,4 %, was bedeutet, dass es seine Logik mehr als jedes andere Modell erklärte. Obwohl es besser bei der Dokumentation war, trug es immer noch erhebliche hochrangige Schwachstellen.
Eine der auffallendsten Feststellungen kam aus dem Vergleich von Claude Sonnet 4 mit Claude 3.7. Obwohl Sonnet 4 seine Bestehensrate um 6,3 % verbesserte, verdoppelte sich der Prozentsatz seiner Fehler, die als Blockierungsstufe bewertet wurden, von 7,10 % auf 13,71 %. Blockierungsstufe-Schwachstellen stiegen auch von 56,03 % auf 59,57 %. Die Lektion: Leistungsverbesserungen können auf Kosten der Sicherheit gehen.
Schlussfolgerung
Sonars Die Codier-Persönlichkeiten führender LLMs – Ein State of Code Report macht deutlich, dass Benchmark-Genauigkeit nur einen Teil der Geschichte erzählt. Das Verständnis von Sicherheitsrisiken, Wartbarkeit und Codierstil ist ebenso wichtig wie das Wissen, wie oft ein Modell “es richtig macht”.
Jede Persönlichkeit – ob Architekt, Prototyper, Generalist oder ausgewogener Vorgänger – hat Stärken und Kompromisse. Die Lehre für Entwickler und Organisationen ist, “vertrauen, aber überprüfen”, künstliche Intelligenz-Codierhilfe mit menschlicher Überwachung, sorgfältiger Code-Überprüfung und strengen Sicherheitskontrollen zu paaren, um sicherzustellen, dass Geschwindigkeit und Bequemlichkeit nicht Sicherheit oder langfristige Stabilität gefährden.












