Отчёты
Внутри кодовых личностей ведущих LLM – идеи из отчета Sonar State of Code

В августе 2025 года Sonar выпустила свою последнюю State of Code исследование, The Coding Personalities of Leading LLMs – A State of Code Report. Это исследование выходит за рамки показателей точности, изучая, как крупные языковые модели на самом деле пишут код и раскрывая уникальные «кодовые личности» для каждой.
Исследование оценивало Claude Sonnet 4, Claude 3.7 Sonnet, GPT-4o, Llama 3.2 90B и OpenCoder-8B по более чем 4,400 заданиям на Java с помощью собственного статического анализа Sonar – технологии, усовершенствованной за 16 лет через свою флагманскую платформу SonarQube Enterprise.
Общие сильные стороны
Все пять моделей продемонстрировали сильную синтаксическую надежность, то есть их сгенерированный код компилировался и запускался успешно в большинстве случаев. Это отражалось в их HumanEval баллах, тесте, где модели просят решить задачи программирования, и их решения автоматически проверяются на правильность. Claude Sonnet 4 возглавил список с баллом HumanEval 95,57% и скоростью Pass@1 77,04%, что означает, что его первая попытка была правильной более чем в трех четвертях случаев. Claude 3.7 Sonnet набрал 72,46%, GPT-4o – 69,67%, Llama 3.2 – 61,47%, а OpenCoder-8B – 60,43%.
Эта производительность сохранилась на разных языках программирования, показывая, что эти модели рассуждают над проблемами, а не полагаются исключительно на запомненную синтаксис.
Общие слабости
Самой тревожной общей слабостью было плохое обеспечение безопасности. Sonar измерил блокирующие уязвимости, которые являются наиболее серьезной категорией ошибок – проблемами безопасности, которые могут привести напрямую к серьезным нарушениям или компрометации системы, если они будут использованы. Примеры включают код, который позволяет произвольный доступ к файлам, SQL- или командную инъекцию, зафиксированные пароли, неправильно настроенное шифрование или принятие недоверенных сертификатов. Такие уязвимости были слишком распространены: Claude Sonnet 4 имел 59,57% своих уязвимостей на этом уровне, GPT-4o – 62,5%, а Llama 3.2 – тревожные 70,73%.
В отчете также было отмечено повторяющиеся утечки ресурсов, тип ошибки, когда код открывает ресурс – такой как файловый дескриптор, сетевой сокет или соединение с базой данных – но не закрывает его должным образом. Со временем эти утечки могут истощить доступные системные ресурсы, что приводит к проблемам с производительностью или сбоям. Claude Sonnet 4 имел 54 таких нарушений, Llama 3.2 – 50, а GPT-4o – 25.
В отношении поддерживаемости большинство проблем были запахами кода – закономерностями, которые не ломают программу сразу, но делают ее более трудной для поддержки и более склонной к ошибкам в будущем. Более 90% всех выявленных проблем попали в эту категорию, часто включающую неиспользуемый код, плохое именование, чрезмерную сложность или нарушения лучших практик проектирования.
Отличительные личности
Из этого сочетания сильных и слабых сторон Sonar определил четкие «личностные» профили.
Claude Sonnet 4 заслужил титул «Старший архитектор». Он пишет наиболее многословный код – 370 816 строк по всему тестовому набору – с высокой когнитивной сложностью, то есть его логические пути более трудны для понимания. Он работает хорошо, но склонен к сложным ошибкам, таким как утечки ресурсов и ошибки согласованности, которые могут возникнуть, когда несколько потоков или процессов взаимодействуют непредвиденным образом.
OpenCoder-8B был «Быстрым прототипером», производящим короткий, сосредоточенный код – всего 120 288 строк – но с самой высокой плотностью проблем. Его скорость и краткость делают его хорошо подходящим для концепций, но опасным для производства без тщательного обзора.
Llama 3.2 90B был «Несбывшейся обещанием». Он показал умеренные результаты, но имел худший постур безопасности, с более чем 70% уязвимостей, классифицированных как блокирующие.
GPT-4o был «Эффективным универсалом», балансирующим функциональность и сложность, но часто спотыкающимся о ошибки потока управления – ошибки в логической последовательности операций, которые могут привести к неправильным результатам или пропущенному коду.
Claude 3.7 Sonnet был «Сбалансированным предшественником», производящим менее многословный код, чем его преемник, но с самой высокой плотностью комментариев – 16,4%, что означает, что он объясняет свою логику более, чем любая другая модель. Хотя он лучше в документации, он все еще нес значительные уязвимости высокого уровня.
Одним из наиболее поразительных результатов было сравнение Claude Sonnet 4 с Claude 3.7. Хотя Sonnet 4 улучшил свою скорость прохождения на 6,3%, процент его ошибок, оцененных как блокирующие, почти удвоился – с 7,10% до 13,71%. Блокирующие уязвимости также возросли с 56,03% до 59,57%. Урок: улучшения производительности могут прийти за счет безопасности.
Заключение
Отчет Sonar The Coding Personalities of Leading LLMs – A State of Code Report делает ясным, что точность бенчмарка рассказывает только часть истории. Понимание рисков безопасности, поддерживаемости и стиля кодирования так же важно, как и знание того, как часто модель «получает все правильно».
Каждая личность – будь то архитектор, прототипер, универсал или сбалансированный предшественник – имеет сильные и слабые стороны. Вывод для разработчиков и организаций заключается в том, чтобы «доверять, но проверять», сочетая помощь кодирования ИИ с человеческим надзором, тщательным обзором кода и строгими проверками безопасности, чтобы обеспечить, что скорость и удобство не компрометируют безопасность или долгосрочную стабильность.












