Connect with us

Всередині кодових особистостей провідних LLM – висновки з доповіді Sonar State of Code

Звіти

Всередині кодових особистостей провідних LLM – висновки з доповіді Sonar State of Code

mm

У серпні 2025 року Sonar опублікувала свою останню State of Code студію, The Coding Personalities of Leading LLMs – A State of Code Report. Це дослідження виходить за межі точності оцінок, вивчаючи, як великі мовні моделі насправді пишуть код і відкриваючи унікальні “кодові особистості” для кожної.

Студія оцінила Claude Sonnet 4, Claude 3.7 Sonnet, GPT-4o, Llama 3.2 90B і OpenCoder-8B по більш ніж 4 400 завдань Java за допомогою власного статичного аналізу Sonar – технології, відполірованої за 16 років через свою флагманську платформу SonarQube Enterprise.

Спільні сильні сторони

Всі п’ять моделей продемонстрували сильну синтаксичну надійність, тобто їхній згенерований код скомпілювався і успішно запустився в більшості випадків. Це відображено в їхніх HumanEval балах, бенчмарку, де моделям пропонується вирішити завдання з кодуванням, а їхні рішення автоматично перевіряються на коректність. Claude Sonnet 4 очолив список з балом HumanEval 95,57% і ваговим показником Pass@1 77,04%, тобто його перша спроба була правильною в більш ніж трьох чвертях випадків. Claude 3.7 Sonnet отримав 72,46%, GPT-4o – 69,67%, Llama 3.2 – 61,47%, а OpenCoder-8B – 60,43%.

Ця продуктивність зберігалася при різних мовах програмування, показуючи, що ці моделі мислять через проблеми, а не покладаються виключно на запам’ятовані синтаксичні конструкції.

Спільні слабкості

Найбільш тривожною спільною слабкістю була погана безпекова гігієна. Sonar виміряла блокуючі уразливості, які є найбільш серйозною категорією слабкостей – безпекові проблеми, які можуть привести безпосередньо до великих порушень або компрометації системи, якщо вони будуть використані. Приклади включають код, який дозволяє довільний доступ до файлів, вставку SQL або команд, зашифровані паролі, неправильну конфігурацію шифрування або прийняття недовіряних сертифікатів. Таких випадків було надто багато: Claude Sonnet 4 мав 59,57% своїх уразливостей на цьому рівні, GPT-4o мав 62,5%, а Llama 3.2 мав 70,73%.

У звіті також відзначалися повторювані витоки ресурсів, тип помилки, при якому код відкриває ресурс – такий як файловий дескриптор, мережевий сокет або з’єднання з базою даних – але не закриває його правильно. З часом такі витоки можуть вичерпати доступні системні ресурси, що призводить до проблем з продуктивністю або аварій. Claude Sonnet 4 мав 54 таких порушень, Llama 3.2 мав 50, а GPT-4o мав 25.

Відносно підтримки більшість проблем були кодовими запахами – шаблонами, які не розбивають програму відразу, але роблять її важчою для підтримки та більш схильною до помилок у майбутньому. Більше 90% усіх визначених проблем потрапили до цієї категорії, часто включаючи не використаний код, погані імена, надмірну складність або порушення найкращих практик дизайну.

Відмінні особистості

З цього поєднання сильних і слабких сторін Sonar визначила чіткі “особистісні” профіль.

Claude Sonnet 4 отримав звання “Старший архітектор”. Він пише найбільш розширений код – 370 816 рядків по всьому тестовому набору – з високою когнітивною складністю, тобто його логічні шляхи важче слідувати. Він працює добре, але схильний до складних помилок, таких як витоки ресурсів і помилки взаємодії, які можуть виникнути, коли кілька потоків або процесів взаємодіють непередбачуваним чином.

OpenCoder-8B був “Швидким прототипером”, який створює короткий, зосереджений код – всього 120 288 рядків – але з найбільшою щільністю проблем. Його швидкість і лаконічність роблять його добре підходящим для доказів концепції, але небезпечним для виробництва без ретельного огляду.

Llama 3.2 90B був “Невиконаним обіцянкою”. Він показав помірні результати, але мав найгіршу безпекову позицію, з більш ніж 70% уразливостей, класифікованих як блокуючі.

GPT-4o був “Ефективним універсалом”, який балансував функціональність і складність, але часто спотикався про помилки контролю потоку – помилки в логічній послідовності операцій, які можуть призвести до неправильних результатів або пропущеного коду.

Claude 3.7 Sonnet був “Збалансованим попередником”, який створював менш розширений код, ніж його наступник, але з найбільшою щільністю коментарів – 16,4%, тобто він пояснював свій логічний код більше, ніж будь-яка інша модель. Хоча він був кращим у документації, він все ще мав значні високорівневі уразливості.

Одним з найяскравіших висновків стало порівняння Claude Sonnet 4 з Claude 3.7. Хоча Sonnet 4 покращив свій проходження на 6,3%, відсоток його помилок, оцінених як блокуючі, майже подвоївся – з 7,10% до 13,71%. Блокуючі уразливості також зросли з 56,03% до 59,57%. Урок: покращення продуктивності можуть відбуватися за рахунок безпеки.

Висновок

Доповідь Sonar The Coding Personalities of Leading LLMs – A State of Code Report робить ясним, що точність бенчмарка розповідає тільки частину історії. Зрозуміти безпекові ризики, підтримку та стиль кодування так само важливо, як і знати, як часто модель “влучає в ціль”.

Кожна особистість – чи то архітектор, прототипер, універсал або збалансований попередник – має сильні сторони і компроміси. Висновок для розробників і організацій полягає в тому, щоб “довіряти, але перевіряти”, поєднуючи допомогу кодування AI з людським наглядом, ретельним оглядом коду та суворими безпековими перевірками, щоб забезпечити, що швидкість і зручність не компрометують безпеку або довгострокову стабільність.

Антуан є видним лідером і засновником Unite.AI, який рухає невпинною пристрастю до формування та просування майбутнього штучного інтелекту та робототехніки. Як серійний підприємець, він вважає, що штучний інтелект буде таким же революційним для суспільства, як і електрика, і часто захоплюється потенціалом деструктивних технологій та AGI.

Як футуролог, він присвячений дослідженню того, як ці інновації сформують наш світ. Крім того, він є засновником Securities.io, платформи, орієнтованої на інвестування в передові технології, які переінакшують майбутнє та змінюють цілі сектори.

Розкриття інформації про рекламу: Unite.AI дотримується суворих редакційних стандартів, щоб надавати читачам точну інформацію та новини. Ми можемо отримувати компенсацію, якщо ви переходите за посиланнями на продукти, які ми оглядали.