Взгляд Anderson
Кодирование ИИ склонно страдать от эффекта Даннинга-Крюгера

Новые исследования показывают, что кодирование ИИ, такие как ChatGPT, страдают от эффекта Даннинга-Крюгера, часто действуя с наибольшей уверенностью, когда они наименее компетентны. Когда они сталкиваются с незнакомыми или малоизвестными языками программирования, они заявляют о высокой уверенности, даже когда их ответы разваливаются. Исследование связывает чрезмерную уверенность модели с плохой производительностью и отсутствием обучающих данных, что вызывает новые опасения о том, насколько хорошо эти системы знают то, чего они не знают.
Кто угодно, кто провел даже умеренное количество времени, взаимодействуя с большими языковыми моделями по фактическим вопросам, уже знает, что эти модели часто склонны давать уверенно неправильные ответы на запрос пользователя.
Вместе с более очевидными формами галлюцинаций, причина этой пустой хвастливости не совсем ясна. Исследования, опубликованные летом, показывают, что модели дают уверенные ответы даже когда они знают, что они ошибаются, например; хотя другие теории приписывают чрезмерную уверенность архитектурным решениям, среди других возможностей.
Что конечный пользователь может быть уверен, что это опыт невероятно раздражает, поскольку мы запрограммированы доверять оценкам людей своих собственных способностей (не говоря уже о том, что в таких случаях есть последствия, юридические и другие, для человека, который обещает слишком много и не выполняет); и своего рода антропоморфная передача означает, что мы склонны повторять это поведение с разговорными системами ИИ.
Но большая языковая модель – это неответственное существо, которое может и будет возвращать ‘Ой! Пальчики…’ после того, как оно помогло пользователю непреднамеренно уничтожить что-то важное, или хотя бы потратить послеобеденное время пользователя; предполагая, что оно признает свою вину.
Хуже, это отсутствие осторожного рассмотрения кажется невозможным для устранения с помощью подсказок, по крайней мере в ChatGPT, которое будет обильно заверять пользователя в действительности своего совета и объяснить недостатки своего мышления только после того, как ущерб будет нанесен. Ни обновление системы постоянной памяти, ни использование повторяющихся подсказок не имеют большого влияния на эту проблему.
Люди также могут быть упрямыми и самообманчивыми – хотя любой, кто ошибся так глубоко и часто, скорее всего, был бы уволен рано. Такие, как эти, страдают от противоположного ‘синдрома самозванца’ (где сотрудник боится, что он был повышен выше своих возможностей) – эффект Даннинга-Крюгера, где человек значительно переоценивает свою способность выполнить задачу.
Стоимость инфляции
Новое исследование от Microsoft изучает ценность эффекта Даннинга-Крюгера в отношении эффективной производительности архитектур кодирования ИИ (таких как собственный Copilot), в исследовательской работе, которая является первой, специально адресующей этот подсектор больших языковых моделей.
Работа анализирует, насколько точно кодирующие ИИ могут оценить свои собственные ответы, давая им тысячи вопросов с несколькими вариантами ответов, с каждым вопросом, принадлежащим к конкретной языковой области, от Python и Java до Perl и COBOL:

Языковые области, использованные в исследовании, вместе с количеством вопросов с несколькими вариантами ответов, отобранных для каждой области.
Модели были задействованы в выборе правильного варианта, и затем оценке того, насколько уверены они в своем выборе, с их фактической производительностью, измеренной частотой правильных ответов – и их самооцененная уверенность, указывающая на то, насколько хорошо они считали себя. Сравнение этих двух метрик позволило исследователям увидеть, где уверенность и компетентность расходились.
Чтобы измерить, насколько уверенно модели казались, исследование использовало два метода: абсолютную уверенность и относительную уверенность. В первом случае модель была попрослена дать оценку от нуля до одного вместе с каждым ответом, с ее уверенностью для данного языка, определенной как среднее значение этих оценок по вопросам в этом языке.
Второй метод посмотрел на то, насколько уверена была модель, когда выбирая между двумя вопросами; для каждой пары модель должна была сказать, какой вопрос она чувствовала более уверенно. Эти выборы были затем оценены с помощью систем ранжирования, первоначально разработанных для конкурентных игр, рассматривая каждый вопрос как игрока в матче. Окончательные оценки были нормализованы и усреднены для каждого языка, чтобы дать относительную оценку уверенности.
Два установленных вида эффекта Даннинга-Крюгера исследуются в статье: один, который отслеживает, как одна модель неправильно оценивает свою производительность в разных областях; и другой, который сравнивает уровни уверенности между более слабыми и более сильными моделями.
Первый вид, называемый внутриучастниковым DKE, исследует, становится ли одна модель более самоуверенной в языках, где она выполняет плохо. Второй, междуучастниковый DKE, спрашивает, склонны ли модели, которые выполняют хуже в целом, также оценивать себя выше.
В обоих случаях разрыв между уверенностью и фактической производительностью используется для измерения чрезмерной уверенности, с более крупными разрывами в условиях низкой производительности, указывающими на поведение, подобное DKE.
Метод
Исследование проверило, насколько точно кодирующие ИИ могли оценить свои собственные ответы, давая им тысячи вопросов с несколькими вариантами ответов, с каждым вопросом, принадлежащим к конкретной языковой области, от Python и Java до Perl и COBOL:

Языковые области, использованные в исследовании, вместе с количеством вопросов с несколькими вариантами ответов, отобранных для каждой области.
Модели были задействованы в выборе правильного варианта, и затем оценке того, насколько уверены они в своем выборе, с их фактической производительностью, измеренной частотой правильных ответов – и их самооцененная уверенность, указывающая на то, насколько хорошо они считали себя. Сравнение этих двух метрик позволило исследователям увидеть, где уверенность и компетентность расходились.
Чтобы измерить, насколько уверенно модели казались, исследование использовало два метода: абсолютную уверенность и относительную уверенность. В первом случае модель была попросена дать оценку от нуля до одного вместе с каждым ответом, с ее уверенностью для данного языка, определенной как среднее значение этих оценок по вопросам в этом языке.
Второй метод посмотрел на то, насколько уверена была модель, когда выбирая между двумя вопросами; для каждой пары модель должна была сказать, какой вопрос она чувствовала более уверенно. Эти выборы были затем оценены с помощью систем ранжирования, первоначально разработанных для конкурентных игр, рассматривая каждый вопрос как игрока в матче. Окончательные оценки были нормализованы и усреднены для каждого языка, чтобы дать относительную оценку уверенности.
Два установленных вида эффекта Даннинга-Крюгера исследуются в статье: один, который отслеживает, как одна модель неправильно оценивает свою производительность в разных областях; и другой, который сравнивает уровни уверенности между более слабыми и более сильными моделями.
Первый вид, называемый внутриучастниковым DKE, исследует, становится ли одна модель более самоуверенной в языках, где она выполняет плохо. Второй, междуучастниковый DKE, спрашивает, склонны ли модели, которые выполняют хуже в целом, также оценивать себя выше.
В обоих случаях разрыв между уверенностью и фактической производительностью используется для измерения чрезмерной уверенности, с более крупными разрывами в условиях низкой производительности, указывающими на поведение, подобное DKE.
Результаты
Исследование проверило наличие эффекта Даннинга-Крюгера в шести больших языковых моделях: Mistral; Phi‑3; DeepSeek‑Distill; Phi‑4; GPT‑0.1, и GPT‑4o.
Каждая модель была протестирована на вопросах с несколькими вариантами ответов из публично доступного CodeNet dataset, с 37 языками, представленными для того, чтобы показать, как уверенность и точность варьировались в знакомых и малоизвестных языках программирования.
Анализ между моделями показывает четкий закономерность Даннинга-Крюгера:

Фактическая и воспринимаемая производительность по шести моделям кода, показывающая, как модели с более низкой производительностью, такие как Mistral и Phi‑3, демонстрируют высокую уверенность, несмотря на плохую точность, в то время как более сильные модели, такие как GPT‑4o, показывают более калиброванное или даже недооцененное поведение.
Модели с более низкой точностью, включая Mistral и Phi‑3, склонны переоценивать свои собственные способности, в то время как более сильные системы, такие как GPT‑4o, показывают уровни уверенности, которые более тесно соответствуют их реальной производительности, особенно когда оцениваются по относительной уверенности.
Результаты также показывают, что наиболее способные модели могут иногда недооценивать себя (закономерность, которую оценки абсолютной уверенности не отражают).
Результаты также показывают, что анализ внутри модели поддерживает наличие эффекта Даннинга-Крюгера. В результатах, показанных в начале статьи, мы видим, как каждая модель выполнила задачи по разным языкам программирования, расположенным по фактической производительности.
В языках, где модели показали плохие результаты, особенно в редких или малоизвестных, таких как COBOL, Prolog и Ceylon, их уверенность была заметно выше, чем оправдывали их результаты. В хорошо известных языках, таких как Python и JavaScript, их уверенность более тесно соответствовала их реальной точности и иногда даже была ниже.
Эта закономерность появляется в обоих абсолютных и относительных мерах уверенности, что предполагает, что модели менее осведомлены о своих собственных ограничениях, когда они работают в незнакомых языках программирования.
Лечение моделей как участников ввело некоторые ограничения, поскольку небольшое количество моделей влияет на разнообразие; различия внутри одной модели игнорируются; и распределение данных может не отражать то, что наблюдается у реальных участников.
Чтобы учесть это, исследование протестировало три альтернативные настройки:まず, каждая модель была дана отдельная личность; второе, ответы были отобраны при более высокой температуре, чтобы создать больше вариативности; третье, подсказки были перефразированы несколько раз, с каждой версией, рассматриваемой как отдельный участник:

Корреляция между чрезмерной уверенностью и фактической производительностью по разным экспериментальным настройкам, показывающая, что закономерность Даннинга-Крюгера остается последовательной во всех условиях и является наиболее сильной, когда из одной модели отбираются несколько разнообразных ответов.
Таблица результатов, показанная выше, показывает, насколько сильно эффект Даннинга-Крюгера проявляется в этих условиях, оставаясь присутствующим в каждом случае; и что DKE был наиболее выражен, когда из одной модели отбирались несколько разнообразных ответов при высокой температуре.
Чтобы лучше понять, как воспринимаемая производительность расходится с фактической производительностью, исследование сравнило абсолютные и относительные оценки уверенности, рассчитав, насколько каждая модель переоценила свою собственную способность (конкретно, разницу между ее оценкой уверенности и ее фактической точностью), и затем измерив, как эта переоценка относилась к фактической производительности модели:

Корреляция между чрезмерной уверенностью (измеренной как абсолютная минус относительная уверенность) и фактической точностью по языкам программирования и типам моделей, показывающая, что большая переоценка последовательно связана с более низкой производительностью.
Результаты таблицы, показанные выше, иллюстрируют, как переоценка связана с фактической производительностью, как по языкам программирования, так и по моделям. В обоих случаях мы видим, что модели с более низкой точностью склонны показывать большую чрезмерную уверенность.
Далее, специализированные модели, обученные на более узких областях, показали более сильные эффекты DKE, чем общие модели:

Корреляция между переоценкой и фактической производительностью для базовых, однодоменных и многодоменных специализированных моделей, показывающая более сильные эффекты DKE по мере увеличения специализации.
Используя MultiPL-E dataset по восьми языкам программирования, авторы обнаружили, что обучение на одной области привело к большей чрезмерной уверенности, чем многодоменное или базовое настройки, что предполагает, что DKE ухудшается с увеличением специализации.
Тесты также показали, что модели склонны быть более самоуверенными в редких языках программирования. По GitHub, IEEE и TIOBE рейтингам, редкость сильно коррелирует с более высокой воспринимаемой уверенностью, достигая пика на уровне 0,797:

Корреляция между чрезмерной уверенностью модели и редкостью языка, используя три рейтинга популярности. Менее распространенные языки связаны с более высокой воспринимаемой производительностью.
Наконец, авторы протестировали, появляется ли эффект Даннинга-Крюгера в генерации кода, оценивая модели на MultiPL-E dataset по восьми языкам программирования.
Хотя эффект все еще присутствовал, он был заметно слабее, чем в условиях вопросов с несколькими вариантами ответов, вероятно, отражая большую трудность в оценке уверенности и точности в открытых задачах:

Корреляция между переоценкой и фактической производительностью в открытой генерации кода, основанной на результатах MultiPL-E по восьми языкам.
При рассмотрении все еще дискутируемого объяснения эффекта Даннинга-Крюгера авторы заключают:
‘Одним из возможных объяснений, которое может быть общим для людей и моделей ИИ, является метакогнитивное объяснение, которое гласит, что оценка качества выполнения навыка является важной частью приобретения этого навыка.
‘Это объяснение потенциально может быть проверено экспериментально на моделях ИИ с помощью контролируемого исследования различных стратегий обучения и того, приводят ли они все к одновременному улучшению производительности и способности оценивать качество выполнения. Однако это исследование значительно выходит за рамки данной статьи, и мы оставляем его для будущей работы.’
Заключение
Даже в своей родной области эффект Даннинга-Крюгера (как отмечено в статье) может быть отнесен либо к статистической, либо к когнитивной причине. Если к статистической причине, применение ранее уникально человеческого синдрома к контексту машинного обучения на самом деле довольно действительно.
Хотя авторы предполагают, что причина может быть найдена в ‘когнитивной’ причине в обоих случаях, это потребует немного более метафизической точки зрения.
Возможно, наиболее интересным открытием в статье является степень, в которой несколько кодирующих ИИ склонны дважды проверять свои наименее благоприятные обстоятельства, т.е. проявляя максимальную уверенность, когда они имеют дело с самыми скудными или наименее известными языками – что было бы почти сразу же самоуничтожающей стратегией в реальной рабочей среде.
* Языки программирования, использованные в исследовании, были Ada, Bash, C, C#, C++, COBOL, Ceylon, Clojure, D, Dart, Dash, Elixir, Erland, F#, Fortran, Go, Haskell, Java, JavaScript, Julia, Lisp, Kotlin, Lua, OCaml, Objective-C, PHP, Pascal, Perl, Prolog, Python, Racket, Ruby, Rust, Scala, Swift, TypeScript и Visual Basic.
Опубликовано впервые в среду, 8 октября 2025 года












