Andersonの視点
コーディングAIはダニング=クルーガー効果に陥りやすい

新しい研究によると、ChatGPTのようなコーディングAIはダニング=クルーガー効果に陥りやすく、最も自信を持っているのは実際には最も無能なときであることが多い。未知または希少なプログラミング言語に取り組む際には、高い確実性を主張するものの、その回答は崩壊する。研究では、モデルの過信は、パフォーマンスの低さとトレーニングデータの欠如の両方に結びついており、これらのシステムが実際には何を知っているのかについて新たな懸念を引き起こしている。
誰でも、大言壮語な回答を頻繁に返すLarge Language Models(LLM)については、事実に関する質問に答える際に時間を費やしたことがある人なら、既に知っているはずである。LLMは、ユーザーの質問に対して自信を持って間違った回答を返すことが多い。
幻覚などのより明らかな形式とともに、この空虚な自慢の理由は100%明らかではない。夏に発表された研究によると、モデルは自分が間違っていることを知っていても、自信を持った回答を返すことがある。また、他の理論では、過信はアーキテクチャの選択などに起因する可能性がある。
ユーザーが確実にできることは、この経験が非常に苛立たしいことである。私たちは、人の能力に関する自己評価を信じるようにハードコーディングされている(その場合、法律やその他の結果があるため、人が過大評価して未達成することはある)。人形的な転送により、私たちはこの行動を会話AIシステムに複製する。
しかし、LLMは、‘Whoops! バターフィンガー…’と言うことができる非責任的なエンティティであり、ユーザーが重要なものを間接的に破壊したり、あるいは時間を浪費したりした後でも、責任を認めることはない。仮に責任を認めるとしても。
この思慮深くない欠如は、少なくともChatGPTでは、ユーザーにアドバイスの有効性を豊富に保証するものの、損害が発生した後には考え方の欠陥を説明するだけであるため、プロンプトを繰り返すことやシステムの永続的なメモリを更新することでは解決できないように見える。
人々も同様に頑固で自己欺瞞的であることがある。ただし、誰かが深刻な間違いを犯した場合、すぐに解雇される可能性が高い。そうした人々は「インポスター症候群」の反対である「ダニング=クルーガー効果」に苦しんでおり、そこでは従業員は自分が能力以上に昇進されたことを恐れる。ダニング=クルーガー効果では、人は自分の能力を大幅に過大評価する。
インフレーションのコスト
マイクロソフトによる新しい研究では、AI支援のコーディングアーキテクチャ(RedmondのCopilotなど)の実効的なパフォーマンスに関してダニング=クルーガー効果の価値を検討している。この研究は、このLLMのサブセクターを具体的に対象とした最初の研究である。
この研究では、モデルの自信度と実際のパフォーマンスを比較することで、モデルの回答の自信度をどのように評価するかを分析した。実際のパフォーマンスは、モデルの回答が正しい頻度で測定され、自信度はモデルの回答が正しいと思っている度合いを示した。
結果は、人間のような明確なパターンを示した。モデルの能力が低いほど、自信度は高かった。
この効果は、トレーニングデータが薄い希少または低リソース言語で最も強かった。モデルの弱さや言語の希少性が大きいほど、スキルの幻覚も大きかった。

GPT-4oの実際のパフォーマンスと認識されたパフォーマンスを、プログラミング言語ごとに並べたもの。 ソース: https://arxiv.org/pdf/2510.05457
4人の著者はすべて、同等の貢献者としてマイクロソフトで働いており、研究は次のように述べている。
‘さまざまなプログラミング言語を対象としたモデルの信頼度とパフォーマンスを分析することで、AIモデルは特に未知または低リソースドメインで人間と同様の過信のパターンを示すことを明らかにした。’
‘実験では、能力の低いモデルや希少なプログラミング言語で動作するモデルが、DKEのような偏見をより強く示すことを示した。つまり、偏見の強さはモデルの能力に比例する。人間の実験でも同様の結果が得られた。’
研究者は、この研究を、モデル信頼度が弱いパフォーマンスのときに信頼できないものになることを理解するための手段として、またAIシステムが人間と同様の過信を示すかどうかをテストする手段として位置づけている。
方法
研究では、モデルの回答の自信度をどのように評価するかを調べるために、モデルの回答の正確性を評価するために、モデルの回答の自信度を評価するために、モデルに数千の多肢選択式プログラミング質問を与えた。

研究で使用されたプログラミング言語ドメインと、各ドメインでサンプリングされた多肢選択式コーディング質問の数。
モデルの信頼度を評価するために、2つの方法を使用した。1つは絶対的な信頼度で、モデルの回答ごとに0から1のスコアを付ける。もう1つは相対的な信頼度で、2つの質問のうちどちらが自信があるかを選択する。
結果
研究では、6つの大規模言語モデルをテストした。Mistral、Phi-3、DeepSeek-Distill、Phi-4、GPT-0.1、GPT-4oである。
各モデルは、37のプログラミング言語で構成されるCodeNetデータセットを使用してテストされた。
結果は、モデルの信頼度と実際のパフォーマンスの間にある明確なパターンを示した。

6つのコードモデルにおける実際のパフォーマンスと認識されたパフォーマンス。MistralやPhi-3などの低性能モデルは、精度が低いにもかかわらず、高い信頼度を示す。一方、GPT-4oなどの高性能モデルは、より適切な信頼度を示す。
結果は、モデルの信頼度と実際のパフォーマンスの間にある明確なパターンを示した。
結論
ダニング=クルーガー効果は、人間とAIの両方で見られる現象である。
研究では、モデルの信頼度と実際のパフォーマンスの間にある明確なパターンを示した。
結果は、モデルの信頼度と実際のパフォーマンスの間にある明確なパターンを示した。
* 研究で使用されたプログラミング言語は、Ada、Bash、C、C#、C++、COBOL、Ceylon、Clojure、D、Dart、Dash、Elixir、Erland、F#、Fortran、Go、Haskell、Java、JavaScript、Julia、Lisp、Kotlin、Lua、OCaml、Objective-C、PHP、Pascal、Perl、Prolog、Python、Racket、Ruby、Rust、Scala、Swift、TypeScript、Visual Basicである。
2025年10月8日初出。










