Anderson์ ๊ด์
์ฝ๋ฉ AI๋ ๋๋-ํฌ๋ฃจ๊ฑฐ ํจ๊ณผ์ ์๋ฌ๋ฆฌ๋ ๊ฒฝํฅ์ด ์๋ค

새로운 연구에 따르면 ChatGPT를 포함한 코딩 AI는 던닝-크루거 효과에 시달리는 것으로 나타났으며, 자신이 가장 무능력할 때 가장 자신감이 넘치게 행동한다. 익숙하지 않은 또는 희귀한 프로그래밍 언어를 다루는 경우에도 높은 자신감을 주장하지만 그 대답은 부서진다. 이 연구는 모델의 과신을 부족한 성능과 훈련 데이터의 부족에 연결시키며, 이러한 시스템이 실제로 무엇을 알고 있는지에 대한 새로운 우려를 제기한다.
누구든지 사실적인 문제에 대해 대형 언어 모델과 상당한 시간을 보낸 사람은 이미 알고 있듯이, LLM은 사용자 쿼리에 대한 자신감이 넘치는 잘못된 응답을 주는 경향이 있다.
더욱 명백한 형태의 환각과 함께, 이러한 공허한 хваст음의 이유는 100% 명확하지 않다. 여름에 발표된 연구에 따르면, 모델은 자신이 틀렸다는 것을 알면서도 자신감이 넘치는 답변을 주는 것으로 나타났으며, 다른 이론은 과신을 아키텍처 선택과 같은 다른 가능성에 기인한다.
최종 사용자는 이러한 시스템이 실제로 무엇을 알고 있는지에 대해 확신할 수 있는 것이 무엇인지 알 수 있다. 즉, 우리는 사람들의 능력에 대한 자신의 평가에 대한 신뢰를 내재적으로 가지고 있으며, 특히 사람들의 과대평가와 약속 불이행에는 법적 및 기타 결과가 있기 때문에, 대화형 AI 시스템에도 이런 행동을 반복하는 경향이 있다.
그러나 LLM은 책임이 없는 实체로, 사용자에게 중요한 것을 실수로 파괴하거나 적어도 시간을浪費하게 하는 후에 효과적으로 ‘후후, 버터핑거…’라고 말할 수 있으며, 책임을 인정할 것이라고 가정하면, 실수로 중요한 것을 파괴하거나 적어도 시간을浪費하게 할 수 있다.
더욱 심각한 문제는, 이러한 조심성의 부족이 ChatGPT에서.prompt로 제거하는 것이 불가능한 것으로 보이며, 시스템은 사용자에게 자신의 조언의 유효성을 풍부하게 보장하고, 실제로 손상이 발생한 후에만 자신의 생각의 결함을 설명한다. 시스템의 영속적 메모리를 업데이트하거나 반복적인.prompt를 사용하는 것은 이 문제에 거의 영향을 미치지 않는다.
사람들은 마찬가지로 완고하고 자기欺瞞적인 경향이 있을 수 있다. 그러나 이러한 사람들은 실제로 자신의 능력을 과대평가하는 사람들일 것이다. 이것은 ‘인상증후군’의 반대이다. 여기서 직원은 자신이 능력 이상으로 승진되었다고 두려워한다. 던닝-크루거 효과는 사람으로 하여금 자신의 능력을 과대평가하게 만든다.
과신의 비용
마이크로소프트의 새로운 연구는 코딩 아키텍처의 효과적인 성능과 관련하여 던닝-크루거 효과의 가치를 조사한다. 이 연구는 첫 번째로 이 하위 분야의 LLM을 다루는 연구로, Redmond의 자체 Copilot을 포함한다.
이 연구는 이러한 코드 작성 AI가 자신의 답변에 대한 자신감을 평가하는 방식과 실제로 수행하는 방식에 대한 분석을 제공한다. 여러 프로그래밍 언어에서 모델이 자신감을 어떻게 평가하는지와 실제로 얼마나 잘 수행하는지에 대한 패턴을 보여준다.
결과는 인간과 같은 패턴을 보여준다. 모델이 가장 무능력할 때 가장 자신감이 넘치게 행동한다.
이 효과는 희귀하거나 저자원 언어에서 가장 강했다. 모델이 약하거나 언어가 희귀할수록 과신의 환상이 더 컸다.

GPT-4o의 실제 및 인식된 성능을 프로그래밍 언어별로 정렬한 그래프. 출처: https://arxiv.org/pdf/2510.05457
네 명의 저자, 모두 마이크로소프트에서 근무하는 동등한 기여자들은 이 연구가 이러한 도구가 자신의 출력을 평가하는 데 얼마나 신뢰할 수 있는지에 대한 새로운 질문을 제기한다고 주장하며, 다음과 같이 말한다:
‘다양한 프로그래밍 언어에 걸쳐 모델의 자신감과 성능을 분석함으로써, 우리는 인간의 과신 패턴을 반영하는 AI 모델을 보여준다. 특히 낯선 또는 저자원 도메인에서.’
‘우리의 실험은 던닝-크루거 효과와 같은 편향이 모델의 능력과 비례한다는 것을 보여준다. 이것은 인간 실험에서 편향에 대한 설명과 일치한다.’
연구자들은 이 연구를 모델의 자신감이 약한 성능에서 신뢰할 수 없게 되는 방식을 이해하고, AI 시스템이 인간과 같은 과신을 보여주는지 테스트하는 방법으로 설명한다.
방법
이 연구는 코딩 AI가 자신의 답변을 얼마나 정확하게 평가하는지 테스트했다. 각 언어 도메인에 속하는 여러 선택형 프로그래밍 질문을 모델에 주었으며, 모델은 올바른 옵션을 선택해야 했다. 모델의 실제 성능은 올바른 답변의 빈도로 측정되었다.
이 연구는 두 가지 방법을 사용하여 모델의 자신감을 측정했다. 첫 번째 방법은 모델이 각 답변에 대한 자신감 점수를 부여하도록 하는 절대적 자신감 방법이다. 두 번째 방법은 모델이 두 개의 질문 사이에서 자신감을 비교하도록 하는 상대적 자신감 방법이다.
결과
이 연구는 여섯 개의 대형 언어 모델을 테스트했다: Mistral; Phi-3; DeepSeek-Distill; Phi-4; GPT-0.1, 그리고 GPT-4o.
각 모델은 여러 프로그래밍 언어에서 선택형 프로그래밍 질문에 대한 답변을 제공해야 했다. 결과는 모델의 실제 성능과 자신감 사이에 명백한 패턴을 보여주었다.
결론
이 연구는 코딩 AI가 던닝-크루거 효과에 시달리는 경향이 있음을 보여준다. 이는 모델이 자신의 능력을 과대평가하는 경향이 있으며, 특히 희귀하거나 저자원 언어에서 더 강한 효과를 나타낸다.
이 연구는 이러한 효과가 모델의 실제 성능과 자신감 사이의 간격으로 측정될 수 있음을 보여준다. 결과는 모델이 자신의 능력을 과대평가하는 경향이 있으며, 이는 실제 성능과 자신감 사이의 간격으로 측정될 수 있음을 보여준다.
이 연구는 또한 모델의 과신이 언어의 희귀성과 관련이 있음을 보여준다. 결과는 모델이 희귀한 언어에서 더 자신감을 보이는 경향이 있음을 보여준다.
이 연구는 코딩 AI의 과신을 이해하는 데 중요한 단계를 제공하며, 이러한 모델의 실제 성능과 자신감 사이의 간격을 측정하는 방법을 제공한다.










