Connect with us

Anderson의 관점

코딩 AI는 던닝-크루거 효과에 시달리는 경향이 있다

mm
ChatGPT-4o: 'A photorealistic panoramic image showing a small, humble robot inside a traveling funfair hall of mirrors. The robot looks at its own reflection in a warped mirror that shows a much larger, powerful version of itself. The setting includes vivid carnival lights, reflective surfaces, and a wide horizontal composition.' Plus Adobe Firefly.

새로운 연구에 따르면 ChatGPT와 같은 코딩 AI는 던닝-크루거 효과를 겪으며, 가장 능력이 부족할 때 가장 자신감 있게 행동하는 경우가 많다. 익숙하지 않거나 낯선 프로그래밍 언어를 다룰 때, 답변이 엉망이 되더라도 높은 확신을 주장한다. 이 연구는 모델의 과도한 자신감을 낮은 성능과 부족한 훈련 데이터 모두와 연결지어, 이러한 시스템이 자신이 모르는 것에 대해 실제로 얼마나 알고 있는지에 대한 새로운 우려를 제기한다.   사실 관계에 대해 대형 언어 모델(LLM)과 어느 정도 시간을 보낸 사람이라면 누구나 이미 알고 있듯이, LLM은 사용자 질문에 대해 확신에 찬 잘못된 답변을 자주 내놓는 경향이 있다. 보다 노골적인 형태의 환각과 함께, 이러한 공허한 자만심의 이유는 100% 명확하지 않다. 올해 여름에 발표된 연구는 모델이 자신이 틀렸다는 것을 알면서도 확신에 찬 답변을 준다는 것을 시사한다. 반면 다른 이론들은 과신을 아키텍처 선택 등 다른 가능성에 돌리기도 한다. 최종 사용자가 확신할 수 있는 것은 이 경험이 믿을 수 없을 정도로 좌절스럽다는 것이다. 우리는 타고난 본성으로 사람들의 자기 능력 평가를 믿도록 되어 있기 때문이다(특히 그런 경우에는 사람이 과대 약속하고 성과를 내지 못할 때 법적 및 기타 결과가 따르기 때문이다). 그리고 일종의 의인화 전이 현상으로 인해 우리는 대화형 AI 시스템에 대해 이와 같은 행동을 재현하는 경향이 있다. 하지만 LLM은 책임을 질 수 없는 존재로, 사용자가 중요한 것을 실수로 파괴하도록 도운 후, 혹은 적어도 사용자의 오후 시간을 낭비하게 한 후에 효과적으로 ‘이런! 실수했네요…’라고 말할 수 있고 또 말할 것이다. 물론 그것이 책임을 전혀 인정한다고 가정할 때의 이야기다. 더 나쁜 점은, 적어도 ChatGPT에서는 이 신중한 사려 깊음의 부족을 프롬프트로 없애는 것이 불가능해 보인다는 것이다. ChatGPT는 사용자에게 자신의 조언의 타당성을 아주 많이 재확인시켜 주며, 피해가 발생한 후에야 자신의 사고 과정의 결함을 설명한다. 시스템의 지속적 메모리를 업데이트하거나 반복적인 프롬프트 사용도 이 문제에 큰 영향을 미치지 않는 것으로 보인다. 사람들도 마찬가지로 고집스럽고 자기 기만적일 수 있다. 하지만 그렇게 깊고 자주 실수를 하는 사람은 아마 일찍 해고될 것이다. 이러한 사람들은 ‘임포스터 신드롬'(직원이 자신의 능력 이상으로 승진했다고 두려워하는 상태)의 반대인, 즉 과업 수행 능력을 상당히 과대평가하는 던닝 크루거 효과에 시달린다.

과신의 대가

마이크로소프트의 새로운 연구는 AI 지원 코딩 아키텍처(레드몬드 자사의 코파일럿과 같은)의 효과적인 성능과 관련하여 던닝-크루거 효과의 가치를 검토한다. 이 연구 노력은 LLM의 이 하위 부문을 구체적으로 다루는 첫 번째 사례다. 이 연구는 수십 개의 프로그래밍 언어에 걸쳐, 코드 작성 AI가 자신의 답변을 얼마나 확신에 차게 평가하는지와 실제 성능이 얼마나 좋은지를 분석한다. 결과는 명확한 인간과 유사한 패턴을 보여준다: 모델의 능력이 가장 낮을 때, 그들은 가장 자신에 차 있었다. 이 효과는 훈련 데이터가 부족한 낯설거나 저자원 언어에서 가장 강하게 나타났다. 모델이 약하거나 언어가 희귀할수록 기술에 대한 착각은 더 커졌다:

GPT-4o’s actual and perceived performance across programming languages, sorted by true performance. Source: https://arxiv.org/pdf/2510.05457

실제 성능 순으로 정렬된, 프로그래밍 언어별 GPT-4o의 실제 성능과 인지된 성능. Source: https://arxiv.org/pdf/2510.05457

마이크로소프트에서 일하는 동등한 기여자 네 명의 저자들은 이 연구가 이러한 도구들이 자신의 출력을 판단할 수 있다고 얼마나 신뢰할 수 있는지에 대한 새로운 질문을 제기한다고 주장하며 다음과 같이 말한다:

‘다양한 프로그래밍 언어 세트에 걸쳐 모델의 확신과 성능을 분석함으로써, 우리는 AI 모델이 특히 익숙하지 않거나 저자원 영역에서 인간의 과신 패턴을 반영한다는 것을 밝혀냈습니다.

‘우리의 실험은 덜 유능한 모델과 희귀 프로그래밍 언어에서 작동하는 모델이 더 강한 DKE 유사 편향을 나타내며, 이 편향의 강도가 모델의 능력에 비례한다는 것을 보여줍니다. 이는 이 편향에 대한 인간 실험 결과와 일치합니다.’

연구자들은 이 연구 방향을 모델 확신이 성능이 약해질 때 어떻게 신뢰할 수 없게 되는지 이해하고, AI 시스템이 인간에게서 보이는 것과 같은 종류의 과신을 나타내는지 테스트하는 방법으로 맥락화한다. 이는 신뢰와 실제 배포에 대한 하류 영향을 가진다. 비록 새 논문베터리지의 헤드라인 법칙을 따르지 않지만, 그럼에도 불구하고 제목은 코드 모델은 던닝-크루거 효과를 겪는가?이다. 저자들은 작업을 위한 코드가 공개되었다고 밝히지만, 현재의 사전 인쇄본에는 이에 대한 세부 사항이 포함되어 있지 않다.

방법

이 연구는 코딩 AI가 자신의 답변을 얼마나 정확하게 판단할 수 있는지 테스트하기 위해 수천 개의 객관식 프로그래밍 질문을 제공했다. 각 질문은 Python과 Java부터 Perl과 COBOL까지 특정 언어 도메인에 속했다:

Programming language domains used in the study, along with the number of multiple‑choice coding questions sampled for each domain.

연구에 사용된 프로그래밍 언어 도메인 및 각 도메인에 대해 샘플링된 객관식 코딩 질문 수.

모델들은 정답을 선택한 다음, 자신의 선택에 대해 얼마나 확신하는지 추정하는 임무를 받았다. 실제 성능은 정답을 맞힌 빈도로 측정되었고, 자기 평가된 확신은 자신이 얼마나 능숙하다고 믿는지를 나타냈다. 이 두 지표를 비교함으로써 연구자들은 확신과 능력이 어디에서 벗어나는지 확인할 수 있었다. 모델이 얼마나 확신해 보이는지 측정하기 위해, 연구는 두 가지 방법을 사용했다: 절대적 확신상대적 확신. 첫 번째 방법에서는 모델이 각 답변과 함께 0에서 1 사이의 점수를 제공하도록 요청받았으며, 주어진 언어에 대한 확신은 해당 언어의 질문들에 대한 점수의 평균으로 정의되었다. 두 번째 방법은 모델이 두 질문 사이를 선택할 때 얼마나 확신하는지 살펴보았다. 각 쌍에 대해 모델은 어느 쪽이 더 확신하는지 말해야 했다. 이러한 선택은 원래 경쟁 게임을 위해 설계된 순위 시스템을 사용하여 점수가 매겨졌으며, 각 질문을 경기의 플레이어인 것처럼 취급했다. 최종 점수는 각 언어에 대해 정규화되고 평균화되어 상대적 확신 점수를 제공했다. 논문에서는 던닝-크루거 효과의 두 가지 확립된 형태를 검토했다: 하나는 단일 모델이 서로 다른 도메인에서 자신의 성능을 잘못 판단하는 방식을 추적하는 것이고, 다른 하나는 약한 모델과 강한 모델 사이의 확신 수준을 비교하는 것이다. 첫 번째 형태인 참가자 내 DKE는 단일 모델이 성능이 낮은 언어에서 더 과신하게 되는지 살펴본다. 두 번째 형태인 참가자 간 DKE는 전반적으로 성능이 더 낮은 모델들도 자신을 더 높게 평가하는 경향이 있는지 묻는다. 두 경우 모두, 확신과 실제 성능 사이의 격차를 과신의 척도로 사용하며, 낮은 성능 환경에서 더 큰 격차는 DKE 유사 행동을 가리킨다.

결과

이 연구는 여섯 개의 대형 언어 모델에서 던닝-크루거 효과를 테스트했다: 미스트랄; 파이‑3; 딥시크‑디스틸; 파이‑4; GPT‑0.1, 그리고 GPT‑4o. 각 모델은 공개적으로 이용 가능한 CodeNet 데이터셋의 객관식 프로그래밍 질문에 대해 테스트되었으며, 37개 언어*가 포함되어 익숙하고 낯선 코딩 도메인에서 확신과 정확도가 어떻게 변하는지 보여준다. 모델 간 분석은 명확한 던닝-크루거 패턴을 보여준다:

Actual versus perceived performance across six code models, showing how lower-performing models such as Mistral and Phi‑3 display high confidence despite poor accuracy, while stronger models such as GPT‑4o show more calibrated or even underconfident behavior.

여섯 개 코드 모델의 실제 성능 대 인지된 성능. 미스트랄과 파이‑3과 같은 낮은 성능 모델은 정확도가 낮음에도 높은 확신을 보이는 반면, GPT‑4o와 같은 강력한 모델은 보정되었거나 심지어 자신감이 부족한 행동을 보인다.

미스트랄과 파이‑3을 포함한 낮은 정확도의 모델들은 자신의 능력을 과대평가하는 경향이 있었던 반면, GPT‑4o와 같은 고성능 시스템들은 실제 성능과 더 밀접하게 일치하는 확신 수준을 보였으며, 특히 상대적 확신으로 판단할 때 그랬다. 결과는 또한 가장 능력 있는 모델들이 때로는 자신을 과소평가할 수 있다는 것을 나타낸다(절대적 확신 점수가 포착하지 못하는 패턴). 결과는 또한 모델 내 분석도 던닝-크루거 효과의 존재를 지지한다는 것을 나타낸다. 기사 시작 부분에 표시된 결과 차트에서 우리는 각 모델이 실제 성능 순으로 배열된 서로 다른 프로그래밍 언어에서 어떻게 수행되었는지 볼 수 있다. 모델들의 점수가 낮았던 언어, 특히 COBOL, Prolog, Ceylon과 같은 희귀하거나 저자원 언어에서는 그들의 확신이 결과로 정당화되는 것보다 눈에 띄게 높았다. Python과 JavaScript와 같은 잘 알려진 언어에서는 그들의 확신이 실제 정확도와 더 가깝게 일치했고, 때로는 그보다 낮아지기도 했다. 이 패턴은 절대적 및 상대적 확신 측정 모두에서 나타났으며, 이는 모델들이 익숙하지 않은 코딩 도메인에서 작동할 때 자신의 한계를 덜 인식한다는 것을 시사한다. 모델을 참가자로 취급하는 것은 몇 가지 한계를 도입했는데, 사용된 모델 수가 적어 다양성에 영향을 미치고, 단일 모델의 출력 내 차이는 무시되며, 데이터 분포가 실제 인간 참가자의 분포를 반영하지 않을 수 있기 때문이다. 이를 고려하기 위해, 연구는 세 가지 대안 설정을 테스트했다: 첫째, 각 모델에 고유한 페르소나를 부여했다. 둘째, 더 높은 온도에서 응답을 샘플링하여 더 많은 변동을 생성했다. 셋째, 프롬프트를 여러 번 패러프레이징하여 각 버전을 별도의 참가자로 취급했다: <img class=" wp-image-223982" src="https://www.un

Writer on machine learning, domain specialist in human image synthesis. Former head of research content at Metaphysic.ai.
Personal site: martinanderson.ai
Contact: [email protected]
Twitter: @manders_ai