인공지능

자신감 있는 오류: 왜 가장 똑똑한 AI 모델이 스스로를 교정하는 데 가장 나쁘는지

Published January 23, 2026

Updated April 25, 2026

Dr. Tehseen Zia

많은 AI 커뮤니티는 신뢰한다. 다음 주요 혁신은 자체 개선 AI의 시대가 될 것이라고 믿는다. 여기서 AI는 인간의 개입 없이 스스로를 개선할 수 있다. 주장은 다음과 같다. 모델이 더 능숙해짐에 따라, 결국 데이터뿐만 아니라 스스로로부터 학습할 수 있을 것이다. 각 반복은 이전 것을 정제할 것이다. 오류는 식별되고, 교정되고, 제거될 것이다. 시간이 지남에 따라 이러한 개선의 합성은 지능 폭발을.trigger할 수 있다. 여기서 AI가 AI를 구축한다. 이 비전은 재귀적 AI, 자율 에이전트 및 오래 기다려온 지능 폭발에 대한 많은 흥분을 뒷받침한다. 이 비전의 중심에는 AI 시스템이 신뢰성 있게 자신의 오류를 수정하는 능력이 있다. 그러나, 강력한 자체 교정을 없이, 자체 개선은 달성될 수 없다. 자신이 잘못된 것을 인식할 수 없는 시스템은 자신의 출력에서 의미 있게 학습할 수 없다. 그 모델이 얼마나 강력한지에 관계없이.

기존 가설은 모델이 더 능숙해짐에 따라 자체 교정이 자연스럽게 나타날 것이라는 것이었다. 이 믿음은 직관적으로 느껴진다. 강력한 모델은 더 많이 알고, 더 잘 추론하며, 여러 작업에서 잘 수행한다. 그러나 최근 연구는 더 발전된 모델이 자체 오류를 수정하는 데 어려움을 겪는다는 반直관적인 발견을 보여준다. 반면에, 더 약한 모델은 자체 교정에서 더 나은 성능을 보인다. 이 현상, 즉 정확도-교정 역설은 우리가 AI 시스템이 어떻게 추론하는지, 그리고 우리가真正로 자체 개선 AI에 준비가 되었는지 재고해야 한다.

자체 개선 AI 이해

자체 개선 AI는 자신의 오류를 식별하고, 그로부터 학습하며, 반복적으로 자신의 행동을 정제할 수 있는 AI 시스템을 말한다. 전통적인 모델과 달리, 인간이 큐레이션한 교육 데이터에만 의존하는 것이 아니라, 자체 개선 AI는 자신의 출력을 능동적으로 평가하고 시간이 지남에 따라 적응할 수 있다. 理論적으로, 이것은 피드백 루프를 생성한다. 여기서 각 학습 사이클은 이전 것을 기반으로 하여 지능 폭발로 알려진 것을 생성한다.

그러나 이 목표를 달성하는 것은 간단하지 않다. 자체 개선에는 원시적인 계산 능력이나 더 큰 데이터셋이 필요하다. 신뢰성 있는 자체 평가가 필요하다. 여기에는 오류를 감지하고, 그 원인을 식별하며, 교정된 솔루션을 생성하는 능력이 포함된다. 이러한 능력이 없으면, 모델은 올바른 추론 경로와 결함이 있는 경로를 구별할 수 없다. 잘못된 솔루션을 반복하는 것은, 성능을 개선하는 대신 오류를 강화할 뿐이다.

이 구별은 중요하다. 인간의 경우, 오류에서 학습하는 것은 반성, 가설 테스트 및 코스 교정을 포함한다. AI의 경우, 이러한 프로세스는 시스템 자체에 인코딩되어야 한다. 모델이 자신의 오류를 신뢰성 있게 인식하고 수정할 수 없으면, 의미 있게 자체 개선 루프에 참여할 수 없으며, 재귀적 지능의 약속은 理論적인 것이 아닌 실제적인 것이다.

정확도-교정 역설

자체 교정은 종종 단일 능력으로 처리되지만, 실제로는 별도로 고려해야 하는 여러 개의 별도 능력을 결합한다. 최소한, 우리는 오류 감지, 오류 위치 또는 원인 감지, 오류 교정을 구분할 수 있다. 오류 감지는 모델이 자신의 출력이 잘못된 것을 인식할 수 있는지 묻는 것이다. 오류 위치는 오류가 발생하는 위치를 식별하는 것을 중점으로 한다. 오류 교정은 교정된 솔루션을 생성하는 능력을 말한다.

이러한 능력을 별도로 측정하면, 연구자들은 현재 시스템의 한계에 대한 중요한 통찰력을 얻을 수 있다. 그들은 모델이 이러한 능력에 걸쳐서 크게 다르다는 것을 보여준다. 일부 모델은 오류를 감지하는 데 좋지만 수정하는 데는 좋지 않다. 다른 모델은 거의 오류를 인식하지 못하지만, 반복된 시도를 통해 수정할 수 있다. 더 중요한 것은, 이러한 통찰력이 하나의 영역에서 개선이 다른 영역에서 개선을 보장하지 않는다는 것을 보여준다.

연구자들이 복잡한 수학적 추론 작업에 대한 고급 모델을 테스트했을 때, 이러한 모델은 더少한 오류를犯했다. 이것은 예상된 것이었다. 그러나, 이러한 모델이 오류를犯했을 때, 그들을 스스로 교정할 가능성이 낮았다. 반면에, 더 약한 모델은 더 많은 오류를犯했지만, 외부 피드백 없이도 자신의 오류를 훨씬 더 잘 수정할 수 있었다. 즉, 연구자들은 정확도와 자체 교정이 반대 방향으로 이동한다는 것을 발견했다. 이것을 정확도-교정 역설이라고 부른다. 이 발견은 AI 개발에서 깊이 내재된 믿음을 도전한다. 우리는 종종 모델을 확장하면 모든 지능의 측면이 개선된다고 가정한다. 역설은 이 가정이 항상 참이 아니라는 것을 보여준다. 특히, 내省 능력의 경우 그렇다.

오류 깊이 가설

이 역설은 명백한 질문을 제기한다. 왜 약한 모델이 강한 모델보다 자체 교정에서 더 나은 성능을 보이는가? 연구자들은 모델이犯하는 오류의 유형을 조사함으로써 이 질문에 대한 답을 찾는다. 그들은 강한 모델이 더少한 오류를犯하지만, 그들이犯하는 오류는 “더 깊고” 교정에 더 저항성이 있다고 발견했다. 반면에, 약한 모델은 “얕은” 오류를犯하며, 두 번째 패스 동안 쉽게 수정할 수 있다.

연구자들은 이 통찰력을 오류 깊이 가설이라고 부른다. 그들은 설정 오류, 논리 오류, 계산 오류로 오류를 분류한다. 설정 오류는 문제를 잘못 해석하는 것을 포함한다. 논리 오류는 추론 경로가 구조적으로 결함이 있는 경우 발생한다. 계산 오류는 단순한 산술 실수이다. GPT-3.5의 경우, 오류의 대부분(62%)은 단순한 계산 실수이다. 이것은 얕은 오류이다. “주의해서 확인”하라는提示가 있을 때, 모델은 종종 수학적 실수를 발견하고 수정할 수 있다. 그러나 DeepSeek의 경우, 77%의 오류는 설정 또는 논리 오류이다. 이러한 깊은 실패는 모델이 근본적으로 자신의 접근 방식을 재고해야 한다. 강한 모델은 이에 어려움을 겪는다. 왜냐하면 그들은 초기 추론 경로에 고정되는 경향이 있기 때문이다. 모델 지능이 증가함에 따라, 가장 강력하고 어려운 오류만 남게 된다.

오류 감지가 오류 수정을 보장하지 않는 이유

연구의 가장 놀라운 발견 중 하나는 오류 감지와 오류 수정 능력 사이에 상관관계가 없다는 것이다. 모델은 자신의 답이 잘못된 것을 올바르게 식별할 수 있지만,仍然으로 수정하지 못할 수 있다. 다른 모델은 오류를 거의 감지하지 못하지만, 반복적인 재해결을 통해 개선할 수 있다. Claude-3-Haiku는 가장 극적인 예이다. Claude는 10.1%의 오류만 감지했지만, 가장 높은 내재적 교정률(29.1%)을 달성했다. 반면에, GPT-3.5는 81.5%의 오류를 감지했지만, 26.8%만 수정했다.

이것은 일부 모델이 자신의 오류를 인식하지 못할 수 있지만, 단순히 문제를 다시 해결함으로써 오류를 “우연히” 수정할 수 있음을 시사한다. 이것은 실제 배포에서 위험하다. 모델이 자신이 틀렸다는 것을 인식하지 못하고, 논리적 오류를 인식하지 못할 때, 그것은 완전히 잘못된 설명을 사실로 제시할 수 있다. 일부 경우에, 모델이 자신의 오류를 식별하도록提示하면, 상황을 더悪化시킬 수 있다. 모델이 자신의 오류를 잘못 식별할 때, 그것은 잘못된 설명에 고정되고, 오류를 두 배로한다. 이것은 인간의 인지 편향을 반영한다. 한 번 우리가 무엇이 잘못되었는지 알았다고 생각하면, 우리는 더 깊은 원인을 찾는 것을 중단한다.

반복은 도움이 되지만, 모든 모델에서 동일하게

연구는 또한 반복적인 반성이 종종 결과를 개선하지만, 모든 모델이 동일한 방식으로 혜택을 받지 않는다는 것을 보여준다. 약한 모델은 여러 번의 재고를 통해 표면적인 문제를 수정할 수 있기 때문에 반복적인 재고를 통해 크게 혜택을 받는다. 강한 모델은 반복에 의한 이익이 훨씬 적다. 그들의 오류는 반복에 의해 쉽게 해결되지 않는다. 외부 지침 없이, 추가 시도는 종종 동일한 잘못된 추론을 다른 단어로 재생산한다. 이 통찰력은 자체 정제 기술이 普遍的に 효과적이지 않음을 시사한다. 그들의 성공은 모델의 지능만이 아니라,犯하는 오류의 유형에 달려 있다.

AI 시스템 설계에 대한 의미

이러한 통찰력은 실제적인 의미를 가진다. 첫째, 우리는 더 높은 정확도가 더 좋은 자체 교정을 의미한다는 가정에서 벗어나야 한다. 자율적인 자체 정화를 기반으로 하는 시스템은 교정 행동에 대해 명시적으로 테스트되어야 한다. 둘째, 다른 모델에는 다른 개입 전략이 필요할 수 있다. 약한 모델은 단순한 검증 및 반복으로 혜택을 받을 수 있다. 강한 모델은 외부 피드백, 구조화된 검증 또는 도구 기반 검사를 통해 깊은 추론 오류를 극복해야 할 수 있다. 셋째, 자체 교정 파이프라인은 오류를 인식해야 한다. 작업이 얕은 또는 깊은 오류로 고통받는지에 따라 자체 교정이 효과적일 수 있는지 여부를 알 수 있다. 마지막으로, 평가 벤치마크는 감지, 위치 및 교정을 별도로 처리해야 한다. 이것들을 단일 측정으로 처리하면 실제 배포에서 중요한 약점을 숨길 수 있다.

결론

자체 개선 AI는 올바른 답을 생성하는 것뿐만 아니라, 잘못된 것을 인식하고, 진단하고, 수정하는 능력에 달려 있다. 정확도-교정 역설은 더 강한 모델이 자동으로 이 작업에 더 좋지 않음을 보여준다. 모델이 더 능숙해짐에 따라, 그들의 오류는 더 깊고, 더難고, 자체 교정에 더 저항성이 된다. 이것은 모델 확장만으로는 충분하지 않음을 의미한다. 우리가真正로 자신의 오류에서 학습할 수 있는 AI 시스템을 원한다면, 자체 교정은 별도의 능력으로 처리되어야 하며, 명시적으로 측정되고, 훈련되고, 지원되어야 한다.