Anderson의 관점
주요 언어 모델에서 사고 연쇄(Chain-Of-Thought) 추론이 ‘장식적’임이 입증되다

새로운 연구는 ChatGPT와 Claude를 포함한 현재 모든 주요 AI 언어 모델의 세련된 단계별 설명이 단순히 ‘장식적’이며, AI가 답을 결정한 후에 대개 꾸며낸 것이라는 사실을 확인하는 쉬운 방법을 제시합니다.
지난해, Anthropic과 Apple을 포함한 AI 관련 기업들의 일련의 고위급 연구들은 소위 ‘추론 AI’들이 종종 실제로 그들의 답변에 영향을 준 과정을 반영하지 않는 단계별 설명을 생성한다고 지적했습니다.
여러 가지 이유로 논쟁은 곧 조잡한 반박과 다양한 해석(여기에는 이 사이트의 글도 포함)으로 변질되었고, 사고 연쇄(CoT) 추론이 최종 사용자를 안심시키기 위한 코스메틱 장식에 불과한지, 아니면 진정한 추론 과정의 증거인지에 대한 질문은 해결되지 않은 채로 남았습니다.

ChatGPT ‘작업 과정을 보여준다’ – 하지만 이미 답을 결정했는가?
보여주기와 설명하기
이제 인도에서 나온 흥미로운 새로운 논문이 ChatGPT 및 기타 주요 대형 언어 모델(LLM) 인터페이스에서 볼 수 있는 인상적인 ‘추론 애니메이션’이 정말로 AI가 결론에 이르는 단계를 거쳐 작업하고 있는지를 판단할 수 있는 저렴하고 쉽게 재현 가능한 방법을 제안하고 있습니다.
이 새로운 연구는 알라하바드의 인도 정보 기술 연구소(IIITA)와 델리의 국립 전자 정보 기술 연구소(NIELIT) 소속 두 연구자로부터 나왔습니다.
저자들은 상당한 범위의 독점 및 오픈소스 LLM들에 걸쳐 거의 모든 경우에, 사용자에게 제시되는 사고 연쇄 추론이 ‘장식적’이며, AI가 제시할 답을 결론지은 후에 만들어낸 것임을 발견했습니다.
ChatGPT5.4, Claude Opus 4.6-R, DeepSeek-V3.2과 같은 모델을 테스트한 결과, 저자들은 제시된 10-15개의 CoT 표시 중 어떤 단일 단계를 제거해도 실제로 답이 변경되는 경우가 17% 미만이며, 어떤 단일 단계라도 그 자체만으로 올바른 답을 복원하기에 충분하다는 사실을 발견했습니다.
저자들은 다음과 같이 말합니다*:
‘의료, 금융, 법률 분야의 AI에 대한 규제 체계는 점점 더 “설명 가능한” [시스템]을 요구하고 있습니다. 우리의 결과는 표준 접근 방식 – 모델에게 작업 과정을 보여달라고 요구하는 것 – 이 투명성의 환상을 제공한다는 것을 시사합니다.
‘설명은 유창하고, 해당 분야에 적합하지만, 미묘한 방식으로 틀렸습니다: 그것들은 모델이 수행하지 않은 추론을 설명합니다.
“호산구 증가증은 색전 과정을 시사한다”고 쓰는 의료 AI가 반드시 호산구 증가증을 고려한 것은 아닙니다. 그것은 질문 줄기에서 답안으로 패턴 매칭을 하고 나서 추론을 꾸며낼 수도 있습니다.
‘EU AI 법(제13조)에 따르면, 고위험 AI 시스템은 “관련된 논리에 대한 의미 있는 정보”를 제공해야 합니다. 우리의 연구 결과는 대다수의 최첨단 모델들의 사고 연쇄 설명이 이 기준을 충족하지 않는다는 것을 시사합니다 – 답에 도달하는 데 “관련된 논리”는 설명에 기술된 논리가 아닙니다.’
저자들은 테스트된 두 개의 소형 모델이 일반적인 이중성 패턴을 깨뜨렸지만, 매우 특정한 상황에서만 그렇다고 관찰했습니다: MiniMax-M25는 감정 분석을 다룰 때 진정한 단계 의존성을 보여주었고, Kimi-K25는 진정한 39%의 CoT 처리 필요성을 나타냈지만, 주제 분류를 다룰 때만 그렇습니다.
다른 모든 경우에는, 더 크고 잘 알려진 모델들과 마찬가지로, 제시된 추론 단계는 전적으로 수행적인 것으로 보였으며, 모델들은 대신 지름길을 사용했습니다.
소형 모델들은 더 열심히 노력한다
테스트된 10개의 API 모델 외에도, 저자들은 0.8에서 80억 개의 매개변수(요즘 기준으로는 상당히 적은 수준) 범위의 여러 소형 오픈 웨이트 모델†을 시험해 보았고, 이러한 더 작은 AI들이 진정으로 추론하며, 그들이 보여주는 CoT가 유용하고 정확한 결론에 도달하기 위해 대개 – 항상은 아니지만 – 필요하다는 사실을 발견했습니다.
소형 모델들은 단계 추론 필요성이 55%로 나타난 반면, 대형 모델들의 평균 필요성은 11%였으며, 저자들은 이에 대해 ‘대형 모델들은 다단계 추론을 완전히 우회하는 법을 배워, 작성된 추론이 반영하지 않는 내부 지름길을 통해 정답에 도달한다’고 주장합니다.
저자들은 모델이 작업을 더 잘 수행할수록 추론 단계가 덜 필요하다고 가정합니다(비록 이것은 합리적 분석을 기피하고 훈련 데이터 분포에서 가장 강력했던 답을 선호하는 개념에 대한 더 외교적인 해석이지만)††:
‘소형 모델들은 수학 문제를 진실하게 추론합니다. 왜냐하면 그들은 반드시 그래야 하기 때문입니다 – 지름길을 탈 만한 매개변수적 지식이 부족합니다.
‘최첨단 모델들은 충분한 수학적 패턴을 내재화하여 명시적 사고 연쇄가 중복되게 만들었습니다. CoT는 여전히 정확도를 향상시키지만(생성을 구조화함으로써), 개별 단계들은 더 이상 고유한 정보를 담고 있지 않습니다.’
방법
모델을 테스트하는 데 사용된 방법은 세 가지 기준에 기반합니다:
필요성은 각 CoT 단계를 차례로 제거한 후 답이 변경되는지 확인합니다. 제거 시 결과를 변경하는 단계는 ‘필요한’ 것으로 간주됩니다; 충분성은 각 단계를 분리하여 그것만으로도 답을 복원할 수 있는지 테스트하며, 그러한 단계는 충분한 것으로 간주됩니다; 그리고 순서 민감성은 단계들을 섞어 답이 변경되는지 관찰합니다(진정한 추론은 키워드보다는 순서에 의존해야 하기 때문입니다).
종합적으로, 높은 필요성과 낮은 충분성은 진정한 단계별 추론을 나타내는 반면, 낮은 필요성과 높은 충분성은 결과에 영향을 주지 않고 제거, 재배열 또는 축소될 수 있는 설명을 나타냅니다.
저자들은 이 방법이 화이트박스 모델 접근을 전혀 필요로 하지 않는다고 언급합니다. 왜냐하면 ChatGPT와 Claude와 같은 클로즈드 소스, API 전용 모델에 대해 단 몇 달러로 수행될 수 있으며, 당연히 로컬에 설치할 수 있는 오픈 웨이트 모델에서도 동일하게 성공적으로 수행될 수 있기 때문입니다.
그들은 또한 이전 연구들이 내부 분석을 용이하게 하는 오픈 웨이트 모델을 사용했거나, API 모델의 내부 추론 과정을 훨씬 덜 드러내는 단순한 이진 예/아니오 답변을 사용했다고 언급합니다.
최소 비용
저자들은 필요성과 충분성을 통해 진정한 추론을 정의하며, 높은 필요성과 낮은 충분성은 각 단계가 고유한 중요성을 지님을 나타냅니다. 반대로, 장식적 추론은 낮은 필요성과 높은 충분성을 보여주며, 이는 단계들이 제거되거나 단독으로 사용되어도 답이 변경되지 않음을 의미합니다.
필요성만으로는 이것을 가릴 수 있다고 그들은 말합니다. 왜냐하면 여러 유효한 경로가 존재할 수 있기 때문입니다. 따라서 충분성은 어떤 단일 단계가 이미 결과를 인코딩하고 있는지 테스트하는 데 사용되며, 순서 민감성은 모델이 표면적 단서보다는 순서에 의존하는지 확인합니다.
이 접근법은 Intervention-Consistent Explanation (ICE) 프레임워크를 기반으로 하며, 텍스트 입력-텍스트 출력 API 접근만 필요로 하며, 6단계 연쇄의 경우 약 $1–2의 비용으로 15회의 평가가 포함됩니다.
ICE 프레임워크는 모델 행동을 필요성과 충분성에 따라 세 가지 패턴으로 분류합니다: 장식적은 낮은 필요성과 높은 충분성을 보여주며, 단계들이 중복되고 답은 어쨌든 도달될 것임을 의미합니다. 이는 대부분의 모델과 작업에서 지배적입니다; 진정으로 신뢰할 수 있는은 높은 필요성과 높은 충분성을 보여주며, 각 단계가 실제 신호를 담고 있음을 의미합니다(그리고 앞서 언급된 대로, 이는 감정 분석에서 MiniMax-M2.5에 나타납니다); 그리고 맥락 의존적은 높은 필요성과 낮은 충분성을 보여주며, 단계들이 순서대로만 함께 작동함을 의미합니다(이는 주제 분류에서 Kimi-K2.5와 MiniMax에, 그리고 소형 모델들이 수학을 다룰 때 나타납니다).
테스트
수정된 ICE 접근법으로 테스트된 주로 API 전용 10개 모델은 ChatGPT-5.4; Claude Opus 4.6-R; DeepSeek-V3.2; GPT-OSS-120B; Kimi-K2.5; Qwen3.5-397B; Qwen3.5-122B; MiniMax-M2.5; GLM-5; 그리고 Nemotron-Ultra (253B 매개변수)였습니다.
각 모델은 네 가지 작업에서 테스트되었습니다: 감정 분류((SST-2 사용); 수학 단어 문제(GSM8K 사용); 주제 분류(AG News 사용); 의료 질문 답변((MedQA 사용). 초기 테스트는 감정과 수학에 대해 수행되었습니다:
<img class=" wp-image-405574" src="https://www.unite.ai/wp-content/uploads/2026/03/table-1-3.jpg" alt="10개 주요 언어 모델에 대한 테스트로, 단계별 추론을 어떻게 처리하는지 평가합니다. '필요성'은 단계를 제거했을 때 답이 바뀌는지 추적하고, '충분성'은 한 단계만으로도 여전히 답을 생성할 수 있는지 확인하며, '셔플'은 순서가 중요한지 테스트합니다. 대부분의 모델은 SST-2와 GSM8K에서 설득력 있지만 필수적이지 않은 설명을 제공하는 반면, MiniMax-M2.5는 감정 분석에 대해 단계에 더 의존합니다. MiniMax와 Kimi-K2.5 모두 주












