인공지능

연구, 복잡성이 증가하면 LLM이 단순한 추론으로 기본적으로 돌아간다

Published November 25, 2025

Updated April 1, 2026

Alex McFarland

연구자 팀은 포괄적인 연구를 11월 20일에 발표하여 대규모 언어 모델(LLM)의 192,000개 이상의 추론 트레이스를 분석하여, AI 시스템이 계층적 인지 프로세스를 사용하는 것보다 단순한 선형 전략에 의존하는 것을 보여주었다.

연구 팀은 텍스트, 비전, 오디오 추론 작업에서 18개의 다른 모델을 검토하고, 연구를 위해 수집된 54개의 인간 생각을 대조하여 접근 방식을 비교했다. 분석은 계산 제약, 메타 인지 제어, 지식 표현 및 변환 연산을 포함하는 28개의 인지 요소를 포함하는 분류학을 확립하여, 모델이 올바른 답변을 생성하는지 여부를 평가할 뿐만 아니라, 모델이 어떻게 그 결론에 도달하는지 평가하는 프레임워크를 제공했다.

인지 아키텍처의 근본적인 차이

인간의 추론은 일관되게 계층적 중첩과 메타 인지 모니터링, 즉 자신의 생각 프로세스를 반성하고 조절하는 능력을 보여준다. 인간은 유연하게 정보를 중첩된 구조로 조직하고 복잡한 문제를 통해 진행 상황을 적극적으로 추적한다.

LLM은 주로 얕은 전방 체인링을 사용하여 계층적 조직이나 인간 인지의 특徴인 자기 반성을 갖지 않고 문제를 단계적으로 해결한다. 이 분기는 작업이 구조화되지 않거나 모호할 때 가장 두드러지게 나타나며, 인간의 적응성이显著하게 AI 접근 방식을 능가한다.

연구에 따르면 언어 모델은 성공적인 추론과 관련된 행동 구성 요소를 소유하고 있지만, 종종 자발적으로 배치하지 않는다. 성능은 문제 유형에 따라劇的に 다르다. 딜레마 추론은 가장 높은 분산을 보여주었고, 작은 모델은 크게 어려움을 겪었으며, 논리적 추론은 중간적인 성능을 보여주었고, 일반적으로 더 큰 모델이 작은 모델을 능가했다. 모델은 반直관적인 약점을 보여주며, 복잡한 작업을 성공시키지만 더 прост한 변형에서 실패한다.

가이드 추론을 통한 성능 향상

연구 팀은 성공적인 인지 구조를 자동으로 스캐폴딩하는 테스트 시간 추론 가이드를 개발하여 모델이 더 인간적인 추론 접근 방식을 채택하도록 지시할 때 복잡한 문제에서 최대 66.7%의 성능 향상을 보여주었다. 이 발견은 LLM이 더 정교한 추론에 대한 잠재적인 능력을 소유하고 있지만, 그것을 효과적으로 사용하기 위해 명시적인 지침이 필요하다는 것을 시사한다.

인간과 AI 추론 사이의 간격은 작업 복잡성이 증가함에 따라 더 커진다. 모델은 단순한 문제를 전방 체인링만으로 처리할 수 있지만, 모호하거나 다층적인 도전에 직면할 때 인간이 자연스럽게 사용하는 재귀적, 자기 모니터링 전략을 사용하는 데 어려움을 겪는다.

연구의 공개 데이터 세트는 인공 지능과 인간 지능을 비교하는 미래 연구를 위한 기준을 제공한다. 28개의 별도 인지 요소를 매핑함으로써, 프레임워크는 연구자들이 단순히 정확도 점수를 측정하는 대신에 AI 추론이 어디에서 중단되는지 정확히 찾아낼 수 있게 한다.

AI 개발에 대한 영향

발견은 현재 AI 시스템의 근본적인 제한을 강조한다. 계산 능력과 실제 인지 소양 사이의 간격이다.大量 데이터에 훈련된 모델은 많은 작업에서 패턴 매칭을 통해 올바른 답변을 얻을 수 있지만, 인간 문제 해결의 특徴인 반성적, 계층적 사고를欠如한다.

이 연구는 여러 도메인에서 식별된 AI 추론 제한에 대한 우려를 강조한다. 가이드 추론에서 성능 향상은 더 나은 프롬프트 전략과 아키텍처 수정이 모델이 잠재적인 추론 능력을 더 효과적으로 사용하도록 도와줄 수 있음을 시사한다.

연구의 가장 중요한 기여는 인지 요소의 자세한 분류학을 제공하는 것이다. 연구자와 개발자가 개선에 대한 구체적인 목표를 제공한다. 추론을 단일 능력으로 취급하는 대신에, 프레임워크는 측정 가능한 구성 요소로 나누어지며, 훈련 수정 또는 프롬프트 엔지니어링 기술을 통해 개별적으로 해결할 수 있다.