Anderson의 관점

AI가 왜 답을 모른다고 인정하지 못할까?

Published August 27, 2025

Updated April 2, 2026

Martin Anderson

Flux1.D Pro, Flux Kontext Pro, Firefly V3.

대규모 언어 모델은 질문에 답이 없을 때에도 자신감 있게 답을 합니다. 새로운 연구에 따르면 이러한 모델은 내부적으로 문제를 인식하지만, 여전히 무언가를 만들어내거나, 정보가 부족하거나 모델의 한계, 또는 다른 이유로 유효한 답이 없는 경우에도 답을 하려는 경향이 있습니다.

누구든지 ChatGPT 또는 Qwen 시리즈와 같은 주요 Large Language Model을 상당한 시간 동안 사용해 본 사람들은 모델이 잘못된 답을 제공하는 경우(로컬 환경에 따라 치명적인 결과를 초래할 수 있음)를 경험했을 것입니다. 그리고 오류가 명백해지면 모델은 단순히 사과합니다.

왜 주요 LLMs는 답을 모른다고 인정하는 데 어려움을 겪는지에 대한 연구는まだ 초기 단계입니다. ‘자신감 있게 잘못된‘ 답은 ChatGPT와 같은 높은 수준의 검열 및 필터링된 API 기반 인터페이스에서 특히 유해할 수 있습니다. 이러한 모델은 공격적으로 NSFW 또는 기타 ‘규칙 위반’ 입력 또는 출력을 차단합니다.

이로 인해 사용자는 모델이 결정적이고 근본적이라고 잘못 인식할 수 있습니다. 그러나 실제로는 모델의 내부 인식이 아니라 전통적인 휴리스틱 또는 블록리스트 기반 필터가 모델의 호스트 회사에 대한 법적 노출을 최소화하기 위한 것입니다.

From the June 2025 ‘AbstentionBench’ paper from FAIR at Meta – on the left, the figure highlights the range of failure types captured in AbstentionBench, which tests model behavior on over 35,000 unanswerable questions; in the middle, an example shows how models often respond with fabricated answers instead of admitting they lack enough information; and on the right, abstention recall drops when models are tuned for reasoning rather than instruction-following. Source: https://arxiv.org/pdf/2506.09038

중국에서 수행된 새로운 연구에 따르면 LLM 모델은 사용자가 질문한 문제에 답을 할 수 없다는 것을 내부적으로 알고 있지만, 여전히 무언가를 만들어내거나, 정보가 부족하거나 모델의 한계, 또는 다른 이유로 유효한 답이 없는 경우에도 답을 하려는 경향이 있습니다.

연구진은 다음과 같이 말합니다:

‘[우리는] 이러한 질문에서 결함을 인식하는 데 필요한 인지 능력을 갖추고 있음을 보여줍니다. 그러나 적절한 기권 행동을 나타내지 않으며, 내부 인식과 외부 반응 사이에 불일치가 있음을 보여줍니다.’

연구진은 모델의 내부 프로세스를 스캔하여 답을 할 수 없다는 것을 인식하는지 확인하는 두 단계의 경량 접근 방식을 개발했습니다. 그리고 모델의 ‘도움이 되는’ 성격이 사용자의 문제를 악화시키지 않도록 하기 위해干预합니다.

연구는 의도적으로 정의되지 않은 수학 문제를 사용하여 모델이 답을 할 수 없는 경우를 인식할 수 있는지 테스트합니다. 그러나 이러한 설정은 작업을 ‘트릭’으로 프레임할 수 있습니다. 실제로 모델은 대화에서 기권해야 하는 더 일상적인 이유를 직면합니다. 모호한 문구, 도메인 지식의 격차 등이 있습니다.

新的 연구는 新的 연구로, ‘Answering the Unanswerable Is to Err Knowingly: Analyzing and Mitigating Abstention Failures in Large Reasoning Models’라는 제목으로 네 명의 연구자에 의해 수행되었습니다.

방법

(이 연구는 기존의 접근 방식과 다소 다른 형식을 따르기 때문에, 우리는 가능한 한 그 형식을 따르려고 노력할 것입니다.)

연구진은 이전의 접근 방식과 일치하여, LLMs에 대한 unanswerable 수학 질문을 제시했습니다. Synthetic Unanswerable Math (SUM) 데이터셋에서 5개의 모델 패밀리를 평가했습니다: DeepSeek 범위에서 R1-Distill-Llama-8B, R1-Distill-Qwen-7B, R1-Distill-Qwen-14B; Qwen 시리즈에서 Qwen3-8B, Qwen3-14B.