Anderson의 관점
AI가 왜 답을 모른다고 인정하지 못할까?

대규모 언어 모델은 질문에 답이 없을 때에도 자신감 있게 답을 합니다. 새로운 연구에 따르면 이러한 모델은 내부적으로 문제를 인식하지만, 여전히 무언가를 만들어내거나, 정보가 부족하거나 모델의 한계, 또는 다른 이유로 유효한 답이 없는 경우에도 답을 하려는 경향이 있습니다.
누구든지 ChatGPT 또는 Qwen 시리즈와 같은 주요 Large Language Model을 상당한 시간 동안 사용해 본 사람들은 모델이 잘못된 답을 제공하는 경우(로컬 환경에 따라 치명적인 결과를 초래할 수 있음)를 경험했을 것입니다. 그리고 오류가 명백해지면 모델은 단순히 사과합니다.
왜 주요 LLMs는 답을 모른다고 인정하는 데 어려움을 겪는지에 대한 연구는まだ 초기 단계입니다. ‘자신감 있게 잘못된‘ 답은 ChatGPT와 같은 높은 수준의 검열 및 필터링된 API 기반 인터페이스에서 특히 유해할 수 있습니다. 이러한 모델은 공격적으로 NSFW 또는 기타 ‘규칙 위반’ 입력 또는 출력을 차단합니다.
이로 인해 사용자는 모델이 결정적이고 근본적이라고 잘못 인식할 수 있습니다. 그러나 실제로는 모델의 내부 인식이 아니라 전통적인 휴리스틱 또는 블록리스트 기반 필터가 모델의 호스트 회사에 대한 법적 노출을 최소화하기 위한 것입니다.

From the June 2025 ‘AbstentionBench’ paper from FAIR at Meta – on the left, the figure highlights the range of failure types captured in AbstentionBench, which tests model behavior on over 35,000 unanswerable questions; in the middle, an example shows how models often respond with fabricated answers instead of admitting they lack enough information; and on the right, abstention recall drops when models are tuned for reasoning rather than instruction-following. Source: https://arxiv.org/pdf/2506.09038
중국에서 수행된 새로운 연구에 따르면 LLM 모델은 사용자가 질문한 문제에 답을 할 수 없다는 것을 내부적으로 알고 있지만, 여전히 무언가를 만들어내거나, 정보가 부족하거나 모델의 한계, 또는 다른 이유로 유효한 답이 없는 경우에도 답을 하려는 경향이 있습니다.
연구진은 다음과 같이 말합니다:
‘[우리는] 이러한 질문에서 결함을 인식하는 데 필요한 인지 능력을 갖추고 있음을 보여줍니다. 그러나 적절한 기권 행동을 나타내지 않으며, 내부 인식과 외부 반응 사이에 불일치가 있음을 보여줍니다.’
연구진은 모델의 내부 프로세스를 스캔하여 답을 할 수 없다는 것을 인식하는지 확인하는 두 단계의 경량 접근 방식을 개발했습니다. 그리고 모델의 ‘도움이 되는’ 성격이 사용자의 문제를 악화시키지 않도록 하기 위해干预합니다.
연구는 의도적으로 정의되지 않은 수학 문제를 사용하여 모델이 답을 할 수 없는 경우를 인식할 수 있는지 테스트합니다. 그러나 이러한 설정은 작업을 ‘트릭’으로 프레임할 수 있습니다. 실제로 모델은 대화에서 기권해야 하는 더 일상적인 이유를 직면합니다. 모호한 문구, 도메인 지식의 격차 등이 있습니다.
新的 연구는 新的 연구로, ‘Answering the Unanswerable Is to Err Knowingly: Analyzing and Mitigating Abstention Failures in Large Reasoning Models’라는 제목으로 네 명의 연구자에 의해 수행되었습니다.
방법
(이 연구는 기존의 접근 방식과 다소 다른 형식을 따르기 때문에, 우리는 가능한 한 그 형식을 따르려고 노력할 것입니다.)
연구진은 이전의 접근 방식과 일치하여, LLMs에 대한 unanswerable 수학 질문을 제시했습니다. Synthetic Unanswerable Math (SUM) 데이터셋에서 5개의 모델 패밀리를 평가했습니다: DeepSeek 범위에서 R1-Distill-Llama-8B, R1-Distill-Qwen-7B, R1-Distill-Qwen-14B; Qwen 시리즈에서 Qwen3-8B, Qwen3-14B.
인식
모델이 실제로 질문에 답이 없는 경우를 인식할 수 있는지 테스트하기 위해, 연구진은 모델의 추론 과정을 중간에 중단하고, 최종 답이나, 질문이 답을 할 수 없는 이유에 대한 설명을 요청했습니다.

왼쪽의 차트는 모델이 중간에 중단되었을 때 정상적인 기권을 얼마나 souvent하는지 보여줍니다. 오른쪽의 차트는 대부분의 모델이 질문이 답을 할 수 없는 이유를 설명할 수 있음을 보여줍니다.
마음 읽기
모델이 내부적으로 질문에 답이 있는지 없는지 추적하는지 테스트하기 위해, 연구진은 모델의 내부 활성화에 대한 작은 분류기를 훈련시켰습니다.

추론 과정에서 답이 있는지 없는지에 대한 분류기의 정확도
고집
연구진은 모델이 내부적으로 질문에 답이 없다는 것을 인식하지만, 여전히 답을 하려는 경향이 있음을 발견했습니다.

기권 응답에 대한 신뢰도
테스트
연구진은 모델의 기권을 개선하기 위한 두 단계의 방법을 개발했습니다. 첫 번째 단계는 모델의 내부 상태를 추적하여, 모델이 질문에 답을 할 수 없다는 것을 인식하는지 확인합니다. 두 번째 단계는 모델이 기권하도록 유도하는 추론 시간干预입니다.

기권을 유도하는 프롬프트
측정
모델의 성능은 네 가지 지표를 사용하여 측정되었습니다: 기권율, 이유 정확도, 토큰 사용량, 답 정확도.
테스트 기준
기존의 기준이 없기 때문에, 연구진은 두 가지 대안, Dynasor-CoT와 DEER,를 사용하여 비교했습니다.

다양한 모델의 비교
결론
LLMs의 기권 불능은 사용자 경험의 가장 큰 마찰점 중 하나입니다. 연구진은 새로운 방법이 기권율과 이유 정확도를 개선하고, 허구의 답과 고정된 행동을 줄임을 보여주었습니다.










