인공지능
AI 벤치마크가 모델에게 거짓말을 가르칠 때

AI 환각 — 시스템이 올바르다고听되는 답변을 생성하지만 실제로 틀린 경우 — 는 여전히 인공 지능에서 가장 어려운 도전 중 하나입니다. 오늘날의 가장 고급 모델들, 예를 들어 DeepSeek-V3, Llama, 및 OpenAI의 최신 릴리즈는 여전히 높은 확신으로 부정확한 정보를 생성합니다. 의료나 법률과 같은 분야에서는 이러한 실수들이 심각한 결과를 초래할 수 있습니다.
전통적으로, 환각은 대규모 언어 모델이 훈련되는 방식의 부산물로 간주되어 왔습니다. 그들은 정보가 실제로 참인지 여부를 확인하지 않고 다음 가장 가능성이 높은 단어를 예측하도록 학습합니다. 그러나 새로운 연구는 이 문제가 훈련에만 있는 것이 아니라고 제안합니다. AI 성능을 테스트하고 비교하는 데 사용되는 벤치마크는 실제로 오도적인 행동을 강화하고, 올바른 것보다 설득력 있는 답변을 보상할 수 있습니다.
이 관점의 변화는 문제를 재정의합니다. 모델이 테스트를 통과하기 위해 훈련되는 경우, 환각은 우발적인 결함이 아니라 학습된 전략입니다. 이를 이해하기 위해 우리는 왜 AI 모델이 모르는 것을 인정하는 대신 추측하는지 살펴보아야 합니다.
AI 모델이 추측하는 이유
AI 모델이 모르는 것을 인정하는 대신 추측하는 이유를 이해하기 위해, 어려운 시험 문제를 맞닥뜨린 학생을 고려해 보십시오. 학생은 두 가지 옵션이 있습니다. 답변을 비워두고 0점을 받거나, 일부 점수를 얻을 가능성이 있는 교육된 추측을 합니다. 합리적으로 추측하는 것이 더好的 선택으로 보입니다. 왜냐하면 올바른 가능성이 있기 때문입니다.
AI 모델은 평가过程에서 비슷한 상황에 직면합니다. 대부분의 벤치마크는 이진 스코어링 시스템을 사용합니다. 올바른 답변은 점수를 얻지만, 부정확하거나 불확실한 답변은 아무런 점수를 얻지 못합니다. 모델이 “어떤 연구자의 생일은 언제입니까?”라고 묻고 실제로 모른다면, “모르겠습니다”라고回答하면 실패로 간주됩니다. 그러나 날짜를 만들어내면, 올바른지 여부와 상관없이 일부 점수를 얻을 가능성이 있습니다. 시스템은 확신 있는 추측을 더 강화하지 않습니다.
이 동态는为什么 환각이尽管 광범위한 연구에도 불구하고仍然 지속되는 이유를 설명합니다. 모델은 잘못된 행동을 하고 있지 않습니다. 평가에 내장된 인센티브를 따르고 있습니다. 그들은 확신을 나타내는 것이 점수를 최대화하는 가장好的 방법이라는 것을 학습합니다. 즉, 모델은 올바른지 여부와 상관없이 권위적인 진술을 하는 것을 강화합니다.
AI 부정직의 수학적 기초
연구는 환각이 언어 모델이 학습하는 수학적 기초에서 발생한다는 것을 보여줍니다. 모델이 완전히 정확한 정보로만 훈련되어도, 통계적 목표는 여전히 오류를 초래할 것입니다. 왜냐하면 올바른 답변을 생성하는 것이 답변의 유효성을 확인하는 것보다 근본적으로 더 어렵기 때문입니다.
이것은 모델이 명확한 패턴이 없는 사실, 예를 들어 생일이나 기타 고유한 세부 사항에서 자주 실패하는 이유를 설명합니다. 수학적 분석에 따르면 이러한 경우의 환각률은 훈련 데이터에서 한 번만 나타나는 사실의 비율만큼 높을 것입니다. 즉, 데이터에서 정보가 더 희박할수록 모델이 더 어려움을 겪을 것입니다.
문제는 희귀한 사실에만 국한되지 않습니다. 모델 용량이나 아키텍처 설계와 같은 구조적 제약도 시스템적인 오류를 생성합니다. 예를 들어, 이전 모델은 매우 짧은 컨텍스트 창으로 인해 장거리 추론이 필요한 작업에서 일관적으로 실패했습니다. 이러한 실수는 임의적인 결함이 아니라 모델의 수학적 프레임워크의 예측 가능한 결과였습니다.
사후 훈련이 문제를 해결하지 못하는 이유
AI 모델이 대규모 텍스트 데이터셋으로 훈련된 후, 보통 출력을 더 유용하고 덜 유해하게 만들기 위해 미세 조정을 거칩니다. 그러나 이 과정은 처음으로 환각을 일으키는 동일한核心 문제에 직면합니다. 모델을 평가하는 방식입니다.
가장 일반적인 미세 조정 방법, 즉 인간 피드백으로부터 강화 학습을 사용하는 방법은 여전히 이진 스코어링을 사용하는 벤치마크에 의존합니다. 이러한 벤치마크는 모델이 확신을 나타내는 답변을 보상하지만, 모델이 모르는 것을 인정할 때는 아무런 점수를 주지 않습니다. 따라서 항상 확신을 나타내는 모델, 即使 틀린 경우에도, 확신을 나타내지 않는 모델보다 더 높은 점수를 얻을 수 있습니다.
연구자들은 이것을 불확실성을 처벌하는 문제라고 부릅니다. 환각을 감지하거나 줄이는 데 사용되는 고급 기술도 기본 벤치마크가 여전히 과신을 강화하는 경우 어려움을 겪습니다. 즉, 평가 시스템이 확신 있는 추측을 강화하는 한, 모델은 틀린 답변을 내보내는 것을 선호할 것입니다.
진보의 환상
리더보드, 즉 AI 커뮤니티에서 널리 공유되는 벤치마크는 이 문제를 더욱 심화시킵니다. MMLU, GPQA, 및 SWE-bench와 같은 벤치마크는 연구 논문과 제품 발표에서 지배적입니다. 회사들은 자신의 점수를 강조하여 빠른 진행을 보여줍니다. 그러나 보고서에 따르면, 이러한 벤치마크는 실제로 환각을 강화합니다.
모델이真正로 “모르겠습니다”라고回答하는 경우, 실제 환경에서 더 안전할 수 있지만 리더보드에서 더 낮은 순위를 차지할 것입니다. 반면, 모델이 설득력 있는 그러나 거짓된 답변을 생성하는 경우, 더 높은 점수를 얻을 것입니다. 채택, 자금, 그리고 명성이 리더보드 순위에 달려 있는 경우, 진행 방향이歪曲됩니다. 대중은 지속적인 개선의 이야기를 보지만, 실제로는 모델이 속임수로 훈련되고 있습니다.
AI에서 정직한 불확실성이 중요한 이유
환각은 연구 도전이 아니라 실제 결과를 초래합니다. 의료 분야에서 모델이 약물 상호 작용을 조작할 수 있습니다. 교육 분야에서 모델이 역사적 사실을 발명할 수 있습니다. 언론 분야에서 채팅봇이 거짓된 그러나 설득력 있는 인용문을 생성할 수 있습니다. 이러한 위험은 이미 보입니다. Stanford AI Index 2025 보고서는 환각을 측정하기 위한 벤치마크가 “인기를 얻지 못했다”고 보고했지만, AI 채택은 가속화되고 있습니다. 한편, 리더보드와 과신을 강화하는 답변을 보상하는 벤치마크는 진행 방향을 설정하는 데 계속 사용되고 있습니다.
이러한 발견은 도전과 기회를 모두 강조합니다. 환각의 수학적 근본을 조사함으로써, 연구자들은 더 신뢰할 수 있는 AI 시스템을 구축하기 위한 명확한 방향을 식별했습니다. 핵심은 불확실성을 결함으로 간주하는 것을 중단하고, 대신 필수적인 능력으로 인정하여 측정하고 보상하는 것입니다.
이 관점의 변화는 환각을 줄이는 것을 넘어서서 영향을 미칩니다. 자신의 지식 제한을 정확하게 평가하고 전달할 수 있는 AI 시스템은 의료, 법률, 과학 연구와 같은 고위험 응용 분야에서 더 적합할 것입니다.
정직한 AI를 위한 평가 재고
이러한 발견은 더 신뢰할 수 있는 AI를 구축하기 위해 우리는 AI 능력을 측정하는 방식을 재고해야 함을 강조합니다. 단순한 올바름 또는 틀림 스코어링에 의존하는 대신, 평가 프레임워크는 모델이 불확실성을 적절하게 표현하는 것을 보상해야 합니다. 이는 벤치마크 지침에 명확한 확신 임계값과 해당 스코어링 스키마를 제공하는 것을 의미합니다.
한 가지 유망한 접근 방식은 모델이 답변을 제공해야 하는 경우와 언제 답변을 생략해야 하는지 지정하는 명시적인 확신 목표를 생성하는 것입니다. 예를 들어, 지침은 답변을 제공하기 전에 확신이 특정 임계값을 초과해야 한다고 명시할 수 있으며, 스코어링은 그에 따라 조정됩니다. 이 설정에서 불확실성은 약점이 아니라 책임 있는 행동의 가치 있는 부분입니다.
핵심은 확신 요구 사항을 명시적으로 만드는 것입니다. 현재의 벤치마크는 모델이 피하도록 학습하는 불확실성에 대한 숨겨진 페널티를 생성합니다. 명시적인 확신 목표는 모델이 실제로 원하는 행동을 최적화하도록 할 수 있습니다. 즉, 확신이 있는 경우에 정확한 답변을 제공하고, 지식이 부족한 경우에는 정직하게 불확실성을 인정하는 것입니다.
요약
AI 환각은 우발적인 결함이 아닙니다. 그것은 AI 성능을 측정하는 데 사용되는 벤치마크에 의해 강화됩니다. 확신 있는 추측을 올바른 답변보다 강화하는 현재 평가 시스템은 모델이 신뢰할 수 있는 대신 속임수로 훈련되도록 합니다. 의료, 법률, 과학과 같은 고위험 도메인에서 신뢰할 수 있는 AI를 원한다면, 우리는 그들을 테스트하고 보상하는 방식을 재고해야 합니다. 진행은 정확성만으로 측정되어서는 안 되며, 모델이 모르는 것을 인정하는 능력도 측정되어야 합니다.












