Anderson의 관점

언어 모델에 ‘진실 다이얼’을 부여하기

Published February 6, 2026

Updated April 1, 2026

Martin Anderson

AI-generated image of a retro dial that goes from 'BULL' to 'FACT', GPT5.2's (unknown) underlying model + SDXL for outpainting.

진실 또는 수다: 하나를 선택하세요. 새로운 훈련 방법을 통해 사용자는 AI 챗봇에게 정확히 얼마나 ‘사실적’인지 알려줄 수 있으며, 이는 정확성을 높이거나 낮추는 다이얼로 변환됩니다.

미국과 중국의 새로운 연구 협력은 거의 모든 AI 챗봇 사용자가 감사할 수 있는 것을 제공합니다. 즉, 챗봇이 수다스럽거나 사실적인지 여부를 알려주는 가상 ‘노브’입니다.

이 시스템은 Mistral-7B 모델을 합성 데이터에 대한 미세 조정하여 ‘진실’ 척도를 모델에 인쇄함으로써 생성되었습니다. 이 수정 이후 Mistral 모델은 답변에 포함된 事実의 수를 제어할 수 있게 되며, 사용자가 지정한 ‘진실’ 값이 높을수록 더 적지만 확실한 응답이 생성됩니다.

낮은 설정에서는 챗봇의 답변은 논문의 저자가 ‘정보 제공’이라고 부르는 것으로 됩니다. 즉, 더 긴 답변을 제공하며 더 많은 事実을 포함할 것입니다. 그러나 이러한 事実 중 일부는幻覺일 수 있습니다.

이 시스템에서 훈련에 사용된 합성 데이터는 위키피디아를 참조 도메인으로 사용하여 실제 사람에 대한 전기的事実을 사용했습니다. 위키피디아가 권위적인 출처여야 하는지 여부는 중요하지 않습니다. 이 연구의 가치는 LLMs의 기본적인 충동을 제한할 수 있는 시스템을 설계하는 것입니다. 즉, 답변을 제공하는 충동을 제한하는 것입니다.

FactScore 프로젝트의 예시입니다. 이 프로젝트는 위키피디아를 참조로 사용하여 전기的事実을 수집했습니다. 출처

저자들은 높은 보증이 필요한 의료 및 법률 분야에서는 보수적이고 신뢰할 수 있는 출력이 필요하다고 주장합니다. 그러나 다른 유형의 사용자는 더 유연하고 창의적인 출력이 필요합니다(예: 논문 및 학술 분석).

그들은 다음과 같이 관찰합니다:

‘현재 LLMs는 이 트레이드오프를 제어하는 내장 메커니즘이 없습니다.’

‘사용자가 “더 사실적으로”라는 프롬프트를 사용하여 모델의 동작을 안내하려고 할 수 있지만, 우리는 이러한 프롬프트에 대한 모델의 출력이 일관되게 조정되지 않는다는 것을 발견했습니다. ‘

‘FactScore에서 우리는 오프-the-쉘프 모델이 중간에서 엄격한 목표를满足하지 못하는 경우가 많습니다. 이 격차는 사용자가 특정 사실성 수준을 요청하고 모델이 해당 요청에 따라 출력을 조정할 수 있는 제어 가능한 대안을 동기부여합니다.’

사실만

이 논문을 이해하고 제공하는 솔루션을 이해하기 위해 ‘정보 제공’의 정의를 다시 검토해야 합니다. 저자들은 정보 제공량을 ‘출력에서 지원되는 콘텐츠의 양’으로 정의하며, 이는 ‘검증된 원자적 진술의 수로 측정되며, 출력 길이로 정규화됩니다’.

다른 곳에서는 논문에서 정보 제공량은 ‘출력에서 언급된 원자적 事実의 총 수’라고 더 간단하게 설명합니다.

さらに, 연구자들은 LLMs가 사실 정확성과 주관적인 추측 사이에서 범위를 설정하는 경향이 매우 인간적인 특성이며, 다양한 과학적 연구에서 문서화된 특성이라고 주장합니다:

‘[LLMs의 지식]은 불균일하게 신뢰할 수 있습니다. 일부 진술은 강하게 지원되지만, 다른 일부는 추측적이거나, 구식이거나, 불확실합니다. 따라서 생성에는 얼마나 말하고 얼마나 주의해서 말할지 결정하는 것이 필요하며, 사실 정확성과 정보 제공 사이에 긴장이 발생합니다. ‘

‘인간은 유사한 선택을 합니다. 높은 신뢰도의 事実부터 시작하여 더 낮은 신뢰도의 세부사항을 추가합니다. 그러나 이러한 세부사항은 요청된 경우에만 추가됩니다.’

실험은 중간 크기의 Mistral 모델에서만 수행되었습니다. 그러나 적용된 원칙은 다양한 규모와 플랫폼에서 작동해야 합니다. 왜냐하면 이는 LLM의 내부 스키마에 대한 새로운 데이터 양자화가 추가되며, 이러한 수정은 아키텍처에 특정적이지 않だから입니다.

새로운 논문은 요청에 따른 사실성: 텍스트 생성에서 사실성-정보 제공 트레이드오프 제어라는 제목으로, 컬럼비아 대학교, 뉴욕 대학교, 뉴욕 대학교 상하이를 포함한 7명의 연구자에 의해 작성되었습니다.

방법 및 데이터

이 논문에서 제시하는 새로운 접근 방식은 사실성 제어 생성이라고 하며, 사용자가 챗봇의 답변에 대한 정확도를 지정할 수 있는 가상 다이얼을 도입합니다. ‘본질적으로’ 논문은 ‘FCG는 모델에 사실성에 대한 제어 가능한 “노브”를 추가하여 모델을 개선합니다’라고 말합니다.

모델은 사용자의 질문과 원하는 사실성 수준을 모두 수신하여 해당 신뢰도 제약 조건 내에서 가능한 한 자세한 정보를 제공하려고 합니다.

사용된 FactScore 시스템을 통해 샘플 쿼리에서 분할된 출력은 정확성으로 평가되며, 이는 사실성 준수로 정의됩니다:

FCG를 위한 훈련 데이터 파이프라인: 언어 모델은 초기 답변을 생성하고, 원자적 事実으로 분할하고, 신뢰도에 따라 순위付け하고, 원하는 진실 수준에 도달할 때까지 가장 신뢰도가 낮은 事実을 삭제합니다. 출처

기존 데이터셋이 FCG의 요구 사항을 충족하지 않아 저자들은 GPT-4 언어 모델을 사용하여 제약이 없는 답변을 생성한 다음, 답변을 원하는 정확도에 도달할 때까지 가장 낮은 신뢰도의 事実을 제거하여 새로운 합성 데이터셋을 생성했습니다.

이전 연구에 따르면, 오직 근거 진실 데이터만으로 훈련하면 모델이 실제로 더 사실적인 결과를 생성하지 못할 수 있다고 합니다. 따라서 FCG 훈련 예시는 최소한으로 편집되어 모델의 문장 구조와 리듬을 보존하면서, 원하는 타겟 신뢰도에 도달하기 위해 충분한 事實만을 제거했습니다.

이 편집 과정을 다양한 타겟 신뢰도 수준(10%에서 100%까지)에 적용하여, 각 질문에 대해 여러 필터링된 답변을 포함하는 합성 데이터셋을 생성했습니다.

각 버전에서 모델이 충분히 신뢰할 수 있는 事實만을 유지했습니다. 이러한 예시는 FCG 모델을 위한 감독 미세 조정의 훈련 데이터로 사용되었습니다.

최종 데이터셋은 3,302개의 (질문, 제어, 답변) 트리플을 포함하여 훈련에 사용되었으며, 396개의 트리플은 검증에 사용되었습니다. 500개의 엔티티 중 450개를 훈련에, 50개를 개발에 사용했습니다. 추가로 183개의 다른 엔티티를 테스트에 사용했습니다.

훈련 및 테스트

저자들은 Mistral-7B-Instruct-v0.2 LLM 모델을 다양한 학습 속도(3e-6, 1e-5, 3e-5)로 미세 조정하여 최적의 학습 속도(언급되지 않음)를 30 에포크 동안, 배치 크기 256으로 도달했습니다(훈련 하드웨어는 지정되지 않음).

FCG는 두 가지 기준선과 비교하여 테스트되었습니다. 첫 번째는 사실성 제어 없음으로, 모델은 단순히 “X의 전기를 말해주세요”와 같은 요청으로 프롬프트되었으며, 정확도 또는 신뢰도에 대한 언급은 없었습니다. 이 버전은 사실성 제어를 위한 메커니즘이 없는 LLM의 기본 동작을 반영합니다.

두 번째 방법은 사실성 제어 추론이라고 하며, 미세 조정 없이 동일한 신뢰도 수준 프롬프트를 사용했습니다. 예를 들어, 모델은 “‘90% 확신하는 정보를 출력하세요'”와 같은 프롬프트로 요청될 수 있습니다. 이 경우, 지침은 훈련에서 사용된 것과 유사하지만, 모델은 이전에 이러한 제약 조건에 노출되지 않았습니다:

세 가지 테스트 접근 방식의 비교: 제어가 없는 기준선, 훈련 없이 사실성 프롬프트를 사용하는 버전, 필터링된 데이터에 노출되어 정확도 설정을 따르는 모델

초기 테스트는 사실성 준수를 위해 수행되었습니다:

세 가지 타겟 신뢰도 수준에서의 성능. 오직 미세 조정된 모델만이 일관되게 목표를 충족할 수 있었으며, 두 가지 기준선보다 전반적으로 더 나은 성능을 보였습니다. 특히 더 높은 임계값에서는 더 나은 성능을 보였습니다.

80%, 90%, 100%의 사실성 임계값에서 테스트했을 때, 오직 미세 조정된 모델만이 일관되게 목표를 충족할 수 있었습니다. 놀랍게도, 단순히 신뢰도 지침을 추가하는 것은 도움이 되지 않았으며, 경우에 따라 상황을 더 악화시켰습니다. 예를 들어, 프롬프트된 모델의 출력 중 90% 임계값을 충족하는 것은 3.8%에 불과했으며, 이는 제어가 없는 버전의 5.5%보다 낮았습니다:

이것은 저자가 주장하듯이, 기본 Mistral-7B 모델이 “‘90% 확신하세요'”와 같은 프롬프트를 유용한 방식으로 해석할 수 없으며, 추가 지침이 모델의 출력을 방해할 수 있음을 시사합니다.

반면에, 미세 조정된 모델은 제어 신호에 신뢰성 있게 응답하여 80%에서 18.7%, 90%에서 12.6%, 100%에서 23.6%의 준수 출력을 생성했습니다. 또한 오직 이 모델만이 완전히 사실적인 답변을 생성할 수 있었습니다:

‘이러한 개선은 사실성 제어를 통해 실제로 모델에 설치할 수 있음을 나타냅니다. FCG 모델은 충분히 신뢰할 수 있는 事實만을 포함하도록 출력을 조정하는 방법을 배웠습니다. 반면, 오프-더-쉘프 모델은 제어 신호를 효과적으로 사용할 수 없었습니다.’

별도의 테스트에서는 모델이 실제로 제어 신호를 해석하는 것을 확인하기 위해, 연구자들은 요청된 더 높은 진실 설정에 따라 평균 사실성의 응답이 증가하는지 확인했습니다.

이러한 패턴은 훈련 이전에는 나타나지 않았지만, 훈련 이후에는 일관된 상승 경향이 나타났으며, 더 높은 요청된 신뢰도에 따라 더 정확한 응답이 생성되었습니다:

타겟 진실 설정이 상승할수록, 미세 조정된 모델은 더 사실적인 출력을 생성했습니다. 반면, 기준선 모델은 일관된 변화를 보이지 않았습니다.

사실성과 ‘풍부함’ 사이의 트레이드오프도 조사되었습니다. 출력은 정확성뿐만 아니라, 증가하는 사실성 요구 사항 하에서 얼마나 많은 검증된 정보가 남아 있는지에 대한 점수로 평가되었습니다. 그래프에 나타난 바와 같이, FCG 모델은 대부분의 수준에서 두 가지 기준선보다 더 나은 성능을 보였습니다:

세 가지 방법의 사실성 대 정보 제공 그래프. 미세 조정된 모델은 두 가지 기준선보다 더 나은 균형을 제공했습니다. 비교할 수 있는 정확도 수준에서, 더 많은 사실적인 콘텐츠가 보존되었습니다. 또한, 가장 높은 설정에서, 오직 이 모델만이 비어 있지 않은 완전히 검증된 응답을 생성할 수 있었습니다.

90%의 타겟 정확도에서, FCG는 다른 방법보다 더 많은 事實을 보존했습니다. 또한, 전체 신뢰도 설정 범위에서, 기준선은 일관된 더 나은 결과를 생성하지 못했습니다.

차이는 가장 엄격한 설정에서 가장 두드러졌습니다. 여기서 FCG는 여전히 비零의 정보 제공량을 생성했습니다. 반면에, 프롬프트만 있는 기준선은 모든 것을 제거해야 했습니다. 이러한 경우, 단일 낮은 신뢰도 진술만으로도 전체 응답이 삭제되었습니다.

반면에, 미세 조정된 모델은 출력을 재구성하여 오직 충분히 신뢰할 수 있는 事實만을 보존할 수 있었습니다. 이는 다른 모델에서 발생한 침묵으로의 붕괴를 피할 수 있었습니다.

사실성은 직접 제어 설정에 의해 제약되었습니다. 반면, 정보 제공량은 모델이 가능한 한 많은 신뢰할 수 있는 콘텐츠를 포함하도록 최적화되었습니다. 더 높은 설정에서는 오직 신뢰할 수 있는 진술만이 유지되었습니다. 더 낮은 설정에서는 더 추측적인 세부사항이 포함되었습니다. 이는 길이를 증가시키지만 정확도를 감소시켰습니다.

저자들은 다음과 같이 결론을 내립니다:

‘높은 사실성 제약이 있는 경우, 모델은 사실적으로 검증된 진술을 우선시하면서, 가능한 한 많은 관련 정보를 포함합니다. 반면, 모델은 더广い 범위의 세부사항을 포함할 수 있는 자유가 있습니다. 이는 사실 정확성의 비용으로 더 높은 정보 제공량을 생성합니다. ‘

‘이 행동은 우리의 훈련 데이터 설계와 일치합니다. 우리는 항상 필요한 최소한의 事實만을 제거했습니다. 따라서 모델은 “x% 사실적이어야 한다면, 가장 불확실한 세부사항을 버리지만, 나머지는 유지한다”는 것을 배웠습니다.’

이 논문은 새로운 방법론이 더 큰 규모의 모델에서 시도되고, 더 복잡한 작업에 적용될 수 있기를希望하면서 마칩니다.