Connect with us

๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ์—์„œ ํ™˜๊ฐ ํ˜„์ƒ์„ ํ•ด๊ฒฐํ•˜๊ธฐ: ์ตœ์‹  ๊ธฐ์ˆ ์— ๋Œ€ํ•œ ์กฐ์‚ฌ

ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง

๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ์—์„œ ํ™˜๊ฐ ํ˜„์ƒ์„ ํ•ด๊ฒฐํ•˜๊ธฐ: ์ตœ์‹  ๊ธฐ์ˆ ์— ๋Œ€ํ•œ ์กฐ์‚ฌ

mm

대형 언어 모델(Large Language Models, LLMs)인 GPT-4, PaLM, Llama는 자연어 생성 능력에서 놀라운 발전을 이루었습니다. 그러나 이러한 모델의 신뢰성과 안전한 배치를 제한하는 지속적인 도전은 사실적으로 부정확하거나 입력 문脈에서 비롯되지 않은 내용을 생성하는 경향, 즉 환각 현상입니다.

LLMs가 실제 응용 프로그램에서 더욱 강력하고 普遍해짐에 따라 환각 현상을 해결하는 것이 중요합니다. 본 문서에서는 연구자들이 LLMs에서 환각 현상을检测, 정량화, 완화하기 위해 도입한 최신 기술에 대한 포괄적인 개요를 제공합니다.

LLMs에서 환각 현상 이해

환각 현상은 실제 또는 제공된 문脈에 기초하지 않는 사실적 부정확성 또는 허구를 생성하는 것을 말합니다. 일부 예로는:

  • 소스 자료에서 증거되지 않은 생애 세부 정보 또는 사건을 발명하는 것입니다.
  • 부작용 또는 치료 절차를 조작하여 잘못된 의료 조언을 제공하는 것입니다.
  • 주장을 뒷받침하기 위해 존재하지 않는 데이터, 연구 또는 출처를 조작하는 것입니다.

이 현상은 LLMs가大量의 온라인 텍스트 데이터에훈련되기 때문입니다. 이는 강력한 언어 모델링 능력을 갖추게 하지만, 모델이 정보를 외삽하고, 논리적인 도약을 하고, 간격을 채우는 방식으로 사실적으로 보이지만, 사실은 미끄러지거나 잘못된 정보를 생성할 수 있습니다.

환각 현상을 일으키는 일부 주요 요인에는:

  • 패턴 일반화 – LLMs는 훈련 데이터에서 패턴을 식별하고 확장하지만, 이는 잘 일반화되지 않을 수 있습니다.
  • 구식 지식 – 정적 사전 훈련은 새로운 정보를 통합하지 못합니다.
  • 모호성 – 모호한 프롬프트는 잘못된 가정의 여지를 줍니다.
  • 편향 – 모델은 편향된 관점을 지속시키고 증폭시킵니다.
  • 부족한 근거 – 이해와 추론의 부족으로 모델이 완전히 이해하지 못하는 내용을 생성합니다.

환각 현상을 해결하는 것은 의료, 법률, 금융, 교육 등에서 신뢰할 수 있는 배치를 위해 중요합니다. 이러한 분야에서 잘못된 정보를 생성하면 피해를 줄 수 있습니다.

환각 현상 완화 기술 분류

연구자들은 LLMs에서 환각 현상을 완화하기 위해 다양한 기술을 도입했으며, 이는 다음과 같이 분류할 수 있습니다.

1. 프롬프트 엔지니어링

이涉及 프롬프트를 신중하게 설계하여 LLM이 사실적이고 근거 있는 응답을 생성하도록 합니다.

  • 검색 보강 – 외부 증거를 검색하여 내용을 근거로 합니다.
  • 피드백 루프 – 피드백을 제공하여 응답을 정제합니다.
  • 프롬프트 튜닝 – 원하는 행동을 위해 프롬프트를 조정합니다.

2. 모델 개발

환각 현상이 적은 모델을 생성하기 위한 아키텍처 변경입니다.

  • 디코딩 전략 – 텍스트를 생성하여 신뢰성을 증가시킵니다.
  • 지식 근거 – 외부 지식 베이스를 통합합니다.
  • 새로운 손실 함수 – 훈련 중에 신뢰성을 최적화합니다.
  • 감독된 미세 조정 – 인간이 레이블을 붙인 데이터를 사용하여 사실성을 향상합니다.

다음으로, 각 접근 방식下的 주요 기술을 조사합니다.

주목할 만한 환각 현상 완화 기술

검색 보강 생성

검색 보강 생성은 외부 증거 문서를 검색하고, 모델의 내재된 지식만을頼하지 않고, 텍스트 생성을 조건화하여 LLMs를 향상시킵니다. 이는 내용을 최신의 검증 가능한 정보로 근거화하여 환각 현상을 줄입니다.

주목할 만한 기술에는:

  • RAG – 검색기 모듈을 사용하여 관련된 구절을 제공하고, 시퀀스-투-시퀀스 모델이 생성합니다. 두 구성 요소는 종단 간 훈련됩니다.
  • RARR – LLMs를 사용하여 생성된 텍스트의 비속성 클레임을 조사하고, 검색된 증거와 일치하도록 수정합니다.
  • 지식 검색 – 생성된 내용을 검색된 지식으로 검증하여 텍스트를 생성하기 전에 사실을 확인합니다.
  • LLM-증강기 – 지식 검색을 통해 증거 체인을 생성하여 LLM 프롬프트를 구성합니다.

피드백과 추론

반복적인 자연어 피드백이나 자기 추론을 사용하여 LLMs가 초기 출력을 정제하고 향상시킵니다.

CoVe는 검증 체인을 사용하는 기술입니다. LLM이 사용자의 질의에 대한 응답을 초안으로 작성한 다음, 자신이 만든 각 문장에 대한 검증 질문을 생성하여 사실을 확인합니다. 예를 들어, 새로운 의료 치료에 대한 응답에서 CoVe는 “이 치료의 효능은 무엇인가?”, “규제 승인을 받았는가?”, “잠재적인 부작용은 무엇인가?”와 같은 질문을 생성할 수 있습니다. 중요한 점은 LLM이 초기 응답에 편향되지 않고, 이러한 검증 질문에 독립적으로 답변하려고 시도한다는 것입니다. 검증 질문의 답변과 초기 응답의 문장이 모순되거나 일치하지 않는 경우, 시스템은 그것을 잠재적인 환각 현상으로 식별하고, 사용자에게 응답을 제공하기 전에 정제합니다.

DRESS는 인간의 선호도와 일치하도록 LLMs를 조정하는 기술입니다. 이 접근 방식은 비전문가 사용자가 모델 생성에 대한 자유 형식의 비평이나 정제 지침을 제공할 수 있습니다. 예를 들어, “부작용은 과장된 것으로 보인다” 또는 “비용 효율성도 논의해 주세요”와 같은 피드백을 제공할 수 있습니다. DRESS는 강화 학습을 사용하여 모델을 훈련하여 이러한 피드백에 따라 생성된 응답을 생성하도록 합니다. 이는 상호 작용성을 향상시키고, 비현실적이거나 비지지되는 문장을 줄입니다.

MixAlign은 사용자가 시스템에서 검색한 정보와 직접 관련이 없는 질문을 할 때 사용됩니다. 예를 들어, 사용자가 “중국에서 오염은 더 나빠질까?”라고ถาม했지만, 검색된 정보는 글로벌 오염 경향에 대해 논의합니다. MixAlign은 사용자와 명시적으로 확인하여, 검색된 정보를 사용자의 질문과 관련시킬 때 불확실한 경우를 피합니다. 이는 사람-중심의 메커니즘을 통해 피드백을 얻어, 근거 없는 응답을 방지하고, 증거를 올바르게 근거화하고 문脈화합니다.

Self-Reflection 기술은 LLMs를 훈련하여 자신의 응답을 평가하고, 피드백을 제공하고, 반복적으로 개선하는 멀티 태스크 접근 방식을 사용합니다. 예를 들어, 의료 질의에 대한 응답에서, 모델은 사실적 정확성을 평가하고, 모순되거나 비지지되는 문장을 식별하고, 검색된 지식을 사용하여 편집합니다. 이러한 피드백 루프를 통해 LLMs가 자신의 출력을 검토하고, 비盲的な 환각 현상을 줄입니다.

프롬프트 튜닝

프롬프트 튜닝은 LLMs에 제공되는 프롬프트를 미세 조정하여 원하는 행동을 얻을 수 있습니다.

SynTra 방법은 합성 요약 작업을 사용하여 요약 작업에서 환각 현상을 최소화합니다. 이 작업은 모델이 추상화 없이 소스 패스에서만 요약하도록 훈련합니다. 이렇게 하면 모델이 요약에서 새로운 정보를 생성하는 대신, 소스 콘텐츠에만 의존하도록 합니다. SynTra는 모델을 미세 조정하여 대상 작업에서 환각 현상을 줄이는 것으로 나타났습니다.

UPRISE는 다양한 작업에서 학습된 유니버설 프롬프트 검색기를 사용하여 미세 조정되지 않은 작업에서 최적의 프롬프트를 제공합니다. 다양한 작업에서 학습된 프롬프트를 검색하여, 모델이 새로운 작업에서 일반화하고 적응할 수 있도록 합니다. 이는 작업별 미세 조정을 요구하지 않으면서 성능을 향상시킵니다.

새로운 모델 아키텍처

FLEEK은 인간的事実 확인자와 검증자를 지원하는 시스템입니다. 이는 주어진 텍스트에서 잠재적으로 검증 가능한 사실적 주장을 자동으로 식별합니다. FLEEK는 이러한 주장을 질의로 변환하고, 지식 베이스에서 관련된 증거를 검색하여, 인간 검증자가 문서의 정확성과 수정 필요성을 효과적으로 검증할 수 있도록 합니다.

CAD는 문脈 인식 디코딩 접근 방식을 사용하여 언어 생성에서 환각 현상을 줄입니다. 특히, CAD는 모델의 출력 분포에서 문脈에 조건화된 경우와 무조건적인 경우의 차이를 증폭시킵니다. 이는 문脈 증거와 모순되는 것을 방지하여, 모델이 근거 있는 생성으로 направ하게 합니다.

DoLA는 事実적 환각 현상을 완화하기 위해 트랜스포머 네트워크의 다양한 레이어에서 로짓을 대조합니다. 事実적 지식은 일반적으로 중간 레이어에 국한되므로, DoLA의 로짓 대조를 통해 이러한 레이어의 신호를 증폭하여, 잘못된 事實적 생성을 줄입니다.

THAM 프레임워크는 훈련 중에 정규화 항을 도입하여 입력과 환각 출력 사이의 상호 정보를 최소화합니다. 이는 모델이 제공된 입력 문脈에 더 많이 의존하도록 하여, 비盲的な 환각 현상을 줄입니다.

지식 근거

LLMs 생성을 구조화된 지식으로 근거화하여 무제한한 추측과 허구를 방지합니다.

RHO 모델은 대화 문脈에서 개체를 식별하고, 지식 그래프(KG)에 연결합니다. 이러한 개체에 대한 관련的事實과 관계를 KG에서 검색하여, LLM에 제공되는 문脈 표현에 융합합니다. 이는 지식으로 풍부한 문脈을 제공하여, 대화에서 응답을 事實에 근거화하고, 환각 현상을 줄입니다.

HAR은 모델 생성의 환각 또는 왜곡을 포함하는 대체 사실 훈련 데이터셋을 생성하여, 모델을 더 잘 근거화하도록 합니다. 사실적 패스에 대해, 모델은 환각 또는 왜곡을 도입하여, 변경된 대체 사실 버전을 생성합니다. 이러한 데이터에 대한 미세 조정은 모델이 원래的事實적 소스에 더 잘 근거화하도록 하여, 즉흥적인 생성을 줄입니다.

감독된 미세 조정

  • 코치 – 사용자 질의에 응답하고, 또한 수정을 위해 질문합니다.
  • R-튜닝 – 거부 인식 튜닝은 훈련 데이터의 지식 격차를 통해 식별된 지원되지 않는 질문을 거부합니다.
  • TWEAK – 입력 事實을 잘 지원하는 가설에 따라 생성을 랭킹하는 디코딩 방법입니다.

도전과 제한

약속된 진행에도 불구하고, 환각 현상을 완화하는 데 몇 가지 주요 도전이 남아 있습니다.

  • 기술은 종종 품질, 일관성, 창의성과 사실성을 트레이드오프합니다.
  • 제한된 도메인에서 엄격한 평가를 수행하는 것이 어렵습니다. 지표는 모든 뉴앙스를 포착하지 못합니다.
  • 많은 방법은 계산적으로 비용이 많이 듭니다. 광범위한 검색 또는 자기 추론이 필요합니다.
  • 훈련 데이터의 품질과 외부 지식 소스에 크게 의존합니다.
  • 도메인과 모달리티에 걸쳐 일반화할 수 있는 것을 보장하기가 어렵습니다.
  • 환각 현상의 근본 원인인 과도한 외삽은 여전히 해결되지 않았습니다.

이러한 도전을 해결하는 것은 훈련 데이터 개선, 모델 아키텍처 개선, 신뢰성 향상 손실, 추론 시간 기술의 다층 접근 방식을 결합하여 요구합니다.

앞으로의 길

LLMs에서 환각 현상을 완화하는 것은 여전히 열린 연구 문제로, 진행 중입니다. 몇 가지 약속된 미래 방향에는:

  • 하이브리드 기술: 검색, 지식 근거, 피드백과 같은 보완적인 접근 방식을 결합합니다.
  • 인과 모델링: 이해와 추론을 향상시킵니다.
  • 온라인 지식 통합: 세계 지식을 최신 상태로 유지합니다.
  • 형식적 검증: 모델 행동에 대한 수학적 보장을 제공합니다.
  • 해석 가능성: 완화 기술에 투명성을 구축합니다.

LLMs가 높은 위험 도메인에서 普遍해짐에 따라, 환각 현상을 완화하기 위한 강력한 솔루션을 개발하는 것이 안전하고, 윤리적이고, 신뢰할 수 있는 배치를 보장하는 데 핵심이 될 것입니다. 본 문서에서 조사된 기술은 지금까지 제안된 기술에 대한 개요를 제공하며, 여전히 열린 연구 도전이 남아 있습니다. 전반적으로 모델的事實성을 향상시키는 긍정적인 추세가 있지만, 제한을 해결하고, 인과성, 검증, 하이브리드 방법과 같은 새로운 방향을 탐색하는 계속적인 진행이 필요합니다. 다양한 분야의 연구자들의 노력으로, 강력하지만 신뢰할 수 있는 LLMs의 꿈을 현실로 만들 수 있을 것입니다.

์ง€๋‚œ 5๋…„ ๋™์•ˆ็งใฏ Machine Learning๊ณผ Deep Learning์˜ ๋งค๋ ฅ์ ์ธ ์„ธ๊ณ„์— ๋ชฐ๋‘ํ•ด ์™”์Šต๋‹ˆ๋‹ค.็งใฎๆƒ…็†ฑใจๅฐ‚้–€็Ÿฅ่ญ˜ใฏใ€AI/ML์— ์ค‘์ ์„ ๋‘” 50๊ฐœ ์ด์ƒ์˜ ๋‹ค์–‘ํ•œ ์†Œํ”„ํŠธ์›จ์–ด ์—”์ง€๋‹ˆ์–ด๋ง ํ”„๋กœ์ ํŠธ์— ๊ธฐ์—ฌํ–ˆ์Šต๋‹ˆ๋‹ค.็งใฎ็ถ™็ถš็š„ใช ํ˜ธ๊ธฐ์‹ฌ์€ ๋˜ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ถ„์•ผ๋กœ็งใฎ ๊ด€์‹ฌ์„ ๋Œ์—ˆ๊ณ , ๋” ๊นŠ์ด ํƒ๊ตฌํ•˜๊ณ  ์‹ถ์€ ๋ถ„์•ผ์ž…๋‹ˆ๋‹ค.