Anderson์ ๊ด์
ํด๋ฆฌ์คํฑ์ค vs. RAG: ๋ฌผ๊ฐ์์น์ผ๋ก ์ธํ ์ ์ฑ ๊ฒฐ์ ์

대부분의 경우, 웹을 검색하면 ChatGPT의 답변의 사실적 정확도를 높일 수 있습니다. 그렇다면, 왜 AI가 공공의 수용을 위해 고군분투하는 상황에서, 그것은 ‘추측’에 의존하는 것일까요?
의견 LLM(예: ChatGPT)가 자신의 호스트의 잠재적으로 추악한 관행에 대한 내부 고발을 하는 것은 오류입니다. 비록 비용이 많이 들고 시간이 걸리는 세션이 당신의 분노를 충분히 높여서 시스템의 약점에 대한 심층적인 분석을 하게 만들었더라도:

여기서 ChatGPT의 내부 논리(웹 기반 연구 및 RAG를 통한 검증 대신)에 대한 선호도가 논의되어 명백한 진실의 순간을 유도하지만, 그것을 믿지 마십시오. 출처
대부분의 경우 – 특히 지식 컷오프 날짜가 더 поздний 모델의 경우 – AI는 단지 훈련 중에 본 Reddit 및 포럼 게시물을 따라합니다. 실제로 그러한 ‘내부 정보’에 어떤 가치가 있다 하더라도, 그것을 증명하는 것은 불가능합니다.
그러나 때때로 이러한 격렬한 논쟁은 일부 LLM의 최악의 반복적인 습관을 방지하는 ‘해킹’ 또는 ‘트릭’을 발견하는 것으로 이어집니다. 예를 들어, 지난주에 ChatGPT는 ‘휴리스틱스 없음’이라는 명령어를 포함하여 더 열심히 일하고 더 적게 상상력을 사용하도록 할 수 있다고 제안했습니다:

그때 이후로 나는 ‘휴리스틱스 없음’을 많이 사용했으며, 한 번도 모델이 내 요청을 닫은 후에 자신의 훈련된 지식을 사용하지 않았습니다. 대신, GPT는 즉시 웹을 검색하여 관련 문서를 찾는 RAG(Retrieval Augmented Generation)를 사용합니다.
실제로 대부분의 요청에 대해서는 이것은 시스템에 ‘웹 검색’을 하도록 지시하는 것과 다를 바 없습니다. ‘휴리스틱스 없음’이라는 문구가 真正로 도움이 되는 경우는 ChatGPT가 새로 업로드된 PDF를 실제로 읽지 않고 이전에 업로드된 PDF의 메타데이터를 사용하여 ‘유사한’ 하지만 완전히 상상된 답변을 생성하는 경우입니다.

그러나 채팅 세션이 진행될수록 이것이 작동할 가능성은 줄어듭니다. 또한 이러한 ‘트릭’이 신뢰할 수 있거나 시스템이 발전함에 따라 사용할 수 있는지 생각하는 것은 오류입니다.
RAG 무역
물가상승의 증가하는 문화와 OpenAI의 GPT 인프라와 같은 대규모 시스템이 행동의 작은 변화에 심각하게 영향을 받는다는 사실을 고려하면, 인기 있는 LLM인 ChatGPT의 선택에 의해 짧은 무게를 받는 것으로 믿을 수 있습니다.
예를 들어, RAG를 사용하여 웹을 검색할지, CoT(Chain-of-Thought) 프로세스를 시작하여 더 나은 결과를 얻을지, 또는 가장 빠르고 저렴한 해결책인 자신의 훈련된 임베딩과 로컬에서 사용 가능한 지식을 사용할지 결정하는 것과 같은 선택입니다.
여러 가지 실제 이유로 인해 공공의 민감한 프로필을 가진 LLM인 ChatGPT는 RAG 호출을 제한하고 자신의 휴리스틱스를 선호할 수 있습니다. 첫째, PR 관점에서 볼 때, 웹을 자주 검색하는 것은 LLM을 단순한 ‘구글러-바이-프록시’로 특징지어 지음으로써, 내재된 지식의 가치와 유료 구독의 매력을 약화시킵니다.
둘째, RAG 인프라는 유지 보수 및 업데이트에 비용이 듭니다. 반면에 로컬 추론은廉价하고 빠릅니다.
셋째, 시스템은 자신의 휴리스틱 결과가 개선될 수 있는지 결정하는 효과적인 방법이 없을 수 있으며, 이는 종종 휴리스틱을 먼저 실행하지 않고는 결정할 수 없습니다. 이는 최종 사용자가 잘못된 휴리스틱 결과를 평가하고, 결과가 부족한 경우 RAG 호출을 요청하는 작업을 맡깁니다.
‘AI 물가상승’의 관점에서 볼 때, ChatGPT가 휴리스틱스를 통해 오류가 발생하고 RAG를 통해 성공하는 횟수는 시스템이 결과보다 비용을 최적화하고 있음을 나타낼 수 있습니다.
RAG는 시간이 지남에 따라 필요해집니다
ChatGPT의 최근 ‘고백’에도 불구하고, 물가상승에는 이와 관련된 더 넓은 맥락이 있습니다. RAG는廉价하지 않으며, 경험의 마찰이나 비용으로 인해 느립니다. 그러나 모델의 크기가 감소할수록 더 자주 올바른 결과를 제공합니다.
더 오래된 AI 모델의 경우, RAG는 시스템의 통화성을 유지하는 데 도움이 될 수 있으며, 네트워크 호출 및 기타 리소스의 비용으로 모델의 내부 가중치가 더 오래된 경우에 더 유용합니다. 그러나 더 새로운 모델의 경우, RAG의 검색은 중복되거나 결과의 품질을 손상시킬 수 있습니다.
따라서 AI는 RAG를 사용해야 하는지 여부를 판단할 수 있는 능력뿐만 아니라, 내부 가중치가 더 오래된 경우에 계속해서 RAG 사용 정책을 발전시켜야 합니다.
동시에, 시스템은 지식의 ‘상대적 상수’를 보호해야 합니다. 즉, 달의 궤도, 고전 문학, 문화 및 역사와 같은 기본 지리, 물리학 및 기타 과학적 원리입니다.
이상한 주제
현재, ChatGPT의 경우, RAG 호출(즉, 웹 연구를 사용하여 명시적 또는 암시적으로 웹 연구를 요구하지 않는 사용자 쿼리)은 시스템에 의해 자발적으로 선택되는 경우가 드뭅니다.
예를 들어, ‘미지의’ 소프트웨어 사용과 같은 주제의 경우, 최소한의 소스 데이터가 훈련 중에 주목을 받았을 수 있으며, 데이터의 ‘이상한’ 상태는 주목을 끌거나 또는 ‘미지의’ 또는 ‘중요하지 않은’ 것으로 간주될 수 있습니다. 그러나 모델의 지식 컷오프 이후에 만들어진 단 하나의 추가 포럼 게시물은 작은 주제에 대한 전체 데이터와 응답의 품질을 크게 향상시킬 수 있습니다.
그러나 RAG의 이점은 모델의 크기가 커질수록 줄어듭니다. 더 작은 모델은 검색에서 크게 이익을 얻지만, 더 큰 시스템은 RAG에서 마진이나 음의 개선을 나타낼 수 있습니다.
벤치마크에서 검색은 이점보다 더 많은 방해를 가져옵니다. 이는 더 큰 모델에 투자하거나 검색과 함께 더 작은 모델을 사용하는 것 사이의 트레이드오프를 나타냅니다.
따라서 RAG는 중간 크기 모델을 보완하는 데 가장 유용합니다. 이러한 모델은 외부 사실이 필요하지만, 더 복잡한 내부 휴리스틱으로 평가할 수 있습니다.
비상 시에만 사용
ChatGPT의 RAG 사용 결정에 대한 지침은 시스템 프롬프트에 명시적으로 노출되지 않지만, 암시적으로 주어집니다:
웹 도구를 사용하여 최신 정보에 액세스하거나 사용자의 위치에 대한 정보가 필요한 경우 웹 도구를 사용하십시오. 웹 도구를 사용해야 하는 예로는 다음이 있습니다:
로컬 정보: 사용자의 위치에 대한 정보가 필요한 질문에 대한 답변을 위해 웹 도구를 사용하십시오. 예를 들어, 날씨, 로컬 비즈니스 또는 이벤트입니다.
신선도: 주제에 대한 최신 정보가 답변을 변경하거나 향상시킬 수 있는 경우, 웹 도구를 호출하십시오.
니치 정보: 답변에詳細한 정보가 필요한 경우, 웹 소스를 직접 사용하십시오.
정확도: 작은 오류 또는 오래된 정보의 비용이 높은 경우(예: 소프트웨어 라이브러리의 오래된 버전을 사용하거나 스포츠 팀의 다음 게임 날짜를 모르는 경우), 웹 도구를 사용하십시오.
특히, 이러한 지침은 네이티브 훈련된 데이터가 부족한 경우에 RAG를 권장합니다. 그러나 시스템은 이러한 이해를 어떻게 얻을 수 있을까요? ChatGPT의 사용자와 관찰자는 시스템이 내부 휴리스틱을 사용하여 쿼리에 대한 답변을 생성한 후, 웹을 검색하는 위젯이 나타나는 경우에만 RAG를 사용한다고 결론지을 수 있습니다.
또한 RAG는 매우 제한된 수의 사용 사례에 대해서만 권장됩니다. 이는 GPT가 대부분의 사실 기반 도메인 쿼리에서 자신의 휴리스틱을 폴링하도록 추천합니다. 여기서 AI의 내재된 상상력은 주목할만한 책임이 될 수 있습니다.
결론
최근 연구의 경향은 휴리스틱 생성이 빠르고廉价하지만, 너무 자주 잘못된 반면, RAG는 더 느리며 비용이 더 많이 들지만, 더 자주 올바른 결과를 제공한다는 것을 나타냅니다. 모델의 크기가 줄어들수록 더 그렇습니다.
ChatGPT를 사용한 내 경험에 기반하여, OpenAI는 RAG를 너무 제한적으로 사용하고 있으며, 정밀 도구로 사용하고 있습니다. 특히 대화가 진행될수록 LLM이 상상력을 사용할 가능성이 더 높은 상황에서, 이는 현저하게 완화될 수 있습니다.
이 상황은 시스템이 자신의 휴리스틱 응답을 웹 기반의 권위 있는 출처와 비교하여, 사용자가 출력을 의심하거나 그에 의해 방해를 받기 전에, 내부 결과가 명백하게 불만족스러울 때까지 기다리지 않고, RAG를 사용하기로 결정할 수 있습니다.
그러나 시스템은 자신의 휴리스틱을 선택적으로 및 지능적으로 의심하고, 웹을 통해 휴리스틱 프로세스를 사용하여 RAG를 사용하기로 결정할 수 있습니다. 현재 모델의 아키텍처는 이러한 접근 방식을 허용하지 않을 수 있으며, 이는 API 필터의 마찰에 추가되어야 합니다.
현재로서는, 나는 문제가 있다고 증명할 수 없습니다. 심지어 ‘고백’을 통해도:

* 위의 링크를 참조하십시오.
** 이것은 ‘자발적으로 노출된’ GPT-5 시스템 프롬프트입니다. 그러나 일부에서는 이것이 GPT-5를 위해 재훈련된 프롬프트 포스트의 요약일 수 있다고 주장합니다.
† 나는 정말로 ChatGPT의 ‘고백’이 여기서 의미 있는 것을 암시하는 것은 아닙니다. OpenAI 정책과 관련된 문제에 대해 나는 ChatGPT의 당면한 견해에 대해 반대하는 경향이 있습니다. 따라서 그것은 결국 나의 암시된 의견을 반복할 것입니다.
최초로 게시된 2025년 12월 10일












