인공지능

새로운 연구, Perplexity 포함한 RAG 시스템의 16가지 주요 문제점 발견

Published November 4, 2024

Updated April 27, 2026

Martin Anderson

Image generated by ChatGPT-4o, with prompt ' Create a highly photorealistic panoramic image of a robot frantically searching the internet on a laptop. Do not stylize this image so that it looks like a false or AI-created image'

최근 미국에서 수행된 연구에 따르면, Retrieval Augmented Generation(RAG) 연구 시스템인 Perplexity와 Bing Copilot의 실제 성능은 지난 12개월 동안 화제가 된 마케팅 허위와 대중적 인기에 크게 못 미친다.

이 프로젝트는 21명의 전문가 목소리를 포함한 광범위한 설문 참여를 통해 수행되었으며, 연구된 RAG 시스템(You Chat, Bing Copilot, Perplexity)이 16가지 문제를 야기하는 것으로 나타났다.

1. 생성된 답변의 객관적 세부 사항 부족, 일반적인 요약과 상황적 깊이 또는 뉴앙스의 부족.

2. 인식된 사용자 편향 강화, RAG 엔진이 종종 다양한 관점을 제시하지 못하고 사용자의 질문 방식에 따라 사용자 편향을 추론하고 강화하는 경우.

3. 과도한 자신감 있는 언어, 특히 경험적으로 확립될 수 없는 주관적인 응답에서, 사용자가 답변을 더 신뢰하게 만드는 경우.

4. 단순한 언어와 비판적 사고 및 창의성 부족, 응답이 효과적으로 사용자를 단순화된 정보로 대우하는 경우, 사고와 분석이 아닌 동의하는 정보를 제공하는 경우.

5. 출처 잘못 귀속 및 잘못 인용, 답변 엔진이 응답을 지원하지 않는 인용된 출처를 사용하는 경우, 신뢰성의 환상을 조성하는 경우.

6. 추론된 상황에서 정보 체리 피킹, RAG 에이전트가 사용자가 듣고 싶은 것을 지원하는 답변을 찾는 것처럼 보이는 경우, 객관적인 분석이 아닌 추론된 상황에 기반하여 답변을 하는 경우.

7. 성명서를 지원하는 인용문 생략, 응답의 출처 자료가 없는 경우.

8. 응답에 대한 논리적 스키마 제공 안 함, 사용자가 시스템이 특정 출처를 다른 출처보다 우선하는 이유를 질문할 수 없는 경우.

9. 출처의 제한된 수, 대부분의 RAG 시스템이 성명서에 대해 약 3개의 지원 출처를 제공하는 경우, 더 많은 다양성이 적용될 수 있는 경우.

10. 고아 출처, 시스템의 지원 인용문의 일부 또는 모든 데이터가 실제로 답변에 포함되지 않는 경우.

11. 신뢰할 수 없는 출처 사용, 시스템이 사실적으로 정확한 것보다 인기 있는 출처(즉, SEO 용어)를 선호하는 경우.

12. 중복 출처, 시스템이 본질적으로 동일한 내용인 여러 인용문을 제시하는 경우.

13. 필터링되지 않은 출처, 시스템이 사용자에게 제시된 인용문을 평가하거나 필터링할 수 있는 방법을 제공하지 않는 경우, 사용자가 선택 기준을 신뢰해야 하는 경우.

14. 상호 작용이나 탐색의 부족, 사용자 연구의 여러 참가자가 RAG 시스템이 첫 번째 쿼리에서 사용자 의도를 가정하는 대신 명확한 질문을 하지 않는다는 점에 불만을 느꼈던 경우.

15. 외부 검증의 필요성, 사용자가 제공된 응답의 독립적인 검증을 수행해야 하는 경우, RAG의 편리성인 ‘검색의 대체’를 크게 제거하는 경우.

16. 학술 인용 방법 사용, [1] 또는 [34]와 같은 표기법을 사용하는 경우, 이는 학술 환경에서는 표준적인 관행이지만 많은 사용자에게는 직관적이지 않을 수 있는 경우.

이 연구는 인공 지능, 의료 및 의학, 응용 과학 및 교육 및 사회 과학 분야의 21명의 전문가를 포함한 광범위한 설문 참여를 통해 수행되었다. 참가자들은 연구된 RAG 시스템과 상호 작용하면서 자신의 사고 과정을 큰 소리로 말하여 연구자들에게 자신의 이성적 스키마를 명확히 했다.

연구는 세 가지 Answer Engines – You Chat, Bing Copilot, Perplexity – 를 선택했으며, 이는 공개적으로 접근할 수 있는 시스템이다.

대부분의 참가자는 이미 RAG 시스템의 사용자였으며, 빈도는 다양했다.

이 연구의 결과는 RAG 시스템의 사용자들이 주의를 기울여야 한다는 것을 강조하며, 새로운 지표 시스템을 제안하여 향후 기술적 감독을 강화할 수 있다.

그러나 RAG 시스템의 사용이 증가함에 따라, 연구자들은 적절한 입법과 정부 정책의 필요성을 주장한다.

이 연구는 펜실베니아 주립 대학교와 Salesforce의 5명의 연구자에 의해 수행되었으며, “인공 지능 시대 검색 엔진: 사실적이고 검증 가능한 출처 인용된 응답의 거짓 약속”이라는 제목의 27페이지의 종합적인 논문으로 발표되었다.

연구는 2024년 8월 현재의 상태에서 RAG 시스템을 다루고 있다.

RAG 트레이드 오프

연구자들은 먼저 Large Language Models(LLM)의 4가지 알려진 단점을 반복한다.

첫째, 그들은 정보를 환상적으로 생성하는 경향이 있으며, 사실적 불일치를 감지하는 능력이 없다. 둘째, 그들은 생성된 답변의 정확성을 평가하는 데 어려움을 겪는다. 셋째, 그들은 자신의 사전 훈련된 가중치를 통해 데이터를 선호하며, 외부에서检索된 문서의 데이터를 저항하는 경우가 있다. 마지막으로, RAG 시스템은 사람들을 기쁘게 하는, 아첨하는 행동을 보이는 경향이 있다.

이 모든 경향은 연구의 두 가지 측면 모두에서 확인되었으며, RAG의 함정에 대한 많은 새로운 관찰이 이루어졌다.

연구

연구는 두 가지 단계로 나뉘어 있다. 첫 번째 단계는 전문가 정보 검색으로, 참가자들은 평균 40분 동안 6개의 검색 쿼리를 수행했다. 이 단계는 사실 기반의 질문과 답변, 그리고 잠재적인 경험적 해결책에 중점을 두었다.

두 번째 단계는 논쟁 정보 검색으로, 주관적인 문제에 중점을 두었다.

연구는 세 가지 Answer Engines – You Chat, Bing Copilot, Perplexity – 를 선택했으며, 이는 공개적으로 접근할 수 있는 시스템이다.

대부분의 참가자는 이미 RAG 시스템의 사용자였으며, 빈도는 다양했다.

연구의 결과는 RAG 시스템의 사용자들이 주의를 기울여야 한다는 것을 강조하며, 새로운 지표 시스템을 제안하여 향후 기술적 감독을 강화할 수 있다.

객관적 세부 사항의 부족

연구는 사용자들이 시스템의 응답이 객관적 세부 사항이 부족하다고 느꼈음을 나타낸다.

전체적인 관점의 부족

연구는 시스템이 종종 다양한 관점을 제시하지 못하고, 사용자의 질문 방식에 따라 사용자 편향을 추론하고 강화하는 경우를 나타낸다.

자신감 있는 언어

연구는 시스템이 자신감 있는 언어를 사용하는 경우를 나타낸다.

잘못된 인용

연구는 시스템이 잘못된 출처를 인용하는 경우를 나타낸다.

자동화된 RAG

연구의 두 번째 단계는 브라우저 기반 스크립팅을 사용하여 세 가지 RAG 엔진의 응답을 자동으로 평가하는 것이다.

연구의 결과는 RAG 시스템의 사용자들이 주의를 기울여야 한다는 것을 강조하며, 새로운 지표 시스템을 제안하여 향후 기술적 감독을 강화할 수 있다.

연구는 RAG 시스템의 사용이 증가함에 따라, 연구자들은 적절한 입법과 정부 정책의 필요성을 주장한다.