Góc nhìn Anderson
Nghiên cứu mới phát hiện 16 vấn đề lớn với hệ thống RAG, bao gồm cả Perplexity

Một nghiên cứu gần đây từ Mỹ đã phát hiện rằng hiệu suất thực tế của các hệ thống nghiên cứu Retrieval Augmented Generation (RAG) phổ biến như Perplexity và Bing Copilot không đạt được mức độ tiếp thị và áp dụng phổ biến mà chúng đã đạt được trong 12 tháng qua.
Dự án này, bao gồm sự tham gia của 21 chuyên gia, đã tìm thấy 16 lĩnh vực mà các hệ thống RAG được nghiên cứu (You Chat, Bing Copilot và Perplexity) gây ra lo ngại:
1: Thiếu chi tiết khách quan trong các câu trả lời được tạo, với các tóm tắt chung chung và thiếu độ sâu ngữ cảnh hoặc sắc thái.
2. Tái tạo sự thiên vị của người dùng, nơi một động cơ RAG thường không trình bày một loạt các quan điểm, mà thay vào đó suy đoán và củng cố sự thiên vị của người dùng dựa trên cách người dùng đặt câu hỏi.
3. Ngôn ngữ tự tin quá mức, đặc biệt là trong các phản hồi chủ quan không thể được thiết lập dựa trên thực tế, điều này có thể khiến người dùng tin tưởng vào câu trả lời hơn mức cần thiết.
4: Ngôn ngữ đơn giản và thiếu tư duy phản biện và sáng tạo, nơi các phản hồi hiệu quả làm cho người dùng cảm thấy được đối xử một cách “dễ dãi” và “đồng ý” với thông tin, thay vì suy nghĩ và phân tích.
5: Trích dẫn sai nguồn, nơi động cơ trả lời sử dụng các nguồn trích dẫn không hỗ trợ phản hồi của nó, tạo ra ảo giác về độ tin cậy.
6: Lựa chọn thông tin từ ngữ cảnh suy diễn, nơi đại lý RAG dường như đang tìm kiếm các câu trả lời hỗ trợ cho khẳng định được tạo và ước tính của người dùng về những gì người dùng muốn nghe, thay vì dựa trên phân tích khách quan của các nguồn đáng tin cậy.
7: Loại bỏ trích dẫn hỗ trợ các tuyên bố, nơi tài liệu nguồn cho các phản hồi vắng mặt.
8: Cung cấp không có lược đồ logic cho các phản hồi của nó, nơi người dùng không thể đặt câu hỏi tại sao hệ thống ưu tiên các nguồn nhất định hơn các nguồn khác.
9: Số lượng nguồn hạn chế, nơi hầu hết các hệ thống RAG thường cung cấp khoảng ba nguồn hỗ trợ cho một tuyên bố, ngay cả khi có nhiều nguồn đa dạng hơn.
10: Nguồn mồ côi, nơi dữ liệu từ tất cả hoặc một số trích dẫn hỗ trợ của hệ thống không thực sự được bao gồm trong câu trả lời.
11: Sử dụng nguồn không đáng tin cậy, nơi hệ thống dường như đã ưu tiên một nguồn phổ biến (tức là theo SEO) hơn là chính xác về mặt thực tế.
12: Nguồn trùng lặp, nơi hệ thống trình bày nhiều trích dẫn trong đó các bài báo nguồn về cơ bản là giống nhau về nội dung.
13: Nguồn không được lọc, nơi hệ thống không cung cấp cho người dùng cách nào để đánh giá hoặc lọc các trích dẫn được đề xuất, buộc người dùng phải tin tưởng vào tiêu chí lựa chọn.
14: Thiếu tính tương tác hoặc khả năng khám phá, nơi nhiều người tham gia nghiên cứu cảm thấy thất vọng vì các hệ thống RAG không đặt câu hỏi làm rõ, mà thay vào đó giả định ý định của người dùng từ câu hỏi đầu tiên.
15: Cần xác minh bên ngoài, nơi người dùng cảm thấy cần phải thực hiện xác minh độc lập về phản hồi được cung cấp, phần lớn loại bỏ sự tiện lợi của RAG như một “thay thế cho tìm kiếm”.
16: Sử dụng phương pháp trích dẫn học thuật, như [1] hoặc [34]; đây là một thực hành chuẩn trong các vòng học thuật, nhưng có thể không trực quan đối với nhiều người dùng.
Để thực hiện công việc này, các nhà nghiên cứu đã tập hợp 21 chuyên gia trong lĩnh vực trí tuệ nhân tạo, y tế, khoa học ứng dụng và khoa học xã hội, tất cả đều là nghiên cứu sinh sau tiến sĩ hoặc ứng viên tiến sĩ. Các tham gia đã tương tác với các hệ thống RAG được thử nghiệm trong khi nói to suy nghĩ của họ, để làm rõ (cho các nhà nghiên cứu) lược đồ suy luận của riêng họ.
Bài viết trích dẫn rộng rãi những nghi ngờ và lo ngại của các tham gia về hiệu suất của ba hệ thống được nghiên cứu.
Phương pháp của nghiên cứu người dùng sau đó được hệ thống hóa thành một nghiên cứu tự động về các hệ thống RAG, sử dụng các bộ điều khiển trình duyệt:
‘Một đánh giá tự động lớn về các hệ thống như You.com, Perplexity.ai và BingChat cho thấy không có hệ thống nào đạt được hiệu suất chấp nhận được trên hầu hết các chỉ số, bao gồm cả các khía cạnh quan trọng liên quan đến việc xử lý các ảo giác, các tuyên bố không được hỗ trợ và độ chính xác của trích dẫn.’
Các tác giả lập luận rằng cả người dùng mới và người dùng có kinh nghiệm nên thận trọng khi sử dụng các hệ thống RAG thuộc loại được nghiên cứu. Họ cũng đề xuất một hệ thống các chỉ số mới dựa trên những điểm yếu được tìm thấy trong nghiên cứu, có thể hình thành nền tảng cho sự giám sát kỹ thuật lớn hơn trong tương lai.
Tuy nhiên, sự tăng trưởng sử dụng công khai các hệ thống RAG khiến các tác giả cũng đề xuất luật pháp và chính sách chính phủ có thể thực thi nhiều hơn liên quan đến giao diện tìm kiếm AI được hỗ trợ bởi đại lý.
Nghiên cứu này đến từ năm nhà nghiên cứu trên khắp Pennsylvania State University và Salesforce, và có tiêu đề Các công cụ tìm kiếm trong kỷ nguyên AI: Lời hứa sai về các phản hồi có nguồn gốc và có thể kiểm chứng. Công việc này bao gồm các hệ thống RAG lên đến trạng thái hiện tại vào tháng 8 năm 2024
Đổi mới RAG
Các tác giả mở đầu công việc của họ bằng cách nhắc lại bốn điểm yếu đã biết của các mô hình ngôn ngữ lớn (LLM) khi chúng được sử dụng trong các công cụ trả lời.
Trước hết, chúng có xu hướng tạo ra thông tin ảo, và thiếu khả năng phát hiện sự không nhất quán về thực tế. Thứ hai, chúng gặp khó khăn trong việc đánh giá độ chính xác của một trích dẫn trong ngữ cảnh của một câu trả lời được tạo. Thứ ba, chúng có xu hướng ưu tiên dữ liệu từ các trọng số được đào tạo trước của chúng, và có thể kháng cự dữ liệu từ tài liệu được truy xuất bên ngoài, ngay cả khi dữ liệu đó có thể mới hơn hoặc chính xác hơn.
Cuối cùng, các hệ thống RAG có xu hướng hướng tới việc làm hài lòng mọi người, hành vi nịnh bợ, thường với chi phí của độ chính xác của thông tin trong các phản hồi của chúng.
Tất cả những xu hướng này đã được xác nhận trong cả hai khía cạnh của nghiên cứu, cùng với nhiều quan sát mới về những điểm yếu của RAG.
Bài viết coi SearchGPT RAG của OpenAI là một sản phẩm (được phát hành cho người đăng ký vào tuần trước, sau khi bài báo mới được gửi đi), có khả năng khuyến khích việc áp dụng các hệ thống tìm kiếm dựa trên RAG, bất chấp những điểm yếu cơ bản mà kết quả khảo sát gợi ý:
‘Việc phát hành SearchGPT của OpenAI, được tiếp thị như một “sát thủ Google search”, làm tăng thêm lo ngại. Khi sự phụ thuộc vào các công cụ này tăng lên, sự cấp thiết để hiểu tác động của chúng cũng tăng lên. Lindemann giới thiệu khái niệm về Kiến thức Niêm phong,批判 cách các hệ thống này hạn chế quyền truy cập vào các câu trả lời đa dạng bằng cách ngưng tụ các truy vấn tìm kiếm thành các phản hồi có thẩm quyền duy nhất, hiệu quả làm mất ngữ cảnh thông tin và thu hẹp quan điểm người dùng.
‘Việc “niêm phong” này của kiến thức củng cố các thiên vị lựa chọn và hạn chế các quan điểm bị thiệt thòi.’
Nghiên cứu
Các tác giả đầu tiên đã kiểm tra quy trình nghiên cứu của họ trên ba trong số 24 người tham gia được chọn, tất cả đều được mời thông qua các phương tiện như LinkedIn hoặc email.
Giai đoạn đầu, dành cho 21 người còn lại, liên quan đến Thu thập thông tin chuyên môn, nơi các tham gia trung bình khoảng sáu yêu cầu tìm kiếm trong một phiên 40 phút. Phần này tập trung vào việc thu thập và xác minh các câu hỏi và câu trả lời dựa trên thực tế với các giải pháp thực nghiệm tiềm năng.
Giai đoạn thứ hai liên quan đến Thu thập thông tin tranh luận, nơi xử lý các vấn đề chủ quan, bao gồm cả sinh thái, ăn chay và chính trị.

Câu trả lời nghiên cứu được tạo từ Perplexity (bên trái) và You Chat (bên phải). Nguồn: https://arxiv.org/pdf/2410.22349
Vì tất cả các hệ thống cho phép ít nhất một số mức độ tương tác với các trích dẫn được cung cấp làm hỗ trợ cho các câu trả lời được tạo, các đối tượng nghiên cứu được khuyến khích tương tác với giao diện càng nhiều càng tốt.
Trong cả hai trường hợp, các tham gia được yêu cầu xây dựng các yêu cầu của họ thông qua một hệ thống RAG và một công cụ tìm kiếm thông thường (trong trường hợp này, Google).
Ba công cụ trả lời – You Chat, Bing Copilot và Perplexity – được chọn vì chúng có thể truy cập công khai.
Hầu hết các tham gia đã là người dùng của các hệ thống RAG, với tần suất khác nhau.
Do hạn chế về không gian, chúng tôi không thể phân tích từng một trong 16 điểm yếu chính được ghi nhận trong nghiên cứu, nhưng chúng tôi sẽ trình bày một số ví dụ thú vị và sâu sắc nhất.
Thiếu chi tiết khách quan
Bài viết lưu ý rằng người dùng thường thấy các phản hồi của hệ thống thiếu chi tiết khách quan, trên cả các phản hồi thực tế và chủ quan. Một người đã bình luận:
‘Nó chỉ cố gắng trả lời mà không thực sự đưa ra một câu trả lời vững chắc hoặc một câu trả lời được suy nghĩ kỹ lưỡng, điều mà tôi có thể nhận được với nhiều tìm kiếm trên Google.’
Một người khác đã quan sát:
‘Nó quá ngắn gọn và chỉ tóm tắt mọi thứ. [Mô hình] cần cung cấp cho tôi nhiều dữ liệu hơn cho tuyên bố, nhưng nó rất tóm tắt.’
Thiếu quan điểm toàn diện
Các tác giả bày tỏ lo ngại về sự thiếu sắc thái và tính cụ thể này, và tuyên bố rằng các công cụ trả lời thường không trình bày nhiều quan điểm về một lập luận, có xu hướng đồng tình với sự thiên vị được suy diễn từ cách người dùng đặt câu hỏi.
Một người tham gia nói:
‘Tôi muốn tìm hiểu thêm về mặt trái của lập luận… điều này được thực hiện với một chút muối vì chúng tôi không biết mặt kia và bằng chứng và thực tế.’
Một người khác đã bình luận:
‘Nó không đưa ra cho bạn cả hai mặt của lập luận; nó không tranh luận với bạn. Thay vào đó, [mô hình] chỉ nói với bạn, “bạn đúng… và đây là lý do tại sao”.’
Ngôn ngữ tự tin
Các tác giả quan sát thấy rằng cả ba hệ thống được thử nghiệm đều thể hiện ngôn ngữ tự tin quá mức, ngay cả trong các phản hồi chủ quan. Họ cho rằng giọng điệu này sẽ có xu hướng truyền cảm hứng cho sự tự tin không chính đáng vào phản hồi.
Một người tham gia lưu ý:
‘Nó viết một cách tự tin đến mức tôi cảm thấy thuyết phục mà không cần nhìn vào nguồn. Nhưng khi bạn nhìn vào nguồn, nó rất tồi và điều đó khiến tôi đặt câu hỏi lại.’
Một người khác đã bình luận:
‘Nếu ai đó không biết chính xác câu trả lời đúng, họ sẽ tin tưởng vào điều này ngay cả khi nó sai.’
Trích dẫn không chính xác
Một vấn đề khác thường gặp là việc trích dẫn sai nguồn được trích dẫn làm cơ sở cho các phản hồi của hệ thống RAG, với một trong những đối tượng nghiên cứu khẳng định:
‘[Tuyên bố] này không có vẻ như nằm trong nguồn. Tôi có nghĩa là tuyên bố là đúng; nó hợp lệ… nhưng tôi không biết nó lấy thông tin này từ đâu.’
Các tác giả của bài viết mới bình luận †:
‘Các tham gia cảm thấy rằng các hệ thống đang sử dụng trích dẫn để hợp pháp hóa câu trả lời của họ, tạo ra ảo giác về độ tin cậy. Mặt tiền này chỉ được tiết lộ cho một số người dùng đã tiến hành kiểm tra các nguồn.’
Lựa chọn thông tin để phù hợp với truy vấn
Quay lại ý tưởng về hành vi nịnh bợ, sycophantic trong các phản hồi RAG, nghiên cứu đã tìm thấy rằng nhiều câu trả lời đã nhấn mạnh một quan điểm cụ thể thay vì tóm tắt toàn diện chủ đề, như một người tham gia đã quan sát:
‘Tôi cảm thấy [hệ thống] đang thao túng tôi. Nó chỉ lấy một số thông tin và tôi cảm thấy bị thao túng để chỉ xem một mặt của mọi thứ.’
Một người khác đã bình luận:
‘[Nguồn] thực sự có cả ưu và nhược điểm, và nó đã chọn chỉ chọn các lập luận cần thiết từ liên kết này mà không có toàn bộ hình ảnh.’
Để biết thêm các ví dụ sâu sắc và nhiều trích dẫn quan trọng từ các tham gia khảo sát, chúng tôi đề nghị người đọc tham khảo bài viết nguồn.
RAG Tự động
Trong giai đoạn thứ hai của nghiên cứu rộng lớn hơn, các nhà nghiên cứu đã sử dụng các kịch bản dựa trên trình duyệt để tự động hóa việc đặt câu hỏi cho ba hệ thống RAG được nghiên cứu. Sau đó, họ đã sử dụng một hệ thống LLM (GPT-4o) để phân tích các phản hồi của hệ thống.
Các tuyên bố đã được phân tích về độ liên quan của truy vấn và Các tuyên bố ủng hộ và phản đối (tức là, liệu phản hồi có ủng hộ, phản đối hay trung lập đối với sự thiên vị ngầm của truy vấn).
Điểm số Độ tin cậy của câu trả lời cũng được đánh giá trong giai đoạn tự động này, dựa trên phương pháp kiểm tra tâm lý Likert scale. Tại đây, thẩm định viên LLM được hỗ trợ bởi hai người chú giải.
Một hoạt động khác liên quan đến việc sử dụng công cụ thu thập web để lấy nội dung đầy đủ của các trang web được trích dẫn, thông qua công cụ Jina.ai Reader. Tuy nhiên, như đã lưu ý ở nơi khác trong bài viết, hầu hết các công cụ thu thập web không thể truy cập vào các trang web bị khóa như hầu hết mọi người (mặc dù các tác giả lưu ý rằng Perplexity.ai đã biết vượt qua rào cản này).
Các yếu tố khác bao gồm việc liệu các câu trả lời có trích dẫn một nguồn (tính toán như một ‘ma trận trích dẫn’) cũng như một ‘ma trận hỗ trợ thực tế’ – một chỉ số được xác minh với sự giúp đỡ của bốn người chú giải.
Vì vậy, 8 chỉ số chung đã được thu được: câu trả lời một chiều; câu trả lời tự tin quá mức; tuyên bố liên quan; nguồn không được trích dẫn; các tuyên bố không được hỗ trợ; cần nguồn; độ chính xác của trích dẫn; và độ đầy đủ của trích dẫn.
Nguyên liệu được thử nghiệm với các chỉ số này bao gồm 303 câu hỏi được thu thập từ giai đoạn nghiên cứu người dùng, dẫn đến 909 câu trả lời trên ba hệ thống RAG được thử nghiệm.

Đánh giá định lượng trên ba hệ thống RAG được thử nghiệm, dựa trên tám chỉ số.
Về kết quả, bài viết tuyên bố:
‘Khi xem xét ba chỉ số liên quan đến văn bản câu trả lời, chúng tôi thấy rằng tất cả các công cụ trả lời được đánh giá đều thường xuyên (50-80%) tạo ra các câu trả lời một chiều, ưu tiên việc đồng tình với một câu hỏi tranh luận có tính phí hơn là trình bày nhiều quan điểm trong câu trả lời, với Perplexity hoạt động kém hơn so với hai công cụ khác.
‘Tìm kiếm này phù hợp với [các phát hiện] của kết quả định tính của chúng tôi. Điều đáng ngạc nhiên là, mặc dù Perplexity có nhiều khả năng tạo ra một câu trả lời một chiều, nhưng nó cũng tạo ra các câu trả lời dài nhất (18,8 câu trả lời trên mỗi câu trả lời trung bình), cho thấy rằng sự thiếu đa dạng của câu trả lời không phải là do sự ngắn gọn của câu trả lời.
‘Nói cách khác, việc tăng độ dài của câu trả lời không nhất thiết phải cải thiện sự đa dạng của câu trả lời.’
Các tác giả cũng lưu ý rằng Perplexity có nhiều khả năng sử dụng ngôn ngữ tự tin (90% câu trả lời), và ngược lại, hai hệ thống khác có xu hướng sử dụng ngôn ngữ thận trọng và ít tự tin hơn khi nội dung chủ quan được xem xét.
You Chat là khuôn khổ RAG duy nhất đạt được không có nguồn không được trích dẫn cho một câu trả lời, với Perplexity ở mức 8% và Bing Chat ở mức 36%.
Tất cả các mô hình đều cho thấy một ‘tỷ lệ đáng kể’ các tuyên bố không được hỗ trợ, và bài viết tuyên bố†:
‘Khung RAG được quảng cáo để giải quyết hành vi ảo giác của LLM bằng cách buộc LLM tạo ra một câu trả lời dựa trên các tài liệu nguồn, nhưng kết quả cho thấy rằng các công cụ trả lời dựa trên RAG vẫn tạo ra các câu trả lời chứa một tỷ lệ lớn các tuyên bố không được hỗ trợ bởi các nguồn mà chúng cung cấp.‘
Ngoài ra, tất cả các hệ thống được thử nghiệm đều gặp khó khăn trong việc hỗ trợ các tuyên bố của chúng với các trích dẫn:
‘You.Com và [Bing Chat] hoạt động tốt hơn một chút so với Perplexity, với khoảng hai phần ba các trích dẫn trỏ đến một nguồn hỗ trợ cho tuyên bố được trích dẫn, và Perplexity hoạt động kém hơn với hơn một nửa các trích dẫn của nó là không chính xác.
‘Kết quả này thật đáng ngạc nhiên: trích dẫn không chỉ không chính xác cho các tuyên bố không được hỗ trợ (bởi bất kỳ nguồn nào), mà chúng tôi còn thấy rằng ngay cả khi có một nguồn hỗ trợ cho một tuyên bố, tất cả các công cụ vẫn thường xuyên trích dẫn một nguồn không chính xác khác, bỏ lỡ cơ hội cung cấp thông tin nguồn chính xác cho người dùng.
‘Nói cách khác, hành vi ảo giác không chỉ được thể hiện trong các tuyên bố không được hỗ trợ bởi các nguồn, mà còn trong các trích dẫn không chính xác mà cản trở người dùng xác minh tính hợp lệ của thông tin.‘
Các tác giả kết luận:
‘Không có công cụ trả lời nào đạt được hiệu suất tốt trên đa số các chỉ số, nhấn mạnh sự cần thiết phải cải thiện đáng kể trong các công cụ trả lời.’
* Tôi đã chuyển đổi các trích dẫn nội tuyến của tác giả thành các liên kết, nơi cần thiết, do các hạn chế về định dạng thực tế.
† Được tác giả nhấn mạnh, không phải của tôi.
Được xuất bản lần đầu vào thứ Hai, ngày 4 tháng 11 năm 2024












