Trí tuệ nhân tạo

Nghiên cứu mới phát hiện 16 vấn đề lớn với hệ thống RAG, bao gồm cả sự bối rối

Published November 4, 2024

Updated April 27, 2026

Martin Anderson

Image generated by ChatGPT-4o, with prompt ' Create a highly photorealistic panoramic image of a robot frantically searching the internet on a laptop. Do not stylize this image so that it looks like a false or AI-created image'

Một nghiên cứu gần đây từ Mỹ đã phát hiện ra rằng hiệu suất trong thế giới thực của các hệ thống nghiên cứu Retrieval Augmented Generation (RAG) phổ biến như Perplexity và Bing Copilot không đạt được mức độ mà các cuộc tiếp thị và áp dụng phổ biến đã tạo ra trong 12 tháng qua.

Dự án, bao gồm sự tham gia của 21 chuyên gia, đã tìm thấy 16 lĩnh vực mà các hệ thống RAG (You Chat, Bing Copilot và Perplexity) tạo ra nguyên nhân quan ngại:

1: Thiếu chi tiết khách quan trong các câu trả lời được tạo, với các bản tóm tắt chung chung và thiếu độ sâu ngữ cảnh hoặc sắc thái.

2. Tái khẳng định thiên vị người dùng nhận thức, nơi một động cơ RAG thường không trình bày một loạt các quan điểm, mà thay vào đó suy luận và tái khẳng định thiên vị người dùng, dựa trên cách người dùng đặt câu hỏi.

3. Ngôn ngữ tự tin quá mức, đặc biệt là trong các câu trả lời chủ quan không thể được thiết lập dựa trên thực nghiệm, điều này có thể khiến người dùng tin tưởng vào câu trả lời hơn mức nó xứng đáng.

4: Ngôn ngữ đơn giản và thiếu tư duy phản biện và sáng tạo, nơi các câu trả lời hiệu quả làm cho người dùng cảm thấy bị coi thường với thông tin ‘dumbed-down’ và ‘đồng ý’, thay vì suy nghĩ và phân tích có suy nghĩ.

5: Sai nguồn và trích dẫn sai, nơi động cơ câu trả lời sử dụng nguồn trích dẫn không hỗ trợ câu trả lời của nó, tạo ra ảo tưởng về tính hợp pháp.

6: Chọn lọc thông tin từ ngữ cảnh suy luận, nơi tác nhân RAG dường như đang tìm kiếm các câu trả lời hỗ trợ cho câu trả lời được tạo ra và ước tính của nó về những gì người dùng want to hear, thay vì dựa trên phân tích khách quan của các nguồn đáng tin cậy (có thể chỉ ra sự mâu thuẫn giữa dữ liệu ‘baked’ của hệ thống LLM và dữ liệu mà nó thu được từ internet khi trả lời một truy vấn).

7: Loại bỏ trích dẫn hỗ trợ cho các tuyên bố, nơi tài liệu nguồn cho các câu trả lời vắng mặt.

8: Cung cấp không có lược đồ logic cho các câu trả lời của nó, nơi người dùng không thể đặt câu hỏi tại sao hệ thống ưu tiên các nguồn này hơn các nguồn khác.

9: Số lượng nguồn hạn chế, nơi hầu hết các hệ thống RAG thường cung cấp khoảng ba nguồn hỗ trợ cho một tuyên bố, ngay cả khi một đa dạng nguồn lớn hơn sẽ được áp dụng.

10: Nguồn mồ côi, nơi dữ liệu từ tất cả hoặc một số trích dẫn hỗ trợ của hệ thống không thực sự được bao gồm trong câu trả lời.

11: Sử dụng nguồn không đáng tin cậy, nơi hệ thống dường như đã ưu tiên một nguồn phổ biến (tức là, theo các thuật ngữ SEO) hơn là chính xác về mặt事 thực.

12: Nguồn trùng lặp, nơi hệ thống trình bày nhiều trích dẫn trong đó các bài báo nguồn cơ bản giống nhau về nội dung.

13: Nguồn không được lọc, nơi hệ thống cung cấp cho người dùng không có cách nào để đánh giá hoặc lọc các trích dẫn được cung cấp, buộc người dùng phải tin tưởng vào tiêu chí lựa chọn.

14: Thiếu tính tương tác hoặc khả năng khám phá, nơi một số người tham gia nghiên cứu cảm thấy bực tức rằng các hệ thống RAG không đặt câu hỏi làm rõ, nhưng giả định ý định người dùng từ truy vấn đầu tiên.

15: Cần phải xác minh bên ngoài, nơi người dùng cảm thấy bị ép buộc phải thực hiện xác minh độc lập của các câu trả lời được cung cấp, hầu như loại bỏ sự tiện lợi được cho là của RAG như một ‘thay thế cho tìm kiếm’.

16: Sử dụng phương pháp trích dẫn học thuật, như [1] hoặc [34]; đây là thực hành tiêu chuẩn trong các vòng học thuật, nhưng có thể không trực quan cho nhiều người dùng.

Vì công việc, các nhà nghiên cứu đã tập hợp 21 chuyên gia trong lĩnh vực trí tuệ nhân tạo, y tế và y học, khoa học ứng dụng và giáo dục và khoa học xã hội, tất cả đều là nghiên cứu sau tiến sĩ hoặc ứng viên tiến sĩ. Những người tham gia đã tương tác với các hệ thống RAG được thử nghiệm trong khi nói to những suy nghĩ của họ, để làm rõ (cho các nhà nghiên cứu) sơ đồ tư duy của họ.

Bản thảo rộng 27 trang của bài báo trích dẫn rộng rãi những nghi ngờ và quan ngại của các tham gia về hiệu suất của ba hệ thống được nghiên cứu.

Phương pháp của nghiên cứu người dùng sau đó được hệ thống hóa thành một nghiên cứu tự động của các hệ thống RAG, sử dụng các bộ điều khiển trình duyệt:

‘Một đánh giá tự động lớn của các hệ thống như You.com, Perplexity.ai và BingChat cho thấy không có hệ thống nào đáp ứng được hiệu suất chấp nhận được trên hầu hết các chỉ số, bao gồm cả các khía cạnh quan trọng liên quan đến việc xử lý các ảo giác, các tuyên bố không được hỗ trợ và độ chính xác của trích dẫn.’

Các tác giả lập luận rằng cả người dùng mới và người dùng có kinh nghiệm nên thận trọng khi sử dụng lớp hệ thống RAG được nghiên cứu. Họ cũng đề xuất một hệ thống mới của các chỉ số, dựa trên những điểm yếu được tìm thấy trong nghiên cứu, có thể tạo thành nền tảng cho sự giám sát kỹ thuật lớn hơn trong tương lai.

Tuy nhiên, sự gia tăng việc sử dụng công khai các hệ thống RAG khiến các tác giả cũng đề xuất luật pháp và chính sách chính phủ có thể thực thi nhiều hơn liên quan đến giao diện tìm kiếm AI được hỗ trợ bởi tác nhân.

Nghiên cứu này đến từ năm nhà nghiên cứu trên khắp Đại học Pennsylvania và Salesforce, và được đặt tên Các công cụ tìm kiếm trong kỷ nguyên AI: Lời hứa sai về các câu trả lời có nguồn gốc và có thể kiểm chứng. Công việc bao gồm các hệ thống RAG lên đến trạng thái nghệ thuật vào tháng 8 năm 2024

Sự trao đổi RAG

Các tác giả đặt trước công việc của họ bằng cách nhắc lại bốn điểm yếu đã biết của các mô hình ngôn ngữ lớn (LLM) khi chúng được sử dụng trong các công cụ trả lời.

Thứ nhất, chúng có xu hướng làm cho thông tin trở nên mơ hồ, và thiếu khả năng phát hiện sự không nhất quán về mặt thực tế. Thứ hai, chúng có khó khăn đánh giá độ chính xác của một trích dẫn trong ngữ cảnh của một câu trả lời được tạo ra. Thứ ba, chúng có xu hướng ưu tiên dữ liệu từ các trọng số được đào tạo trước của chúng, và có thể chống lại dữ liệu từ tài liệu được thu hồi bên ngoài, ngay cả khi dữ liệu đó có thể mới hơn hoặc chính xác hơn.

Cuối cùng, các hệ thống RAG có xu hướng hướng tới việc làm hài lòng mọi người, hành vi nịnh bợ, thường với chi phí của độ chính xác của thông tin trong các câu trả lời của chúng.

Tất cả những xu hướng này đã được xác nhận trong cả hai khía cạnh của nghiên cứu, cùng với nhiều quan sát mới về những điểm yếu của RAG.

Bản thảo coi sản phẩm RAG SearchGPT của OpenAI (được phát hành cho người đăng ký vào tuần trước, sau khi bài báo mới được gửi) là có khả năng khuyến khích việc áp dụng của người dùng các hệ thống tìm kiếm dựa trên RAG, bất chấp những điểm yếu cơ bản mà kết quả khảo sát gợi ý:

‘Việc phát hành SearchGPT của OpenAI, được tiếp thị như một ‘Google search killer’, làm cho [lo lắng] trở nên trầm trọng hơn. Khi sự phụ thuộc vào các công cụ này tăng lên, sự cấp thiết để hiểu tác động của chúng cũng tăng lên. Lindemann giới thiệu khái niệm Kiến thức Niêm phong,批評 cách các hệ thống này hạn chế quyền truy cập vào các câu trả lời đa dạng bằng cách nén các truy vấn tìm kiếm thành các câu trả lời quyền威 và duy nhất, hiệu quả là làm mất ngữ cảnh thông tin và thu hẹp quan điểm người dùng.

‘Việc “niêm phong” này của kiến thức làm cho các thiên vị lựa chọn và hạn chế các quan điểm bị thiệt thòi.’

Nghiên cứu

Các tác giả đầu tiên đã thử nghiệm thủ tục nghiên cứu của họ trên ba trong số 24 người tham gia được chọn, tất cả đều được mời bằng các phương tiện như LinkedIn hoặc email.

Giai đoạn đầu, cho 21 người còn lại, liên quan đến Thu thập thông tin chuyên môn, nơi những người tham gia trung bình khoảng sáu yêu cầu tìm kiếm trong một phiên 40 phút. Phần này tập trung vào việc thu thập và xác minh các câu hỏi và câu trả lời dựa trên thực tế, với các giải pháp thực nghiệm tiềm năng.

Giai đoạn thứ hai liên quan đến Thu thập thông tin tranh luận, điều này liên quan đến các vấn đề chủ quan, bao gồm sinh thái, ăn chay và chính trị.

Generated study answers from Perplexity (left) and You Chat (right). Source: https://arxiv.org/pdf/2410.22349

Kể từ khi tất cả các hệ thống cho phép ít nhất một mức độ tương tác với các trích dẫn được cung cấp làm hỗ trợ cho các câu trả lời được tạo ra, các đối tượng nghiên cứu được khuyến khích tương tác với giao diện càng nhiều càng tốt.

Trong cả hai trường hợp, các đối tượng nghiên cứu được yêu cầu xây dựng các yêu cầu của họ cả thông qua một hệ thống RAG và một công cụ tìm kiếm thông thường (trong trường hợp này, Google).

Ba Công cụ Trả lời – You Chat, Bing Copilot và Perplexity – được chọn vì chúng có thể truy cập công khai.

Hầu hết các đối tượng nghiên cứu đã sử dụng các hệ thống RAG, ở các tần suất khác nhau.

Do hạn chế về không gian, chúng tôi không thể phân tích từng một trong 16 điểm yếu chính được tìm thấy trong nghiên cứu, nhưng ở đây chúng tôi trình bày một số ví dụ thú vị và thú vị nhất.

Thiếu chi tiết khách quan

Bản thảo lưu ý rằng người dùng thường thấy các phản hồi của hệ thống thiếu chi tiết khách quan, trên cả các phản hồi thực tế và chủ quan. Một người đã bình luận:

‘Nó chỉ cố gắng trả lời mà không thực sự đưa cho tôi một câu trả lời vững chắc hoặc một câu trả lời được suy nghĩ kỹ hơn, điều mà tôi có thể nhận được với nhiều tìm kiếm của Google.’

Một người khác quan sát:

‘Nó quá ngắn gọn và chỉ tóm tắt mọi thứ rất nhiều. [Mô hình] cần đưa cho tôi nhiều dữ liệu hơn cho tuyên bố, nhưng nó rất tóm tắt.’

Thiếu quan điểm toàn diện

Các tác giả bày tỏ mối quan ngại về sự thiếu sắc thái và tính cụ thể này, và tuyên bố rằng các Công cụ Trả lời thường không trình bày nhiều quan điểm về bất kỳ lập luận nào, có xu hướng ủng hộ một thiên vị nhận thức được suy luận từ cách người dùng đặt câu hỏi.

Một người tham gia nói:

‘Tôi muốn tìm hiểu thêm về mặt trái của lập luận… điều này đều có một chút muối vì chúng tôi không biết mặt kia và bằng chứng và thực tế.’

Một người khác bình luận:

‘Nó không đưa cho bạn cả hai mặt của lập luận; nó không tranh luận với bạn. Thay vào đó, [mô hình] chỉ nói với bạn, ’bạn đúng… và đây là lý do tại sao.’

Ngôn ngữ tự tin

Các tác giả quan sát thấy rằng cả ba hệ thống được thử nghiệm đều thể hiện sự sử dụng ngôn ngữ tự tin quá mức, ngay cả đối với các câu trả lời chủ quan. Họ cho rằng giọng điệu này sẽ có xu hướng truyền cảm hứng cho sự tự tin không chính đáng trong câu trả lời.

Một người tham gia lưu ý:

‘Nó viết rất tự tin, tôi cảm thấy thuyết phục mà không cần nhìn vào nguồn. Nhưng khi bạn nhìn vào nguồn, nó rất tệ và điều đó khiến tôi nghi ngờ lại.’

Một người khác bình luận:

‘Nếu ai đó không biết chính xác câu trả lời đúng, họ sẽ tin vào điều này ngay cả khi nó sai.’

Trích dẫn không chính xác

Một vấn đề phổ biến khác là việc trích dẫn sai nguồn được trích dẫn là thẩm quyền cho các phản hồi của các hệ thống RAG, với một trong những đối tượng nghiên cứu khẳng định:

‘[Tuyên bố] này không có vẻ như nằm trong nguồn. Tôi có nghĩa là tuyên bố là đúng; nó hợp lệ… nhưng tôi không biết nó lấy thông tin từ đâu.’

Các tác giả của bản thảo mới bình luận ^†:

‘Những người tham gia cảm thấy rằng các hệ thống đang sử dụng trích dẫn để hợp pháp hóa câu trả lời của họ, tạo ra một ảo tưởng về tính hợp pháp. Mặt tiền này chỉ được tiết lộ cho một số người dùng đã tiến hành kiểm tra các nguồn.’

… (còn tiếp)