Trí tuệ nhân tạo

Ít hơn là nhiều hơn: Tại sao việc thu thập ít tài liệu hơn có thể cải thiện câu trả lời của AI

mm

Retrieval-Augmented Generation (RAG) là một phương pháp xây dựng hệ thống AI kết hợp mô hình ngôn ngữ với nguồn kiến thức bên ngoài. Nói đơn giản, AI đầu tiên tìm kiếm các tài liệu liên quan (như bài viết hoặc trang web) liên quan đến truy vấn của người dùng, và sau đó sử dụng các tài liệu đó để tạo ra câu trả lời chính xác hơn. Phương pháp này đã được ca ngợi vì giúp mô hình ngôn ngữ lớn (LLM) giữ được tính thực tế và giảm thiểu các hiện tượng ảo giác bằng cách dựa trên dữ liệu thực.

Một cách trực quan, người ta có thể nghĩ rằng việc thu thập nhiều tài liệu hơn sẽ giúp AI có câu trả lời tốt hơn. Tuy nhiên, nghiên cứu gần đây cho thấy một điều bất ngờ: khi nói đến việc cung cấp thông tin cho AI, đôi khi ít hơn là nhiều hơn.

Ít tài liệu hơn, câu trả lời tốt hơn

Một nghiên cứu mới của các nhà nghiên cứu tại Đại học Hebrew của Jerusalem đã khám phá cách số lượng tài liệu cung cấp cho hệ thống RAG ảnh hưởng đến hiệu suất của nó. Điều quan trọng là họ giữ nguyên tổng lượng văn bản – nghĩa là nếu ít tài liệu hơn được cung cấp, những tài liệu đó sẽ được mở rộng một chút để lấp đầy cùng một độ dài như nhiều tài liệu. Điều này cho phép bất kỳ sự khác biệt về hiệu suất nào có thể được quy cho số lượng tài liệu chứ không chỉ là độ dài của đầu vào.

Các nhà nghiên cứu đã sử dụng một tập dữ liệu câu hỏi và trả lời (MuSiQue) với các câu hỏi trivia, mỗi câu hỏi ban đầu được ghép với 20 đoạn văn Wikipedia (chỉ có một vài đoạn văn thực sự chứa câu trả lời, còn lại là các đoạn văn gây nhiễu). Bằng cách cắt giảm số lượng tài liệu từ 20 xuống chỉ còn 2-4 tài liệu thực sự liên quan – và thêm một chút ngữ cảnh để duy trì độ dài nhất quán – họ đã tạo ra các kịch bản mà AI có ít tài liệu hơn để xem xét, nhưng vẫn có cùng tổng số từ để đọc.

Kết quả thật đáng chú ý. Trong hầu hết các trường hợp, mô hình AI trả lời chính xác hơn khi chúng được cung cấp ít tài liệu hơn chứ không phải toàn bộ tập hợp. Hiệu suất đã được cải thiện đáng kể – trong một số trường hợp lên đến 10% về độ chính xác (điểm F1) khi hệ thống sử dụng chỉ một số tài liệu hỗ trợ thay vì một tập hợp lớn. Sự gia tăng này được quan sát trên nhiều mô hình ngôn ngữ mã nguồn mở khác nhau, bao gồm các biến thể của Llama và các mô hình khác, cho thấy hiện tượng này không bị ràng buộc bởi một mô hình AI duy nhất.

Một mô hình (Qwen-2) là một trường hợp ngoại lệ đáng chú ý khi xử lý nhiều tài liệu mà không giảm điểm. Tuy nhiên, hầu như tất cả các mô hình được thử nghiệm đều hoạt động tốt hơn với ít tài liệu hơn. Nói cách khác, việc thêm nhiều tài liệu tham khảo hơn các tài liệu quan trọng thực sự làm giảm hiệu suất của chúng nhiều hơn là giúp đỡ.

Nguồn: Levy et al.

Tại sao điều này lại gây ngạc nhiên? Thông thường, hệ thống RAG được thiết kế với giả định rằng việc thu thập một lượng thông tin rộng lớn hơn có thể chỉ giúp AI – nếu câu trả lời không nằm trong các tài liệu đầu tiên, nó có thể nằm trong tài liệu thứ 10 hoặc thứ 20.

Nghiên cứu này lật ngược kịch bản đó, chứng minh rằng việc thêm vô tội vạ các tài liệu bổ sung có thể phản tác dụng. Ngay cả khi tổng độ dài văn bản được giữ nguyên, sự hiện diện của nhiều tài liệu khác nhau (mỗi tài liệu có ngữ cảnh và đặc điểm riêng) đã làm cho nhiệm vụ trả lời câu hỏi trở nên khó khăn hơn cho AI. Có vẻ như sau một điểm nhất định, mỗi tài liệu bổ sung thêm nhiều tiếng ồn hơn là tín hiệu, làm cho mô hình bị nhầm lẫn và giảm khả năng trích xuất câu trả lời chính xác.

Tại sao ít hơn có thể là nhiều hơn trong RAG

Kết quả “ít hơn là nhiều hơn” này có ý nghĩa khi chúng ta xem xét cách mô hình ngôn ngữ AI xử lý thông tin. Khi AI chỉ được cung cấp các tài liệu liên quan nhất, ngữ cảnh mà nó nhìn thấy được tập trung và không bị phân tâm, giống như một sinh viên đã được đưa cho đúng trang để học.

Trong nghiên cứu, các mô hình hoạt động tốt hơn đáng kể khi chỉ được cung cấp các tài liệu hỗ trợ, với các tài liệu không liên quan bị loại bỏ. Ngữ cảnh còn lại không chỉ ngắn hơn mà còn sạch hơn – nó chứa các事 thực trực tiếp chỉ đến câu trả lời và không có gì khác. Với ít tài liệu hơn để xử lý, mô hình có thể tập trung toàn bộ sự chú ý vào thông tin quan trọng, làm cho nó ít bị phân tâm hoặc nhầm lẫn.

Mặt khác, khi nhiều tài liệu được thu thập, AI phải sàng lọc qua một hỗn hợp của nội dung liên quan và không liên quan. Thường thì các tài liệu bổ sung này là “tương tự nhưng không liên quan” – chúng có thể chia sẻ chủ đề hoặc từ khóa với truy vấn nhưng không thực sự chứa câu trả lời. Loại nội dung này có thể đánh lừa mô hình. AI có thể浪 phí thời gian để cố gắng kết nối các điểm trên các tài liệu không thực sự dẫn đến câu trả lời chính xác, hoặc tệ hơn, nó có thể kết hợp thông tin từ nhiều nguồn một cách không chính xác. Điều này làm tăng nguy cơ của các hiện tượng ảo giác – các trường hợp AI tạo ra câu trả lời nghe có vẻ hợp lý nhưng không dựa trên bất kỳ nguồn nào.

Nguyên nhân là khi cho AI quá nhiều tài liệu, thông tin hữu ích có thể bị pha loãng và thông tin mâu thuẫn có thể được giới thiệu, làm cho AI khó quyết định điều gì là đúng.

Điều thú vị là các nhà nghiên cứu đã phát hiện ra rằng nếu các tài liệu bổ sung rõ ràng không liên quan (ví dụ, văn bản không liên quan ngẫu nhiên), các mô hình tốt hơn trong việc bỏ qua chúng. Vấn đề thực sự đến từ dữ liệu gây nhiễu có vẻ liên quan: khi tất cả các văn bản thu thập được đều trên các chủ đề tương tự, AI giả định nó nên sử dụng tất cả, và nó có thể gặp khó khăn trong việc xác định哪 các chi tiết thực sự quan trọng. Điều này phù hợp với quan sát của nghiên cứu rằng ngẫu nhiên gây nhiễu gây ra ít sự nhầm lẫn hơn so với gây nhiễu thực tế trong đầu vào. AI có thể lọc ra những điều vô nghĩa rõ ràng, nhưng thông tin hơi lạc hướng là một cái bẫy tinh vi – nó lẻn vào dưới hình thức liên quan và làm hỏng câu trả lời. Bằng cách giảm số lượng tài liệu xuống chỉ những tài liệu thực sự cần thiết, chúng ta tránh đặt những cái bẫy này từ đầu.

Cũng có một lợi ích thực tế: việc thu thập và xử lý ít tài liệu hơn làm giảm tải trọng tính toán cho hệ thống RAG. Mỗi tài liệu được kéo vào phải được phân tích (nhúng, đọc và chú ý bởi mô hình), điều này sử dụng thời gian và tài nguyên tính toán. Loại bỏ các tài liệu thừa làm cho hệ thống hiệu quả hơn – nó có thể tìm thấy câu trả lời nhanh hơn và với chi phí thấp hơn. Trong các kịch bản mà độ chính xác được cải thiện bằng cách tập trung vào ít nguồn hơn, chúng ta có một chiến thắng kép: câu trả lời tốt hơn và một quá trình tinh gọn, hiệu quả hơn.

Nguồn: Levy et al.

Tái đánh giá RAG: Hướng đi tương lai

Bằng chứng mới này cho thấy chất lượng thường vượt qua số lượng trong việc thu thập có ý nghĩa quan trọng đối với tương lai của các hệ thống AI dựa trên kiến thức bên ngoài. Nó gợi ý rằng các nhà thiết kế hệ thống RAG nên ưu tiên việc lọc và xếp hạng tài liệu thông minh hơn là thu thập với số lượng lớn. Thay vì thu thập 100 đoạn văn có thể và hy vọng câu trả lời được chôn trong đó, có thể khôn ngoan hơn khi thu thập chỉ một vài tài liệu liên quan hàng đầu.

Các tác giả của nghiên cứu nhấn mạnh nhu cầu đối với các phương pháp thu thập phải “đạt được sự cân bằng giữa liên quan và đa dạng” trong thông tin mà chúng cung cấp cho mô hình. Nói cách khác, chúng ta muốn cung cấp đủ phạm vi chủ đề để trả lời câu hỏi, nhưng không quá nhiều đến mức các事 thực cốt lõi bị nhấn chìm trong biển thông tin thừa.

Trong tương lai, các nhà nghiên cứu có khả năng sẽ khám phá các kỹ thuật giúp mô hình AI xử lý nhiều tài liệu một cách tinh tế hơn. Một cách tiếp cận là phát triển các hệ thống thu thập hoặc xếp hạng lại tài liệu tốt hơn, có thể xác định tài liệu nào thực sự thêm giá trị và tài liệu nào chỉ giới thiệu xung đột. Một góc độ khác là cải thiện các mô hình ngôn ngữ chính nó: nếu một mô hình (như Qwen-2) có thể xử lý nhiều tài liệu mà không mất độ chính xác, việc kiểm tra cách nó được đào tạo hoặc cấu trúc có thể cung cấp manh mối để làm cho các mô hình khác mạnh mẽ hơn. Có thể các mô hình ngôn ngữ lớn trong tương lai sẽ kết hợp các cơ chế để nhận ra khi hai nguồn nói cùng một điều (hoặc mâu thuẫn nhau) và tập trung vào đó. Mục tiêu sẽ là cho phép mô hình tận dụng sự đa dạng của nguồn thông tin mà không bị nhầm lẫn – hiệu quả là có được cả hai thế giới (phạm vi thông tin và sự tập trung rõ ràng).

Điều đáng chú ý là khi các hệ thống AI có được cửa sổ ngữ cảnh lớn hơn (khả năng đọc nhiều văn bản cùng một lúc), việc đơn giản là đổ thêm dữ liệu vào lời nhắc không phải là một viên đạn bạc. Cửa sổ ngữ cảnh lớn hơn không tự động có nghĩa là sự hiểu biết tốt hơn. Nghiên cứu này cho thấy rằng ngay cả khi AI có thể đọc 50 trang cùng một lúc, việc cho nó 50 trang thông tin hỗn hợp có thể không mang lại kết quả tốt. Mô hình vẫn được hưởng lợi từ việc có nội dung được kiểm duyệt, liên quan để làm việc, chứ không phải là một lượng thông tin không phân biệt. Trên thực tế, việc thu thập thông minh có thể trở nên quan trọng hơn trong kỷ nguyên của các cửa sổ ngữ cảnh khổng lồ – để đảm bảo khả năng bổ sung được sử dụng cho kiến thức có giá trị chứ không phải là tiếng ồn.

Phát hiện từ “Nhiều tài liệu hơn, cùng độ dài” (tiêu đề của bài báo) khuyến khích việc tái đánh giá các giả định của chúng ta trong nghiên cứu AI. Đôi khi, việc cho AI tất cả dữ liệu chúng ta có không hiệu quả như chúng ta nghĩ. Bằng cách tập trung vào những mảnh thông tin quan trọng nhất, chúng ta không chỉ cải thiện độ chính xác của câu trả lời được tạo ra bởi AI mà còn làm cho các hệ thống trở nên hiệu quả và đáng tin cậy hơn. Đó là một bài học ngược lại, nhưng một bài học với những hệ lụy thú vị: các hệ thống RAG trong tương lai có thể trở nên thông minh và tinh gọn hơn bằng cách cẩn thận chọn ít tài liệu hơn, tốt hơn để thu thập.

Alex McFarland là một nhà báo và nhà văn về trí tuệ nhân tạo, khám phá những phát triển mới nhất trong lĩnh vực trí tuệ nhân tạo. Ông đã hợp tác với nhiều công ty khởi nghiệp và xuất bản về trí tuệ nhân tạo trên toàn thế giới.