Góc nhìn Anderson

Heuristics vs. RAG: Shrinkflation as a Policy Driver

mm
A tiny robot tries to type on a full-size laptop by using a pencil. Z-Image V1.

Trong hầu hết các trường hợp, tìm kiếm trên web cải thiện độ chính xác của các câu trả lời của ChatGPT cho các câu hỏi của chúng tôi. Vì vậy, trong một môi trường mà AI đang vật lộn để được chấp nhận công khai, tại sao nó lại mặc định là ‘đoán’?

 

Ý kiến Đó là một sai lầm khi tin rằng LLM như ChatGPT bao giờ cũng tiết lộ các hành vi có thể đáng ngờ của các host của chúng, ngay cả khi một phiên làm việc tốn kém và lãng phí đã khiến bạn tức giận đến mức thực sự đi vào chi tiết về những điểm yếu của hệ thống:

Đây là một cuộc thảo luận về sự ưu tiên của ChatGPT cho logic nội bộ của nó (so với nghiên cứu và xác minh dựa trên web thông qua RAG - điều này tạo ra ít ảo giác hơn, nhưng tốn kém hơn) gây ra một khoảnh khắc dường như trung thực; nhưng hãy lấy nó với một chút muối. Nguồn: chatgpt.com

Đây là một cuộc thảo luận về sự ưu tiên của ChatGPT cho logic nội bộ của nó (so với nghiên cứu và xác minh dựa trên web thông qua RAG – điều này tạo ra ít ảo giác hơn, nhưng tốn kém hơn) gây ra một khoảnh khắc dường như trung thực; nhưng hãy lấy nó với một chút muối. Nguồn

Hầu hết – đặc biệt là đối với các mô hình có ngày cắt kiến thức muộn hơn – AI chỉ đang dựa vào các bài đăng trên Reddit và diễn đàn đã xem trong quá trình đào tạo. Ngay cả khi có bất kỳ giá trị thực nào đối với những ‘insider insights’ như vậy, cũng không thể chứng minh được.

Tuy nhiên, đôi khi những cuộc trao đổi gay gắt này dẫn đến việc phát hiện ra ‘hacks’ (hoặc ít nhất, ‘mẹo’) hứa hẹn sẽ ngăn chặn một số thói quen lặp đi lặp lại tồi tệ nhất trên một LLM – chẳng hạn như khi, tuần trước, ChatGPT đề xuất rằng tôi có thể khiến nó làm việc chăm chỉ hơn và ảo giác ít hơn bằng cách bao gồm lời nguyền ‘không heuristics’:

ChatGPT

Tôi đã sử dụng ‘không heuristics’ rất nhiều kể từ đó, và không một lần mô hình đã quay lại kiến thức được đào tạo của nó sau khi tôi đóng một truy vấn với lệnh này. Thay vào đó, GPT ngay lập tức sử dụng Retrieval Augmented Generation (RAG), tìm kiếm internet để tìm các tài liệu soi sáng hoặc chứng minh.

Trong thực tế, đối với hầu hết các yêu cầu, điều này không khác nhiều so với việc yêu cầu hệ thống ‘tìm kiếm web’ mỗi khi bạn gửi một truy vấn. Ở đâu ‘không heuristics’ thực sự có thể giúp là khi cố gắng khiến ChatGPT thực sự đọc một tệp PDF mới được tải lên thay vì sử dụng siêu dữ liệu từ các tệp PDF trước đó trong phiên đó (hoặc nhiều nguồn khác có thể), để tạo ra một câu trả lời ‘plausible’ nhưng hoàn toàn ảo giác, không đọc, hoặc thậm chí không xem xét tài liệu mà bạn vừa trình bày.

ChatGPT

Tuy nhiên, càng lâu phiên trò chuyện diễn ra, càng ít khả năng điều này sẽ hoạt động – và sẽ là một sai lầm khi nghĩ rằng bất kỳ ‘mẹo’ nào như vậy là đáng tin cậy hoặc sẽ vẫn có sẵn khi hệ thống phát triển.

Nghề RAG

Trong bối cảnh của một văn hóa ngày càng tăng của shrinkflation, và thực tế là các hệ thống lớn như cơ sở hạ tầng GPT của OpenAI bị ảnh hưởng rất nhiều bởi thậm chí những thay đổi nhỏ trong hành vi, cũng dễ dàng tin rằng bạn đang nhận được trọng lượng ngắn từ các lựa chọn được thực hiện bởi các LLM phổ biến như ChatGPT.

Các lựa chọn như liệu nó sẽ tiếp cận web với RAG; bắt đầu một Chain-of-Thought (CoT) có thể có được kết quả tốt hơn, nhưng sẽ tốn kém hơn để suy luận và có thể làm cho người dùng thiếu kiên nhẫn mệt mỏi; hoặc dựa vào các bản nhúng được đào tạo và kiến thức cục bộ có sẵn – điều này là giải pháp rẻ nhất và nhanh nhất có thể.

Có một số lý do thực tế tại sao một LLM có hồ sơ công khai nhạy cảm, như ChatGPT, có thể thích hạn chế các cuộc gọi RAG của nó, thay vào đó ưa thích các heuristics của riêng nó. Đầu tiên, từ góc độ quan hệ công chúng, việc sử dụng web thường xuyên không được yêu cầu hỗ trợ cho việc mô tả các LLM như là những Googlers-by-proxy, làm giảm giá trị của kiến thức nội tại và được đào tạo tốn kém của chúng – và sự hấp dẫn của một đăng ký trả phí.

Thứ hai, cơ sở hạ tầng RAG tốn tiền để chạy, duy trì và cập nhật, so với chi phí tương đối nhỏ của suy luận cục bộ, tức là sinh ra tham số, điều này rẻ và nhanh.

Thứ ba, hệ thống có thể không có phương pháp hiệu quả để xác định xem RAG có thể cải thiện kết quả heuristic của riêng nó – và nó thường không thể xác định điều này mà không chạy heuristics trước. Điều này để lại cho người dùng cuối nhiệm vụ đánh giá kết quả heuristic bị lỗi và yêu cầu một cuộc gọi RAG trong trường hợp kết quả từ heuristics dường như không đạt yêu cầu.

Từ góc độ ‘shrinkflation AI’, số lần ChatGPT sai lầm thông qua heuristics và thành công thông qua RAG có thể chỉ ra, như nó đã làm gần đây với tôi, rằng hệ thống đang tối ưu hóa cho chi phí chứ không phải kết quả.

RAG Tăng Cần Thiết Theo Thời Gian

Mặc dù ‘khẳng định’ gần đây của ChatGPT với tôi rằng đây thực sự là trường hợp, ‘shrinkflation’ có một bối cảnh rộng hơn trong vấn đề này. Mặc dù RAG không rẻ, cả về ma sát trải nghiệm (thông qua độ trễ) hay chi phí chạy, nhưng nó rẻ hơn nhiều so với việc thường xuyên tinh chỉnh hoặc thậm chí tái đào tạo mô hình cơ bản.

Đối với một mô hình AI cũ hơn với ngày cắt kiến thức xa hơn, RAG có thể duy trì tính hiện tại của hệ thống, với chi phí của các cuộc gọi mạng và tài nguyên khác; đối với một mô hình mới hơn, các truy xuất của RAG có nhiều khả năng là dư thừa hoặc làm hỏng chất lượng kết quả, điều mà trong một số trường hợp sẽ tốt hơn thông qua heuristics.

Do đó, AI dường như cần khả năng không chỉ phán quyết xem nó có nên sử dụng RAG hay không, mà còn tiếp tục phát triển chính sách của nó về việc sử dụng RAG khi các trọng số nội bộ của nó trở nên lỗi thời hơn và hơn.

Đồng thời, hệ thống cần phải bảo vệ ‘hằng số tương đối’ trong kiến thức, chẳng hạn như quỹ đạo mặt trăng và văn học, văn hóa và lịch sử kinh điển; cũng như địa lý cơ bản, vật lý và các nguyên tắc khoa học khác mà không thể thay đổi nhiều theo thời gian (tức là rủi ro ‘thay đổi đột ngột’ không phải là không tồn tại, nhưng thấp).

Chủ Đề Lệch

Hiện tại, ít nhất là đối với ChatGPT, các cuộc gọi RAG (tức là sử dụng nghiên cứu web cho bất kỳ truy vấn người dùng nào không yêu cầu rõ ràng hoặc ngụ ý yêu cầu nghiên cứu web) dường như hiếm khi được chọn tự động bởi hệ thống, ngay cả khi đối xử với ‘phụ’ lĩnh vực.

Một ví dụ như vậy về lĩnh vực phụ là ‘sử dụng phần mềm không rõ ràng’. Trong trường hợp như vậy, dữ liệu nguồn có sẵn tối thiểu sẽ phải vật lộn để được chú ý trong quá trình đào tạo, và trạng thái ‘lệch’ của dữ liệu có thể đã được đánh dấu để chú ý hoặc bị chôn vùi như ‘phụ’ hoặc ‘không quan trọng’ – và thậm chí một bài đăng trên diễn đàn duy nhất được thực hiện sau ngày cắt kiến thức của AI có thể đại diện cho một sự tăng đáng kể về tổng dữ liệu có sẵn và chất lượng của phản hồi cho một ‘chủ đề nhỏ’, khiến cuộc gọi RAG trở nên đáng giá.

Tuy nhiên, lợi thế của RAG có xu hướng giảm khi mô hình cơ bản trở nên mạnh mẽ hơn. Trong khi các mô hình nhỏ hơn được hưởng lợi đáng kể từ việc thu hồi, các hệ thống lớn như Qwen3-4B hoặc GPT-4o-mini/-4o thường cho thấy sự cải thiện biên hoặc thậm chí tiêu cực từ RAG*.

Trên nhiều điểm chuẩn, việc thu hồi giới thiệu nhiều sự phân tâm hơn là lợi ích, cho thấy một sự đánh đổi giữa đầu tư vào một mô hình lớn hơn với nhiều phạm vi nội bộ hơn, hoặc một mô hình nhỏ hơn được ghép nối với việc thu hồi.

Do đó, RAG dường như hữu ích nhất để bù đắp trong-sized models, những mô hình vẫn cần các sự kiện bên ngoài, nhưng có thể đánh giá chúng với các heuristics nội bộ ít phức tạp hơn.

Sử Dụng Chỉ Trong Trường Hợp Khẩn Cấp

Các chính sách hướng dẫn của ChatGPT xung quanh quyết định sử dụng RAG không được lộ rõ bởi lời nhắc hệ thống** của nó, nhưng được giải quyết ngầm (đối với cuối):

‘Sử dụng công cụ web để truy cập thông tin cập nhật từ web hoặc khi trả lời người dùng yêu cầu thông tin về vị trí của họ. Một số ví dụ về khi sử dụng công cụ web bao gồm:

Thông tin địa phương: Sử dụng công cụ web để trả lời các câu hỏi yêu cầu thông tin về vị trí của người dùng, chẳng hạn như thời tiết, doanh nghiệp địa phương hoặc sự kiện.

Tính mới: Nếu thông tin cập nhật về một chủ đề có thể thay đổi hoặc cải thiện câu trả lời, hãy gọi công cụ web bất cứ lúc nào bạn sẽ từ chối trả lời một câu hỏi vì kiến thức của bạn có thể đã lỗi thời.

Thông tin Niche: Nếu câu trả lời sẽ được hưởng lợi từ thông tin chi tiết không được biết rộng rãi hoặc hiểu (có thể được tìm thấy trên internet), chẳng hạn như chi tiết về một khu phố nhỏ, một công ty ít được biết đến hoặc các quy định huyền bí, hãy sử dụng các nguồn web trực tiếp thay vì dựa vào kiến thức được chưng cất từ trước khi đào tạo.

Độ chính xác: Nếu chi phí của một sai lầm nhỏ hoặc thông tin lỗi thời là cao (ví dụ: sử dụng một phiên bản lỗi thời của thư viện phần mềm hoặc không biết ngày của trò chơi tiếp theo cho một đội thể thao), thì hãy sử dụng công cụ web.’

Đặc biệt, chúng ta có thể nhận thấy những hướng dẫn này đang thúc đẩy RAG trong các trường hợp mà dữ liệu được đào tạo bản địa là khan hiếm. Nhưng làm thế nào hệ thống đến được sự hiểu biết này? Người dùng thông thường và người quan sát của ChatGPT có thể kết luận rằng trong những dịp khi ‘tìm kiếm web’ hiển thị sau một khoảng thời gian, các heuristics nội bộ của mô hình đã vừa được thăm dò cho truy vấn và trả về không có kết quả.

Chúng ta cũng có thể nhận thấy rằng, theo ngụ ý, RAG chỉ được khuyến nghị cho một số trường hợp sử dụng rất hạn chế. Điều này để lại GPT được khuyến nghị để thăm dò các trọng số của riêng nó, trong tất cả nhưng một ‘tình huống khẩn cấp’ (‘Độ chính xác’, ở cuối của trích dẫn trên), cho số lượng lớn các truy vấn dựa trên事 thực mà khuynh hướng ảo giác của AI có thể là một trách nhiệm đáng kể.

Kết Luận

Xu hướng của nghiên cứu hiện tại và gần đây cho thấy rằng việc tạo heuristics là nhanh và rẻ, nhưng sai quá thường; trong khi RAG là chậm hơn, tốn kém hơn, nhưng thường đúng hơn – đặc biệt là khi kích thước của mô hình giảm.

Dựa trên việc sử dụng ChatGPT của tôi, tôi sẽ lập luận rằng OpenAI đang sử dụng RAG quá ít, như một công cụ chính xác thay vì một trình điều khiển hàng ngày, đặc biệt là vì các vấn đề với cửa sổ ngữ cảnh đang phát triển làm cho các LLM có nhiều khả năng hơn để ảo giác khi các cuộc trò chuyện dài phát triển.

Tình huống này có thể được giảm bớt đáng kể bằng cách kiểm tra các phản hồi heuristic chống lại các nguồn có thẩm quyền dựa trên web, không đợi người dùng cuối nghi ngờ về đầu ra hoặc bị vấp ngã bởi nó, và không cần kết quả nội bộ phải không hài lòng đến mức quyết định sử dụng RAG là không thể tránh khỏi.

Thay vào đó, hệ thống có thể được đào tạo để chọn lọc và thông minh nghi ngờ bản thân theo các trường hợp, và do đó để tham gia với web thông qua một quá trình sàng lọc sẽ là heuristic. Tôi không biết rằng kiến trúc của các mô hình hiện tại để lại không gian cho một phương pháp như vậy, điều mà thay vào đó sẽ phải được thêm vào ma sát của các bộ lọc API.

Như nó đứng, tôi không thể chứng minh có một vấn đề; không thậm chí với một ‘khẳng định’:

ChatGPT khẳng định

 

* Xin vui lòng tham khảo liên kết ở đầu đoạn này.

** Đây là một ‘tự phơi bày’ lời nhắc hệ thống GPT-5 mà, một lần nữa, có thể chỉ là một tóm tắt từ các bài đăng trên diễn đàn được đào tạo lại cho GPT-5, mặc dù một số người duy trì rằng lời nhắc là chính thức.

Tôi thực sự không đề xuất rằng ‘sự trung thực có tội’ của ChatGPT là có ý nghĩa ở đây; khuynh hướng của tôi để đẩy lùi lại đường lối của nó trong các vấn đề chính sách của OpenAI có nghĩa là nó sẽ cuối cùng ‘đồng ý’ với tôi, và lặp lại ý kiến ngầm của tôi theo bất kỳ cách nào. Điều này không tương đương với việc tiết lộ chi tiết về cuộc đổ bộ Normandy dưới áp lực.  

Được xuất bản lần đầu vào thứ Tư, ngày 10 tháng 12 năm 2025

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]