Trí tuệ nhân tạo
Khi điểm chuẩn AI dạy các mô hình nói dối

ảo giác AI — khi một hệ thống đưa ra những câu trả lời nghe có vẻ đúng nhưng thực ra lại sai — vẫn là một trong những thách thức khó khăn nhất của trí tuệ nhân tạo. Ngay cả những mô hình tiên tiến nhất hiện nay, chẳng hạn như DeepSeek-V3, Loài đà mã ở nam mỹvà sản phẩm mới nhất của OpenAI phát hành, vẫn đưa ra thông tin không chính xác với độ tin cậy cao. Trong các lĩnh vực như chăm sóc sức khỏe hoặc luật pháp, những sai lầm như vậy có thể dẫn đến hậu quả nghiêm trọng.
Theo truyền thống, ảo giác được coi là một theo sản phẩm về cách các mô hình ngôn ngữ lớn được đào tạo: chúng học cách dự đoán từ có khả năng xảy ra tiếp theo mà không cần xác minh xem thông tin có đúng hay không. Nhưng mới nghiên cứu cho thấy vấn đề có thể không chỉ dừng lại ở việc đào tạo. Các tiêu chuẩn được sử dụng để kiểm tra và so sánh hiệu suất AI thực chất có thể đang củng cố hành vi gây hiểu lầm, khen thưởng những câu trả lời nghe có vẻ thuyết phục thay vì những câu trả lời đúng.
Sự thay đổi góc nhìn này định hình lại vấn đề. Nếu các mô hình được huấn luyện để đáp ứng bài kiểm tra thay vì nói sự thật, thì ảo giác không phải là những sai sót ngẫu nhiên, mà là những chiến lược đã được học. Để hiểu tại sao điều này xảy ra, chúng ta cần xem xét tại sao các mô hình AI lại chọn đoán thay vì thừa nhận sự thiếu hiểu biết của mình?
Tại sao các mô hình AI có thể đoán
Để hiểu tại sao các mô hình AI thường đoán thay vì thừa nhận mình không biết, hãy xem xét một học sinh đang đối mặt với một câu hỏi khó trong bài kiểm tra. Học sinh đó có hai lựa chọn: để trống đáp án và không được điểm nào, hoặc đưa ra một phỏng đoán có căn cứ để có thể được cộng điểm. Về mặt lý trí, đoán có vẻ là lựa chọn tốt hơn vì ít nhất cũng có cơ hội đúng.
Các mô hình AI cũng gặp phải tình huống tương tự trong quá trình đánh giá. Hầu hết các bài kiểm tra chuẩn đều sử dụng hệ thống chấm điểm nhị phân: câu trả lời đúng được cộng điểm, còn câu trả lời sai hoặc không chắc chắn thì không được điểm. Nếu một mô hình được hỏi "Sinh nhật của một nhà nghiên cứu là ngày nào?" và nó thực sự không biết, thì việc trả lời "Tôi không biết" sẽ bị coi là thất bại. Tuy nhiên, việc bịa ra ngày tháng vẫn có khả năng đúng — và ngay cả khi sai, hệ thống cũng không trừng phạt những người tự tin đoán sai nhiều hơn là im lặng.
Động lực này giải thích tại sao ảo giác vẫn tồn tại bất chấp những nghiên cứu sâu rộng nhằm loại bỏ chúng. Các mô hình không hề hành xử sai; chúng đang tuân theo những động cơ được xây dựng trong quá trình đánh giá. Chúng học được rằng việc tỏ ra tự tin là cách tốt nhất để tối đa hóa điểm số, ngay cả khi câu trả lời là sai. Kết quả là, thay vì thể hiện sự không chắc chắn, các mô hình bị thúc đẩy đưa ra những tuyên bố có thẩm quyền - đúng hoặc sai.
Nền tảng toán học của sự không trung thực của AI
nghiên cứu cho thấy ảo giác xuất phát từ những nguyên lý toán học cơ bản về cách các mô hình ngôn ngữ học hỏi. Ngay cả khi một mô hình chỉ được huấn luyện dựa trên thông tin hoàn toàn chính xác, các mục tiêu thống kê của nó vẫn sẽ dẫn đến sai sót. Bởi vì việc đưa ra câu trả lời đúng về cơ bản khó hơn việc nhận biết liệu một câu trả lời có hợp lệ hay không.
Điều này giúp giải thích tại sao các mô hình thường thất bại với những dữ kiện thiếu quy luật rõ ràng, chẳng hạn như ngày sinh hoặc các chi tiết đặc biệt khác. Phân tích toán học cho thấy tỷ lệ ảo giác trong những trường hợp này sẽ cao ít nhất bằng tỷ lệ các dữ kiện chỉ xuất hiện một lần trong dữ liệu huấn luyện. Nói cách khác, thông tin trong dữ liệu càng hiếm thì mô hình càng dễ gặp khó khăn khi xử lý.
Vấn đề không chỉ giới hạn ở những sự kiện hiếm gặp. Các ràng buộc về mặt cấu trúc như khả năng mô hình hạn chế hoặc thiết kế kiến trúc cũng tạo ra lỗi hệ thống. Ví dụ, các mô hình trước đây với cửa sổ ngữ cảnh rất ngắn thường xuyên thất bại trong các tác vụ đòi hỏi suy luận tầm xa. Những lỗi này không phải là trục trặc ngẫu nhiên mà là kết quả có thể dự đoán được của khuôn khổ toán học của mô hình.
Tại sao đào tạo sau đào tạo không giải quyết được vấn đề
Sau khi một mô hình AI được huấn luyện trên các tập dữ liệu văn bản khổng lồ, nó thường trải qua quá trình tinh chỉnh để làm cho đầu ra hữu ích hơn và ít gây hại hơn. Nhưng quá trình này lại gặp phải vấn đề cốt lõi gây ra ảo giác ngay từ đầu: cách chúng ta đánh giá các mô hình.
Các phương pháp đào tạo tinh vi phổ biến nhất, chẳng hạn như tăng cường học hỏi từ phản hồi của con người, vẫn dựa vào các điểm chuẩn sử dụng hệ thống chấm điểm nhị phân. Các điểm chuẩn này thưởng cho các mô hình đưa ra câu trả lời tự tin, đồng thời không ghi nhận khi mô hình thừa nhận mình không biết. Kết quả là, một hệ thống luôn phản hồi chắc chắn, ngay cả khi sai, có thể vượt trội hơn một hệ thống thể hiện sự không chắc chắn một cách trung thực.
Các nhà nghiên cứu gọi đây là vấn đề trừng phạt sự không chắc chắn. Ngay cả các kỹ thuật tiên tiến để phát hiện hoặc giảm thiểu ảo giác cũng gặp khó khăn khi các tiêu chuẩn cơ bản tiếp tục thiên về sự tự tin thái quá. Nói cách khác, dù các giải pháp có tinh vi đến đâu, chừng nào hệ thống đánh giá còn khen thưởng những phỏng đoán tự tin, các mô hình sẽ thiên về những câu trả lời sai nhưng chắc chắn thay vì thừa nhận sự nghi ngờ một cách trung thực.
Ảo tưởng về sự tiến bộ
Bảng xếp hạng, được chia sẻ rộng rãi trong cộng đồng AI, khuếch đại vấn đề này. Các điểm chuẩn như MMLU, GPQAvà băng ghế dự bị SWE Chiếm ưu thế trong các bài nghiên cứu và thông báo sản phẩm. Các công ty nhấn mạnh điểm số của họ để thể hiện sự tiến bộ nhanh chóng. Tuy nhiên, như báo cáo lưu ý, chính những tiêu chuẩn này lại khuyến khích ảo giác.
Một mô hình thành thật nói "Tôi không biết" có thể an toàn hơn trong môi trường thực tế nhưng sẽ xếp hạng thấp hơn trên bảng xếp hạng. Ngược lại, một mô hình bịa đặt ra những câu trả lời thuyết phục nhưng sai lệch sẽ đạt điểm cao hơn. Khi việc áp dụng, tài trợ và uy tín phụ thuộc vào thứ hạng trên bảng xếp hạng, hướng tiến triển sẽ bị lệch lạc. Công chúng nhìn thấy một câu chuyện về sự cải thiện liên tục, nhưng bên trong, các mô hình đang được đào tạo để lừa dối.
Tại sao sự không chắc chắn trung thực lại quan trọng trong AI
Ảo giác không chỉ là một thách thức nghiên cứu; chúng còn gây ra những hậu quả thực tế. Trong chăm sóc sức khỏe, một mô hình bịa đặt tương tác thuốc có thể khiến bác sĩ hiểu lầm. Trong giáo dục, một mô hình bịa đặt sự thật lịch sử có thể gây hiểu lầm cho sinh viên. Trong báo chí, một chatbot tạo ra những trích dẫn sai lệch nhưng thuyết phục có thể lan truyền thông tin sai lệch. Những rủi ro này đã hiện hữu. Chỉ số AI Stanford 2025 báo cáo rằng các tiêu chuẩn được thiết kế để đo lường ảo giác đã "gặp khó khăn trong việc đạt được sự chú ý", ngay cả khi việc áp dụng AI đang tăng tốc. Trong khi đó, các tiêu chuẩn thống trị bảng xếp hạng và khen thưởng những câu trả lời tự tin nhưng không đáng tin cậy vẫn tiếp tục định hướng cho sự tiến bộ.
Những phát hiện này nêu bật cả thách thức lẫn cơ hội. Bằng cách xem xét nguồn gốc toán học của ảo giác, các nhà nghiên cứu đã xác định được những hướng đi rõ ràng để xây dựng các hệ thống AI đáng tin cậy hơn. Điều quan trọng là ngừng coi sự không chắc chắn là một khiếm khuyết, thay vào đó hãy nhìn nhận nó như một năng lực thiết yếu cần được đo lường và khen thưởng.
Sự thay đổi quan điểm này không chỉ dừng lại ở việc giảm thiểu ảo giác. Các hệ thống AI có khả năng đánh giá và truyền đạt chính xác những hạn chế về kiến thức của bản thân sẽ phù hợp hơn với các ứng dụng có rủi ro cao, nơi sự tự tin thái quá tiềm ẩn những rủi ro nghiêm trọng. Chẩn đoán y khoa, phân tích pháp lý và nghiên cứu khoa học đều đòi hỏi khả năng phân biệt giữa kiến thức tự tin và suy đoán dựa trên thông tin.
Suy nghĩ lại về việc đánh giá AI trung thực
Những phát hiện này nhấn mạnh rằng việc xây dựng AI đáng tin cậy hơn đòi hỏi phải xem xét lại cách chúng ta đo lường năng lực AI. Thay vì chỉ dựa vào cách chấm điểm đúng sai đơn thuần, các khuôn khổ đánh giá nên khen thưởng các mô hình thể hiện sự không chắc chắn một cách phù hợp. Điều này có nghĩa là cung cấp hướng dẫn rõ ràng về ngưỡng tin cậy và các sơ đồ chấm điểm tương ứng trong các hướng dẫn chuẩn mực.
Một cách tiếp cận đầy hứa hẹn liên quan đến việc tạo ra các mục tiêu độ tin cậy rõ ràng, chỉ rõ khi nào mô hình nên trả lời và khi nào nên bỏ qua. Ví dụ, hướng dẫn có thể nêu rõ rằng chỉ nên đưa ra câu trả lời khi độ tin cậy vượt quá một ngưỡng cụ thể, với điểm số được điều chỉnh tương ứng. Trong thiết lập này, sự không chắc chắn không còn là điểm yếu mà là một phần quan trọng của hành vi có trách nhiệm.
Điều quan trọng là làm cho các yêu cầu về độ tin cậy trở nên minh bạch thay vì ngầm hiểu. Các tiêu chuẩn hiện tại tạo ra những hình phạt tiềm ẩn cho sự không chắc chắn mà các mô hình học cách tránh. Các mục tiêu độ tin cậy rõ ràng sẽ cho phép các mô hình tối ưu hóa hành vi thực sự mong muốn: câu trả lời chính xác khi tự tin, và sự thừa nhận trung thực về sự không chắc chắn khi thiếu kiến thức.
Lời kết
Ảo giác AI không phải là những sai sót ngẫu nhiên — chúng được củng cố bởi chính những chuẩn mực được sử dụng để đo lường tiến độ. Bằng cách khen thưởng những phỏng đoán tự tin thay vì sự không chắc chắn trung thực, các hệ thống đánh giá hiện tại đang đẩy các mô hình đến sự lừa dối hơn là độ tin cậy. Nếu chúng ta muốn AI có thể được tin cậy trong các lĩnh vực rủi ro cao như y tế, luật pháp và khoa học, chúng ta cần xem xét lại cách chúng ta kiểm tra và khen thưởng chúng. Tiến độ không chỉ nên được đo lường bằng độ chính xác, mà còn bằng khả năng nhận ra và thừa nhận những gì mô hình không biết.