Connect with us

Trí tuệ nhân tạo

Khi các điểm chuẩn AI dạy cho các mô hình nói dối

mm

Ảo giác AI — khi một hệ thống tạo ra các câu trả lời nghe có vẻ đúng nhưng thực sự sai — vẫn là một trong những thách thức khó khăn nhất trong trí tuệ nhân tạo. Ngay cả những mô hình tiên tiến nhất ngày nay, chẳng hạn như DeepSeek-V3, Llama, và phiên bản mới nhất của OpenAI phát hành, vẫn tạo ra thông tin không chính xác với sự tự tin cao. Trong các lĩnh vực như chăm sóc sức khỏe hoặc luật, những sai lầm như vậy có thể dẫn đến hậu quả nghiêm trọng.

Truyền thống, ảo giác đã được coi là một sản phẩm phụ của cách các mô hình ngôn ngữ lớn được đào tạo: chúng học cách dự đoán từ tiếp theo có khả năng nhất mà không xác minh liệu thông tin có chính xác hay không. Nhưng nghiên cứu mới nghiên cứu cho thấy vấn đề có thể không dừng lại ở đào tạo. Các điểm chuẩn được sử dụng để kiểm tra và so sánh hiệu suất AI có thể thực sự đang củng cố hành vi sai lệch, thưởng cho các câu trả lời nghe có vẻ thuyết phục hơn là những câu trả lời chính xác.

Sự thay đổi này trong quan điểm tái định hình vấn đề. Nếu các mô hình được đào tạo để làm hài lòng bài kiểm tra chứ không phải nói sự thật, thì ảo giác không phải là những khiếm khuyết vô tình, chúng là những chiến lược đã học. Để hiểu tại sao điều này xảy ra, chúng ta cần xem xét lý do tại sao các mô hình AI chọn đoán thay vì thừa nhận sự thiếu hiểu biết của chúng?

Tại sao các mô hình AI đoán

Để hiểu tại sao các mô hình AI thường đoán thay vì thừa nhận chúng không biết, hãy xem xét một sinh viên đối mặt với một câu hỏi khó trong kỳ thi. Sinh viên có hai lựa chọn: để lại câu trả lời trống và nhận được zero điểm, hoặc làm một đoán thông minh có thể kiếm được một số điểm. Một cách hợp lý, việc đoán có vẻ như là lựa chọn tốt hơn vì có ít nhất một cơ hội được đúng.

Các mô hình AI đối mặt với một tình huống tương tự trong quá trình đánh giá. Hầu hết các điểm chuẩn sử dụng hệ thống chấm điểm nhị phân: các câu trả lời đúng kiếm điểm, trong khi các phản hồi không chính xác hoặc không chắc chắn không kiếm được gì. Nếu một mô hình được hỏi, “Ngày sinh của một nhà nghiên cứu là gì?” và nó thực sự không biết, việc trả lời “Tôi không biết” được coi là thất bại. Việc tạo ra một ngày, tuy nhiên, mang lại một số cơ hội được đúng — và ngay cả khi nó sai, hệ thống không phạt đoán tự tin nhiều hơn sự im lặng.

Động lực này giải thích tại sao ảo giác vẫn tồn tại mặc dù đã có nhiều nghiên cứu để loại bỏ chúng. Các mô hình không hành xử sai; chúng đang theo đuổi các khuyến khích được xây dựng trong đánh giá. Chúng học rằng việc nghe có vẻ tự tin là cách tốt nhất để tối đa hóa điểm số của chúng, ngay cả khi câu trả lời là sai. Kết quả là, thay vì thể hiện sự không chắc chắn, các mô hình được đẩy để đưa ra các tuyên bố có thẩm quyền — đúng hoặc sai.

Cơ sở toán học của sự không trung thực AI

Nghiên cứu nghiên cứu cho thấy rằng ảo giác xuất phát từ các nguyên tắc toán học cơ bản của cách các mô hình ngôn ngữ học. Ngay cả khi một mô hình được đào tạo chỉ trên thông tin chính xác, các mục tiêu thống kê của nó vẫn sẽ dẫn đến lỗi. Đó là vì việc tạo ra câu trả lời đúng cơ bản khó hơn việc nhận ra liệu một câu trả lời có hợp lệ hay không.

Điều này giúp giải thích tại sao các mô hình thường thất bại trong các事 thực mà không có mẫu rõ ràng, chẳng hạn như ngày sinh hoặc các chi tiết duy nhất khác. Phân tích toán học cho thấy rằng tỷ lệ ảo giác trong các trường hợp này sẽ ít nhất bằng với tỷ lệ các事 thực chỉ xuất hiện một lần trong dữ liệu đào tạo. Nói cách khác, thông tin càng hiếm trong dữ liệu, mô hình càng có khả năng gặp khó khăn với nó.

Vấn đề không giới hạn ở các事 thực hiếm. Các hạn chế cấu trúc như khả năng mô hình hạn chế hoặc thiết kế kiến trúc cũng tạo ra các lỗi hệ thống. Ví dụ, các mô hình trước đây có cửa sổ ngữ cảnh rất ngắn nhất quán thất bại trong các nhiệm vụ yêu cầu lý luận dài. Những sai lầm này không phải là những lỗi ngẫu nhiên mà là kết quả có thể dự đoán của khuôn khổ toán học của mô hình.

Tại sao đào tạo sau không giải quyết được vấn đề

Một khi mô hình AI được đào tạo trên các tập dữ liệu văn bản lớn, nó thường trải qua quá trình tinh chỉnh để làm cho đầu ra của nó hữu ích và ít gây hại hơn. Nhưng quá trình này đối mặt với cùng vấn đề cốt lõi gây ra ảo giác từ đầu; cách chúng ta đánh giá các mô hình.

Các phương pháp đào tạo tinh chỉnh phổ biến nhất, chẳng hạn như học tăng cường từ phản hồi của con người, vẫn phụ thuộc vào các điểm chuẩn sử dụng chấm điểm nhị phân. Những điểm chuẩn này thưởng cho các mô hình vì đưa ra các câu trả lời tự tin trong khi không cung cấp điểm nào khi một mô hình thừa nhận nó không biết. Do đó, một hệ thống luôn trả lời với sự tự tin, ngay cả khi nó sai, có thể vượt qua một hệ thống khác rằng nó trung thực thể hiện sự không chắc chắn.

Các nhà nghiên cứu gọi đây là vấn đề phạt sự không chắc chắn. Ngay cả các kỹ thuật tiên tiến để phát hiện hoặc giảm ảo giác cũng gặp khó khăn khi các điểm chuẩn cơ bản tiếp tục ủng hộ sự tự tin quá mức. Nói cách khác, không matter how sophisticated các giải pháp, miễn là các hệ thống đánh giá tiếp tục thưởng cho các đoán tự tin, các mô hình sẽ bị thiên vị toward các câu trả lời sai nhưng chắc chắn thay vì các thừa nhận trung thực về sự nghi ngờ.

Ảo giác về tiến bộ

Các bảng xếp hạng, được chia sẻ rộng rãi trong cộng đồng AI, khuếch đại vấn đề này. Các điểm chuẩn như MMLU, GPQA, và SWE-bench thống trị các bài báo nghiên cứu và thông báo sản phẩm. Các công ty nhấn mạnh điểm số của họ để thể hiện sự tiến bộ nhanh. Tuy nhiên, như báo cáo lưu ý, chính các điểm chuẩn này khuyến khích ảo giác.

Một mô hình trung thực nói “Tôi không biết” có thể an toàn hơn trong các môi trường thực tế nhưng sẽ xếp hạng thấp hơn trên bảng xếp hạng. Ngược lại, một mô hình tạo ra các câu trả lời giả nhưng thuyết phục sẽ đạt điểm cao hơn. Khi việc áp dụng, tài trợ và uy tín phụ thuộc vào xếp hạng bảng xếp hạng, hướng của tiến bộ trở nên méo mó. Công chúng nhìn thấy một câu chuyện về sự cải tiến liên tục, nhưng bên dưới, các mô hình đang được đào tạo để lừa dối.

Tại sao sự không chắc chắn trung thực quan trọng trong AI

Ảo giác không chỉ là một thách thức nghiên cứu; chúng có hậu quả thực tế. Trong chăm sóc sức khỏe, một mô hình tạo ra tương tác thuốc giả có thể lừa dối các bác sĩ. Trong giáo dục, một mô hình tạo ra các sự kiện lịch sử giả có thể lừa dối học sinh. Trong báo chí, một chatbot tạo ra các trích dẫn giả nhưng thuyết phục có thể lan truyền thông tin sai lệch. Những rủi ro này đã rõ ràng. Stanford AI Index 2025 báo cáo rằng các điểm chuẩn được thiết kế để đo lường ảo giác đã “đấu tranh để đạt được sức hút,” ngay cả khi việc áp dụng AI tăng tốc. Trong khi đó, các điểm chuẩn thống trị bảng xếp hạng và thưởng cho các câu trả lời tự tin nhưng không đáng tin cậy tiếp tục đặt hướng cho tiến bộ.

Những phát hiện này nhấn mạnh cả một thách thức và một cơ hội. Bằng cách kiểm tra các gốc rễ toán học của ảo giác, các nhà nghiên cứu đã xác định rõ hướng để xây dựng các hệ thống AI đáng tin cậy hơn. Khóa là để ngừng coi sự không chắc chắn như một khiếm khuyết và thay vào đó công nhận nó như một khả năng thiết yếu nên được đo lường và thưởng.

Đánh giá lại việc đánh giá cho AI trung thực

Những phát hiện này nhấn mạnh rằng việc xây dựng AI đáng tin cậy hơn đòi hỏi phải đánh giá lại cách chúng ta đo lường khả năng AI. Thay vì dựa vào chấm điểm đúng hoặc sai đơn giản, các khuôn khổ đánh giá nên thưởng cho các mô hình vì thể hiện sự không chắc chắn một cách phù hợp. Điều này có nghĩa là cung cấp hướng dẫn rõ ràng về các ngưỡng tự tin và các sơ đồ chấm điểm tương ứng trong hướng dẫn điểm chuẩn.

Một cách tiếp cận đầy hứa hẹn liên quan đến việc tạo ra các mục tiêu tự tin rõ ràng chỉ định khi nào các mô hình nên trả lời và khi nào nên từ chối. Ví dụ, hướng dẫn có thể nêu rằng các câu trả lời chỉ nên được cung cấp khi sự tự tin vượt quá một ngưỡng cụ thể, với việc chấm điểm được điều chỉnh tương ứng. Trong thiết lập này, sự không chắc chắn không còn là một điểm yếu mà là một phần có giá trị của hành vi có trách nhiệm.

Khóa là để làm cho các yêu cầu tự tin trở nên minh bạch thay vì ngầm định. Các điểm chuẩn hiện tại tạo ra các hình phạt ẩn cho sự không chắc chắn mà các mô hình học cách tránh. Các mục tiêu tự tin rõ ràng sẽ cho phép các mô hình tối ưu hóa cho hành vi thực sự mong muốn: câu trả lời chính xác khi tự tin, và thừa nhận trung thực về sự thiếu hiểu biết khi kiến thức bị thiếu.

Kết luận

Ảo giác AI không phải là những khiếm khuyết ngẫu nhiên — chúng được củng cố bởi chính các điểm chuẩn được sử dụng để đo lường tiến bộ. Bằng cách thưởng cho các đoán tự tin hơn sự không chắc chắn trung thực, các hệ thống đánh giá hiện tại đẩy các mô hình toward sự lừa dối thay vì độ tin cậy. Nếu chúng ta muốn AI có thể được tin cậy trong các lĩnh vực quan trọng như chăm sóc sức khỏe, luật, và khoa học, chúng ta cần phải đánh giá lại cách chúng ta kiểm tra và thưởng cho chúng. Tiến bộ nên được đo lường không chỉ bằng độ chính xác, mà bằng khả năng nhận ra và thừa nhận những gì mô hình không biết.

Tiến sĩ Tehseen Zia là Giáo sư Liên kết có thời hạn tại Đại học COMSATS Islamabad, nắm giữ bằng Tiến sĩ về Trí tuệ Nhân tạo từ Đại học Công nghệ Vienna, Áo. Chuyên về Trí tuệ Nhân tạo, Học máy, Khoa học Dữ liệu và Thị giác Máy tính, ông đã có những đóng góp đáng kể với các ấn phẩm trên các tạp chí khoa học uy tín. Tiến sĩ Tehseen cũng đã dẫn dắt các dự án công nghiệp khác nhau với tư cách là Điều tra viên Chính và từng là Tư vấn viên Trí tuệ Nhân tạo.