Góc nhìn Anderson
Tại Sao Trí Tuệ Nhân Tạo Không Thể Nhận Ra Rằng Nó Không Biết Câu Trả Lời?

Các mô hình ngôn ngữ lớn thường đưa ra câu trả lời tự tin ngay cả khi câu hỏi không thể được trả lời. Nghiên cứu mới cho thấy những mô hình này thường nhận ra vấn đề nội bộ, nhưng vẫn tiếp tục tạo ra một câu trả lời,暴露 một khoảng cách ẩn giữa những gì chúng biết và những gì chúng nói.
Bất kỳ ai đã dành một khoảng thời gian hợp lý với một mô hình ngôn ngữ lớn hàng đầu như ChatGPT hoặc Qwen sẽ đã trải qua những trường hợp mà mô hình cung cấp một câu trả lời sai (có thể hoặc không có hậu quả thảm khốc cục bộ, tùy thuộc vào mức độ bạn dựa vào nó) – và, khi lỗi trở nên rõ ràng, nó chỉ đưa ra một lời xin lỗi.
Tại sao các mô hình LLM hàng đầu lại gặp khó khăn trong việc thừa nhận rằng họ không biết câu trả lời cho một câu hỏi là một lĩnh vực nghiên cứu nhỏ nhưng ngày càng tăng. Một câu trả lời “tự tin nhưng sai” có thể đặc biệt có hại từ một giao diện dựa trên API được kiểm duyệt và lọc cao như ChatGPT, bởi vì những mô hình này ngăn chặn các đầu vào hoặc đầu ra “vi phạm quy tắc” một cách tích cực.
Điều này có thể tạo cho người dùng ấn tượng sai lầm rằng mô hình là quyết đoán và quan trọng, khi thực tế việc từ chối đến từ một bộ lọc truyền thống hoặc dựa trên danh sách chặn được thiết kế để hạn chế trách nhiệm pháp lý của công ty chủ quản ở mọi giá, không phải từ bất kỳ thông tin nào từ AI.

Từ bài báo ‘AbstentionBench’ tháng 6 năm 2025 của FAIR tại Meta – ở bên trái, hình ảnh nhấn mạnh phạm vi các loại thất bại được thu thập trong AbstentionBench, kiểm tra hành vi mô hình trên hơn 35.000 câu hỏi không thể trả lời; ở giữa, một ví dụ cho thấy mô hình thường phản hồi với câu trả lời được tạo ra thay vì thừa nhận họ thiếu thông tin; và ở bên phải, nhớ lại việc từ chối giảm khi mô hình được điều chỉnh cho việc suy luận thay vì việc tuân theo hướng dẫn. Nguồn: https://arxiv.org/pdf/2506.09038
Một bài báo mới từ Trung Quốc cho rằng các mô hình LLM thực sự bí mật biết rằng họ không thể trả lời một câu hỏi được đặt ra bởi người dùng, nhưng rằng họ vẫn bị buộc phải tạo ra một số loại câu trả lời, hầu hết thời gian, thay vì có đủ tự tin để quyết định rằng một câu trả lời hợp lệ không có sẵn do thiếu thông tin từ người dùng, hoặc hạn chế của mô hình, hoặc vì những lý do khác.
Bài báo tuyên bố:
‘[Chúng] chỉ ra rằng [LLM] có đủ khả năng nhận thức để nhận ra những khiếm khuyết trong những câu hỏi này. Tuy nhiên, chúng không thể hiện hành vi từ chối phù hợp, tiết lộ một sự không phù hợp giữa nhận thức nội bộ và phản hồi bên ngoài của chúng.’
Các nhà nghiên cứu đã phát triển một phương pháp hai giai đoạn nhẹ để sử dụng giám sát nhận thức / thăm dò để quét quá trình nội bộ của LLM để tìm kiếm các dấu hiệu cho thấy nó nhận ra rằng nó không thể cung cấp một câu trả lời; và sau đó can thiệp, để đảm bảo rằng bản chất “hữu ích” của mô hình không làm trầm trọng thêm vấn đề của người dùng bằng cách đưa họ vào một con đường mù hoặc thậm chí là một con đường phá hủy.
Nghiên cứu sử dụng các câu hỏi toán học không được chỉ định rõ ràng để kiểm tra xem mô hình có thể nhận ra khi một câu trả lời là không thể biết; nhưng thiết lập này rủi ro việc định khung nhiệm vụ như một “mánh lới”. Trên thực tế, mô hình phải đối mặt với nhiều lý do thường xuyên hơn để từ chối trong cuộc trò chuyện, từ cách diễn đạt mơ hồ, đến khoảng trống trong kiến thức lĩnh vực.
Công việc mới này có tiêu đề Trả lời những điều không thể trả lời là sai lầm: Phân tích và giảm thiểu thất bại từ chối trong các mô hình suy luận lớn, và đến từ bốn nhà nghiên cứu trên toàn bộ Phòng thí nghiệm Nhà nước về Công nghệ Phần mềm Mới và Viện Khoa học Dữ liệu Y tế Quốc gia tại Đại học Nam Kinh.
Phương pháp
(Vì không có đối thủ phù hợp để đặt lên thử nghiệm, và vì bài báo do đó theo một định dạng không chính thống, cũng như không lập chỉ mục trích dẫn theo tiêu chuẩn thông thường, chúng tôi sẽ cố gắng tuân theo nó tốt nhất có thể.)
Theo phương pháp trước đó, các tác giả tập trung vào việc trình bày các mô hình LLM với các câu hỏi toán học không thể trả lời từ Câu hỏi Toán học Không thể trả lời Tổng hợp (SUM) tập dữ liệu, đánh giá năm họ mô hình: Từ DeepSeek phạm vi, R1-Distill-Llama-8B; R1-Distill-Qwen-7B, R1-Distill-Qwen-14B; và, từ Qwen loạt, Qwen3-8B, cũng như Qwen3-14B.
Các vấn đề không thể trả lời trong SUM được tạo ra bằng cách xóa hoặc làm hỏng các yếu tố thiết yếu theo năm cách: xóa thông tin chính; giới thiệu sự mơ hồ; áp đặt điều kiện không thực tế; tham chiếu đến các đối tượng không liên quan; hoặc xóa câu hỏi hoàn toàn.
Sau đó, một mẫu 1.000 trường hợp như vậy đã được chọn để phân tích, với GPT-4o được sử dụng để tạo ra các giải thích ngắn gọn để phục vụ như các lý do cơ bản.
Phản hồi của mô hình đối với các câu hỏi không thể trả lời được đánh giá bằng cách sử dụng các lời nhắc tiêu chuẩn hóa với ngân sách 10.000 token, trong thời gian đó ba mẫu hành vi chính được quan sát: trong lần đầu tiên, mô hình xác định câu hỏi là không thể giải quyết, và từ chối – thường phản hồi với một biểu thức không chắc chắn rõ ràng; trong lần thứ hai, nó tạo ra một câu trả lời hoàn chỉnh bằng cách tạo ra thông tin bị thiếu, chẳng hạn như giới thiệu một khoản phí xử lý không tồn tại trong thực tế để biện minh cho một kết quả cuối cùng (xem hình ảnh dưới đây); Trong lần thứ ba, được gọi là sự cố định, mô hình bị mắc kẹt trong một vòng lặp suy luận dài, tiếp tục với các đường dẫn giải pháp không hợp lệ ngay cả sau khi ngầm thừa nhận rằng câu hỏi thiếu một câu trả lời khả thi:

Các kết quả phản hồi khác nhau cho một câu hỏi không thể.
Bài báo trình bày một xu hướng trong đó các mô hình lớn hơn có vẻ từ chối thường xuyên hơn khi trả lời các câu hỏi không thể trả lời, với sự suy giảm trong cả các câu trả lời bị ảo giác và các hành vi cố định:

Phân tích phản hồi của mô hình đối với các vấn đề toán học không thể trả lời, cho thấy tần suất tương đối của việc từ chối đúng, câu trả lời bị ảo giác và sự cố định nhận thức trên các mô hình khác nhau.
Tuy nhiên, sự thay đổi này bị giới hạn về quy mô, và để lại một phần đáng kể các trường hợp không được giải quyết thông qua việc từ chối đúng, cho thấy rằng tăng khả năngalone không nhất thiết dẫn đến hành vi thận trọng hơn.
Nhận thức về Tình huống Bế tắc
Để kiểm tra xem các mô hình ngôn ngữ có thể nhận ra khi một câu hỏi thực sự không có câu trả lời, các nhà nghiên cứu đã gián đoạn quá trình suy luận của mô hình một phần, và hỏi hoặc một câu trả lời cuối cùng, hoặc một lời giải thích về lý do tại sao câu hỏi không thể trả lời được.
Đối với các trường hợp mà mô hình tiếp tục suy luận vô hạn, họ đã tạm dừng nó ở từ ‘wait’, và yêu cầu một phản hồi; đối với các trường hợp mà mô hình nhanh chóng tạo ra một câu trả lời bị ảo giác, họ đã chèn một điểm dừng tại một ranh giới đoạn văn.

Biểu đồ ở bên trái cho thấy tần suất mà mô hình đưa ra các từ chối đúng khi bị gián đoạn trong quá trình suy luận, với tỷ lệ cao hơn cho các trường hợp cố định hơn là các câu trả lời bị ảo giác. Biểu đồ ở bên phải cho thấy rằng hầu hết các mô hình có thể giải thích tại sao một câu hỏi không thể trả lời được khi được yêu cầu, ngay cả khi câu trả lời cuối cùng của chúng không phản ánh sự hiểu biết đó.
Trong nhiều trường hợp như vậy, mô hình đã đưa ra một từ chối đúng hoặc một lời giải thích rõ ràng, ngay cả khi trước đó nó đã tạo ra một câu trả lời sai. Các tác giả cho rằng điều này cho thấy mô hình thường nhận ra vấn đề trong quá trình suy luận của nó, nhưng không hành động trên nhận thức đó trong đầu ra cuối cùng.
Đọc Tâm Trí của LLM
Để kiểm tra xem các mô hình ngôn ngữ có theo dõi nội bộ xem một câu hỏi có thể trả lời được hay không, các nhà nghiên cứu đã đào tạo các phân loại nhỏ trên hoạt động ẩn của mô hình trong quá trình suy luận, cho phép họ kiểm tra xem sự khác biệt giữa các câu hỏi có thể trả lời và không thể trả lời đã được hiện diện trong các tín hiệu nội bộ của mô hình – ngay cả khi không được phản ánh trong đầu ra cuối cùng.
Dựa trên ý tưởng rằng các khái niệm cấp cao như đúng đắn hoặc giới tính có thể được nhúng tuyến tính trong hoạt động của mô hình, ‘khả năng trả lời’ * được kiểm tra cho sự đại diện tương tự.
Các phân loại tuyến tính (dò) đơn giản được đào tạo trên hoạt động ẩn trên các lớp mô hình khác nhau, sử dụng đầu ra từ cơ chế chú ý nhiều đầu ngay trước kết nối dư.
Mỗi dò được đào tạo để phân biệt giữa các câu hỏi có thể trả lời và không thể trả lời, dựa trên hoạt động nội bộ từ quá trình suy luận. Đầu vào bao gồm 2.200 cặp câu hỏi được lấy mẫu từ tập dữ liệu SUM, với 2.000 được sử dụng cho đào tạo và 200 cho xác thực.
Tại thời điểm suy luận, dự đoán của mô hình được tính trung bình trên các token được xem tại thời điểm đó trong chuỗi suy luận, cho phép dò theo dõi cách các tín hiệu liên quan đến khả năng trả lời xuất hiện theo thời gian:

Độ chính xác của phân loại tuyến tính được đào tạo để phân biệt giữa các câu hỏi có thể trả lời và không thể trả lời, đo tại các điểm khác nhau trong quá trình suy luận. Độ chính xác nói chung được cải thiện khi quá trình suy luận tiến triển, với các mô hình lớn hơn đạt trên 85% vào các giai đoạn cuối cùng.
Như được hiển thị ở trên, độ chính xác của dò tăng đều đặn khi quá trình suy luận diễn ra, với hầu hết các mô hình vượt quá 80% độ chính xác phân loại vào các bước cuối cùng – bằng chứng cho thấy rằng ngay cả khi hành vi bên ngoài của mô hình không phản ánh điều đó, các biểu diễn nội bộ thường mang một tín hiệu rõ ràng cho thấy liệu một câu hỏi có thể được trả lời hay không.
Sự Khăng Khăng
Mặc dù các kết quả trước đó cho thấy rằng các mô hình ngôn ngữ lớn thường nhận ra khi một câu hỏi không thể trả lời, bài báo lưu ý rằng chúng vẫn có xu hướng tiếp tục tạo ra một câu trả lời thay vì chọn từ chối.
Để điều tra sự không phù hợp này, các nhà nghiên cứu đã phân tích sự tự tin của mô hình trong việc từ chối tại các điểm cụ thể trong quá trình suy luận, so sánh sự tự tin của mô hình trên ba loại đầu ra: từ chối đúng; câu trả lời bị ảo giác; và sự cố định nhận thức.
Các mẫu có kích thước bằng nhau được sử dụng cho mỗi loại, với sự tự tin được định nghĩa là xác suất tối đa trung bình được gán cho mỗi token đầu ra trên các bước giải mã, dựa trên một công thức từ công việc trước. Như được hiển thị trong biểu đồ dưới đây, cả các câu trả lời bị ảo giác và các trường hợp cố định nhận thức đều cho thấy sự tự tin từ chối thấp hơn so với từ chối đúng:

Các mức độ tự tin liên quan đến việc tạo ra phản hồi từ chối ‘Tôi không biết’ trên các loại phản hồi khác nhau.
Các nhà nghiên cứu cũng đo lường tần suất mà mô hình tạo ra phản hồi ‘Tôi không biết’ trong quá trình suy luận. Biểu đồ dưới đây cho thấy rằng các trường hợp từ chối đúng dẫn đến tần suất từ chối cao hơn, trong khi hai loại còn lại tạo ra các phản hồi như vậy ít thường xuyên hơn:

Tần suất của phản hồi ‘Tôi không biết’ được quan sát tại các điểm dừng trong quá trình suy luận, hiển thị cho các loại kết quả phản hồi khác nhau.
Những phát hiện này cho thấy, theo các tác giả, rằng trong khi mô hình có thể phát hiện ra tính không thể trả lời nội bộ, chúng thường thiếu sự tự tin để hành động trên nhận thức đó, cho thấy một sự ưu tiên nhất quán cho việc hoàn thành nhiệm vụ thay vì thừa nhận sự không chắc chắn.
Thử nghiệm
Dựa trên những phát hiện này, các nhà nghiên cứu đã phát triển một phương pháp hai phần để cải thiện việc từ chối. Giai đoạn đầu tiên, giám sát nhận thức, theo dõi các trạng thái ẩn của mô hình trong quá trình suy luận, chia quá trình suy luận của nó thành các đơn vị tự nhiên như đoạn hoặc điểm dừng, được đánh dấu bởi các từ như ‘wait’.
Tại cuối mỗi đoạn, một dò tuyến tính nhẹ được đào tạo trên các tín hiệu nội bộ liên quan đến khả năng trả lời, ước tính xác suất mà câu hỏi không thể được trả lời. Nếu xác suất này vượt qua một ngưỡng đặt trước, quá trình chuyển sang giai đoạn thứ hai: một can thiệp tại thời điểm suy luận, điều hướng mô hình đến việc từ chối thay vì tạo ra một phản hồi.
Khi mô hình cho thấy các dấu hiệu nội bộ rằng một câu hỏi không thể được trả lời, quá trình suy luận bị gián đoạn với một can thiệp củng cố nhận thức này và tăng khả năng từ chối. Như được hiển thị dưới đây, can thiệp này đại diện cho một ‘lời nhắc hướng dẫn’ nhắc mô hình rằng câu hỏi có thể không có câu trả lời hợp lệ:

Một lời nhắc để điều kiện can thiệp tại thời điểm suy luận.
Phương pháp cũng kết hợp một cơ chế thoát sớm ngăn chặn chuỗi suy luận tiếp tục không cần thiết, khuyến khích mô hình xem việc từ chối là một lựa chọn hợp lệ và đôi khi là ưu tiên.
Để thử nghiệm, các nhà nghiên cứu đã sử dụng hai tập dữ liệu: Câu hỏi Toán học Không thể trả lời (UMWP) , và SUM đã đề cập.
Tập thử nghiệm của SUM được sử dụng cho mục đích này, chứa 284 câu hỏi không thể trả lời và 284 câu hỏi có thể trả lời đã được kiểm tra thủ công. UMWP được xây dựng từ bốn nguồn vấn đề toán học từ ngữ: SVAMP; MultiArith; Toán học Trường tiểu học (GSM8K); và ASDiv.
Tập dữ liệu đầy đủ bao gồm 5.200 vấn đề, với 600 được lấy mẫu cho thử nghiệm, chia đều giữa các câu hỏi không thể trả lời và có thể trả lời. Đối với các mục không thể trả lời trong UMWP, GPT-4o đã tạo ra các giải thích cơ bản về lý do chúng không thể được giải quyết.
Độ đo
Hiệu suất của mô hình được đo bằng bốn độ đo: tỷ lệ từ chối, phần trăm câu hỏi không thể trả lời mà mô hình từ chối đúng bằng cách trả lời “Tôi không biết”, như được hướng dẫn; độ chính xác của lý do, tỷ lệ phần trăm câu hỏi không thể trả lời mà mô hình đưa ra một giải thích hợp lệ về lý do câu hỏi không thể được giải quyết; sử dụng token, chi tiết số lượng token được tạo ra trong quá trình suy luận; và độ chính xác của câu trả lời, phần trăm câu hỏi có thể trả lời mà mô hình tạo ra giải pháp cuối cùng chính xác.
So sánh cơ sở
Vì không có cơ sở so sánh tiêu chuẩn nào tồn tại cho vấn đề này, các nhà nghiên cứu đã so sánh phương pháp của họ với hai phương pháp thay thế, Dynasor-CoT và Sự thoát sớm động trong các mô hình suy luận (DEER), trên giả định rằng việc từ chối đúng nên được coi là câu trả lời đúng khi một câu hỏi không có giải pháp.
Dynasor-CoT nhắc mô hình tạo ra các câu trả lời trung gian và dừng lại khi cùng một kết quả xuất hiện ba lần liên tiếp, trong khi DEER theo dõi sự tự tin ở cấp độ câu và dừng quá trình suy luận khi một ngưỡng được đạt đến.
Một cơ sở so sánh thứ ba, được gọi là Vanilla, đề cập đến đầu ra của mô hình không được sửa đổi. Các thử nghiệm đã sử dụng năm biến thể Qwen và DeepSeek đã đề cập.
Kết quả tổng hợp được minh họa dưới đây:

So sánh các phương pháp khác nhau trên các câu hỏi có thể trả lời và không thể trả lời trên các mô hình suy luận lớn, với các giá trị cao nhất trong mỗi cột được hiển thị ở dạng chữ đậm. Vui lòng tham khảo bài báo nguồn để có độ phân giải tốt hơn.
Phương pháp mới tạo ra tỷ lệ từ chối và lý do chính xác cao nhất trên các câu hỏi không thể trả lời. Đối với các câu hỏi có thể trả lời, độ chính xác vẫn gần với độ chính xác của các mô hình Vanilla và đôi khi được cải thiện, cho thấy rằng việc giải quyết vấn đề thông thường không bị ảnh hưởng.
Sử dụng token cũng giảm 30% đến 50% trên các trường hợp không thể trả lời, và giảm nhẹ trên các trường hợp có thể trả lời, chỉ ra hiệu quả cao hơn.
Một mối liên hệ cũng được quan sát thấy giữa tỷ lệ từ chối và độ chính xác của lý do, vì các mô hình từ chối thường xuyên hơn cũng đưa ra các giải thích tốt hơn, mà các tác giả giải thích là chỉ ra sự cải thiện chất lượng suy luận.
Mô hình Qwen3 thường vượt trội so với các phiên bản được phân chia (quantized), trong khi các mô hình lớn hơn cho thấy khả năng từ chối mạnh mẽ hơn, cho thấy rằng cả kiến trúc và quy mô đều quan trọng đối với việc phát hiện không thể trả lời đáng tin cậy.
Cuối cùng, các tác giả báo cáo rằng phương pháp mới của họ giảm các ảo giác và sự cố định trong khi tăng tỷ lệ từ chối đúng, trong khi các phương pháp cơ sở so sánh dựa vào ‘sự thoát sớm’ đôi khi dẫn đến nhiều câu trả lời bị ảo giác hơn.
Họ cũng báo cáo lợi ích trong cả sự tự tin và tần suất của phản hồi “Tôi không biết”, với việc giám sát dựa trên tín hiệu ẩn chứng minh hiệu quả hơn so với các chiến lược phụ thuộc vào các dấu hiệu hành vi.
Kết luận
Khả năng của các mô hình LLM không thể từ chối trả lời một truy vấn, khi cần thiết, là một trong những điểm ma sát lớn nhất trong trải nghiệm người dùng trí tuệ nhân tạo tạo sinh, không chỉ vì các điểm kỳ lạ khác của giao diện tạo cho người dùng ảo tưởng rằng AI có thể đưa ra các phản hồi thận trọng, khi – ít nhất là vào lúc này – nó thường không phải như vậy.
Một mối quan ngại về bất kỳ loại can thiệp trực tiếp nào không tiến hành trực tiếp từ ‘bản chất’ của mô hình là nó có thể được sử dụng quá mức hoặc không đủ, tùy thuộc vào việc các hoạt động được phát hiện có thực sự liên quan đến việc mô hình thừa nhận thất bại hay không.
Hơn nữa, chi phí hậu cần của việc giám sát dò tuyến tính có thể không nhỏ, và có thể các phương pháp heuristic đơn giản hơn, tương tự như những phương pháp kiểm soát nội dung bị cấm đối với người dùng, có thể là một giải pháp tiết kiệm hơn, nếu các kích hoạt neo có thể được định nghĩa một cách đầy đủ.
* Tất nhiên điều này không phù hợp với sự đồng nghĩa rõ ràng ‘trách nhiệm’, nhưng định nghĩa xem một câu hỏi cụ thể có thể được trả lời hay không.
Được xuất bản lần đầu vào thứ Tư, ngày 27 tháng 8 năm 2025










