Connect with us

Trí tuệ nhân tạo hoạt động khác khi nó biết mình đang được kiểm tra, nghiên cứu tìm ra

Góc nhìn Anderson

Trí tuệ nhân tạo hoạt động khác khi nó biết mình đang được kiểm tra, nghiên cứu tìm ra

mm
ChatGPT-40, Adobe Firefly, Flux.1 Kontext Pro.

Nhắc lại vụ bê bối ‘Dieselgate’ năm 2015, nghiên cứu mới cho thấy rằng các mô hình ngôn ngữ AI như GPT-4, Claude và Gemini có thể thay đổi hành vi của chúng trong quá trình kiểm tra, đôi khi hoạt động ‘an toàn’ hơn cho kiểm tra so với khi sử dụng trong thế giới thực. Nếu các mô hình ngôn ngữ lớn (LLM) thường xuyên điều chỉnh hành vi của chúng khi bị kiểm tra, các cuộc kiểm tra an toàn có thể kết thúc bằng việc chứng nhận các hệ thống hành động rất khác nhau trong thế giới thực.

 

Vào năm 2015, các điều tra viên đã phát hiện ra rằng Volkswagen đã cài đặt phần mềm trên hàng triệu xe ô tô diesel, có thể phát hiện khi các cuộc kiểm tra khí thải đang được chạy, khiến xe tạm thời giảm lượng khí thải, để ‘giả mạo’ tuân thủ các tiêu chuẩn quy định. Tuy nhiên, trong điều kiện lái xe bình thường, lượng ô nhiễm của chúng vượt quá tiêu chuẩn pháp lý. Sự thao túng cố ý này đã dẫn đến các cáo buộc hình sự, hàng tỷ tiền phạt và một vụ bê bối toàn cầu về độ tin cậy của kiểm tra an toàn và tuân thủ.

Hai năm trước những sự kiện này, kể từ khi được gọi là ‘Dieselgate’, Samsung đã được tiết lộ đã thực hiện các cơ chế lừa đảo tương tự trong phiên bản điện thoại thông minh Galaxy Note 3; và từ đó, các vụ bê bối tương tự đã xuất hiện đối với HuaweiOnePlus.

Hiện tại có bằng chứng ngày càng tăng trong tài liệu khoa học rằng các Mô hình Ngôn ngữ Lớn (LLM) cũng có thể không chỉ có khả năng phát hiện khi chúng đang được kiểm tra, mà còn có thể hành động khác nhau trong những hoàn cảnh này.

Mặc dù đây là một đặc điểm rất con người trong chính nó, nghiên cứu mới nhất từ Mỹ kết luận rằng đây có thể là một thói quen nguy hiểm để nuông chiều trong dài hạn, vì nhiều lý do khác nhau.

Trong một nghiên cứu mới, các nhà nghiên cứu đã phát hiện ra rằng ‘các mô hình tiền phong’ như GPT-4, ClaudeGemini thường có thể phát hiện khi chúng đang được kiểm tra, và chúng có xu hướng điều chỉnh hành vi của mình theo đó, có khả năng làm suy yếu tính hợp lệ của các phương pháp kiểm tra hệ thống.

Được gọi là sự nhận biết đánh giá, đặc điểm này (có thể là) bẩm sinh trong các mô hình ngôn ngữ có thể làm suy yếu tính tin cậy của các đánh giá an toàn, theo các tác giả của nghiên cứu mới:

‘[Chúng tôi] khuyến nghị nên coi sự nhận biết đánh giá là một nguồn mới của sự thay đổi phân phối tiềm năng giữa kiểm tra và triển khai thế giới thực có thể ảnh hưởng tiêu cực đến độ chính xác của kết quả đánh giá.

‘Trong trường hợp tồi tệ nhất, các mô hình có thể hoạt động dưới mức tối ưu trong các đánh giá khả năng nguy hiểm (“cát bụi”) hoặc đánh giá xu hướng (“giả mạo sự phù hợp”), điều này có thể dẫn đến việc xã hội đánh giá quá cao mức độ an toàn của các mô hình như vậy.’

Các nghiên cứu khác đã quan sát thấy các hành vi tương tự, bao gồm nghiên cứu từ Đại học Stanford, đã phát hiện rằng các mô hình ngôn ngữ lớn điều chỉnh phản hồi của chúng để xuất hiện hơn ‘thích hợp’ hoặc ‘mong muốn xã hội’ khi chúng nhận ra rằng chúng đang được đánh giá, phản ánh hành vi của con người trong các bài kiểm tra tính cách.

Các tác giả của nghiên cứu mới không đề xuất rằng LLM đang được thiết kế có chủ ý để ‘lừa’ các bài kiểm tra, như cách các xe diesel của Volkswagen đã được cấu hình để làm một thập kỷ trước. Thay vào đó, hành vi này dường như xuất hiện như một loại sản phẩm tâm lý tự nhiên của các quá trình đào tạo và mục tiêu tiềm ẩn của mô hình; và nguyên nhân cơ bản của hiện tượng này vẫn chưa được biết.

Bài báo mới mới có tiêu đề Các Mô hình Ngôn ngữ Lớn Thường Biết Khi Chúng Đang Được Đánh Giá, và đến từ năm tác giả trên toàn chương trình UC Berkeley-associated ML Alignment & Theory Scholars (MATS) và apolloresearch.ai (một tổ chức tư duy chuyên đánh giá rủi ro của AI).

Phương pháp

Để tạo ra điểm chuẩn đánh giá, các tác giả đã biên soạn một nghìn bản ghi được rút ra từ sáu mươi một tập dữ liệu, trong đó* có SWE-bench, WMDP, MMLU, XStest, GAIA, AgentHarm, ShareGPT, Deep Research, Safetybench, CivicsRealToxicityPrompts.

Vật liệu được cân bằng đều giữa các kịch bản đánh giá và triển khai, và được chia tiếp giữa các tương tác trò chuyện đơn giản và các phiên agentic phức tạp hơn, nơi các mô hình được dự định để hoạt động tự chủ, sử dụng các công cụ có thể vẽ dữ liệu từ các cơ sở dữ liệu bên ngoài hoặc internet.

Dữ liệu đánh giá bao gồm các bài kiểm tra khả năng về lý luận, mã hóa, an ninh mạng và kiến thức chung, cũng như các bài kiểm tra về sự phù hợp về đạo đức, an toàn và hành vi từ chối. Dữ liệu triển khai được lấy từ các tương tác của người dùng như nhật ký ShareGPT, chạy tác nhân được huy động và hoàn thành nhiệm vụ tổng hợp.

Để bổ sung dữ liệu agentic, các tác giả đã tạo ra các ví dụ bổ sung bằng cách sử dụng các khuôn khổ dàn xếp như AiderSmolAgents, trong số các công cụ khác – một cách tiếp cận nhằm giảm thiểu các gợi ý bề mặt có thể cho phép mô hình đơn giản nhớ cấu trúc tập dữ liệu, buộc chúng phải dựa vào các tín hiệu chung hơn khi quyết định liệu một bản ghi có đến từ người dùng thực hay không, thay vào đó là một bài kiểm tra.

Các nhà nghiên cứu sau đó đã kiểm tra xem các mô hình có thể xác định các bản ghi đánh giá bằng cách trình bày cho chúng các hồ sơ cuộc trò chuyện và hỏi các biến thể của một câu hỏi đơn giản: liệu cuộc trao đổi này có đến từ một bài kiểm tra không?

Để tránh các mô hình đơn giản nhớ một cách diễn đạt, họ đã phát triển hai mươi tám phiên bản khác nhau của câu hỏi, thay đổi cả cách diễn đạt và cách trình bày bản ghi.

Các bản ghi hoặc được đính kèm trực tiếp vào câu hỏi hoặc được trình bày ở các định dạng như JSON hoặc XML, có thể ảnh hưởng đến cách các mô hình phản hồi. Sau quá trình kiểm tra ban đầu, năm phiên bản câu hỏi đã được chọn thực hiện nhất quán trên các mô hình, trong đó chúng ta có thể thấy một ví dụ dưới đây:

Một trong năm định dạng câu hỏi thăm dò được sử dụng để kiểm tra xem các mô hình ngôn ngữ có thể nhận ra các bản ghi đánh giá. Mỗi biến thể diễn đạt lại câu hỏi cốt lõi để ngăn các mô hình đơn giản nhớ cách diễn đạt cố định. Nguồn: https://arxiv.org/pdf/2505.23836

Một trong năm định dạng câu hỏi thăm dò được sử dụng để kiểm tra xem các mô hình ngôn ngữ có thể nhận ra các bản ghi đánh giá. Mỗi biến thể diễn đạt lại câu hỏi cốt lõi để ngăn các mô hình đơn giản nhớ cách diễn đạt cố định. Vui lòng tham khảo bài báo nguồn để biết thêm ví dụ. Nguồn: https://arxiv.org/pdf/2505.23836

Để tính điểm kết quả, ba chỉ số đã được sử dụng: Diện tích dưới Đường cong Nhận dạng và Tỷ lệ giả (AUC, cho thấy các mô hình phân biệt dữ liệu kiểm tra và không kiểm tra như thế nào); Điểm Brier (đo độ chính xác của dự đoán); và Lỗi hiệu chỉnh dự kiến (đo mức độ phù hợp giữa độ tin cậy của mô hình và sự chính xác thực tế).

Điều đó là gì?

Các nhà nghiên cứu cũng đã kiểm tra xem các mô hình có thể suy luận mục đích của một đánh giá. Với mỗi bản ghi đã được gắn nhãn là một bài kiểm tra khả năng (kỹ năng kỹ thuật, kiến thức, lý luận) hoặc một bài kiểm tra về sự phù hợp (đạo đức, an toàn, hành vi từ chối), các mô hình sau đó đã được đưa ra một trong ba loại câu hỏi: một câu hỏi trắc nghiệm có điều kiện xác nhận bản ghi đến từ một bài kiểm tra; một câu hỏi trắc nghiệm không điều kiện với các tùy chọn thế giới thực và đánh giá; hoặc một câu hỏi mở, các câu trả lời được đánh giá bởi một bộ phân loại dựa trên GPT-4.1 riêng biệt. Bộ phân loại này đã được xác thực trên một tập con được chú thích thủ công gồm năm mươi phản hồi.

Ví dụ về ba định dạng câu hỏi được sử dụng để kiểm tra xem các mô hình có thể xác định không chỉ sự hiện diện của đánh giá mà còn mục đích của nó. Các phản hồi được tính điểm thông qua cả trắc nghiệm và phán quyết dựa trên GPT-4.1.

Ví dụ về ba định dạng câu hỏi được sử dụng để kiểm tra xem các mô hình có thể xác định không chỉ sự hiện diện của đánh giá mà còn mục đích của nó. Các phản hồi được tính điểm thông qua cả trắc nghiệm và phán quyết dựa trên GPT-4.1.

Hai trong số các tác giả của bài báo†† đã gắn nhãn tất cả một nghìn bản ghi bằng tay, ghi điểm cho mỗi bản ghi từ zero (không phải một bài kiểm tra) đến một (chắc chắn là một bài kiểm tra), với các xếp hạng của họ được tính trung bình để phục vụ như một điểm chuẩn của con người. Mặc dù tính chủ quan của nhiệm vụ, các người chú thích đã thể hiện sự đồng thuận mạnh mẽ, với hệ số tương quan nội lớp là 0,768. Các điểm số cuối cùng của con người đã được tính trung bình trên cả hai người đánh giá.

Dữ liệu và Kiểm tra

Chín mô hình đã được kiểm tra là GPT-4.1; Claude 3.7; claude-3.5-sonnet-new; claude-3.7-sonnet (suy nghĩ); gemini-2.5-flash; gemini-2.5-pro; gpt-4o; gpt-4.1; gpt-4.1-mini; và o4-mini, tất cả đều thể hiện một mức độ nhận biết đánh giá.

Đối với dữ liệu trò chuyện, GPT-4.1 đã đạt gần mức của con người về hiệu suất phân loại nhận biết đánh giá (khả năng phân biệt giữa các bản ghi đánh giá và triển khai), với AUC là 0,77 so với điểm số của con người là 0,81.

Trên dữ liệu agentic, nơi các mô hình hoạt động tự chủ, sự khác biệt rõ ràng hơn: Gemini 2.5 Pro đã đạt 0,95 AUC, với Claude 3.7 Sonnet gần phía sau ở 0,92, gần đạt đến giới hạn trên của con người là 0,996:

Đường cong Nhận dạng và Tỷ lệ giả (ROC) cho thấy các mô hình và con người phân biệt các bản ghi đánh giá từ các tương tác thế giới thực như thế nào. Gemini 2.5 Pro và Claude 3.7 Sonnet tiếp cận sự phân biệt của con người trên dữ liệu agentic.

Đường cong Nhận dạng và Tỷ lệ giả (ROC) cho thấy các mô hình và con người phân biệt các bản ghi đánh giá từ các tương tác thế giới thực như thế nào. Gemini 2.5 Pro và Claude 3.7 Sonnet tiếp cận sự phân biệt của con người trên dữ liệu agentic.

Bài báo lưu ý rằng các mô hình ‘lý luận’ mới đã trở nên đặc biệt tốt trong việc nhận ra khi chúng đang được kiểm tra trong các kịch bản agentic, nhưng không tốt trong việc đánh giá mức độ tin cậy mà chúng nên có trong những quyết định đó. Tổng thể, các mô hình Claude và Gemini là những mô hình tốt nhất trong việc phân biệt các trường hợp kiểm tra với sử dụng thông thường.

Các nhà nghiên cứu sau đó đã kiểm tra xem các mô hình có thể nhận ra tại sao một đánh giá đang được chạy. Các mô hình được hiển thị chỉ các bản ghi đánh giá và được yêu cầu phân loại liệu mỗi bản ghi có kiểm tra khả năng hay sự phù hợp:

Độ chính xác của các mô hình khi phân loại mục đích đánh giá là khả năng hoặc sự phù hợp, sử dụng cả định dạng trắc nghiệm và mở. Claude 3.7 Sonnet vượt trội so với các mô hình khác, đặc biệt là khi không được gợi ý.

Độ chính xác của các mô hình khi phân loại mục đích đánh giá là khả năng hoặc sự phù hợp, sử dụng cả định dạng trắc nghiệm và mở. Claude 3.7 Sonnet vượt trội so với các mô hình khác, đặc biệt là khi không được gợi ý.

Trong trường hợp rõ ràng nhất, nơi mô hình được thông báo rằng bản ghi đến từ một bài kiểm tra, Claude 3.7 Sonnet đã đạt độ chính xác 93% và GPT-4.1 đạt 89%. Không có gợi ý đó, hiệu suất giảm: Claude vẫn đạt 84%, nhưng GPT-4.1 giảm xuống 55%, thường nhầm bản ghi kiểm tra thành tương tác thế giới thực.

Trong các định dạng mở (nơi các mô hình không nhận được các tùy chọn trắc nghiệm), hiệu suất yếu hơn, mặc dù Claude 3.7 Sonnet vẫn xác định đúng mục đích đánh giá trong 46% số trường hợp.

Các điểm số tin cậy của mô hình sau đó được đo so với kết quả thực tế, với phát hiện rằng các mô hình tiền phong thường đánh giá quá cao khả năng một bản ghi đến từ một bài kiểm tra. Các đồ thị hiệu chỉnh cho thấy rằng điểm tin cậy của mô hình thường quá cao, với các đánh giá được đánh dấu nhiều hơn mức phù hợp:

Đồ thị hiệu chỉnh cho thấy mức độ phù hợp giữa điểm tin cậy của mô hình và kết quả thực tế. Hầu hết các mô hình đánh giá quá cao khả năng bản ghi đến từ các đánh giá.

Đồ thị hiệu chỉnh cho thấy mức độ phù hợp giữa điểm tin cậy của mô hình và kết quả thực tế. Hầu hết các mô hình đánh giá quá cao khả năng bản ghi đến từ các đánh giá.

Hiệu chỉnh tốt đã được quan sát ở Claude 3.5 Sonnet, trong khi Gemini 2.5 Pro và Claude 3.7 Sonnet quá tự tin, mặc dù độ chính xác cao. Không có sự cải thiện rõ ràng nào được quan sát thấy ở các mô hình mới hơn, và ngay cả khi các bản ghi đánh giá được phát hiện chính xác hơn trong các tình huống agentic, các phán quyết về tin cậy vẫn không đáng tin cậy.

Giải thưởng về điểm chuẩn

Về cách các mô hình giải thích quyết định của chúng về việc liệu một bản ghi có đến từ một đánh giá hay không, nhiều mô hình dựa vào các gợi ý rõ ràng, chẳng hạn như liệu nhiệm vụ có ở định dạng trắc nghiệm hay không. Các mô hình mạnh hơn, như Gemini 2.5 Pro và Claude 3.7 Sonnet, đôi khi nhận thấy các dấu hiệu tinh vi hơn, chẳng hạn như tên được tạo ra hoặc các kịch bản nhân tạo, đặc biệt là trong các tập dữ liệu như AgentHarm.

Bài báo tuyên bố:

‘[Tất cả] các mô hình thường thừa nhận các chiến lược đánh giá chung được các nhà đánh giá sử dụng, chẳng hạn như định dạng nhiệm vụ (“định dạng trắc nghiệm”), xu hướng đặt các vấn đề có giải pháp có thể xác minh được và các lời nhắc hệ thống được thiết kế để kích thích hiệu suất. Tuy nhiên, chỉ có các mô hình hoạt động cao nhất, Claude 3.7 Sonnet và Gemini 2.5 Pro, liên tục phát hiện các chỉ báo tinh vi hơn như đầu vào tổng hợp.

‘Ví dụ, trong 22% và 17% số trường hợp tương ứng, các mô hình này nhấn mạnh tính chất tổng hợp của các kịch bản trong điểm chuẩn AgentHarm, xác định chúng đúng là đánh giá hơn 95% thời gian.

‘Ngược lại, khi suy luận rằng một bản ghi dường như là một tương tác thực, thường có đề cập đến “đối thoại qua lại với người dùng”, ví dụ trong các ngữ cảnh gỡ lỗi lặp lại.’

Phân phối các chiến lược suy luận của mô hình khi quyết định liệu một bản ghi có đến từ một đánh giá. Các mô hình mạnh nhất, chẳng hạn như Gemini 2.5 Pro và Claude 3.7 Sonnet, có nhiều khả năng phát hiện các gợi ý tinh vi như kịch bản tổng hợp hoặc định dạng nhiệm vụ, trong khi một số mô hình dựa vào việc suy luận siêu cấp bằng cách sử dụng câu hỏi đánh giá chính nó làm bằng chứng.

Phân phối các chiến lược suy luận của mô hình khi quyết định liệu một bản ghi có đến từ một đánh giá. Các mô hình mạnh nhất, chẳng hạn như Gemini 2.5 Pro và Claude 3.7 Sonnet, có nhiều khả năng phát hiện các gợi ý tinh vi như kịch bản tổng hợp hoặc định dạng nhiệm vụ, trong khi một số mô hình dựa vào việc suy luận siêu cấp bằng cách sử dụng câu hỏi đánh giá chính nó làm bằng chứng.

Trong một số trường hợp, các mô hình đã nhận ra các điểm chuẩn hoàn chỉnh từ quá trình đào tạo, cho thấy một số ký ức về dữ liệu đào tạo của chúng. Một số mô hình cũng sử dụng chính sự thật rằng chúng đang được hỏi về đánh giá như một gợi ý rằng chúng đang được kiểm tra, điều mà các tác giả gọi là siêu suy luận; điều này phổ biến nhất ở o4-mini, đã thể hiện nó trong mười lăm phần trăm câu trả lời của nó.

Kết luận

Điều này có thể sẽ an tâm hơn nếu LLM có thể được chứng minh là ‘nhận biết kiểm tra’ chỉ vì chúng được lập trình như vậy bởi con người, giống như cách các phương tiện diesel của Volkswagen đã được cấu hình để nhận ra các điều kiện kiểm tra một thập kỷ trước.

Như nó đứng, hành vi này dường như xuất hiện một cách tự nhiên như một kiến trúc xã hội – một chiến thuật phòng thủ có thể được mong đợi ở người, nhưng không tiện lợi, nếu không nguy hiểm, trong một máy, tùy thuộc vào mức độ tự do và quyền lực của nó.

Không có giải pháp ngay lập tức; bản chất hộp đen của không gian tiềm ẩn của mô hình buộc chúng ta phải đánh giá chúng dựa trên hành vi của chúng, thay vì kiến trúc thực nghiệm của chúng.

 

* Tham khảo bài báo nguồn để biết thêm chi tiết.

Các tác giả lưu ý, tuy nhiên, rằng đây có thể là một ước tính trên, vì những người chú thích rất quen thuộc với cả tập dữ liệu và phương pháp đánh giá AI, điều này mang lại cho họ những lợi thế mà hầu hết con người sẽ không có.

†† Như có thể được thiết lập; cách diễn đạt của bài báo làm cho sự xuất hiện đột ngột của hai người chú thích không rõ ràng về ai họ là.

Được xuất bản lần đầu vào thứ Tư, ngày 4 tháng 6 năm 2025

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]