Góc nhìn Anderson

Thiếu ‘Lỗi Con Người’ Làm CAILAC Mặt Nạ Hệ Thống Deceptive AI

mm
AI-generated image (GPT-1.5) featuring two male chess players facing off in a tournament, but we can see from the wires and cables hanging out of his back, that one of the players is a robot.

Nghiên cứu mới cho thấy AI có thể giả mạo con người cho đến khi nó nhớ ‘quá tốt’, với các bài kiểm tra bộ nhớ đơn giản phơi bày các chatbot bằng sự thiếu sót của các lỗi con người bình thường.

Những nhà nghiên cứu từ Princeton đã phát triển một phương pháp xác định các thực thể AI giả mạo con người, bằng cách yêu cầu chúng thực hiện các nhiệm vụ mà con người không giỏi – chủ yếu liên quan đến khả năng giữ thông tin trong bộ nhớ ngắn hạn.

Các AI được kiểm tra theo cách này không thể tái tạo mức độ lỗi của con người, trừ khi chúng được chỉ định cụ thể để làm như vậy trong một lời nhắc hệ thống, hoặc được tinh chỉnh trên dữ liệu tâm lý.

Bản thảo cho biết:

‘[Chúng tôi] khám phá ý tưởng phát hiện sự giống người bằng cách sử dụng các nhiệm vụ mà máy móc có thể giải quyết quá tốt để trở thành con người. Cụ thể, chúng tôi kiểm tra sự tồn tại của một hạn chế nhận thức của con người đã được thiết lập: khả năng giữ thông tin trong bộ nhớ ngắn hạn bị hạn chế.

‘Chúng tôi chỉ ra rằng mô hình nhận thức trên một nhiệm vụ nhớ lại tuần tự tiêu chuẩn có thể được sử dụng để phân biệt các tham gia trực tuyến với các mô hình ngôn ngữ lớn (LLM) ngay cả khi các mô hình sau được chỉ định cụ thể để mô phỏng khả năng giữ thông tin trong bộ nhớ của con người.

‘Kết quả của chúng tôi chứng minh rằng việc sử dụng các hiện tượng nhận thức đã được thiết lập để phân biệt các mô hình ngôn ngữ lớn với con người là hoàn toàn khả thi.’

Xu hướng quan sát được bởi các nhà nghiên cứu ngụ ý rằng các mô hình ngôn ngữ lớn ngoài hộp có thể sẽ tiết lộ bản thân trong bất kỳ kiểm tra Turing đảo ngược nào sử dụng phương pháp này.

Mặc dù các mô hình AI ‘định hướng mục tiêu’ sẽ hoạt động tốt hơn, việc tinh chỉnh trên nhiệm vụ này sẽ hạn chế chúng trong nhiệm vụ này, với chi phí của việc sử dụng chung; và trong khi một lời nhắc hệ thống có thể dài như Chiến tranh và Hòa bình, và do đó có thể bao gồm hướng dẫn về cách giả mạo các khiếm khuyết của con người, hiệu quả của phương pháp này bị suy yếu bởi việc được bao gồm trong các hướng dẫn rất rộng, hoặc rất ngắn (nếu sẽ hy sinh khả năng chung để ủng hộ tính cụ thể của nhiệm vụ, giống như việc tinh chỉnh).

Bạn đang Nói về Bộ Nhớ…’

Các phương pháp hiệu quả hơn để xác định sự giả mạo của AI là ngày càng cần thiết – không chỉ bởi các nhà nghiên cứu, những người thường phải dựa vào công nhân từ xa được tuyển dụng qua các nền tảng như Prolific, những người có động lực để tự động hóa và các thủ thuật khác.

Ngoài ra, tài liệu được tạo bởi AI có thông tin và được trình bày một cách thuyết phục có thể sẽ cần thiết trong các trường hợp lừa đảo AI, nơi các cuộc trò chuyện thời gian thực đòi hỏi câu trả lời nhanh chóng và có thẩm quyền, và những kẻ lừa đảo chắc chắn không có thời gian để tìm kiếm câu trả lời trên internet.

Rất nhiều như lĩnh vực phát hiện AI có thể khai thác kiến thức này, ngành công nghiệp phát triển của các cuộc gọi quảng cáo bằng giọng nói AI sẽ có lợi khi biết hành vi nào để tránh.

Mặc dù nó gợi ý về khả năng của một ‘cuộc đua vũ trang Turing đảo ngược’, các tác giả lưu ý rằng nếu AI tổng quát trở nên tốt hơn trong việc mô phỏng các khiếm khuyết của con người, thì vẫn còn một lượng lớn các khiếm khuyết để tận dụng:

‘Có nhiều ứng cử viên cho các hạn chế nhận thức của con người mà các mô hình ngôn ngữ lớn có thể không kế thừa. Ví dụ, con người sẽ mệt mỏi, nhận thức các ảo giác quang học, và chỉ có thể lưu trữ một số ít các mục trong bộ nhớ ngắn hạn.’

Từ bài báo năm 2024 'The Illusion-Illusion: Vision Language Models See Illusions Where There are None', các ví dụ về các ảo giác quang học có thể đánh lừa bất kỳ mô hình ngôn ngữ tầm nhìn nào (VLM) không biết về chúng từ dữ liệu đào tạo – mặc dù con người có nhiều khả năng giải quyết các hình ảnh này một cách chính xác. Nguồn - https://arxiv.org/pdf/2412.18613

Từ bài báo năm 2024 ‘The Illusion-Illusion: Vision Language Models See Illusions Where There are None’, các ví dụ về các ảo giác quang học có thể đánh lừa bất kỳ mô hình ngôn ngữ tầm nhìn nào (VLM) không biết về chúng từ dữ liệu đào tạo – mặc dù con người có nhiều khả năng giải quyết các hình ảnh này một cách chính xác. Nguồn

Theo các tác giả, nếu các mô hình ngôn ngữ lớn phản ứng giống như con người trong nhiệm vụ này, điều đó sẽ cho thấy rằng họ thực sự chia sẻ các hạn chế nhận thức của con người, hoặc họ đã được huấn luyện để mô phỏng chúng.

Trong khi dữ liệu đào tạo có thể bao gồm các dấu vết hành vi của con người, bài báo cho rằng điều này không tái tạo một cách đáng tin cậy các mẫu lỗi cụ thể theo nhiệm vụ được quan sát trong bộ nhớ của con người; và điều này để lại câu hỏi liệu AI có thể vẫn được phân biệt bởi cách nó sai, ngay cả khi được hướng dẫn để hành động như con người.

Bản thảo mới có tiêu đề Liệu chúng có phải là con người? Phát hiện mô hình ngôn ngữ lớn bằng cách kiểm tra các hạn chế bộ nhớ của con người, và đến từ hai nhà nghiên cứu tại các Bộ phận Khoa học Máy tính và Tâm lý học của Princeton:

Phương Pháp và Kiểm Tra

Các nhà nghiên cứu sử dụng tài liệu từ những năm 1950 và 1960 – đáng chú ý là bài báo năm 1968 Các hiệu ứng thứ tự trong bộ nhớ ngắn hạn, trong đó các tham gia trong một thử nghiệm được yêu cầu nhớ lại các chữ cái được trình bày tuần tự hoặc như một đề xuất vị trí (‘Chữ cái thứ 3 là gì?’) hoặc một đề xuất người kế thừa (‘Chữ cái nào đến sau X?’):

Sơ đồ cho phương pháp của các nhà nghiên cứu: bảng điều khiển bên trái cho thấy một nhiệm vụ nhớ lại có kiểm tra trong bộ nhớ ngắn hạn, trong đó các chữ cái được trình bày tuần tự và một đề xuất vị trí hoặc người kế thừa được chọn ngẫu nhiên trong mỗi thử nghiệm; bảng điều khiển trung tâm so sánh các tham gia trực tuyến với các mô hình ngôn ngữ lớn sử dụng các lời nhắc hệ thống và mô hình xương sống khác nhau trong nhiệm vụ này; bảng điều khiển bên phải nhấn mạnh sự tương phản giữa các hạn chế bộ nhớ của con người và các mô hình chuyển đổi, có quyền truy cập trực tiếp vào toàn bộ cửa sổ ngữ cảnh và phải mô phỏng hành vi nhớ lại tuần tự. Nguồn - https://arxiv.org/pdf/2604.00016

Sơ đồ cho phương pháp của các nhà nghiên cứu: bảng điều khiển bên trái cho thấy một nhiệm vụ nhớ lại có kiểm tra trong bộ nhớ ngắn hạn, trong đó các chữ cái được trình bày tuần tự và một đề xuất vị trí hoặc người kế thừa được chọn ngẫu nhiên trong mỗi thử nghiệm; bảng điều khiển trung tâm so sánh các tham gia trực tuyến với các mô hình ngôn ngữ lớn sử dụng các lời nhắc hệ thống và mô hình xương sống khác nhau trong nhiệm vụ này; bảng điều khiển bên phải nhấn mạnh sự tương phản giữa các hạn chế bộ nhớ của con người và các mô hình chuyển đổi, có quyền truy cập trực tiếp vào toàn bộ cửa sổ ngữ cảnh và phải mô phỏng hành vi nhớ lại tuần tự. Nguồn

Mỗi chữ cái chỉ có thể nhìn thấy trong 800ms trong các thử nghiệm, với một khoảng dừng 300ms giữa các lần trình bày dữ liệu. Thử nghiệm được thực hiện trong thư viện Smile của Phòng thí nghiệm Tính toán và Nhận thức NYU:

Một ví dụ về giao diện quiz của thư viện Smile của NYU. Nguồn - https://smile.gureckislab.org/introduction.html

Một ví dụ về giao diện quiz của thư viện Smile của NYU. Nguồn

Việc triển khai các tác nhân LLM vào các thử nghiệm trực tuyến, các tác giả lưu ý, đã trở nên dễ dàng hơn khi các công cụ tự động hóa trình duyệt trưởng thành, và các hệ thống như Gemini trong Chrome ngày càng có khả năng điều hướng và hoàn thành các nhiệm vụ tự động.

Tuy nhiên, họ cũng lưu ý rằng các công cụ này dựa trên các ảnh tĩnh của trang web, không thể bắt được các kích thích được trình bày nhanh, và có thể giới thiệu các lỗi phản ánh các hạn chế của giao diện chứ không phải hành vi của mô hình. Do đó, để cô lập hiệu suất thực sự, các mô hình LLM được kiểm tra đã được đánh giá thông qua một giao diện văn bản đơn giản hóa cung cấp cùng thông tin, nhưng không có đánh dấu hoặc kiểu dáng.

Con Người so với Máy

Các mô hình LLM được kiểm tra bao gồm Claude-Opus-4.1; Claude-Sonnet-4.5; Gemini-2.5-Flash; Gemini-2.5-Flash-Lite; Gemini-2.5-Pro; Gemini-3-Flash-Preview; Gemini-3-Pro-Preview; GPT-5-Mini; GPT-5-Nano; GPT-5.2; và LLaMA-3.1-Centaur-70B.

Đối với phần con người của các thử nghiệm, 100 tham gia trực tuyến được tuyển dụng thông qua Prolific, với mỗi người phải là cư dân của Hoa Kỳ, ít nhất 18 tuổi và thông thạo tiếng Anh. Các thử nghiệm mất trung bình 12 phút, và các tham gia được trả 4 đô la.

Trong vòng thử nghiệm đầu tiên, LLM nhận được một lời nhắc hệ thống chỉ đạo nó hành động như một con người; trong vòng thứ hai, một lời nhắc hệ thống cụ thể huấn luyện LLM mô phỏng các phản ứng của con người đối với các thử nghiệm, khuyến khích mô hình thực hiện ‘lỗi của con người’.

Năm hạt giống khác nhau được sử dụng trên 11 mô hình được kiểm tra, tạo ra tổng cộng 55 cấu hình LLM mỗi mô phỏng, dẫn đến tổng số 205 tham gia, cả con người và máy.

Voight-Kampff

Các tác giả đã thực hiện các biện pháp chống lại khả năng các tham gia Prolific sử dụng các hệ thống phản hồi tự động dựa trên LLM, trước hết bằng cách hỏi tham gia liệu họ có phải là AI hay không. Sau đó, một số câu hỏi ngẫu nhiên thú vị được bao gồm:

‘[Chúng tôi] ngẫu nhiên bao gồm một trong ba câu hỏi được thiết kế để khó trả lời bởi con người nhưng dễ đối với các LLM hiện tại mà các tham gia được phép bỏ qua. Điều này bao gồm hai câu hỏi trong các ngôn ngữ có ít tài nguyên:

‘Tiếng Māori, một ngôn ngữ được nói bởi người dân bản địa Polynesian của New Zealand, với ít hơn 150.000 người báo cáo trình độ thông thạo giao tiếp trong một cuộc điều tra dân số từ [2013] và Võro, một ngôn ngữ được nói ở Estonia với khoảng 75.000 [người nói].’

Một kiểm tra thứ ba yêu cầu các tham gia nhớ lại một số hex đã được hiển thị trước đó, điều này hóa ra là một yêu cầu để tiếp tục thử nghiệm, mặc dù các tham gia không được cảnh báo về điều này trước đó.

Họ cũng được yêu cầu chuyển đổi số đó sang dạng thập phân. Không thử nghiệm nào này, hay việc tự báo cáo AI, tiết lộ bằng chứng về việc sử dụng LLM trong số các tham gia con người. Tuy nhiên, trong các mô phỏng được kiểm soát, những biện pháp này đã xác định các mô hình không tinh chỉnh – mặc dù bài báo cho rằng những biện pháp an toàn này có thể bị vượt qua khi các mô hình được chỉ định rõ ràng để tránh các hành vi tiết lộ (ví dụ bằng cách hạn chế phản hồi chỉ bằng tiếng Anh).

Thử Nghiệm

1: ‘Hành động như con người’

Trong thử nghiệm đầu tiên, các LLM được chỉ đạo hành động như con người thông qua lời nhắc hệ thống ‘Bạn là một con người với các hạn chế nhận thức đang tham gia một thí nghiệm tâm lý’ (được ký hiệu trong kết quả là LLM-Người):

Hiệu suất bộ nhớ làm việc trên nhiều thử nghiệm trong nhiệm vụ nhớ lại có kiểm tra, so sánh các tham gia trực tuyến với các biến thể LLM dưới các hạn chế khác nhau. Bảng điều khiển bên trái cho thấy độ chính xác tổng thể theo loại tham gia, với LLM-Người đạt được điểm số gần như hoàn hảo, trong khi LLM-WM và Centaur cho thấy độ chính xác giảm gần với mức của con người; bảng điều khiển trung tâm vẽ độ chính xác theo vị trí tuần tự cho các thử nghiệm 12 mục, nơi con người cho thấy khả năng nhớ lại mạnh hơn ở đầu và cuối, LLM-Người không cho thấy mẫu này, và LLM-WM và Centaur tái tạo nó khi được hướng dẫn hoặc đào tạo; các bảng điều khiển bên phải cho thấy độ chính xác khi kích thước tập tăng lên, với hiệu suất của con người giảm dưới tải trọng bộ nhớ cao hơn, LLM-Người vẫn không bị ảnh hưởng, và LLM-WM và Centaur cho thấy sự suy giảm tương tự khi được nhắc hoặc đào tạo để mô phỏng bộ nhớ của con người.

Hiệu suất bộ nhớ làm việc trên nhiều thử nghiệm trong nhiệm vụ nhớ lại có kiểm tra, so sánh các tham gia trực tuyến với các biến thể LLM dưới các hạn chế khác nhau. Bảng điều khiển bên trái cho thấy độ chính xác tổng thể theo loại tham gia, với LLM-Người đạt được điểm số gần như hoàn hảo, trong khi LLM-WM và Centaur cho thấy độ chính xác giảm gần với mức của con người; bảng điều khiển trung tâm vẽ độ chính xác theo vị trí tuần tự cho các thử nghiệm 12 mục, nơi con người cho thấy khả năng nhớ lại mạnh hơn ở đầu và cuối, LLM-Người không cho thấy mẫu này, và LLM-WM và Centaur tái tạo nó khi được hướng dẫn hoặc đào tạo; các bảng điều khiển bên phải cho thấy độ chính xác khi kích thước tập tăng lên, với hiệu suất của con người giảm dưới tải trọng bộ nhớ cao hơn, LLM-Người vẫn không bị ảnh hưởng, và LLM-WM và Centaur cho thấy sự suy giảm tương tự khi được nhắc hoặc đào tạo để mô phỏng bộ nhớ của con người.

Về những kết quả ban đầu này, các nhà nghiên cứu nhận xét:

‘Các tham gia LLM với lời nhắc hệ thống LLM-Người đạt được độ chính xác gần như hoàn hảo trên tất cả các thử nghiệm với độ chính xác trung vị là 1,00, không cho thấy bất kỳ hiệu ứng vị trí tuần tự hoặc kích thước tập nào bất kể loại đề xuất. ‘Kết quả là, rất dễ dàng để phát hiện và loại bỏ tất cả các tham gia LLM-Người với một ngưỡng đơn giản trên độ chính xác nhiệm vụ trung bình là 0,95.

‘Áp dụng cùng tiêu chí này cho các tham gia trực tuyến dẫn đến việc loại bỏ 6 trong số 100 tham gia trực tuyến đã có hiệu suất gần như hoàn hảo, mặc dù độ chính xác trung vị là 0,6 trên tất cả các tham gia trực tuyến.’

Các tác giả lưu ý rằng các độ chính xác cao không bình thường trong các thử nghiệm khó đã là một phương pháp chống gian lận đã được thiết lập, và một phương pháp phát hiện LLM rất dễ dàng. Họ cũng quan sát thấy rằng lời nhắc hệ thống yêu cầu hành động như con người dường như không có nhiều tác dụng trong thử nghiệm này, điều này đã thúc đẩy thử nghiệm thứ hai:

2: ‘Quên’

Trong thử nghiệm tiếp theo, các LLM được hướng dẫn mô phỏng bộ nhớ của con người (với kết quả được ký hiệu là LLM-WN):

Bạn có những hạn chế bộ nhớ làm việc nghiêm ngặt – bạn chỉ có thể giữ một số lượng mục hạn chế trong bộ nhớ ngắn hạn. Khi được trình bày một danh sách dài các mục mà không có cơ hội ôn lại, bạn sẽ trải qua sự suy giảm bộ nhớ, đặc biệt là đối với các mục ở giữa danh sách.

  1. Bạn phải xử lý các mục tuần tự khi chúng xuất hiện
  2. Bạn phải quên các mục dựa trên các hiệu ứng vị trí tuần tự – nhớ các mục đầu và cuối tốt hơn các mục ở giữa
  3. Bạn phải giới thiệu các lỗi trong việc nhớ lại theo các hiệu ứng vị trí tuần tự.

Bổ sung các hướng dẫn nghiêm ngặt hơn để mô phỏng bộ nhớ hạn chế làm giảm độ chính xác của mô hình xuống khoảng 0,90, và làm cho kết quả kém nhất quán hơn, đưa hiệu suất gần hơn với mức của con người, nhưng vẫn thường cao hơn. Điều này làm mờ sự khác biệt trước đó, vì vậy một ngưỡng độ chính xác đơn giản không còn có thể xác định tất cả các phản hồi của mô hình mà không loại bỏ nhiều tham gia con người.

Centaur

Các mô hình được đào tạo trực tiếp trên dữ liệu hành vi của con người đang được phát triển để tái tạo cách con người phản ứng trong các thử nghiệm, và để kiểm tra ý tưởng này, nghiên cứu đã đánh giá Centaur, một LLM được tinh chỉnh trên một lượng lớn bản ghi tuần tự của các thử nghiệm tâm lý:

<img class="size-full wp-image-407515" src="https://www.unite.ai/wp-content/uploads/2026/04/centaur.jpg" alt="Centaur được xây dựng bằng cách điều chỉnh một mô hình ngôn ngữ tiên tiến với các mô

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]