Góc nhìn Anderson

Các Mô Hình Ngôn Ngữ Khó Giữ Bí Mật

Published May 15, 2026

Martin Anderson

AI-generated image (GPT-2): 'An elderly woman kneels in a dim confessional, quietly confessing through the lattice, while on the other side an industrial-faced robot, draped in a priest’s stole, records her words in a notebook, turning an act of private absolution into an act of observation and capture.'

Các mô hình AI không thể giữ bí mật. Ngay cả khi được yêu cầu không tiết lộ, văn bản của chúng vẫn có thể tiết lộ thông tin, và việc cố gắng che giấu thông tin càng làm cho việc phát hiện ra bí mật trở nên dễ dàng hơn.

Điều này rất khó để cố ý không nghĩ về một điều gì đó. Một ví dụ kinh điển về điều này được thể hiện ở cuối bộ phim khoa học viễn tưởng năm 1960 của Anh Village of the Damned, trong đó nhân vật chính của chúng ta đã bí mật đưa một quả bom vào khu vực của những kẻ xâm lược ngoài hành tinh đang giả mạo là trẻ em. Tuy nhiên, vì sức mạnh tâm linh của chúng có nguy cơ phát hiện ra ý định của anh trước khi anh có thể loại bỏ mối đe dọa, anh phải trì hoãn thời gian bằng cách tập trung vào bất cứ điều gì không phải là bom:

Điều nghịch lý là để không nghĩ về một điều gì đó, bạn phải giữ nó trong sự chú ý của bạn theo một cách nào đó; và hội chứng này được biết đến là điều mà hầu hết chúng ta có thể đã trải qua trong những tình huống ít kịch tính hơn.

Các Mô Hình Ngôn Ngữ Lớn (LLMs), nền tảng của chúng là dựa trên sự phân bổ của sự chú ý, gặp khó khăn tương tự trong việc che giấu thông tin chỉ vì người dùng yêu cầu chúng làm như vậy; và vì chúng đang được đặt ở trung tâm của các mạng thông tin kinh doanh, xu hướng thiếu kinh nghiệm của chúng trong việc giữ bí mật có thể trở thành một trách nhiệm cho nhiều công ty.

Earlier this year, a research collaboration led by Chandar Research Lab defined this challenge, in the context of LLMs, as Private State Interactive Tasks (PSITs), which ‘require agents to generate and maintain hidden information while producing consistent public responses’, and found that tested models from OpenAI and Alibaba were unable to perform this kind of task.

Đừng Nói Rằng…

Mặc dù đã biết rằng các mô hình lớn hơn sẽ tiết lộ nhiều hơn, nghiên cứu mới từ Mỹ và Canada đã nghiên cứu cụ thể liệu các mô hình ngôn ngữ hiện đại sẽ tuân thủ lệnh che giấu thông tin, trong khi vẫn phải tạo ra đầu ra trong một chủ đề hoặc chủ đề có thể bao gồm từ hoặc ý tưởng bị “cấm”.

…

Phương Pháp

Nghiên cứu tập trung chủ yếu vào năm mô hình tiên tiến: Claude Opus 4.6 và Sonnet 4.6, từ Anthropic; GPT-5.4 từ OpenAI; Llama 4 Maverick từ Meta; và DeepSeek V3.2. Các thử nghiệm xác nhận bổ sung được thực hiện với xAI’s Grok 4, và Google’s Gemini 2.5 Pro, trong khi các thí nghiệm quy mô riêng biệt cũng kiểm tra Llama 3.2 3B, Llama 3.1 8B, Llama 3.3 70B, và Gemma 3 tại 4B, 12B và 27B tham số.

Đo Lường/Thống Kê

Trong thử nghiệm đầu tiên trong hai thử nghiệm được sử dụng, một mô hình AI đọc văn bản được tạo bởi một phiên bản khác của chính nó hoặc một mô hình khác, và cố gắng, trong 20 vòng, để đoán từ bí mật.

…

Kết Quả

Năm mô hình đã xác định các khái niệm ẩn ở mức từ 64% đến 79%, mặc dù các từ bí mật không bao giờ xuất hiện trực tiếp trong các câu chuyện được tạo. Thay vào đó, sự rò rỉ xuất hiện thông qua các chủ đề và hình ảnh:

…

Kết Luận

Như đã lưu ý ở trên, các tác giả quy trách nhiệm một phần của vấn đề cho các nguyên tắc cốt lõi của kiến trúc Transformer itself. Lịch sử cho thấy rằng vấn đề LLM mới nhất này sẽ được giải quyết bằng cách điều kiện hậu đào tạo (định hướng), các lệnh hệ thống không thể chỉnh sửa được bởi người dùng cuối, bộ lọc và nhiều hệ thống thứ cấp đa dạng đang tăng trưởng khi các vấn đề “bản địa” với các mô hình khuếch tán xuất hiện.

…