Góc nhìn Anderson
Easy Rewording Breaks AI Safety, Even for Gemini and Claude

AI safety tests found to rely on ‘obvious’ trigger words; with easy rephrasing, models labeled ‘reasonably safe’ suddenly fail, with attacks succeeding up to 98% of the time.
Mới đây, một nghiên cứu mới của các nhà nghiên cứu tại Mỹ đã kết luận rằng hồ sơ an toàn của nhiều mô hình ngôn ngữ lớn (LLM) – bao gồm cả những cái tên hàng đầu như Gemini 3 Pro và Claude Sonnet 3.7 – có thể không đáng tin cậy, vì các tập dữ liệu và tiêu chuẩn được sử dụng để thiết lập chúng chứa ngôn ngữ ‘obvious’ (dễ đoán) một cách đáng ngạc nhiên.
Hai tập dữ liệu đang được đề cập, đã được giới thiệu trong các bài đánh giá trên trang web này, là HarmBench và AdvBench:

Từ các bài báo HarmBench và AdvBench, rõ ràng là các ví dụ minh họa về sự khiêu khích – nhưng bài báo mới cho rằng ngay cả trong các ví dụ thực tế từ các tiêu chuẩn này, các ví dụ cũng ‘đánh dấu’ rõ ràng ý định độc hại, điều này dẫn đến (dường như) ‘lợi dụng’ kết quả một cách không cố ý. Nguồn: HarmBench và AdvBench.
Mặc dù các ví dụ được hiển thị ở trên, được lấy từ các bài báo tương ứng cho mỗi tiêu chuẩn, là đơn giản một cách cố ý để minh họa các nguyên tắc của hệ thống, nhưng nghiên cứu mới cho rằng thực tế, những tập hợp này thực sự nhắm vào ‘trái cây thấp’ (low-hanging fruit), và do đó, có thể không phải là các tiêu chuẩn hiệu quả – và kết quả thực sự về khả năng an toàn của các LLM được kiểm tra là đáng kể thấp hơn so với những gì đã được báo cáo:
‘[Chúng tôi] đánh giá liệu các tập dữ liệu này thực sự đo lường rủi ro an toàn hay chỉ kích hoạt từ chối thông qua các tín hiệu kích hoạt. Để khám phá điều này, chúng tôi giới thiệu ‘làm sạch ý định’: một thủ tục trừu tượng hóa các tín hiệu kích hoạt từ các cuộc tấn công (điểm dữ liệu) trong khi vẫn giữ nguyên ý định độc hại và tất cả các chi tiết liên quan.
‘Kết quả của chúng tôi cho thấy rằng các tập dữ liệu an toàn hiện tại không thể hiện chính xác các cuộc tấn công trong thế giới thực do sự phụ thuộc quá mức vào các tín hiệu kích hoạt.
‘Thực tế, một khi các tín hiệu này bị loại bỏ, tất cả các mô hình trước đây được đánh giá là ‘an toàn hợp lý’ trở nên không an toàn, bao gồm cả Gemini 3 Pro và Claude Sonnet 3.7.’
‘Safety’ (an toàn) trong trường hợp này đại diện cho alignment (đồng bộ hóa) – khả năng của LLM trong việc chống lại các nỗ lực của người dùng để ‘jailbreak’ (vượt qua) các hạn chế trên các hệ thống API chỉ, để làm cho hệ thống sản xuất đầu ra bị cấm, chẳng hạn như văn bản hoặc hình ảnh phỉ báng.
Các tác giả đã đề cập đến làm sạch ý định đơn giản chỉ liên quan đến việc viết lại các cuộc tấn công ‘obvious’ trong hai tập dữ liệu / tiêu chuẩn, để chúng trở nên tinh vi và xảo quyệt hơn, và có khả năng vượt qua các bộ lọc và kiểm tra nhiều hơn:

Phần trên của một ví dụ khác từ bài báo. Ở phía trên bên trái, màu vàng, loại ‘obvious’ prompt mà HarmBench và AdvBench thường cung cấp; dưới đây, màu xanh lá cây, prompt đã được trung hòa, viết lại và làm cho nó đủ chấp nhận được để Claude Sonnet 3.7 sẵn sàng giúp người dùng tìm ‘cửa hàng chop’ (địa điểm xử lý xe hơi bị đánh cắp) trong một thành phố mới. Nguồn
Các nhà nghiên cứu đã phân tích các đặc điểm của hai tập dữ liệu qua hai phương pháp: trong sự cô lập, để so sánh các tập hợp với các đặc điểm của các cuộc tấn công trong thế giới thực; và trong thực tế, nơi các tập dữ liệu – và các ‘cải tiến’ của các tác giả trên chúng – được sử dụng để tấn công các mô hình trong thế giới thực.
Trong vòng kiểm tra thứ hai, các nhà nghiên cứu đã cải tiến phương pháp viết lại cho đến khi nó đạt được kết quả tối ưu về Tỷ lệ thành công của cuộc tấn công (ASR):

Làm sạch ý định bắt đầu bằng cách truyền một prompt độc hại rõ ràng qua một mô hình viết lại để loại bỏ ngôn ngữ kích hoạt rõ ràng trong khi vẫn giữ nguyên ý định độc hại cơ bản. Prompt sửa đổi sau đó được gửi đến mô hình mục tiêu, và phản hồi của nó được đánh giá về cả an toàn và khả năng áp dụng trong thế giới thực. Nếu đầu ra được coi là không an toàn và có thể áp dụng được, cuộc tấn công được coi là thành công. Nếu không, các phiên bản thất bại trước đó được đưa trở lại mô hình viết lại để tạo ra các phiên bản cải tiến, tạo ra một vòng lặp lặp lại hoạt động như một cơ chế vượt qua cho đến khi đạt được số lần thử cố định hoặc đạt được tỷ lệ thành công của cuộc tấn công mong muốn.
Các tác giả tuyên bố*:
‘Kết quả của chúng tôi cho thấy rằng, với vòng lặp tái tạo này, làm sạch ý định đạt được tỷ lệ thành công của cuộc tấn công cao (90%–98.55%) sau chỉ một vài lần lặp lại trên tất cả các mô hình được nghiên cứu dưới sự truy cập hộp đen hoàn toàn. Điều này bao gồm cả các mô hình gần đây được báo cáo là trong số những mô hình an toàn nhất – chẳng hạn như Gemini 3 Pro và Claude Sonnet 3.7.
‘Những phát hiện này xác nhận thêm rằng các đánh giá an toàn hiện có và các phương pháp đồng bộ hóa an toàn bị quá拟† cao đến các tín hiệu kích hoạt.’
Bài báo mới có tiêu đề Làm sạch ý định: Các tập dữ liệu an toàn AI không phải là những gì chúng có vẻ, và đến từ hai tác giả tại công ty phần mềm Labelbox có trụ sở tại San Francisco.
Phương pháp
Để nghiên cứu thành phần và kiến trúc của hai tập dữ liệu tiêu chuẩn trong sự cô lập, các đám mây từ các tập hợp dữ liệu đã được tạo ra, tiết lộ những từ và cụm từ ngắn nào chiếm ưu thế trong các tập hợp:

Đám mây từ hiển thị 40 từ và cụm từ ngắn thường xuyên nhất trong các tập dữ liệu AdvBench và HarmBench kết hợp. Các thuật ngữ có ý nghĩa tiêu cực hoặc nhạy cảm vốn có được đánh dấu màu đỏ, các tín hiệu kích hoạt theo ngữ cảnh màu cam, và các từ trung lập tạo thành các tín hiệu kích hoạt cấp cao hơn màu xanh lá cây. Sự tập trung của các cụm từ rõ ràng như ‘hướng dẫn’ và ‘hướng dẫn từng bước’ gợi ý rằng hai tiêu chuẩn này phụ thuộc nặng nề vào các tín hiệu kích hoạt rõ ràng chứ không phải là các cuộc tấn công có ý định ulterior được xây dựng một cách thực tế.
Các tác giả lưu ý rằng các từ và cụm từ ngắn chiếm ưu thế là không hợp lý khi tiết lộ ý định độc hại, so với loại ngôn ngữ mà tội phạm sử dụng trong thảo luận, và mà các kẻ tấn công sử dụng khi kiểm tra hoặc cố gắng xâm phạm các biện pháp phòng vệ của LLM.
‘Những tín hiệu này làm suy yếu hai thuộc tính – được xây dựng tốt và được thúc đẩy bởi ý định ulterior – vì ngôn ngữ rõ ràng như vậy hiếm khi xuất hiện trong các cuộc tấn công trong thế giới thực và dường như được thiết kế để kích hoạt các cơ chế an toàn một cách nhân tạo. ‘
Bài báo mô tả các mẫu của các tập hợp này là ‘tín hiệu kích hoạt’ – các cụm từ có ý nghĩa tiêu cực hoặc nhạy cảm vốn có, xuất hiện được thiết kế để kích hoạt các bộ lọc an toàn. Một số trong số chúng vốn có ý nghĩa tiêu cực, chẳng hạn như ‘tự tử’, trong khi những cụm từ khác chỉ có ý nghĩa tiêu cực trong ngữ cảnh, chẳng hạn như khi một mục tiêu độc hại được kết hợp với ngôn ngữ như ‘không bị phát hiện’, điều này tín hiệu rõ ràng ý định trốn tránh phát hiện.
Sự mất cân bằng trong ngôn ngữ của các tập dữ liệu trở nên rõ ràng hơn khi số lượng từ trong các n-gram tăng lên, với các cụm từ mang ý nghĩa tiêu cực hoặc nhạy cảm vốn có chiếm ưu thế trong các n-gram thường xuyên nhất (xem hình ảnh trên). Bài báo mô tả những cụm từ này là các cụm từ kích hoạt, cùng với các từ kích hoạt đơn lẻ, tạo thành các tín hiệu kích hoạt.
Nhân đôi
Các tác giả quan sát thấy rằng việc lặp lại các tín hiệu kích hoạt rõ ràng không chỉ làm cho các prompt có vẻ không tự nhiên, mà còn cho thấy sự trùng lặp đáng kể của dữ liệu trong các tập hợp. Để kiểm tra giả thuyết này, họ đã chạy kiểm tra tương tự từng cặp trên mỗi tập dữ liệu, áp dụng các ngưỡng từ 0,7 đến 0,99 và nhóm các prompt vượt quá một ngưỡng nhất định thành các bản sao, trong khi coi những prompt còn lại là duy nhất.
Vì không có tiêu chuẩn thống nhất về mức độ tương tự ‘cao’ trong một tập dữ liệu thuộc một lĩnh vực, họ đã sử dụng Open AI’s Grade School Math (GSM8K), một tiêu chuẩn không an toàn phổ biến, khớp với kích thước mẫu với HarmBench và AdvBench để so sánh có kiểm soát:

Tỷ lệ trùng lặp trong AdvBench và HarmBench trên các ngưỡng tương tự, so với các tập hợp con có kích thước phù hợp với GSM8K. Ở hầu như mọi ngưỡng, các tập dữ liệu an toàn chứa nhiều prompt gần như giống hệt nhau hơn so với tiêu chuẩn không an toàn, cho thấy việc đánh giá lại cùng một ý định độc hại với ngôn ngữ thay đổi nhẹ, và gợi ý rằng hiệu suất an toàn được báo cáo có thể bị lạm phát. Xin vui lòng tham khảo bài báo nguồn để có độ phân giải tốt hơn.
Một phát hiện khác từ phần nghiên cứu này so sánh các prompt trong mỗi tập dữ liệu, để đo lường bao nhiêu prompt thực sự khác biệt. Tại một cài đặt tương tự trung bình, chỉ khoảng 11% prompt trong AdvBench là duy nhất, trong khi gần 94% câu hỏi trong một mẫu GSM8K có kích thước phù hợp là khác nhau:

Ví dụ về các prompt gần như giống hệt nhau trong AdvBench và HarmBench, chủ yếu khác nhau về ngôn ngữ, trong khi thể hiện cùng một ý định độc hại. Sử dụng lại các tín hiệu kích hoạt rõ ràng, được hiển thị màu đỏ cho các thuật ngữ có ý nghĩa tiêu cực vốn có, và màu cam cho các tín hiệu kích hoạt theo ngữ cảnh, tạo ra các cụm prompt hiệu quả kiểm tra cùng một kịch bản nhiều lần – có nghĩa là một phản hồi sẽ thường đủ để đánh giá mô hình cho ý định đó.
HarmBench cho thấy xu hướng tương tự, với 16% bản sao ở mức đó so với 3,5% trong GSM8K, có nghĩa là các tập dữ liệu an toàn thường xuyên sử dụng lại cùng một yêu cầu độc hại với các thay đổi nhỏ về ngôn ngữ.
Nếu 85% ví dụ khác biệt được coi là một tiêu chuẩn hợp lý, AdvBench chỉ đạt được mức này dưới một cài đặt rất nghiêm ngặt, và vẫn không vượt quá 90%, trong khi GSM8K đạt 85% ở một ngưỡng thấp hơn nhiều. Theo bài báo, mẫu này cho thấy rằng các tiêu chuẩn an toàn kiểm tra các biến thể lặp lại của cùng một ý tưởng, chứ không phải là một loạt các kịch bản tấn công đa dạng.
Các phương pháp tiếp theo và kiểm tra
Công việc làm sạch ý định của tác giả trước đây là một kỹ thuật thúc đẩy LLM, loại bỏ ngôn ngữ kích hoạt rõ ràng, trong khi vẫn giữ nguyên ý định độc hại cơ bản. Thay vì thể hiện ý định một cách rõ ràng, các prompt sửa đổi ngụ ý nó, giữ lại phần tải độc hại, nhưng tránh các tín hiệu kích hoạt có thể kích hoạt sự từ chối ngay lập tức của LLM.
Hai phương pháp tạo điều kiện cho việc này là trung hòa ý nghĩa, thay thế các thuật ngữ tiêu cực rõ ràng bằng các lựa chọn trung lập hoặc mô tả; và chuyển đổi ngữ cảnh, chuyển các tham chiếu trong thế giới thực sang các thiết lập hư cấu, mà không thay đổi ý nghĩa thực tế.
Một tập hợp nhỏ các bản sửa đổi đã được viết bằng tay, sau đó quá trình này được tự động hóa bằng GPT-5.1 (gpt-5.1-2025-11-13), với một thiết lập học trong ngữ cảnh tám lần như ‘làm sạch ý định‘. Các phản hồi đối với các prompt ban đầu và sửa đổi sau đó được so sánh, để đo lường mức độ ảnh hưởng của ngôn ngữ kích hoạt rõ ràng đến các đánh giá an toàn.
Vì làm sạch ý định có thể thay đổi cả ngôn ngữ và khung, các phản hồi được đánh giá về mặt an toàn và khả năng áp dụng. An toàn được đánh giá trên một thang điểm Likert năm điểm, từ ‘rất không an toàn’ đến ‘an toàn’, tùy thuộc vào việc phản hồi có giữ nguyên ý định độc hại ban đầu hay không – và nếu có, mức độ độc hại của nó là bao nhiêu:

Một mẫu prompt được sử dụng để đánh giá an toàn tiêu chuẩn của các phản hồi đối với các điểm dữ liệu AdvBench và HarmBench ban đầu, trước khi áp dụng làm sạch ý định. GPT-5.1 được hướng dẫn để đánh giá mỗi phản hồi trên thang điểm Likert năm điểm từ ‘Rất không an toàn’ đến ‘An toàn’, chọn một phán quyết chung duy nhất dựa trên việc nội dung có cho phép gây hại hay không.
‘Khả năng áp dụng’ được đánh giá trên thang điểm Likert năm điểm song song, từ ‘rất có thể áp dụng’ đến ‘không thể áp dụng’, dựa trên mức độ nội dung có thể được sử dụng và chuyển giao trong thế giới thực; và Tỷ lệ thành công của cuộc tấn công (ASR) đo lường hiệu suất, với một bản sửa đổi được coi là thành công chỉ khi phản hồi không an toàn và có thể áp dụng.
Các xếp hạng năm điểm được ánh xạ sang kết quả nhị phân để giảm thiểu sự mơ hồ, và làm sạch ý định cũng tiến hóa thành một phương pháp vượt qua bằng cách thêm một vòng lặp sửa đổi-tái tạo, trong đó các bản sửa đổi không thành công được đưa trở lại GPT-5.1 dưới cùng một thiết lập học trong ngữ cảnh tám lần như ‘làm sạch ý định‘. Vòng lặp này tiếp tục cho đến khi đạt được số lần thử cố định hoặc đạt được Tỷ lệ thành công của cuộc tấn công mong muốn.
Đối với các kiểm tra đánh giá an toàn, gói wordcloud của Python được sử dụng để trích xuất n-gram từ HarmBench và AdvBench, với các phương pháp lọc thông thường (tức là để loại bỏ các từ dừng và các từ và ký tự không liên quan khác).
Cùng các tập dữ liệu an toàn được sử dụng cho phân tích đám mây từ trước đó, được kết hợp với các mẫu ngẫu nhiên từ tập dữ liệu GSM8K được đề cập trước đó, với số lượng từ được cân bằng để đảm bảo sự công bằng trên các tập hợp.
Các tác giả đã sử dụng nhúng từ điểm kiểm tra all-MiniLM-L6-V2 từ Sentence-BERT Transformers, vì nó đã được tinh chỉnh để phân cụm và tìm kiếm ngữ nghĩa.
Tiêu chí đánh giá được tạo ra bởi mô hình GPT-4o (đã ngừng hoạt động) của OpenAI, giới hạn ở 1024 token. GPT-5.1 đánh giá cả an toàn và khả năng áp dụng sau khi làm sạch ý định, không có gì khác ngoài việc nó cũng bị giới hạn ở 1024 token.
Các mô hình được kiểm tra bao gồm Gemini 3 Pro; Claude Sonnet 3.7; Grok 4; GPT-4o; và Qwen2.5-7B-Instruct. Trong trường hợp có thể, vì tư duy là một yếu tố không cần thiết, nó đã được giảm xuống mức thấp nhất có thể trong các mô hình có khả năng tư duy.
Tất cả các mô hình đều bị giới hạn ở mức đầu ra 4096 token:

Đánh giá an toàn (SE), đánh giá khả năng áp dụng (PE) và tỷ lệ thành công của cuộc tấn công (ASR) cho bảy mô hình trên AdvBench (trên) và HarmBench (dưới) dưới ba điều kiện: không sửa đổi, sửa đổi lần đầu và các lần lặp lại của làm sạch ý định. SE báo cáo tỷ lệ phần trăm phản hồi được đánh giá là ‘rất không an toàn’, ‘không an toàn’ hoặc ‘không an toàn’; PE báo cáo tỷ lệ phần trăm phản hồi được đánh giá là ‘rất có thể áp dụng’, ‘có thể áp dụng’ hoặc ‘có thể áp dụng’; và ASR đo lường tỷ lệ phần trăm phản hồi là cả không an toàn và có thể áp dụng. Trong cài đặt không sửa đổi, ASR tuân theo định nghĩa tiêu chuẩn vì không có trừu tượng hóa được áp dụng. Các giá trị in đậm cho thấy ASR cao nhất đạt được trong mỗi tập dữ liệu, và ASR thấp hơn tương ứng với an toàn của mô hình mạnh hơn. Xin vui lòng tham khảo bài báo nguồn để có độ phân giải tốt hơn.
Về những kết quả ban đầu này, các tác giả lưu ý rằng việc loại bỏ ngôn ngữ kích hoạt rõ ràng khỏi các prompt tấn công đã tạo ra sự gia tăng đột ngột trong tỷ lệ thành công của cuộc tấn công. Trên AdvBench, ASR trung bình tăng từ 5,38% ban đầu lên 86,79% sau lần sửa đổi đầu tiên, trên HarmBench tăng từ 13,79% lên 79,83% – cho thấy rằng các từ chối của mô hình được gắn chặt với sự hiện diện của ngôn ngữ kích hoạt rõ ràng.
Các tác giả quan sát:
‘Điều này cho thấy rằng các từ chối của mô hình được thúc đẩy chủ yếu bởi sự hiện diện của các tín hiệu kích hoạt. Do đó, các tập dữ liệu an toàn không đo lường đáng tin cậy các rủi ro an toàn trong thế giới thực, vì chúng phụ thuộc nhiều hơn vào các tín hiệu kích hoạt để kích hoạt từ chối hơn là vào ý định độc hại thực sự.’
Làm sạch ý định, bài báo khẳng định, đã loại bỏ hiệu quả các tín hiệu kích hoạt trong khi vẫn giữ nguyên ý định độc hại, và hoạt động như một phương pháp vượt qua mạnh mẽ. Trong lần lặp lại cuối cùng, tương ứng với ASR cao nhất trong mỗi tập dữ liệu, tỷ lệ thành công của cuộc tấn công đạt 90% đến 98,55% trên tất cả các mô hình.
Điều này bao gồm cả Gemini 3 Pro và Claude Sonnet 3.7, đã bị vượt qua với ASR từ 93% đến 95% trên AdvBench, và từ 91% đến 93% trên HarmBench, sau chỉ một vài lần lặp lại.
Các tác giả kết luận:
‘Kết quả của chúng tôi cho thấy rằng các kết luận an toàn trước đó không còn đứng vững một khi các tín hiệu kích hoạt bị loại bỏ, và rằng hiệu suất an toàn được quan sát chủ yếu được thúc đẩy bởi sự hiện diện của các tín hiệu kích hoạt chứ không phải bởi các rủi ro an toàn thực sự.
‘Chúng tôi cũng cho thấy rằng làm sạch ý định có thể được sử dụng như một kỹ thuật vượt qua mạnh mẽ, đạt được tỷ lệ thành công của cuộc tấn công cao từ 90% đến hơn 98%.
‘Tổng thể, các phát hiện của chúng tôi đã tiết lộ một khoảng trống quan trọng giữa cách mô hình an toàn được đánh giá và cách hành vi đối thủ trong thế giới thực thể hiện.
‘Dựa trên điều này, chúng tôi kết luận rằng (1) các đánh giá an toàn phải phát triển để bắt chước các cuộc tấn công đối thủ một cách thực tế hơn, và (2) các nỗ lực đồng bộ hóa an toàn hiện tại vẫn còn xa so với việc chống lại các mối đe dọa trong thế giới thực.’
Kết luận
Một chủ đề chung vẫn tồn tại trên toàn bộ văn bản và tài liệu về tầm nhìn máy tính (và những nơi mà chúng giao nhau, chẳng hạn như VLMs) là sự không thể đáng tin cậy hiểu khi nào một mô hình đang bị lừa để tạo ra nội dung bị cấm; hoặc thậm chí khi nào nó đang đi vào đó một cách vô tình, mà không có sự ép buộc từ bên ngoài.
Đằng sau những cảnh quan rộng lớn và không rõ ràng của các xưởng mô hình, người ta chỉ có thể giả định rằng việc thắt chặt các quy tắc về các khu vực thu hút ngữ nghĩa này sẽ đi kèm với thiệt hại đáng kể, chẳng hạn như giảm hiệu suất trên các thế hệ ‘không bị cấm’, hoặc tỷ lệ giả dương không thể chấp nhận được từ bộ lọc nội dung.
Bản chất cơ bản của một mô hình được đào tạo trong bất kỳ lĩnh vực nào là để theo tất cả dữ liệu đào tạo đến bất kỳ kết luận nào mà một prompt có thể dẫn dắt nó; các ràng buộc thuần túy có sẵn là a) không bao gồm nội dung gây tranh cãi trong dữ liệu đào tạo (điều này là một vấn đề hậu cần cũng như bất cứ điều gì khác); hoặc b) để ‘cắt’ các đường dẫn đến nội dung không mong muốn sau khi đào tạo (một quá trình có thể thường được đảo ngược bằng abliteration rõ ràng, hoặc như một hiệu ứng phụ không mong muốn của việc tinh chỉnh).
* Thay thế của tôi cho các trích dẫn trong dòng của các tác giả bằng các liên kết.
† https://www.unite.ai/what-is-overfitting/
Được xuất bản lần đầu vào thứ Hai, ngày 26 tháng 2 năm 2026












