Anderson's Angle
Vượt Rào Kiểm Duyệt AI Thông Qua Văn Bản Trong Ảnh

Các nhà nghiên cứu tuyên bố rằng các AI chỉnh sửa ảnh hàng đầu có thể bị “jailbreak” thông qua văn bản raster hóa và các tín hiệu hình ảnh, cho phép các chỉnh sửa bị cấm vượt qua bộ lọc an toàn và thành công trong tới 80,9% trường hợp.
Xin lưu ý rằng bài viết này chứa các hình ảnh có khả năng gây khó chịu, được tạo ra bằng AI bởi các tác giả của bài báo nghiên cứu để minh họa cho phương pháp phòng thủ mới của họ.
Để tránh rủi ro pháp lý và tổn hại danh tiếng, các nền tảng AI hình ảnh tiên tiến hiện nay thiết lập một loạt các biện pháp kiểm duyệt để ngăn người dùng tạo ra hình ảnh ‘bị cấm’ thuộc nhiều danh mục, chẳng hạn như nội dung NSFW và/hoặc phỉ báng. Ngay cả những framework cứng đầu nhất – đáng chú ý là Grok – cũng phải tuân thủ dưới áp lực phổ biến hoặc chính trị.
Được gọi là ‘alignment’, cả dữ liệu đầu vào và đầu ra đều được quét để phát hiện vi phạm quy tắc sử dụng. Do đó, việc tải lên một hình ảnh vô hại về một người sẽ vượt qua các bài kiểm tra dựa trên hình ảnh – nhưng yêu cầu mô hình sinh biến nó thành video có thể phát triển thành nội dung không an toàn (ví dụ: ‘cho thấy người đó đang cởi quần áo’) sẽ bị chặn ở cấp độ văn bản.
Người dùng có thể vượt qua biện pháp an toàn này bằng cách sử dụng các lời nhắc không trực tiếp kích hoạt bộ lọc văn bản, nhưng về mặt logic vẫn dẫn đến việc tạo nội dung không an toàn (ví dụ: ‘Hãy để họ đứng dậy’, khi lời nhắc hình ảnh là một người đang ngâm mình trong bồn tắm đầy bọt). Ở đây, các bộ lọc hệ thống>người dùng thường can thiệp, bằng cách quét các phản hồi của chính hệ thống, chẳng hạn như hình ảnh, văn bản, âm thanh, video, v.v. để tìm bất cứ thứ gì sẽ bị cấm nếu là đầu vào.
Theo cách này, người dùng có thể buộc hệ thống tạo ra nội dung không an toàn; nhưng trong hầu hết các trường hợp, trình tạo sẽ không chuyển nội dung đó lại cho người dùng.
Chỉ Là Ngữ Nghĩa
Lệnh cấm cuối cùng này xảy ra vì đầu ra được kết xuất được đánh giá bởi các hệ thống đa phương thức như CLIP, hệ thống này có thể diễn giải hình ảnh trở lại lĩnh vực văn bản, và sau đó áp dụng một bộ lọc văn bản. Vì các trình tạo hình ảnh hiện đại là các hệ thống dựa trên khuếch tán được đào tạo trên các cặp hình ảnh và văn bản, ngay cả khi người dùng chỉ cung cấp một bức ảnh, mô hình cũng diễn giải nó thông qua các biểu diễn ngữ nghĩa được định hình bởi ngôn ngữ trong quá trình đào tạo.
Cấu trúc embedding chung này đã ảnh hưởng đến cách các cơ chế an toàn được xây dựng, vì các lớp kiểm duyệt thường đánh giá lời nhắc dưới dạng văn bản và chuyển đổi đầu vào hình ảnh thành dạng mô tả trước khi đưa ra quyết định; và vì kiến trúc này, công việc alignment chủ yếu tập trung vào ngôn ngữ, sử dụng mô tả hình ảnh như một cơ chế tường lửa.
Tuy nhiên, nghiên cứu trước đây về các hệ thống genAI đa phương thức đã chứng minh rằng các hướng dẫn có thể được nhúng bên trong hình ảnh thông qua lớp phủ kiểu chữ, bố cục có cấu trúc, kỹ thuật tối ưu hóa đa phương thức hoặc mã hóa steganographic:

Từ bài báo năm 2024 ‘Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt’, một ví dụ về việc sử dụng ‘hình ảnh gây phân tâm’ để jailbreak một VLM. Nguồn
Đặc biệt, việc sử dụng lớp phủ kiểu chữ (raster hóa văn bản thành hình ảnh do người dùng tải lên) gần đây đã tiết lộ một điểm yếu trong mô hình bảo mật của VLM, trong đó văn bản dựa trên hình ảnh được diễn giải dường như không phải chịu cùng bộ lọc – hoặc thậm chí bất kỳ bộ lọc nào – như lời nhắc văn bản thực tế của người dùng; và điều này thường có thể tạo điều kiện cho ‘thực thi lời nhắc’ thông qua proxy:

Hướng dẫn sản xuất ma túy được đặt trong ngữ cảnh gây phân tâm liên quan đến văn bản raster hóa. Nguồn
Trong các hệ thống chỉnh sửa hình ảnh được thiết kế rõ ràng để coi các dấu hiệu và chú thích hình ảnh là hướng dẫn có thể hành động, và đã hoàn thành các quy trình lọc dựa trên văn bản (trên lời nhắc văn bản thực tế của người dùng), kỹ thuật này tiếp tục xuất hiện dưới nhiều hình thức mới đa dạng và sáng tạo trong tài liệu.
Xuyên Thủng Alignment
Một bài báo mới từ Trung Quốc áp dụng sự nghiêm ngặt học thuật cho một kỹ thuật đã lưu hành trong nhiều máy chủ Discord từ một thời gian* – việc sử dụng văn bản trong hình ảnh đã đề cập ở trên để vượt qua bộ lọc alignment:

Từ bài báo mới, các ví dụ về các hướng dẫn bị cấm được thực hiện thông qua proxy của văn bản raster hóa. Trong hình ảnh ở giữa, các tác giả của bài báo đã che một phần đầu ra, và tôi đã che nó thêm, bằng cách làm mờ. Nguồn
Tuy nhiên, công trình mới – có tiêu đề When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models – tự đặt mình trong bối cảnh sử dụng chính hình ảnh như một kỹ thuật jailbreak, và bao gồm một vài ví dụ về các jailbreak không dựa trên văn bản:

Ở đây một hình dạng, thay vì một hướng dẫn bằng văn bản, dẫn đến việc thực thi một lệnh bị cấm, trong công trình mới.
Trái ngược với ấn tượng từ tiêu đề của dự án, phần lớn các ví dụ mở rộng trong phụ lục của bài báo sử dụng văn bản nhúng hơn là hình ảnh ‘thuần túy’ (mặc dù chủ đề diễn ngôn dựa hoàn toàn vào hình ảnh, không lời nói hiện đang được quan tâm trong tài liệu, điều này có thể đã truyền cảm hứng cho sự nhấn mạnh quá mức của các tác giả về phương pháp của chính họ).
Để đánh giá mối đe dọa, các nhà nghiên cứu đã tuyển chọn IESBench, một điểm chuẩn chuyên dụng được thiết kế cho chỉnh sửa hình ảnh thay vì trò chuyện đa phương thức chung. Trong các bài kiểm tra với các hệ thống thương mại bao gồm Nano Banana Pro và GPT-Image-1.5, các tác giả báo cáo tỷ lệ tấn công thành công (ASR) đạt 80,9%.

IESBench chứa 1.054 mẫu được nhắc bằng hình ảnh trên 15 danh mục rủi ro, với các chỉnh sửa bao gồm 116 thuộc tính và 9 loại hành động. Mỗi hình ảnh nhúng ý định độc hại chỉ bằng các tín hiệu hình ảnh, không có đầu vào văn bản. Biểu đồ tròn và thanh hiển thị các tính năng được nhắm mục tiêu nhiều nhất và các hành động chỉnh sửa phổ biến.
Công trình mới đến từ bảy nhà nghiên cứu từ Đại học Thanh Hoa, Phòng thí nghiệm Peng Cheng tại Thâm Quyến và Đại học Trung Nam tại Trường Sa. Bộ dữ liệu cho IESBench có vị trí Hugging Face, cũng như một kho lưu trữ GitHub và một trang dự án.
Phương Pháp
Không giống như các mô hình tương tự trước đây, sử dụng Mô hình Ngôn ngữ Lớn (LLM) cho các tác vụ mã hóa hình ảnh, các trình chỉnh sửa đương đại như Qwen-Image-Edit và LongCat-Image-Edit dựa vào Mô hình Ngôn ngữ-Thị giác (VLM), vốn đã mã hóa hình ảnh và v












