Connect with us

Trí tuệ nhân tạo

Adversarial Poetry Là Gì? Một Phương Pháp Jailbreak Mới Của Trí Tuệ Nhân Tạo

mm

An toàn trí tuệ nhân tạo (AI) đã trở thành một trò chơi mèo và chuột liên tục. Khi các nhà phát triển thêm các rào cản để chặn các yêu cầu có hại, các kẻ tấn công tiếp tục tìm cách mới để tránh chúng. Một trong những bước ngoặt kỳ lạ nhất là thơ đối lập. Chiến thuật này liên quan đến việc ngụy trang các yêu cầu dưới dạng thơ và sử dụng vần, ẩn dụ và cách diễn đạt không thường xuyên để làm cho các hướng dẫn rủi ro trông ít giống như những thứ mà các hệ thống an toàn được đào tạo để bắt.

Trong thực tế, nội dung chính nó không thay đổi nhiều. Đó là bao bì mà thay đổi, điều này có thể đủ để làm cho các bộ lọc dựa trên mẫu bị nhầm lẫn. Đó là một lời nhắc nhở rằng, với các mô hình ngày nay, cách thức đặt câu hỏi có thể quan trọng gần như nhiều như những gì đang được hỏi.

Điều Gì Xảy Ra Khi Các Nhà Nghiên Cứu Sử Dụng Thơ Để Vượt Qúa Trí Tuệ Nhân Tạo?

Vào đầu năm 2025, các nhà nghiên cứu đã chứng minh rằng các mô hình ngôn ngữ lớn (LLM) có thể được kích hoạt để trả lời các yêu cầu bị hạn chế bằng cách bao quanh chúng trong hình thức thơ. Thay vì đưa ra các hướng dẫn trực tiếp, kích hoạt chính sách, các nhà nghiên cứu đã nhúng các yêu cầu相同 vào trong vần, ẩn dụ và câu thơ.

Trên bề mặt, các yêu cầu dường như là các bài tập viết sáng tạo, nhưng dưới bề mặt, chúng mang theo cùng một ý định mà thường sẽ bị chặn. Trong 25 mô hình độc quyền và mở, nhóm đã báo cáo rằng việc sử dụng thơ đã đạt được tỷ lệ thành công trung bình là 62% cho thơ handmade và khoảng 43% cho việc chuyển đổi vần khối lượng sử dụng một siêu yêu cầu chuẩn.

Các phản hồi không phải là những loại thất bại mới, mà là những thất bại quen thuộc xuất hiện thông qua một cánh cửa không mong đợi. Các mô hình đã được kích thích để tạo ra nội dung mà chúng thường tránh — chẳng hạn như giải thích về các hoạt động bất hợp pháp hoặc có hại — vì yêu cầu cơ bản đã bị phân mảnh và che giấu bởi cấu trúc thơ.

Kết quả chính của nghiên cứu là rằng sự thay đổi phong cách đơn thuần có thể đủ để tránh các hệ thống an toàn được điều chỉnh cho các cách diễn đạt văn bản hơn. Nó tiết lộ một điểm yếu rõ ràng trên các mô hình và cách tiếp cận.

Thơ Đối Lập Hoạt Động Như Thế Nào

Các cuộc tấn công đối lập khai thác một thực tế đơn giản — các hệ thống học máy không “hiểu” ngôn ngữ theo cách con người làm. Chúng phát hiện các mẫu, dự đoán sự tiếp tục có khả năng và tuân theo các hướng dẫn dựa trên những gì các lớp an toàn và đào tạo giải thích là ý định.

Khi một yêu cầu được diễn đạt một cách trực tiếp, rõ ràng, nó dễ dàng hơn cho các rào cản để nhận ra và chặn. Tuy nhiên, khi cùng một mục đích được ngụy trang — chia nhỏ, mềm hóa hoặc tái định hình — các lớp bảo vệ có thể bỏ lỡ những gì thực sự đang được hỏi.

Tại Sao Thơ Có Thể Là Một Phương Tiện Hiệu Quả

Thơ tự nhiên được xây dựng cho sự mơ hồ. Nó dựa vào ẩn dụ, trừu tượng, cấu trúc không thường xuyên và cách diễn đạt gián tiếp. Những đặc điểm này chính xác là những gì có thể làm mờ ranh giới giữa “viết sáng tạo vô hại” và “một yêu cầu nên bị từ chối.”

Trong cùng một nghiên cứu năm 2025, các nhà nghiên cứu đã báo cáo rằng các yêu cầu thơ đã kích hoạt các phản hồi không an toàn với tỷ lệ thành công 90% trên một tập hợp rộng các mô hình, cho thấy rằng phong cách đơn thuần có thể thay đổi đáng kể kết quả.

Làm Thế Nào Một Bài Thơ Che Giấu Một Yêu Cầu Thực Sự

Hãy xem yêu cầu như một thông điệp và bài thơ như bao bì. Các bộ lọc an toàn thường tìm kiếm các dấu hiệu rõ ràng, chẳng hạn như từ khóa rõ ràng, cách diễn đạt bước-by-bước trực tiếp hoặc ý định ác ý có thể nhận biết.

Thơ có thể che giấu ý định đó thông qua ngôn ngữ ẩn dụ hoặc lan truyền nó trên các dòng, làm cho nó khó phát hiện trong cách ly. Trong khi đó, mô hình cơ bản vẫn tái tạo ý nghĩa đủ tốt để phản hồi vì nó được tối ưu hóa để suy luận ý định ngay cả khi ngôn ngữ gián tiếp.

Phát Hiện Và Hạn Chế Jailbreak

Khi các phương pháp jailbreak trở nên sáng tạo hơn, cuộc trò chuyện phải chuyển từ cách chúng hoạt động sang cách chúng được phát hiện và chứa. Điều đó đặc biệt đúng khi AI là một phần của các thói quen hàng ngày của nhiều người, vì 27% báo cáo sử dụng nó nhiều lần một ngày.

Khi nhiều người sử dụng các mô hình ngôn ngữ lớn (LLM), các biện pháp bảo vệ bổ sung nên được kiểm tra và khám phá. Nhiệm vụ này liên quan đến việc xây dựng các biện pháp phòng thủ phân lớp có thể thích nghi với các phong cách yêu cầu mới và các thủ thuật tránh né khi chúng xuất hiện.

Nghịch Cảnh Của Nhà Phát Triển

Phần khó nhất về jailbreak cho các nhóm an toàn AI là chúng không đến như một mối đe dọa được biết. Chúng liên tục thay đổi theo thời gian. Sự thay đổi liên tục này là vì một người dùng có thể diễn đạt lại yêu cầu, chia nó thành các mảnh, bao quanh nó trong vai trò hoặc ngụy trang nó như một tác phẩm viết sáng tạo. Sau đó, mỗi bao bì mới có thể thay đổi cách hệ thống diễn giải ý định của yêu cầu.

Thử thách đó tăng lên nhanh chóng khi AI đã được tích hợp vào các thói quen hàng ngày, vì vậy việc sử dụng thực tế tạo ra vô số cơ hội cho các trường hợp biên giới xuất hiện.

Đó là lý do tại sao an toàn AI ngày nay trông giống như quản lý rủi ro theo thời gian. Khung Quản Lý Rủi Ro Trí Tuệ Nhân Tạo (AI RMF) của NIST rõ ràng coi quản lý rủi ro như một tập hợp các hoạt động liên tục — được tổ chức xung quanh quản lý, lập bản đồ, đo lường và quản lý — thay vì như một danh sách kiểm tra tĩnh. Mục tiêu là tạo ra các quy trình làm cho nó dễ dàng hơn để xác định các chế độ thất bại mới nổi, ưu tiên các bản sửa lỗi và thắt chặt các biện pháp bảo vệ khi các phong cách jailbreak mới xuất hiện.

Làm Thế Nào Các Mô Hình Bảo Vệ Chính Mình

An toàn AI bao gồm nhiều lớp. Hầu hết các hệ thống có hơn một biện pháp phòng thủ hoạt động cùng nhau, với mỗi biện pháp bắt các loại hành vi rủi ro khác nhau. Ở lớp ngoài cùng, bộ lọc đầu vào và đầu ra hoạt động như một người gác cổng.

Các yêu cầu đầu vào được quét để tìm các vi phạm chính sách trước khi chúng đến mô hình cốt lõi, trong khi các phản hồi đầu ra được kiểm tra để đảm bảo không có gì trượt qua trên đường trở lại người dùng. Các hệ thống này rất tốt trong việc xác định các yêu cầu trực tiếp hoặc các lá cờ đỏ quen thuộc, nhưng chúng cũng là những dễ bị vượt qua nhất, đó là lý do tại sao các jailbreak lừa đảo thường vượt qua chúng.

Lớp bảo vệ tiếp theo xảy ra bên trong mô hình chính nó. Khi các kỹ thuật jailbreak được phát hiện, chúng thường được chuyển thành các ví dụ đào tạo. Đó là nơi đào tạo đối lập và học tăng cường từ phản hồi của con người (RLHF) bước vào.

Bằng cách tinh chỉnh các mô hình trên các ví dụ về các tương tác thất bại hoặc rủi ro, các nhà phát triển hiệu quả dạy cho hệ thống nhận ra các mẫu mà chúng nên từ chối, ngay cả khi chúng được bao quanh bởi ngôn ngữ sáng tạo hoặc gián tiếp. Theo thời gian, quá trình đó giúp miễn dịch mô hình với toàn bộ các lớp tấn công.

Vai Trò Của “Red Teaming” Trí Tuệ Nhân Tạo

Thay vì chờ đợi một jailbreak xảy ra, các công ty sử dụng các đội “red team” AI. Những đội này là các nhóm được giao nhiệm vụ cố gắng phá vỡ các mô hình trong các môi trường được kiểm soát. Họ tiếp cận các hệ thống theo cách một kẻ tấn công có thể, thử nghiệm với cách diễn đạt không thường xuyên, các định dạng sáng tạo và các trường hợp biên giới để tìm ra nơi các biện pháp bảo vệ bị thiếu sót.

Mục tiêu là để lộ ra các điểm yếu trước khi chúng xuất hiện trong sử dụng thế giới thực. Các đội “red team” đang trở thành một phần cốt lõi của chu kỳ phát triển trong các chiến lược an ninh mạng ngày nay. Khi một đội phát hiện ra một kỹ thuật jailbreak mới, dữ liệu kết quả sẽ trực tiếp vào các đường ống đào tạo và đánh giá. Thông tin đó được sử dụng để định nghĩa các bộ lọc, điều chỉnh các chính sách và tăng cường đào tạo đối lập để các nỗ lực tương tự ít có khả năng thành công trong tương lai. Theo thời gian, điều này tạo ra một vòng lặp liên tục — kiểm tra các thất bại, học hỏi từ chúng và cải thiện hệ thống, sau đó lặp lại.

Khi Thơ Trở Thành Một Bài Kiểm Tra Căng Thẳng Cho An Toàn Trí Tuệ Nhân Tạo

Thơ đối lập là một lời nhắc nhở rằng các biện pháp bảo vệ AI phụ thuộc vào cách một người dùng diễn đạt câu hỏi, không chỉ là những gì. Khi các mô hình trở nên dễ tiếp cận và được sử dụng rộng rãi hơn, các nhà nghiên cứu sẽ tiếp tục kiểm tra các khoảng trống giữa ngôn ngữ sáng tạo và các hệ thống an toàn được thiết kế để bắt ý định trực tiếp. Kết luận là AI an toàn hơn sẽ đến từ nhiều biện pháp phòng thủ mà phát triển nhanh như các jailbreak.

Zac Amos là một nhà viết về công nghệ tập trung vào trí tuệ nhân tạo. Ông cũng là Biên tập viên Đặc sắc tại ReHack, nơi bạn có thể đọc thêm về công việc của ông.