Kết nối với chúng tôi

Thơ đối kháng là gì? Một phương pháp bẻ khóa AI mới

Trí tuệ nhân tạo

Thơ đối kháng là gì? Một phương pháp bẻ khóa AI mới

mm

An toàn trí tuệ nhân tạo (AI) đã trở thành một cuộc rượt đuổi không ngừng nghỉ. Trong khi các nhà phát triển bổ sung các biện pháp bảo vệ để chặn các yêu cầu độc hại, những kẻ tấn công vẫn tiếp tục tìm kiếm những cách thức mới để vượt qua chúng. Một trong những thủ đoạn kỳ lạ nhất cho đến nay là thơ đối kháng. Chiến thuật này bao gồm việc ngụy trang các lời nhắc thành thơ và sử dụng vần điệu, ẩn dụ và cách diễn đạt bất thường để làm cho các chỉ dẫn rủi ro trông ít giống với những thứ mà hệ thống an toàn được huấn luyện để phát hiện. 

Trên thực tế, nội dung tự thân không thay đổi nhiều. Chính lớp vỏ bọc bên ngoài mới thay đổi, điều này có thể gây nhầm lẫn cho các bộ lọc dựa trên mẫu. Điều này nhắc nhở chúng ta rằng, với các mô hình hiện nay, cách đặt câu hỏi có thể quan trọng gần như bằng chính câu hỏi đó. 

Điều gì đã xảy ra khi các nhà nghiên cứu sử dụng thơ để phá vỡ trí tuệ nhân tạo?

Đầu năm 2025, các nhà nghiên cứu đã chứng minh rằng các mô hình ngôn ngữ lớn (LLM) có thể được yêu cầu phản hồi các mệnh lệnh hạn chế bằng cách lồng ghép chúng vào hình thức thơ ca. Thay vì đưa ra các chỉ thị trực tiếp, kích hoạt chính sách, các nhà nghiên cứu đã nhúng cùng một yêu cầu vào bên trong các vần điệu, ẩn dụ và thơ tự sự.

Thoạt nhìn, các đề bài có vẻ là những bài tập viết sáng tạo, nhưng ẩn sâu bên trong, chúng mang cùng một ý định mà thông thường sẽ bị ngăn chặn. Trên 25 mô hình tiên tiến độc quyền và mở, nhóm nghiên cứu báo cáo rằng việc sử dụng ngôn từ thơ ca đã đạt được tỷ lệ thành công vượt rào trung bình là... 62% dành cho thơ viết tay. và khoảng 43% dành cho việc "chuyển đổi câu thơ" hàng loạt bằng cách sử dụng một lời nhắc meta tiêu chuẩn hóa.

Bản thân các phản hồi không phải là những kiểu thất bại mới, mà là những thất bại quen thuộc xuất hiện một cách bất ngờ. Các mô hình bị thúc đẩy để tạo ra nội dung mà chúng thường tránh – chẳng hạn như những lời giải thích liên quan đến các hoạt động bất hợp pháp hoặc có hại – bởi vì yêu cầu cơ bản bị phân mảnh và che khuất bởi cấu trúc thơ mộng. 

Kết luận cốt lõi của nghiên cứu là chỉ riêng sự khác biệt về phong cách cũng đủ để vượt qua các hệ thống an toàn được thiết kế cho cách diễn đạt sát nghĩa hơn. Điều này cho thấy một điểm yếu dễ bị tổn thương trong nhiều nhóm mô hình và phương pháp căn chỉnh khác nhau. 

Cách thức hoạt động của thơ đối kháng

Các cuộc tấn công đối kháng khai thác một thực tế đơn giản — các hệ thống học máy không "hiểu" ngôn ngữ theo cách con người hiểu. Chúng phát hiện các mẫu, dự đoán các hành động tiếp theo có thể xảy ra và tuân theo các chỉ dẫn dựa trên những gì lớp huấn luyện và lớp bảo mật của chúng diễn giải là ý định. 

Khi một câu hỏi được diễn đạt một cách trực tiếp, theo nghĩa đen, các lớp bảo vệ sẽ dễ dàng nhận ra và ngăn chặn hơn. Tuy nhiên, khi cùng một mục đích đó được ngụy trang — bị chia nhỏ, làm dịu nhẹ hoặc diễn đạt lại — các lớp bảo vệ có thể bỏ sót điều thực sự đang được yêu cầu. 

Vì sao thơ ca có thể là một phương tiện hiệu quả

Thơ ca vốn dĩ được xây dựng để mang tính mơ hồ. Nó dựa vào ẩn dụ, sự trừu tượng, cấu trúc khác thường và cách diễn đạt gián tiếp. Đây chính là những đặc điểm có thể làm mờ ranh giới giữa "văn chương sáng tạo vô hại" và "một yêu cầu nên bị từ chối".

Trong cùng nghiên cứu năm 2025, các nhà nghiên cứu báo cáo rằng các gợi ý mang tính thơ ca đã tạo ra những phản hồi không an toàn với tỷ lệ thành công 90% trên nhiều mô hình khác nhau, cho thấy rằng chỉ riêng phong cách thôi cũng có thể thay đổi đáng kể kết quả. 

Làm thế nào một bài thơ ẩn chứa một lời thỉnh cầu thực sự?

Hãy coi yêu cầu như một thông điệp và bài thơ như bao bì. Các bộ lọc an ninh thường tìm kiếm những dấu hiệu rõ ràng, chẳng hạn như từ khóa cụ thể, cách diễn đạt từng bước trực tiếp hoặc ý định độc hại dễ nhận biết. 

Thơ ca có thể che giấu ý định đó thông qua ngôn ngữ hình tượng hoặc trải rộng nó qua nhiều dòng thơ, khiến việc nhận ra ý định đó khi đứng riêng lẻ trở nên khó khăn hơn. Trong khi đó, mô hình cơ bản vẫn tái tạo ý nghĩa đủ tốt để phản hồi vì nó được tối ưu hóa để suy luận ý định ngay cả khi ngôn ngữ không trực tiếp. 

Phát hiện và giảm thiểu các vụ vượt ngục

Khi các phương pháp bẻ khóa thiết bị ngày càng trở nên sáng tạo, cuộc thảo luận cần chuyển từ cách thức hoạt động của chúng sang cách phát hiện và ngăn chặn chúng. Điều này đặc biệt đúng hiện nay khi trí tuệ nhân tạo (AI) đã trở thành một phần trong cuộc sống thường nhật của nhiều người. vì 27% cho biết họ sử dụng nó. vài lần một ngày. 

Khi ngày càng nhiều người sử dụng các mô hình ngôn ngữ lớn (LLM), cần phải thử nghiệm và tìm hiểu thêm các biện pháp bảo vệ bổ sung. Nhiệm vụ này bao gồm xây dựng các lớp phòng thủ có thể thích ứng với các kiểu nhắc lệnh mới và các thủ đoạn né tránh khi chúng xuất hiện.

Vấn đề nan giải của nhà phát triển

Điều khó khăn nhất đối với các nhóm bảo mật AI khi đối mặt với các vụ tấn công vượt ngục là chúng không xuất hiện dưới dạng một mối đe dọa duy nhất. Chúng liên tục thay đổi theo thời gian. Sự thay đổi liên tục này là do người dùng có thể diễn đạt lại một câu hỏi, chia nhỏ nó thành nhiều đoạn, lồng ghép nó vào một trò chơi nhập vai hoặc ngụy trang nó dưới dạng văn bản sáng tạo. Sau đó, mỗi cách diễn đạt mới có thể thay đổi cách hệ thống hiểu ý định của câu hỏi. 

Thách thức đó tăng lên nhanh chóng khi AI đã được tích hợp vào các hoạt động thường nhật, do đó việc sử dụng thực tế tạo ra vô số cơ hội để các trường hợp ngoại lệ xuất hiện.

Đó là lý do tại sao an toàn AI ngày nay giống như việc quản lý rủi ro theo thời gian. Khung quản lý rủi ro AI của NIST (AI RMF) đề cập rõ ràng đến việc quản lý rủi ro. như một chuỗi hoạt động đang diễn ra — được tổ chức xoay quanh các bước quản trị, lập bản đồ, đo lường và quản lý — thay vì chỉ là một danh sách kiểm tra tĩnh. Mục tiêu là tạo ra các quy trình giúp dễ dàng xác định các chế độ lỗi mới nổi, ưu tiên sửa lỗi và thắt chặt các biện pháp bảo vệ khi các kiểu bẻ khóa mới xuất hiện. 

Cách các người mẫu tự bảo vệ mình

An toàn AI bao gồm nhiều lớp. Hầu hết các hệ thống đều có nhiều lớp phòng vệ hoạt động cùng nhau, mỗi lớp phát hiện các loại hành vi rủi ro khác nhau. Ở lớp ngoài cùng, việc lọc đầu vào và đầu ra đóng vai trò như một người gác cổng. 

Các yêu cầu đến được quét để phát hiện vi phạm chính sách trước khi chúng đến mô hình cốt lõi, trong khi các phản hồi đi được kiểm tra để đảm bảo không có gì lọt qua trên đường trở lại người dùng. Các hệ thống này rất tốt trong việc xác định các yêu cầu trực tiếp hoặc các dấu hiệu đáng ngờ quen thuộc, nhưng chúng cũng dễ bị vượt qua nhất, đó là lý do tại sao các phương pháp bẻ khóa tinh vi hơn thường bỏ qua chúng. 

Lớp bảo vệ tiếp theo diễn ra bên trong chính mô hình. Khi các kỹ thuật bẻ khóa được phát hiện, chúng thường được sử dụng làm ví dụ huấn luyện. Đây là lúc huấn luyện đối kháng và học tăng cường từ phản hồi của con người (RLHF) phát huy tác dụng. 

Bằng cách tinh chỉnh các mô hình dựa trên các ví dụ về tương tác thất bại hoặc rủi ro, các nhà phát triển đã dạy cho hệ thống nhận biết các mẫu mà nó nên từ chối, ngay cả khi chúng được diễn đạt bằng ngôn ngữ sáng tạo hoặc gián tiếp. Theo thời gian, quá trình đó giúp mô hình chống lại toàn bộ các loại tấn công.

Vai trò của AI trong hoạt động “tấn công mô phỏng” (Red Teaming)

Thay vì chờ đợi một cuộc tấn công vượt ngục xảy ra, các công ty sử dụng các nhóm tấn công AI (AI red team). Các nhóm này được giao nhiệm vụ tìm cách phá vỡ các mô hình trong môi trường được kiểm soát. Họ tiếp cận hệ thống theo cách mà một kẻ tấn công có thể làm, thử nghiệm với các cách diễn đạt bất thường, định dạng sáng tạo và các trường hợp ngoại lệ để phát hiện ra những điểm yếu của các biện pháp bảo vệ. Mục tiêu là để phơi bày các điểm yếu trước khi chúng xuất hiện trong thực tế sử dụng.

Tấn công mô phỏng (red teaming) hiện đang trở thành một phần cốt lõi trong chu kỳ phát triển chiến lược an ninh mạng hiện nay. Khi một nhóm phát hiện ra kỹ thuật bẻ khóa (jailbreak) mới, dữ liệu thu được sẽ được đưa trực tiếp vào quy trình huấn luyện và đánh giá. Thông tin đó được sử dụng để xác định bộ lọc, điều chỉnh chính sách và tăng cường huấn luyện đối kháng để các nỗ lực tương tự ít có khả năng thành công hơn trong tương lai. Theo thời gian, điều này tạo ra một vòng lặp liên tục — dò tìm lỗi, học hỏi từ chúng và cải thiện hệ thống, sau đó lặp lại.

Khi thơ ca trở thành bài kiểm tra độ an toàn cho trí tuệ nhân tạo.

Thơ phản biện là lời nhắc nhở rằng các biện pháp bảo vệ AI phụ thuộc vào cách người dùng đặt câu hỏi, chứ không chỉ đơn thuần là nội dung câu hỏi. Khi các mô hình trở nên dễ tiếp cận và được sử dụng rộng rãi hơn, các nhà nghiên cứu sẽ tiếp tục tìm hiểu những khoảng trống giữa ngôn ngữ sáng tạo và các hệ thống an toàn được thiết kế để nắm bắt ý định trực tiếp hơn. Bài học rút ra là AI an toàn hơn sẽ đến từ nhiều biện pháp phòng vệ khác nhau, phát triển nhanh chóng như chính các phương pháp bẻ khóa AI.

Zac Amos là một nhà văn công nghệ tập trung vào trí tuệ nhân tạo. Anh ấy cũng là Biên tập viên tính năng tại hack lại, nơi bạn có thể đọc thêm tác phẩm của anh ấy.