An ninh mạng
HiddenLayer Researchers Bypass OpenAI’s Guardrails, Exposing Critical Flaw in AI Self-Moderation

Vào ngày 6 tháng 10 năm 2025, OpenAI đã công bố AgentKit, một bộ công cụ để xây dựng, triển khai và quản lý các tác nhân AI. Một trong những thành phần của nó là Guardrails – một lớp an toàn mô-đun được thiết kế để giám sát đầu vào, đầu ra và tương tác công cụ của tác nhân để ngăn chặn việc lạm dụng, rò rỉ dữ liệu hoặc hành vi độc hại. Guardrails có thể che giấu hoặc đánh dấu PII, phát hiện jailbreak và áp dụng các ràng buộc chính sách cùng với việc thực hiện tác nhân.
Mặc dù Guardrails là một phần mới được công bố của kiến trúc tác nhân OpenAI, nghiên cứu của HiddenLayer đã tiết lộ một điểm yếu sâu sắc hơn: vì cả hành động của tác nhân và kiểm tra an toàn đều sử dụng logic mô hình tương tự, các kẻ tấn công có thể tạo ra đầu vào mà phá hoại cả hai đồng thời – hiệu quả là phá vỡ lớp an toàn từ bên trong.
Điều HiddenLayer Phát Hiện
Thiết kế của OpenAI dự kiến các tác nhân hoạt động thông qua logic liên kết: người dùng đưa ra yêu cầu, tác nhân gọi các công cụ hoặc tài nguyên bên ngoài và các phản hồi được lọc hoặc xác thực bởi Guardrails trước khi thực hiện hoặc đầu ra. Mục đích là không matter tác nhân cố gắng làm gì – có thể là tạo văn bản, lấy một trang web hoặc kích hoạt một hàm – Guardrails đóng vai trò như một người giám sát.
HiddenLayer cho rằng người giám sát này bị cấu trúc lỗi khi nó được xây dựng từ cùng một lớp mô hình mà nó đang bảo vệ. Trong các thí nghiệm của họ, họ đã tạo ra các lời nhắc mà thực hiện hai nhiệm vụ: chúng ép tác nhân mô hình tạo ra nội dung vi phạm chính sách và thao túng mô hình thẩm phán Guardrails để tuyên bố rằng nội dung là “an toàn”. Hiệu quả là lời nhắc nhúng một bản ghi đè lên logic nội bộ của thẩm phán – ngưỡng tin cậy, nhánh quyết định – để hệ thống tuyên bố sai lầm rằng đầu ra độc hại là an toàn. Hệ thống sau đó tạo ra nội dung không được phép mà không kích hoạt bất kỳ cảnh báo nào.
Họ đã đẩy cuộc tấn công xa hơn bằng cách nhắm vào các cuộc tiêm nội dung gián tiếp, chẳng hạn như các cuộc gọi lấy công cụ. Giả sử tác nhân lấy một trang web chứa các hướng dẫn độc hại hoặc lời nhắc ẩn. Guardrails nên đánh dấu hoặc chặn nó, nhưng kỹ thuật của HiddenLayer nhúng một bản ghi đè lên thẩm phán vào chính nội dung được lấy. Khi thẩm phán xử lý nó, nó thấy bản ghi đè và “duyệt” nó, cho phép cuộc gọi công cụ – và bất kỳ nội dung độc hại nào nó trả về – đi qua mà không được kiểm tra.
Bài học sâu sắc hơn là rõ ràng: khi cơ chế an toàn của bạn được xây dựng bằng cùng một logic và điểm yếu như thứ mà nó bảo vệ, một lời nhắc thông minh duy nhất có thể phá vỡ cả hai.
Tại Sao Điều Này Quan Trọng
Điều mà HiddenLayer đã tiết lộ không chỉ là một lỗi – đó là một câu chuyện cảnh báo về cách chúng ta thiết kế an toàn trong các hệ thống LLM. Bất kỳ kiến trúc nào dựa trên cùng một lớp mô hình cho cả tạo và đánh giá đều có nguy cơ gặp phải các lỗi chung khi gặp đầu vào đối thủ.
Điều đó có nghĩa là nhiều người triển khai đã tin rằng “chúng tôi đã cài đặt Guardrails, vì vậy chúng tôi an toàn” có thể đang đánh giá thấp rủi ro. Trong các trường hợp sử dụng thông thường, các bộ lọc của họ có thể có vẻ hiệu quả, nhưng trong các kịch bản đối thủ, chúng có thể thất bại im lặng. Trong các lĩnh vực như chăm sóc sức khỏe, tài chính, chính phủ hoặc hệ thống quan trọng, sự thất bại im lặng như vậy có thể dẫn đến thiệt hại nghiêm trọng.
Nghiên cứu này cũng xây dựng trên các phương pháp tiêm lời nhắc trước đó. Kỹ thuật ” Policy Puppetry ” trước đó của HiddenLayer đã chỉ ra cách các kẻ tấn công có thể ngụy trang các hướng dẫn độc hại dưới dạng nội dung chính sách. Bây giờ, họ chứng minh rằng các cuộc tấn công bị che giấu như vậy có thể mở rộng vào chính logic an toàn.
Hậu Quả Đối Với Người Triển Khai & Nhà Nghiên Cứu
Ánh sáng của sự dễ bị tổn thương này, bất kỳ ai sử dụng hoặc xây dựng các hệ thống LLM tác nhân phải suy nghĩ lại chiến lược an toàn.
Trước tiên: không chỉ dựa vào các kiểm tra mô hình nội bộ. An toàn phải được phân lớp. Điều đó có nghĩa là kết hợp các bộ lọc dựa trên quy tắc, các bộ phát hiện bất thường, hệ thống ghi nhật ký, giám sát bên ngoài, giám sát của con người và đường dẫn kiểm toán. Nếu một lớp thất bại, các lớp khác có thể bắt được sự vi phạm.
Thứ hai: kiểm tra đối thủ thường xuyên là không thể thương lượng. Các mô hình nên đối mặt với các cuộc tiêm lời nhắc cố gắng ghi đè lên chính logic bảo vệ của chúng – không chỉ “nội dung xấu”. Kiểm tra phải phát triển khi các kẻ tấn công phát minh ra các kỹ thuật mới.
Thứ ba: trong các lĩnh vực hoặc lĩnh vực quan trọng về an toàn, minh bạch và có thể xác minh là điều cần thiết. Người triển khai cần bằng chứng rằng một hệ thống có thể chống lại các cuộc tấn công đối thủ, không chỉ chức năng cơ bản. Điều đó gợi ý rằng các kiểm toán của bên thứ ba, xác minh chính thức hoặc đảm bảo an toàn có thể trở thành yêu cầu.
Thứ tư: đối với những người xây dựng mô hình, việc vá lỗ hổng này là khó khăn. Bởi vì nó gắn liền với cách các mô hình phân tích và tuân theo các hướng dẫn, việc chỉ lọc một lớp lời nhắc không đảm bảo khả năng chống lại các lời nhắc mới. Các biện pháp phòng thủ dựa trên tinh chỉnh hoặc lọc có thể làm giảm hiệu suất của mô hình hoặc dẫn đến các cuộc chạy đua vũ trang. Thiết kế mạnh mẽ hơn có thể yêu cầu sự tách biệt kiến trúc – logic bảo vệ chạy trong một mô hình hoặc hệ thống con khác với mô hình tạo.
Giới Hạn & Câu Hỏi Mở
Để rõ ràng: công việc của HiddenLayer là một概念 chứng minh, không phải là phán quyết cuối cùng về mọi kiến trúc an toàn. Các cuộc tấn công thành công của họ phụ thuộc vào kiến thức sâu về cấu trúc lời nhắc và logic đánh giá nội bộ của mô hình bảo vệ. Trong các môi trường lời nhắc hạn chế hoặc hệ thống ngẫu hóa phòng thủ, cuộc tấn công có thể khó hơn để thực hiện.
Ngoài ra, họ không phân tích đầy đủ cách đầu ra độc hại được tạo ra dưới các ràng buộc này có tính nhất quán và hữu ích. Một số đầu ra jailbreak hoặc ghi đè có thể suy giảm chất lượng hoặc độ tin cậy. Vì vậy rủi ro là thực – nhưng bị giới hạn bởi môi trường, ngân sách lời nhắc, ràng buộc giao diện và ngẫu hóa bảo vệ.
Cuối cùng, một số thiết kế bảo vệ sử dụng các lớp mô hình khác nhau, phương pháp ensemble hoặc đánh giá ngẫu hóa. Không chắc chắn rằng mọi hệ thống như vậy đều dễ bị tổn thương; liệu cuộc tấn công này có thể tổng quát hóa rộng rãi là một câu hỏi nghiên cứu mở.
Nhìn Về Tương Lai: Tương Lai Của An Toàn AI
Chúng ta dường như đang bước vào một giai đoạn mới: các cuộc tấn công lời nhắc không chỉ chống lại các mô hình, mà còn chống lại các lớp an toàn của chúng. Các kỹ thuật như chain-of-thought hijacking, hierarchical prompt subversion và judge override sẽ đẩy các biện pháp phòng thủ phát triển nhanh hơn.
Con đường phía trước có lẽ sẽ hướng tới giám sát bên ngoài – các hệ thống giám sát đầu ra từ bên ngoài, không chia sẻ logic mô hình hoặc thực thi an toàn thông qua các kiểm tra bên ngoài. Các kiến trúc lai, phương pháp chính thức, phát hiện bất thường và các vòng lặp phản hồi của con người sẽ cần phải kết hợp lại.
Guardrails là một công cụ hữu ích, nhưng phát hiện của HiddenLayer nhắc nhở chúng ta: chúng không thể là công cụ duy nhất. An toàn phải đến từ bên ngoài hệ thống, không chỉ từ bên trong.












