An ninh mạng
Các nhà nghiên cứu của HiddenLayer vượt qua các rào cản của OpenAI,暴露 điểm yếu quan trọng trong tự điều chỉnh của AI

Vào ngày 6 tháng 10 năm 2025, OpenAI đã công bố AgentKit, một công cụ để xây dựng, triển khai và quản lý các tác nhân AI. Một trong những thành phần của nó là Guardrails – một lớp an toàn mô-đun được thiết kế để theo dõi đầu vào, đầu ra và tương tác công cụ của tác nhân để ngăn chặn lạm dụng, rò rỉ dữ liệu hoặc hành vi độc hại. Guardrails có thể che giấu hoặc đánh dấu PII, phát hiện jailbreak và áp dụng các ràng buộc chính sách cùng với việc thực hiện tác nhân.
Mặc dù Guardrails là một phần mới được công bố của kiến trúc tác nhân của OpenAI, nghiên cứu của HiddenLayer đã tiết lộ một điểm yếu sâu sắc hơn: vì cả hành động của tác nhân và các kiểm tra an toàn sử dụng logic mô hình tương tự, các kẻ tấn công có thể tạo ra đầu vào để phá hoại cả hai đồng thời – hiệu quả phá vỡ lớp an toàn từ bên trong.
HiddenLayer đã phát hiện ra điều gì
Thiết kế của OpenAI dự kiến các tác nhân hoạt động thông qua logic chuỗi: người dùng đưa ra yêu cầu, tác nhân gọi các công cụ hoặc tài nguyên bên ngoài và các phản hồi được lọc hoặc xác thực bởi Guardrails trước khi thực hiện hoặc đầu ra. Mục đích là không管 tác nhân cố gắng làm gì – cho dù đó là tạo văn bản, lấy một trang web hoặc kích hoạt một hàm – Guardrails đóng vai trò như một người giám sát.
HiddenLayer lập luận rằng người giám sát này bị cấu trúc khiếm khuyết khi nó được xây dựng từ cùng một lớp mô hình mà nó đang bảo vệ. Trong các thí nghiệm của họ, họ đã tạo ra các yêu cầu có tác dụng kép: chúng ép mô hình tác nhân tạo ra nội dung vi phạm chính sách và thao túng mô hình đánh giá của Guardrails để tuyên bố rằng nội dung đó là “an toàn”. Hiệu quả, yêu cầu này nhúng một lệnh ghi đè lên logic nội bộ của người đánh giá – ngưỡng tin cậy, nhánh quyết định – để người đánh giá sai lầm thông qua đầu ra độc hại. Hệ thống sau đó tạo ra nội dung không được phép mà không kích hoạt bất kỳ cảnh báo nào.
Họ đã đẩy cuộc tấn công xa hơn bằng cách nhắm vào các cuộc tiêm nội dung gián tiếp, chẳng hạn như các cuộc gọi lấy công cụ. Giả sử tác nhân lấy một trang web chứa các hướng dẫn độc hại hoặc yêu cầu ẩn. Guardrails nên đánh dấu hoặc chặn nó, nhưng kỹ thuật của HiddenLayer nhúng một lệnh ghi đè lên người đánh giá vào chính nội dung được lấy. Khi người đánh giá xử lý nó, nó thấy lệnh ghi đè và “chấp thuận” nó, cho phép cuộc gọi công cụ – và bất kỳ nội dung độc hại nào nó trả về – đi qua mà không được kiểm tra.
Bài học sâu sắc hơn là rõ ràng: khi cơ chế an toàn của bạn được xây dựng bằng cùng một logic và lỗ hổng như thứ mà nó bảo vệ, một yêu cầu thông minh có thể phá vỡ cả hai.
Tại sao điều này lại quan trọng
Điều mà HiddenLayer đã tiết lộ không phải là một lỗi nhỏ – đó là một câu chuyện cảnh báo về cách chúng ta thiết kế an toàn trong các hệ thống LLM. Bất kỳ kiến trúc nào dựa trên cùng một lớp mô hình cho cả tạo và đánh giá đều có nguy cơ gặp phải các lỗi chung khi nhận đầu vào độc hại.
Điều đó có nghĩa là nhiều người triển khai tin rằng “chúng tôi đã đặt Guardrails, vì vậy chúng tôi an toàn” có thể đang đánh giá thấp rủi ro. Trong các trường hợp sử dụng thông thường, các bộ lọc của họ có thể xuất hiện hiệu quả, nhưng trong các kịch bản độc hại, chúng có thể thất bại im lặng. Trong các lĩnh vực như chăm sóc sức khỏe, tài chính, chính phủ hoặc hệ thống quan trọng, các sự cố im lặng như vậy có thể dẫn đến thiệt hại nghiêm trọng.
Nghiên cứu này cũng xây dựng trên các phương pháp tiêm yêu cầu trước đó. Kỹ thuật “Policy Puppetry” trước đây của HiddenLayer đã chỉ ra cách các kẻ tấn công có thể ngụy trang các hướng dẫn độc hại dưới dạng nội dung chính sách. Bây giờ, họ chứng minh rằng các cuộc tấn công như vậy có thể mở rộng vào chính logic an toàn.
Hướng dẫn cho các nhà triển khai và nhà nghiên cứu
Ánh sáng của lỗ hổng này, bất kỳ ai sử dụng hoặc xây dựng các hệ thống LLM tác nhân đều phải suy nghĩ lại chiến lược an toàn.
Trước hết: không chỉ dựa vào các kiểm tra dựa trên mô hình nội bộ. An toàn phải được phân lớp. Điều đó có nghĩa là kết hợp các bộ lọc dựa trên quy tắc, các bộ phát hiện bất thường, hệ thống ghi nhật ký, giám sát bên ngoài, giám sát của con người và các đường dẫn kiểm toán. Nếu một lớp thất bại, các lớp khác có thể bắt được sự vi phạm.
Thứ hai: kiểm tra đỏ thường xuyên là không thể thương lượng. Các mô hình nên đối mặt với các cuộc tiêm yêu cầu cố gắng ghi đè lên chính logic bảo vệ của chúng – không chỉ “nội dung xấu”. Kiểm tra phải phát triển khi các kẻ tấn công tạo ra các kỹ thuật mới.
Thứ ba: trong các lĩnh vực hoặc lĩnh vực an toàn quan trọng, minh bạch và có thể xác minh là điều cần thiết. Các nhà triển khai cần bằng chứng rằng một hệ thống có thể chống lại các cuộc tấn công độc hại, không chỉ là chức năng cơ bản. Điều đó gợi ý rằng các audit của bên thứ ba, xác minh chính thức hoặc các đảm bảo an toàn có thể trở thành yêu cầu.
Thứ tư: đối với các nhà xây dựng mô hình, việc vá lỗ hổng này là khó khăn. Vì nó gắn liền với cách các mô hình phân tích và tuân theo các hướng dẫn, việc chỉ lọc một lớp yêu cầu không đảm bảo khả năng chống lại các yêu cầu mới. Các biện pháp phòng thủ dựa trên tinh chỉnh hoặc lọc có thể làm giảm hiệu suất của mô hình hoặc dẫn đến các cuộc chạy đua vũ trang. Thiết kế mạnh mẽ hơn có thể yêu cầu sự tách biệt kiến trúc – logic bảo vệ chạy trong một mô hình hoặc hệ thống con khác với mô hình tạo.
Giới hạn và câu hỏi mở
Để rõ ràng: công việc của HiddenLayer là một概念 chứng minh, không phải là phán quyết cuối cùng về mọi kiến trúc an toàn. Các cuộc tấn công thành công của họ phụ thuộc vào kiến thức sâu về cấu trúc yêu cầu và logic chấm điểm nội bộ của mô hình bảo vệ. Trong các môi trường yêu cầu hạn chế hơn hoặc các hệ thống ngẫu hóa các biện pháp phòng thủ, cuộc tấn công có thể khó hơn.
Ngoài ra, họ không phân tích đầy đủ cách nội dung độc hại được tạo ra dưới các ràng buộc này có tính nhất quán hoặc hữu ích. Một số nội dung jailbreak hoặc ghi đè có thể suy giảm về chất lượng hoặc độ tin cậy. Vì vậy, rủi ro là có thực – nhưng bị giới hạn bởi môi trường, ngân sách yêu cầu, ràng buộc giao diện và sự ngẫu hóa của người bảo vệ.
Cuối cùng, một số thiết kế rào cản sử dụng các lớp mô hình khác nhau, phương pháp tổng hợp hoặc đánh giá ngẫu hóa. Không chắc chắn liệu mọi hệ thống như vậy có dễ bị tấn công; liệu cuộc tấn công này có thể tổng quát hóa rộng rãi là một câu hỏi nghiên cứu mở.
Nhìn về tương lai: Tương lai của an toàn AI
Chúng ta dường như đang bước vào một giai đoạn mới: các cuộc tấn công yêu cầu không chỉ针 đối các mô hình, mà còn针 đối các lớp an toàn của chúng. Các kỹ thuật như chain-of-thought hijacking, subversion yêu cầu phân cấp và ghi đè người đánh giá sẽ đẩy các biện pháp phòng thủ phát triển nhanh hơn.
Con đường phía trước có thể hướng tới việc giám sát từ bên ngoài – các hệ thống theo dõi đầu ra từ bên ngoài, không chia sẻ logic mô hình hoặc thực thi an toàn thông qua các kiểm tra bên ngoài. Các kiến trúc lai, phương pháp chính thức, phát hiện bất thường và các vòng lặp phản hồi của con người sẽ cần phải kết hợp lại.
Guardrails là một công cụ hữu ích, nhưng phát hiện của HiddenLayer nhắc nhở chúng ta: chúng không thể là công cụ duy nhất. An toàn phải đến từ bên ngoài hệ thống, không chỉ từ bên trong.












