An ninh mạng
OpenAI Admits AI Browsers May Never Be Fully Secure

OpenAI đã xuất bản một bài đăng trên blog về bảo mật vào ngày 22 tháng 12 chứa một lời thú nhận đáng chú ý: các cuộc tấn công bằng cách tiêm lệnh vào trình duyệt AI “có thể không bao giờ được giải quyết hoàn toàn.” Lời thú nhận này đến chỉ hai tháng sau khi công ty ra mắt ChatGPT Atlas, trình duyệt của họ với khả năng của tác nhân tự động.
Công ty này đã so sánh việc tiêm lệnh với “lừa đảo và kỹ thuật xã hội trên web” – những mối đe dọa dai dẳng mà những người bảo vệ phải quản lý chứ không phải loại bỏ. Đối với người dùng tin tưởng vào các tác nhân AI để điều hướng internet thay mặt họ, việc định khung này đặt ra những câu hỏi cơ bản về mức độ tự chủ nào là phù hợp.
Điều OpenAI Đã Tiết Lộ
Bài đăng trên blog mô tả kiến trúc phòng thủ của OpenAI cho Atlas, bao gồm một “kẻ tấn công tự động” được trang bị học tăng cường để tìm kiếm các điểm yếu trước khi các tác nhân độc hại tìm thấy chúng. Công ty cho biết đội đỏ nội bộ này đã phát hiện ra “các chiến lược tấn công mới không xuất hiện trong chiến dịch đội đỏ của con người hoặc báo cáo bên ngoài.”
Một ví dụ cho thấy một email độc hại có thể chiếm quyền điều khiển một tác nhân AI kiểm tra hộp thư đến của người dùng. Thay vì soạn một thư trả lời tự động như hướng dẫn, tác nhân bị xâm phạm đã gửi một thông điệp từ chức. OpenAI cho biết bản cập nhật bảo mật mới nhất của họ hiện đã bắt được cuộc tấn công này – nhưng ví dụ này minh họa cho những rủi ro khi các tác nhân AI hoạt động tự chủ trong các ngữ cảnh nhạy cảm.
Kẻ tấn công tự động “có thể điều khiển một tác nhân thực hiện các công việc có hại phức tạp, dài hạn mà mở ra trong vài chục (hoặc thậm chí hàng trăm) bước,” OpenAI viết. Khả năng này giúp OpenAI tìm ra các điểm yếu nhanh hơn các kẻ tấn công bên ngoài, nhưng nó cũng tiết lộ cách các cuộc tấn công tiêm lệnh có thể trở nên phức tạp và gây hại như thế nào.

Hình ảnh: OpenAI
Vấn Đề Bảo Mật Cơ Bản
Tiêm lệnh khai thác một hạn chế cơ bản của các mô hình ngôn ngữ lớn: chúng không thể phân biệt đáng tin cậy giữa các lệnh hợp pháp và nội dung độc hại nhúng trong dữ liệu mà chúng xử lý. Khi một trình duyệt AI đọc một trang web, bất kỳ văn bản nào trên trang đó đều có thể ảnh hưởng đến hành vi của nó.
Các nhà nghiên cứu bảo mật đã chứng minh điều này nhiều lần. Trình duyệt AI kết hợp tự chủ vừa phải với quyền truy cập rất cao – một vị trí đầy thách thức trong không gian bảo mật.
Các cuộc tấn công không yêu cầu kỹ thuật tinh vi. Văn bản ẩn trên các trang web, email được thiết kế cẩn thận hoặc các lệnh vô hình trong tài liệu đều có thể thao túng các tác nhân AI vào thực hiện các hành động không mong muốn. Một số nhà nghiên cứu đã chỉ ra rằng các lệnh độc hại ẩn trong ảnh chụp màn hình có thể được thực hiện khi một AI chụp ảnh màn hình của người dùng.
OpenAI Đang Phản Hồi Như Thế Nào
Các biện pháp phòng thủ của OpenAI bao gồm các mô hình được đào tạo đối kháng, các phân loại器 tiêm lệnh và “điểm giới hạn” yêu cầu xác nhận của người dùng trước khi thực hiện các hành động nhạy cảm. Công ty khuyến nghị người dùng hạn chế những gì Atlas có thể truy cập – hạn chế truy cập đã đăng nhập, yêu cầu xác nhận trước khi thực hiện thanh toán hoặc gửi tin nhắn và cung cấp hướng dẫn cụ thể thay vì các mệnh lệnh rộng.
Lời khuyên này rất tiết lộ. OpenAI cơ bản khuyên người dùng nên đối xử với sản phẩm của chính họ với sự nghi ngờ, hạn chế sự tự chủ mà làm cho trình duyệt tác nhân trở nên hấp dẫn ngay từ đầu. Người dùng muốn trình duyệt AI xử lý toàn bộ hộp thư đến hoặc quản lý tài chính của họ đang chấp nhận rủi ro mà chính công ty không ủng hộ.
Bản cập nhật bảo mật giảm thiểu các cuộc tấn công tiêm lệnh thành công. Sự cải thiện này rất quan trọng, nhưng nó cũng có nghĩa là bề mặt tấn công còn lại vẫn tồn tại – và các kẻ tấn công sẽ thích nghi với bất kỳ biện pháp phòng thủ nào mà OpenAI triển khai.
Ảnh Hưởng Ngành Công Nghiệp
OpenAI không đơn độc khi đối mặt với những thách thức này. Khung bảo mật của Google cho các tính năng tác nhân của Chrome bao gồm nhiều lớp phòng thủ, bao gồm một mô hình AI riêng biệt kiểm tra mọi hành động được đề xuất. Trình duyệt Comet của Perplexity đã phải đối mặt với sự kiểm tra tương tự từ các nhà nghiên cứu bảo mật tại Brave, những người đã phát hiện ra rằng việc điều hướng đến một trang web độc hại có thể kích hoạt các hành động AI có hại.
Ngành công nghiệp dường như đang hội tụ về một sự hiểu biết chung: tiêm lệnh là một hạn chế cơ bản, không phải là một lỗi có thể được vá. Điều này có ý nghĩa quan trọng đối với tầm nhìn của các tác nhân AI xử lý các nhiệm vụ phức tạp, nhạy cảm một cách tự chủ.
Người Dùng Nên Xem Xét Điều Gì
Đánh giá trung thực là không thoải mái: trình duyệt AI là những công cụ hữu ích với các hạn chế bảo mật vốn có mà không thể được loại bỏ thông qua kỹ thuật tốt hơn. Người dùng phải đối mặt với sự đánh đổi giữa sự tiện lợi và rủi ro mà không có nhà cung cấp nào có thể giải quyết hoàn toàn.
Hướng dẫn của OpenAI – hạn chế truy cập, yêu cầu xác nhận, tránh các mệnh lệnh rộng – tương đương với lời khuyên sử dụng các phiên bản ít mạnh mẽ hơn của sản phẩm. Điều này không phải là định vị tiêu cực; nó là sự thừa nhận thực tế về các hạn chế hiện tại. Trợ lý AI có thể làm được nhiều hơn cũng có thể bị thao túng để làm được nhiều hơn.
Sự tương tự với bảo mật web truyền thống là rất hữu ích. Người dùng vẫn bị lừa bởi các cuộc tấn công phishing hàng thập kỷ sau khi chúng xuất hiện. Trình duyệt vẫn chặn hàng triệu trang web độc hại mỗi ngày. Mối đe dọa này thích nghi nhanh hơn các biện pháp phòng thủ có thể giải quyết vĩnh viễn.
Trình duyệt AI thêm một chiều mới vào động lực này. Khi con người duyệt web, họ mang theo sự phán xét về những gì trông có vẻ đáng ngờ. Các tác nhân AI xử lý mọi thứ với sự tin cậy như nhau, khiến chúng dễ bị thao túng hơn ngay cả khi chúng trở nên mạnh mẽ hơn.
Con Đường Tiếp Theo
Sự minh bạch của OpenAI xứng đáng được công nhận. Công ty có thể đã xuất bản các bản cập nhật bảo mật một cách im lặng mà không thừa nhận vấn đề cơ bản vẫn tồn tại. Thay vào đó, họ đã xuất bản phân tích chi tiết về các vector tấn công và kiến trúc phòng thủ – thông tin giúp người dùng đưa ra quyết định thông minh và giúp các đối thủ cạnh tranh cải thiện sự bảo vệ của họ.
Nhưng sự minh bạch không giải quyết được sự căng thẳng cơ bản. Càng mạnh, các tác nhân AI càng trở thành mục tiêu hấp dẫn. Các khả năng cho phép Atlas xử lý các công việc phức tạp cũng tạo ra cơ hội cho các cuộc tấn công tinh vi.
Hiện tại, người dùng trình duyệt AI nên tiếp cận chúng như những công cụ mạnh mẽ với các hạn chế có ý nghĩa – không phải là các trợ lý kỹ thuật số tự động đầy đủ sẵn sàng xử lý các nhiệm vụ nhạy cảm mà không cần giám sát. OpenAI đã bất thường khi thẳng thắn về thực tế này. Câu hỏi là liệu tiếp thị của ngành có bắt kịp với những gì các nhóm bảo mật đã biết hay không.












