An ninh mạng
OpenAI thừa nhận trình duyệt AI có thể sẽ không bao giờ hoàn toàn an toàn.

OpenAI đã xuất bản một bài đăng trên blog bảo mật Vào ngày 22 tháng 12, công ty đã đưa ra một lời thừa nhận gây sốc: các cuộc tấn công chèn mã độc vào trình duyệt AI “có thể sẽ không bao giờ được giải quyết hoàn toàn”. Lời thừa nhận này được đưa ra chỉ hai tháng sau khi công ty ra mắt sản phẩm. ChatGPT Atlas, trình duyệt của nó với khả năng tác nhân tự động.
Công ty này so sánh việc tiêm mã độc tức thời với “các chiêu trò lừa đảo và tấn công phi kỹ thuật trên mạng”—những mối đe dọa dai dẳng mà các chuyên gia phòng thủ phải quản lý chứ không thể loại bỏ. Đối với người dùng tin tưởng các tác nhân AI điều hướng internet thay mặt họ, cách nhìn nhận này đặt ra những câu hỏi cơ bản về mức độ tự chủ phù hợp.
Những gì OpenAI đã tiết lộ
Bài đăng trên blog mô tả kiến trúc phòng thủ của OpenAI dành cho Atlas, bao gồm cả "công cụ tấn công tự động" được hỗ trợ bởi học tăng cường, có khả năng tìm kiếm các lỗ hổng trước khi các tác nhân độc hại phát hiện ra chúng. Công ty tuyên bố nhóm tấn công nội bộ này đã phát hiện ra "các chiến lược tấn công mới chưa từng xuất hiện trong chiến dịch tấn công mô phỏng của con người hoặc các báo cáo bên ngoài."
Một ví dụ minh họa cho thấy cách một email độc hại có thể chiếm quyền điều khiển một tác nhân AI đang kiểm tra hộp thư đến của người dùng. Thay vì soạn thảo thư trả lời tự động khi vắng mặt như hướng dẫn, tác nhân bị xâm nhập đã gửi một tin nhắn xin nghỉ việc. OpenAI cho biết bản cập nhật bảo mật mới nhất của họ đã phát hiện ra cuộc tấn công này—nhưng ví dụ này minh họa những rủi ro khi các tác nhân AI hoạt động tự động trong các bối cảnh nhạy cảm.
OpenAI viết rằng kẻ tấn công tự động “có thể điều khiển một tác nhân thực thi các quy trình gây hại phức tạp, kéo dài và diễn ra qua hàng chục (hoặc thậm chí hàng trăm) bước”. Khả năng này giúp OpenAI tìm ra lỗ hổng nhanh hơn so với các kẻ tấn công bên ngoài, nhưng nó cũng cho thấy các cuộc tấn công chèn mã độc tức thời có thể trở nên phức tạp và gây thiệt hại như thế nào.

Hình ảnh: OpenAI
Vấn đề an ninh cơ bản
Tấn công chèn lệnh nhanh khai thác một hạn chế cơ bản của các mô hình ngôn ngữ lớn: chúng không thể phân biệt một cách đáng tin cậy giữa các lệnh hợp lệ và nội dung độc hại được nhúng trong dữ liệu mà chúng xử lý. Khi trình duyệt AI đọc một trang web, bất kỳ văn bản nào trên trang đó đều có khả năng ảnh hưởng đến hành vi của nó.
Các nhà nghiên cứu bảo mật đã chứng minh điều này nhiều lần. Trình duyệt AI kết hợp quyền tự chủ vừa phải với quyền truy cập rất cao—một vị thế đầy thách thức trong lĩnh vực bảo mật.
Các cuộc tấn công không đòi hỏi kỹ thuật phức tạp. Văn bản ẩn trên các trang web, email được soạn thảo cẩn thận hoặc các chỉ dẫn vô hình trong tài liệu đều có thể thao túng kẻ tấn công. Đại lý AI có thể dẫn đến việc thực hiện các hành động ngoài ý muốn. Một số nhà nghiên cứu đã chỉ ra rằng các lời nhắc độc hại được ẩn trong ảnh chụp màn hình có thể được thực thi khi AI chụp ảnh màn hình của người dùng.
OpenAI đang phản hồi như thế nào?
Các biện pháp phòng vệ của OpenAI bao gồm các mô hình được huấn luyện theo kiểu đối kháng, bộ phân loại chèn nhanh và các "rào cản tốc độ" yêu cầu người dùng xác nhận trước khi thực hiện các hành động nhạy cảm. Công ty khuyến nghị người dùng nên hạn chế quyền truy cập của Atlas—hạn chế quyền truy cập khi đã đăng nhập, yêu cầu xác nhận trước khi thanh toán hoặc gửi tin nhắn, và cung cấp hướng dẫn cụ thể thay vì các mệnh lệnh chung chung.
Khuyến nghị này rất đáng chú ý. Về cơ bản, OpenAI khuyên người dùng nên nghi ngờ chính sản phẩm của mình, hạn chế tính tự chủ vốn là điểm hấp dẫn của các trình duyệt thông minh. Người dùng muốn các trình duyệt AI xử lý toàn bộ hộp thư đến hoặc quản lý tài chính của họ đang chấp nhận những rủi ro mà chính công ty không tán thành.
Bản cập nhật bảo mật giúp giảm số lượng các cuộc tấn công chèn mã độc thành công. Sự cải thiện này rất quan trọng, nhưng điều đó cũng có nghĩa là bề mặt tấn công vẫn còn tồn tại—và kẻ tấn công sẽ thích nghi với bất kỳ biện pháp phòng vệ nào mà OpenAI triển khai.
Ý nghĩa toàn ngành
OpenAI không phải là đơn độc trong việc đối mặt với những thách thức này. Khung bảo mật của Google Các tính năng hỗ trợ của Chrome bao gồm nhiều lớp bảo vệ, trong đó có một mô hình AI riêng biệt kiểm tra mọi hành động được đề xuất. Trình duyệt Comet của Perplexity cũng đã phải đối mặt với sự giám sát tương tự từ các nhà nghiên cứu bảo mật tại Brave, những người phát hiện ra rằng việc truy cập vào một trang web độc hại có thể kích hoạt các hành động AI gây hại.
Ngành công nghiệp dường như đang dần đi đến một sự hiểu biết chung: việc tiêm thuốc đúng lúc là một hạn chế cơ bản, chứ không phải là một lỗi cần vá. Điều này có ý nghĩa quan trọng đối với tầm nhìn về các tác nhân AI xử lý các nhiệm vụ phức tạp, nhạy cảm một cách tự động.
Những điều người dùng nên cân nhắc
Sự đánh giá thẳng thắn này khá khó chịu: Trình duyệt AI là những công cụ hữu ích nhưng lại có những hạn chế về bảo mật vốn có, không thể loại bỏ bằng cách cải tiến kỹ thuật. Người dùng phải đối mặt với sự đánh đổi giữa tiện lợi và rủi ro mà không nhà cung cấp nào có thể giải quyết hoàn toàn.
Hướng dẫn của OpenAI—hạn chế quyền truy cập, yêu cầu xác nhận, tránh các quy định quá rộng—thực chất là lời khuyên nên sử dụng các phiên bản sản phẩm ít mạnh mẽ hơn. Đây không phải là lập trường thiếu thiện chí; mà là sự thừa nhận thực tế về những hạn chế hiện tại. Trợ lý AI Những người có khả năng làm được nhiều hơn cũng có thể bị thao túng để làm được nhiều hơn.
Sự tương đồng với bảo mật web truyền thống rất đáng chú ý. Người dùng vẫn mắc bẫy các cuộc tấn công lừa đảo (phishing) hàng chục năm sau khi chúng xuất hiện. Trình duyệt vẫn chặn hàng triệu trang web độc hại mỗi ngày. Mối đe dọa thích nghi nhanh hơn khả năng phòng thủ có thể giải quyết triệt để.
Trình duyệt AI bổ sung một khía cạnh mới cho động lực quen thuộc này. Khi con người duyệt web, họ đưa ra phán đoán về những gì trông đáng ngờ. Các tác nhân AI xử lý mọi thứ với sự tin tưởng ngang nhau, khiến chúng dễ bị thao túng hơn ngay cả khi chúng ngày càng trở nên có năng lực hơn.
Con đường phía trước
Sự minh bạch của OpenAI đáng được ghi nhận. Công ty hoàn toàn có thể âm thầm phát hành các bản cập nhật bảo mật mà không thừa nhận sự tồn tại dai dẳng của vấn đề. Thay vào đó, họ đã công bố phân tích chi tiết về các phương thức tấn công và kiến trúc phòng thủ—thông tin giúp người dùng đưa ra quyết định sáng suốt và giúp các đối thủ cạnh tranh cải thiện khả năng bảo vệ của riêng họ.
Nhưng tính minh bạch không giải quyết được mâu thuẫn cơ bản. Các tác nhân AI càng mạnh mẽ, chúng càng trở thành mục tiêu hấp dẫn. Chính những khả năng cho phép Atlas xử lý các quy trình công việc phức tạp cũng tạo ra cơ hội cho các cuộc tấn công tinh vi.
Hiện tại, người dùng trình duyệt AI nên coi chúng như những công cụ mạnh mẽ với những hạn chế nhất định – chứ không phải là những trợ lý kỹ thuật số hoàn toàn tự động sẵn sàng xử lý các tác vụ nhạy cảm mà không cần giám sát. OpenAI đã rất thẳng thắn về thực tế này. Câu hỏi đặt ra là liệu hoạt động tiếp thị của ngành có bắt kịp với những gì mà các nhóm bảo mật đã biết hay không.












