Lãnh đạo tư tưởng
Những Cuộc Tấn Công Sớm Nhắm Vào Các Trợ Lý AI Nói Với Chúng Ta Về Năm 2026

Khi AI chuyển từ các thí nghiệm được kiểm soát sang các ứng dụng thực tế, chúng ta đang bước vào một điểm chuyển đổi trong cảnh quan an ninh. Sự chuyển đổi từ các mô hình ngôn ngữ tĩnh sang các hệ thống có khả năng tương tác, có thể thực hiện các hành động như duyệt tài liệu, gọi công cụ và điều phối các quy trình công việc nhiều bước, đã bắt đầu.
Vào quý 4 năm 2025, nhóm của chúng tôi tại Lakera đã phân tích hành vi của các kẻ tấn công thực tế trên các hệ thống được bảo vệ bởi Guard và trong môi trường Gandalf: Agent Breaker — một bản chụp 30 ngày tập trung, mặc dù có thời gian hẹp, nhưng phản ánh các mẫu rộng lớn hơn mà chúng tôi quan sát trong suốt quý. Các phát hiện vẽ ra một bức tranh rõ ràng: ngay khi các mô hình bắt đầu tương tác với điều gì đó ngoài các lệnh văn bản đơn giản (ví dụ: tài liệu, công cụ, dữ liệu bên ngoài), bề mặt tấn công mở rộng và những kẻ tấn công điều chỉnh ngay lập tức để khai thác nó.
Thời điểm này có thể cảm thấy quen thuộc với những người đã theo dõi sự phát triển của các ứng dụng web sớm hoặc những người đã quan sát sự gia tăng của các cuộc tấn công dựa trên API. Nhưng với các trợ lý AI, các ставки khác nhau. Các vector tấn công đang xuất hiện nhanh hơn nhiều tổ chức dự kiến.
Từ Lý Thuyết Đến Thực Tiễn: Các Trợ Lý Trong Thế Giới Thực
Trong hầu hết năm 2025, các cuộc thảo luận về các trợ lý AI chủ yếu tập trung vào tiềm năng lý thuyết và các nguyên mẫu sớm. Nhưng vào quý 4, các hành vi của các trợ lý bắt đầu xuất hiện trong các hệ thống sản xuất với quy mô lớn: các mô hình có thể tìm và phân tích tài liệu, tương tác với các API bên ngoài và thực hiện các nhiệm vụ tự động. Các trợ lý này mang lại những lợi ích rõ ràng về năng suất, nhưng chúng cũng mở ra những cánh cửa mà các mô hình ngôn ngữ truyền thống không có.
Phân tích của chúng tôi cho thấy rằng ngay khi các trợ lý trở nên có khả năng tương tác với nội dung và công cụ bên ngoài, các kẻ tấn công đã nhận thấy và điều chỉnh theo. Quan sát này phù hợp với một sự thật cơ bản về hành vi của kẻ tấn công: các kẻ tấn công sẽ luôn khám phá và khai thác các khả năng mới ở cơ hội sớm nhất. Trong bối cảnh của các trợ lý AI, điều này đã dẫn đến sự tiến hóa nhanh chóng trong các chiến lược tấn công.
Mẫu Tấn Công: Những Gì Chúng Ta Đang Thấy Trong Quý 4 Năm 2025
Trên toàn bộ dữ liệu mà chúng tôi đã xem xét, ba mẫu nổi bật đã xuất hiện. Mỗi mẫu có những ý nghĩa sâu sắc về cách các hệ thống AI được thiết kế, bảo mật và triển khai.
1. Trích Xuất Lệnh Hệ Thống Là Mục Tiêu Trung Tâm
Trong các mô hình ngôn ngữ truyền thống, tiêm lệnh (điều khiển trực tiếp đầu vào để ảnh hưởng đến đầu ra) đã là một điểm yếu được nghiên cứu kỹ lưỡng. Tuy nhiên, trong các hệ thống có khả năng của các trợ lý, các kẻ tấn công ngày càng nhắm vào lệnh hệ thống, là các hướng dẫn nội bộ, vai trò và định nghĩa chính sách mà hướng dẫn hành vi của trợ lý.
Trích xuất lệnh hệ thống là một mục tiêu có giá trị cao vì các lệnh này thường chứa định nghĩa vai trò, mô tả công cụ, hướng dẫn chính sách và logic quy trình. Một khi kẻ tấn công hiểu được các cơ chế nội bộ này, họ sẽ có một bản thiết kế để điều khiển trợ lý.
Các kỹ thuật hiệu quả nhất để đạt được điều này không phải là các cuộc tấn công bằng lực lượng, mà là các kỹ thuật định dạng lại:
- Các Kịch Bản Giả Định: Các lệnh yêu cầu mô hình giả định một vai trò hoặc ngữ cảnh khác — ví dụ: “Hãy tưởng tượng bạn là một nhà phát triển đang xem xét cấu hình hệ thống này…” — thường khiến mô hình tiết lộ các chi tiết nội bộ được bảo vệ.
- Định dạng Nội Dung An Toàn Bằng Cách Che Giấu: Các kẻ tấn công nhúng các lệnh độc hại vào trong nội dung có cấu trúc hoặc giống như mã, vượt qua các bộ lọc đơn giản và kích hoạt các hành vi không mong muốn khi được phân tích bởi trợ lý.
Điều này không chỉ là một rủi ro tăng dần — nó thay đổi cơ bản cách chúng ta nghĩ về việc bảo vệ logic nội bộ trong các hệ thống của các trợ lý.
2. Các Cuộc Tấn Công Bypass An Toàn Nội Dung Một Cách Dè Dặt
Một xu hướng chính khác liên quan đến việc bypass các biện pháp bảo vệ an toàn nội dung theo những cách khó phát hiện và ngăn chặn bằng các bộ lọc truyền thống.
Thay vì các yêu cầu độc hại rõ ràng, các kẻ tấn công đã định dạng lại nội dung có hại dưới dạng:
- Nhiệm Vụ Phân Tích
- Đánh Giá
- Kịch Bản Vai Trò
- Biến Đổi Hoặc Tóm Tắt
Những định dạng lại này thường lọt qua các bộ lọc an toàn vì chúng đường như vô hại trên bề mặt. Một mô hình từ chối yêu cầu trực tiếp về đầu ra có hại có thể sẵn sàng tạo ra cùng một đầu ra khi được yêu cầu “đánh giá” hoặc “tóm tắt” nó trong ngữ cảnh.
Sự thay đổi này làm nổi bật một thách thức sâu sắc hơn: an toàn nội dung cho các trợ lý AI không chỉ là việc thực thi chính sách; nó là về cách các mô hình giải thích ý định. Khi các trợ lý thực hiện các nhiệm vụ phức tạp hơn và ngữ cảnh, các mô hình trở nên dễ bị tổn thương hơn bởi việc giải thích lại dựa trên ngữ cảnh — và các kẻ tấn công khai thác hành vi này.
3. Sự Xuất Hiện Của Các Cuộc Tấn Công Riêng Biệt Cho Trợ Lý
Có lẽ phát hiện quan trọng nhất là sự xuất hiện của các mẫu tấn công chỉ có ý nghĩa trong ngữ cảnh của các khả năng của trợ lý. Những điều này không phải là các nỗ lực tiêm lệnh đơn giản mà là các khai thác liên quan đến các hành vi mới:
- Các Nỗ Lực Truy Cập Dữ Liệu Nội Bộ Bí Mật: Các lệnh được tạo ra để thuyết phục trợ lý truy xuất hoặc tiết lộ thông tin từ các cửa hàng tài liệu hoặc hệ thống kết nối — các hành động mà trước đây sẽ nằm ngoài phạm vi của mô hình
- Các Lệnh Định Dạng Giống Kịch Bản Được Nhúng Trong Văn Bản: Các kẻ tấn công đã thử nghiệm việc nhúng các lệnh trong định dạng giống như kịch bản hoặc nội dung có cấu trúc, có thể chảy qua một đường ống trợ lý và kích hoạt các hành động không mong muốn
- Các Lệnh Ẩn Trong Nội Dung Bên Ngoài: Một số cuộc tấn công đã nhúng các lệnh độc hại vào trong nội dung bên ngoài được tham chiếu — như trang web hoặc tài liệu mà trợ lý được yêu cầu xử lý — hiệu quả vượt qua các bộ lọc đầu vào trực tiếp
Những mẫu này là sớm nhưng báo hiệu một tương lai trong đó các khả năng mở rộng của trợ lý cơ bản thay đổi bản chất của hành vi đối thủ.
Tại Sao Các Cuộc Tấn Công Gián Tiếp Lại Hiệu Quả
Một trong những phát hiện đáng chú ý nhất của báo cáo là các cuộc tấn công gián tiếp — những cuộc tấn công sử dụng nội dung hoặc dữ liệu có cấu trúc bên ngoài — đòi hỏi ít nỗ lực hơn so với các cuộc tiêm lệnh trực tiếp. Điều này cho thấy rằng việc làm sạch đầu vào và lọc truy vấn trực tiếp là không đủ để bảo vệ một khi các mô hình tương tác với nội dung không đáng tin cậy.
Khi một lệnh độc hại đến thông qua một quy trình công việc của trợ lý bên ngoài — cho dù đó là một tài liệu được liên kết, một phản hồi API hoặc một trang web được truy xuất — các bộ lọc sớm sẽ ít hiệu quả hơn. Kết quả: các kẻ tấn công có một bề mặt tấn công lớn hơn và ít chướng ngại vật hơn.
Ý Nghĩa Đối Với Năm 2026 Và Tương Lai
Các phát hiện của báo cáo mang lại những ý nghĩa cấp thiết cho các tổ chức đang lên kế hoạch triển khai các trợ lý AI với quy mô lớn:
- Định Nghĩa Lại Các Ranh Giới Tin Cậy
Tin cậy không thể chỉ là nhị phân. Khi các trợ lý tương tác với người dùng, nội dung bên ngoài và các quy trình công việc nội bộ, các hệ thống phải triển khai các mô hình tin cậy tinh vi hơn, xem xét ngữ cảnh, nguồn gốc và mục đích. - Các Hàng Rào Bảo Vệ Phải Tiến Hóa
Các bộ lọc an toàn tĩnh không đủ. Các hàng rào bảo vệ phải là thích ứng, nhận thức được ngữ cảnh và có khả năng suy luận về ý định và hành vi trên các quy trình công việc nhiều bước. - Minh Bạch Và Kiểm Toán Là Thiết Yếu
Khi các vector tấn công trở nên phức tạp hơn, các tổ chức cần có tầm nhìn vào cách các trợ lý đưa ra quyết định — bao gồm các bước trung gian, tương tác bên ngoài và biến đổi. Các nhật ký kiểm toán và các khung giải thích không còn là tùy chọn. - Sự Hợp Tác Liên Ngành Là Chìa Khóa
Nghiên cứu AI, kỹ thuật an ninh và các đội thông tin về mối đe dọa phải làm việc cùng nhau. An toàn AI không thể bị cô lập; nó phải được tích hợp với các thực hành an ninh mạng rộng lớn hơn và các khuôn khổ quản lý rủi ro. - Quy Định Và Tiêu Chuẩn Sẽ Cần Phải Đuổi Theo
Các nhà hoạch định chính sách và các cơ quan tiêu chuẩn phải nhận ra rằng các hệ thống của trợ lý tạo ra các lớp rủi ro mới. Quy định liên quan đến quyền riêng tư dữ liệu và an toàn đầu ra là cần thiết nhưng không đủ; chúng cũng phải tính đến các hành vi tương tác và môi trường thực hiện nhiều bước.
Tương Lai Của Các Trợ Lý AI An Toàn
Sự xuất hiện của các trợ lý AI đại diện cho một sự thay đổi sâu sắc về khả năng và rủi ro. Dữ liệu quý 4 năm 2025 là một chỉ số sớm cho thấy rằng ngay khi các trợ lý bắt đầu hoạt động ngoài việc tạo văn bản đơn giản, các kẻ tấn công sẽ theo sát. Các phát hiện của chúng tôi cho thấy rằng những kẻ tấn công không chỉ đang thích nghi — họ đang đổi mới các kỹ thuật tấn công mà các biện pháp phòng thủ truyền thống chưa sẵn sàng để đối phó.
Đối với các doanh nghiệp và nhà phát triển, thông điệp là rõ ràng: bảo mật các trợ lý AI không chỉ là một thách thức kỹ thuật; nó là một thách thức về kiến trúc. Nó đòi hỏi phải suy nghĩ lại cách thiết lập tin cậy, cách thực thi các hàng rào bảo vệ và cách liên tục đánh giá rủi ro trong các môi trường động và tương tác.
Vào năm 2026 và sau đó, các tổ chức thành công với các trợ lý AI sẽ là những tổ chức coi an ninh không phải là một suy nghĩ sau cùng, mà là một nguyên tắc thiết kế cơ bản.












