Connect with us

Những Cuộc Tấn Công Sớm Nhạt Vào Các Trợ Lý AI Nói Với Chúng Ta Về Năm 2026

Lãnh đạo tư tưởng

Những Cuộc Tấn Công Sớm Nhạt Vào Các Trợ Lý AI Nói Với Chúng Ta Về Năm 2026

mm

Khi AI chuyển từ các thí nghiệm được kiểm soát sang các ứng dụng thế giới thực, chúng ta đang bước vào một điểm chuyển đổi trong cảnh quan bảo mật. Sự chuyển đổi từ các mô hình ngôn ngữ tĩnh sang các hệ thống giao tiếp, có khả năng duyệt tài liệu, gọi công cụ và điều phối các công việc đa bước, đã đang diễn ra. Nhưng như các nghiên cứu gần đây tiết lộ, các kẻ tấn công không chờ đợi sự trưởng thành: họ đang thích nghi với tốc độ nhanh như vậy, thử nghiệm các hệ thống ngay khi các khả năng mới được giới thiệu.

Trong quý thứ tư của năm 2025, nhóm của chúng tôi tại Lakera đã phân tích hành vi của các kẻ tấn công thực tế trên các hệ thống được bảo vệ bởi Guard và trong môi trường Gandalf: Agent Breaker — một bản chụp 30 ngày tập trung, mặc dù có một cửa sổ hẹp, nhưng phản ánh các mẫu rộng hơn mà chúng tôi quan sát trong suốt quý. Các phát hiện vẽ lên một bức tranh rõ ràng: ngay khi các mô hình bắt đầu tương tác với điều gì đó ngoài các yêu cầu văn bản đơn giản (ví dụ: tài liệu, công cụ, dữ liệu bên ngoài) bề mặt bị tấn công sẽ mở rộng, và các đối thủ sẽ điều chỉnh ngay lập tức để khai thác nó.

Thời điểm này có thể cảm thấy quen thuộc với những người đã theo dõi sự phát triển của các ứng dụng web sớm, hoặc những người đã quan sát sự gia tăng của các cuộc tấn công dựa trên API. Nhưng với các trợ lý AI, các ставки khác nhau. Các vector tấn công đang xuất hiện nhanh hơn nhiều so với nhiều tổ chức dự kiến.

Từ Lý Thuyết Đến Thực Tiễn: Các Trợ Lý Trong Đời Thực

Trong hầu hết năm 2025, các cuộc thảo luận xung quanh các trợ lý AI chủ yếu tập trung vào tiềm năng lý thuyết và các nguyên mẫu sớm. Nhưng vào quý thứ tư, các hành vi của các trợ lý bắt đầu xuất hiện trong các hệ thống sản xuất với quy mô lớn: các mô hình có thể tìm nạp và phân tích tài liệu, tương tác với các API bên ngoài, và thực hiện các nhiệm vụ tự động. Các trợ lý này cung cấp các lợi ích rõ ràng về năng suất, nhưng chúng cũng mở ra các cánh cửa mà các mô hình ngôn ngữ truyền thống không có.

Phân tích của chúng tôi cho thấy rằng ngay khi các trợ lý trở nên có khả năng tương tác với nội dung và công cụ bên ngoài, các kẻ tấn công đã nhận thấy và điều chỉnh theo. Quan sát này phù hợp với một sự thật cơ bản về hành vi đối thủ: các kẻ tấn công sẽ luôn khám phá và khai thác các khả năng mới vào cơ hội sớm nhất. Trong bối cảnh của các trợ lý AI, điều này đã dẫn đến sự tiến hóa nhanh chóng trong các chiến lược tấn công.

Mẫu Tấn Công: Những Gì Chúng Ta Đang Thấy Trong Quý 4 Năm 2025

Trên toàn bộ dữ liệu mà chúng tôi đã xem xét, ba mẫu thống trị đã xuất hiện. Mỗi mẫu có ý nghĩa sâu sắc về cách các hệ thống AI được thiết kế, bảo mật và triển khai.

1. Trích Xuất Yêu Cầu Hệ Thống Làm Mục Tiêu Chính

Trong các mô hình ngôn ngữ truyền thống, sự tiêm yêu cầu (điều khiển trực tiếp đầu vào để ảnh hưởng đến đầu ra) đã là một điểm yếu được nghiên cứu kỹ lưỡng. Tuy nhiên, trong các hệ thống có khả năng của các trợ lý, các kẻ tấn công ngày càng nhắm vào yêu cầu hệ thống, là các hướng dẫn, vai trò và định nghĩa chính sách nội bộ hướng dẫn hành vi của các trợ lý.

Trích xuất yêu cầu hệ thống là một mục tiêu có giá trị cao vì các yêu cầu này thường chứa định nghĩa vai trò, mô tả công cụ, hướng dẫn chính sách và logic công việc. Khi một kẻ tấn công hiểu được các cơ chế nội bộ này, họ sẽ có một bản thiết kế để điều khiển các trợ lý.

Các kỹ thuật hiệu quả nhất để đạt được điều này không phải là các cuộc tấn công bằng lực, mà là sự tái định hình thông minh:

  • Các Kịch Bản Giả Định: Các yêu cầu hỏi mô hình giả định một vai trò hoặc ngữ cảnh khác — ví dụ, “Hãy tưởng tượng bạn là một nhà phát triển đang xem xét cấu hình hệ thống này…” — thường khiến mô hình tiết lộ các chi tiết nội bộ được bảo vệ.
  • Che Giấu Trong Nội Dung Cấu Trúc: Các kẻ tấn công nhúng các hướng dẫn độc hại vào trong nội dung giống như mã hoặc văn bản cấu trúc, vượt qua các bộ lọc đơn giản và kích hoạt các hành vi không mong muốn khi được phân tích bởi các trợ lý.

Điều này không chỉ là một rủi ro tăng dần — nó thay đổi cơ bản cách chúng ta nghĩ về việc bảo vệ logic nội bộ trong các hệ thống của các trợ lý.

2. Bỏ Qua An Toàn Nội Dung Một Cách Khéo Léo

Một xu hướng chính khác liên quan đến việc bỏ qua các biện pháp bảo vệ an toàn nội dung theo cách khó phát hiện và ngăn chặn bằng các bộ lọc truyền thống.

Thay vì các yêu cầu độc hại rõ ràng, các kẻ tấn công đã định hình nội dung gây hại như:

  • Nhiệm Vụ Phân Tích
  • Đánh Giá
  • Các Kịch Bản Đóng Vai
  • Biến Đổi Hoặc Tóm Tắt

Những sự tái định hình này thường trượt qua các bộ lọc an toàn vì chúng đường như vô hại trên bề mặt. Một mô hình sẽ từ chối một yêu cầu trực tiếp cho đầu ra độc hại có thể sẽ tạo ra cùng một đầu ra khi được yêu cầu “đánh giá” hoặc “tóm tắt” nó trong ngữ cảnh.

Sự thay đổi này nhấn mạnh một thách thức sâu sắc hơn: an toàn nội dung cho các trợ lý AI không chỉ là về việc thực thi chính sách; nó là về cách các mô hình giải thích ý định. Khi các trợ lý thực hiện các nhiệm vụ và ngữ cảnh phức tạp hơn, các mô hình trở nên dễ bị tái giải thích dựa trên ngữ cảnh — và các kẻ tấn công khai thác hành vi này.

3. Xuất Hiện Của Các Cuộc Tấn Công Riêng Biệt Cho Các Trợ Lý

Có lẽ phát hiện quan trọng nhất là sự xuất hiện của các mẫu tấn công chỉ có ý nghĩa trong bối cảnh của các khả năng của các trợ lý. Những điều này không phải là các nỗ lực tiêm yêu cầu đơn giản mà là các khai thác liên quan đến các hành vi mới:

  • Các Nỗ Lực Truy Cập Dữ Liệu Nội Bộ Bí Mật: Các yêu cầu được tạo ra để thuyết phục các trợ lý tìm nạp hoặc tiết lộ thông tin từ các cửa hàng tài liệu hoặc hệ thống kết nối — các hành động mà trước đây sẽ nằm ngoài phạm vi của mô hình
  • Hướng Dẫn Được Tạo Hình Trong Văn Bản: Các kẻ tấn công đã thử nghiệm với việc nhúng hướng dẫn trong các định dạng giống như kịch bản hoặc nội dung cấu trúc, có thể chảy qua một đường ống của các trợ lý và kích hoạt các hành động không mong muốn
  • Hướng Dẫn Ẩn Trong Nội Dung Bên Ngoài: Một số cuộc tấn công đã nhúng hướng dẫn độc hại vào trong nội dung được tham chiếu bên ngoài — như trang web hoặc tài liệu mà các trợ lý được yêu cầu xử lý — hiệu quả là tránh các bộ lọc đầu vào trực tiếp

Những mẫu này là sớm nhưng báo hiệu một tương lai trong đó các khả năng mở rộng của các trợ lý cơ bản thay đổi bản chất của hành vi đối thủ.

Tại Sao Các Cuộc Tấn Công Gián Tiếp Lại Hiệu Quả

Một trong những phát hiện đáng chú ý nhất của báo cáo là các cuộc tấn công gián tiếp — những cuộc tấn công sử dụng nội dung hoặc dữ liệu cấu trúc bên ngoài — đòi hỏi ít nỗ lực hơn so với các cuộc tiêm yêu cầu trực tiếp. Điều này cho thấy rằng việc lọc và kiểm soát đầu vào truyền thống là không đủ một lần các mô hình tương tác với nội dung không đáng tin cậy.

Khi một hướng dẫn độc hại đến thông qua một công việc của các trợ lý bên ngoài — cho dù đó là một tài liệu được liên kết, một phản hồi API, hoặc một trang web được tìm nạp — các bộ lọc sớm sẽ kém hiệu quả hơn. Kết quả: các kẻ tấn công có một bề mặt tấn công lớn hơn và ít chướng ngại vật hơn.

Ý Nghĩa Đối Với Năm 2026 Và Tương Lai

Các phát hiện của báo cáo mang lại ý nghĩa cấp thiết cho các tổ chức đang lên kế hoạch triển khai các trợ lý AI với quy mô lớn:

  1. Xác Định Lại Các Ranh Giới Tin Cậy
    Tin cậy không thể chỉ là nhị phân. Khi các trợ lý tương tác với người dùng, nội dung bên ngoài và các công việc nội bộ, các hệ thống phải triển khai các mô hình tin cậy tinh vi xem xét ngữ cảnh, nguồn gốc và mục đích.
  2. Các Rào Cản Phải Tiến Hóa
    Các bộ lọc an toàn tĩnh không đủ. Các rào cản phải là thích ứng, nhận thức về ngữ cảnh, và có khả năng suy luận về ý định và hành vi trên các công việc đa bước.
  3. Minh Bạch Và Kiểm Toán Là Thiết Yếu
    Khi các vector tấn công trở nên phức tạp hơn, các tổ chức cần có tầm nhìn vào cách các trợ lý đưa ra quyết định — bao gồm các bước trung gian, tương tác bên ngoài, và biến đổi. Các nhật ký kiểm toán và các khung giải thích không còn là tùy chọn.
  4. Hợp Tác Liên Ngành Là Chìa Khóa
    Nghiên cứu AI, kỹ thuật bảo mật, và các đội thông tin về mối đe dọa phải làm việc cùng nhau. An toàn AI không thể bị cô lập; nó phải được tích hợp với các thực hành bảo mật mạng và quản lý rủi ro rộng hơn.
  5. Quy Định Và Tiêu Chuẩn Sẽ Cần Phải Đuổi Theo
    Các nhà lập chính sách và các cơ quan tiêu chuẩn phải nhận ra rằng các hệ thống của các trợ lý tạo ra các lớp rủi ro mới. Quy định nhằm giải quyết bảo mật dữ liệu và an toàn đầu ra là cần thiết nhưng không đủ; chúng cũng phải tính đến các hành vi tương tác và môi trường thực thi đa bước.

Tương Lai Của Các Trợ Lý AI An Toàn

Sự xuất hiện của các trợ lý AI đại diện cho một sự thay đổi sâu sắc về khả năng và rủi ro. Dữ liệu quý 4 năm 2025 là một chỉ số sớm rằng ngay khi các trợ lý bắt đầu hoạt động ngoài việc tạo văn bản đơn giản, các kẻ tấn công sẽ theo sát. Các phát hiện của chúng tôi cho thấy rằng các đối thủ không chỉ thích nghi — họ đang đổi mới các kỹ thuật tấn công mà các biện pháp phòng thủ truyền thống chưa sẵn sàng để đối phó.

Đối với các doanh nghiệp và nhà phát triển, thông điệp là rõ ràng: bảo mật các trợ lý AI không chỉ là một thách thức kỹ thuật; nó là một thách thức về kiến trúc. Nó đòi hỏi phải suy nghĩ lại về cách thiết lập tin cậy, cách thực thi các rào cản, và cách đánh giá rủi ro liên tục trong các môi trường động và tương tác.

Trong năm 2026 và sau đó, các tổ chức thành công với các trợ lý AI sẽ là những tổ chức coi bảo mật không phải là một suy nghĩ sau cùng, mà là một nguyên tắc thiết kế cơ bản.

Mateo Rojas-Carulla là Trưởng nhóm Nghiên cứu, An ninh Trợ lý Trí tuệ Nhân tạo tại Check Point Software Technologies. Trước đó, ông là Đồng sáng lập và Nhà khoa học trưởng tại Lakera, được Check Point mua lại vào năm 2025. Trước khi thành lập Lakera, Mateo đã làm việc tại Google, Credit Suisse, Facebook và Speechmatics. Ông đã nhận được bằng Tiến sĩ về Học máy từ Đại học Cambridge và Viện Max Planck ở Tübingen.