Lãnh đạo tư tưởng

Tại Sao Các Biện Pháp An Ninh Của Trợ Lý Trò Chuyện Là Rào Cản An Ninh Sai

Published March 18, 2026

Updated April 25, 2026

Mayank Kumar, Founding AI Engineer, DeepTempo

Trí tuệ nhân tạo doanh nghiệp đã đi weit quá giai đoạn chứng minh khái niệm. 23% các tổ chức đã triển khai hệ thống trí tuệ nhân tạo có khả năng hoạt động ở một nơi nào đó trong doanh nghiệp của họ, và 62% đang thí nghiệm với các tác nhân trí tuệ nhân tạo. Những điều này không phải là dự án nghiên cứu. Chúng là triển khai sản xuất, được nhúng vào các quy trình làm việc chạm vào kho mã, dữ liệu khách hàng, API nội bộ và cơ sở hạ tầng hoạt động.

Phản ứng của ngành đối với sự tăng trưởng này chủ yếu tập trung vào những gì xảy ra trước khi một tác nhân được triển khai. Các nhà cung cấp và nhà nghiên cứu đã đổ năng lượng vào các biện pháp an ninh trước khi triển khai: xuất bản các chính sách mở rộng, làm cứng các mô hình cơ sở, lọc đầu vào, bảo mật chuỗi cung ứng trí tuệ nhân tạo và thực thi sự phù hợp tại thời điểm đào tạo. Các nhà cung cấp trí tuệ nhân tạo lớn đã đầu tư substantial vào công cụ an ninh hướng đến nhà phát triển, củng cố một giả định trung tâm: nếu mô hình và đầu vào của nó được kiểm soát, rủi ro hạ游 có thể được chứa.

Đây là một bản năng hợp lý, nhưng nó ngày càng không đầy đủ.

Lời Mời Không Phải Là Rào Cản An Ninh

Các biện pháp an ninh hoạt động tại giao diện mô hình chủ yếu có lợi cho các nhóm kiểm soát mã ứng dụng, cấu hình mô hình và cơ sở hạ tầng cơ bản. Chúng cung cấp sự bảo vệ ít hơn cho các đội phòng thủ được giao nhiệm vụ bảo mật các hệ thống trí tuệ nhân tạo mà họ không xây dựng và không thể sửa đổi. Đó là một điểm mù đáng kể, và các đối thủ đã tìm thấy nó.

Báo cáo tình báo mối đe dọa mới nhất của OpenAI ghi lại chính xác động lực này. Các tác nhân đe dọa đang tích cực lạm dụng ChatGPT và các công cụ tương tự trong môi trường sản xuất, không phải bằng cách phát minh các kỹ thuật tấn công mới, mà bằng cách nhúng trí tuệ nhân tạo vào các quy trình làm việc hiện có để di chuyển nhanh hơn. Trinh sát trở nên hiệu quả hơn. Kỹ thuật xã hội được mở rộng. Phát triển malware được tăng tốc. Bề mặt tấn công không thay đổi cơ bản; tốc độ và khối lượng khai thác đã.

Hơn nữa, cách các đối thủ phản ứng khi các công cụ đó đẩy lùi. OpenAI quan sát thấy các tác nhân đe dọa nhanh chóng biến đổi lời mời của họ, bảo tồn ý định cơ bản trong khi chu kỳ qua các biến thể bề mặt để vượt qua các kiểm soát phía trước. Đây là một mẫu mà các chuyên gia an ninh đã thấy trước. Các biện pháp phòng thủ tĩnh, dù là dựa trên chữ ký hoặc lọc đầu vào, không giữ được trước các đối thủ who iterate nhanh hơn các cập nhật quy tắc có thể theo dõi.

Thách thức tăng lên khi các tác nhân giành được tự chủ. Các tác nhân trí tuệ nhân tạo hiện đại không hoạt động trong một trao đổi duy nhất. Chúng thực hiện các chuỗi hành động nhiều bước, gọi các công cụ và quyền hợp pháp theo những cách trông có vẻ hoàn toàn bình thường khi cách ly. Một tác nhân sử dụng thông tin đăng nhập hợp lệ để liệt kê các API nội bộ không kích hoạt một cảnh báo. Một tác nhân truy cập vào các cửa hàng dữ liệu nhạy cảm trong quá trình làm việc bình thường không tạo ra lá cờ ngay lập tức. Mỗi hành động riêng lẻ vượt qua kiểm tra; nguy hiểm sống trong sự kết hợp và trình tự.

Khi Mối Đe Dọa Di Chuyển Xuống Dòng

Các đội an ninh bảo vệ các triển khai trí tuệ nhân tạo ngày nay phải đối mặt với một sự không phù hợp cấu trúc. Các công cụ có sẵn cho họ chủ yếu được xây dựng để lý luận về những gì một mô hình được phép nói. Rủi ro thực tế họ cần quản lý là những gì một tác nhân đang làm trên các hệ thống, mạng và danh tính một khi nó đã được cấp phép và thả lỏng trong môi trường sản xuất.

Các biện pháp an ninh dựa trên lời mời chia sẻ các điểm yếu cơ bản của các phương pháp an ninh dựa trên quy tắc trước đó. Chúng giòn vì chúng phụ thuộc vào việc dự đoán các mẫu tấn công trước. Chúng phản ứng vì chúng yêu cầu ai đó đã quan sát và mã hóa mối đe dọa trước khi phòng thủ có thể hoạt động. Và chúng bị vượt qua bởi các đối thủ đã áp dụng kỹ thuật lặp lại hỗ trợ trí tuệ nhân tạo như một thực hành tiêu chuẩn. Một người bảo vệ dựa vào lọc đầu vào để bắt một tác nhân đe dọa đang sử dụng một mô hình ngôn ngữ để tạo ra các biến thể lời mời mới là trong một vị trí mất cơ bản.

Sự phơi nhiễm thực sự xuất hiện sau khi triển khai. Các hành động do tác nhân thúc đẩy lan truyền qua các môi trường theo những cách mà không thể dự đoán đầy đủ được trước khi thử nghiệm. Các tác nhân gặp các trường hợp biên, tương tác với các nguồn dữ liệu chúng không được thiết kế để xử lý, nhận đầu vào từ các hệ thống ngoài kiến trúc ban đầu và đưa ra quyết định mà tích lũy theo thời gian. Kiểm tra trước khi triển khai là một ảnh chụp; sản xuất là một dòng chảy liên tục. Phòng thủ chỉ ảnh chụp có nghĩa là chấp nhận mọi thứ xảy ra trong dòng chảy đều không được giám sát.

Chuyển Rào Cản An Ninh Sang Hành Vi Của Tác Nhân

Xây dựng khả năng chống chịu trí tuệ nhân tạo đòi hỏi một khung khác và mục tiêu không nên là bảo vệ giao diện mô hình. Nó nên là phát hiện ý định của kẻ tấn công thông qua các hậu quả có thể quan sát được của các hành động của tác nhân. Đó là một sự khác biệt có ý nghĩa. Ý định không luôn luôn xuất hiện trong những gì một tác nhân nói hoặc những gì đầu vào nó nhận.

Bảo mật các hệ thống trí tuệ nhân tạo phải mở rộng vượt ra ngoài các kiểm tra căn chỉnh và đánh giá độ bền để đánh giá liên tục cách các tác nhân hành xử một khi chúng tương tác với các công cụ thực, API thực và dữ liệu thực. Đánh giá tĩnh tại thời điểm triển khai là cần thiết nhưng không đủ. Môi trường đe dọa mà một tác nhân hoạt động thay đổi liên tục. Hành vi của tác nhân cần được giám sát với sự liên tục tương tự.

Đây là một vấn đề mà việc làm cứng lời mời không thể giải quyết. Phát hiện ý định恶 ý khi nó xuất hiện thông qua các chuỗi hành động đòi hỏi các mô hình có khả năng hiểu hành vi phức tạp, tuần tự trong các môi trường hoạt động. Các mô hình học sâu cơ sở được thiết kế dành cho phân tích hành vi có thể làm điều này theo những cách mà các hệ thống dựa trên quy tắc và công cụ SIEM truyền thống không thể. Chúng học những gì trông bình thường trên toàn bộ ngữ cảnh hoạt động của tác nhân và đưa ra các sai lệch chỉ ra rằng có điều gì đó đã thay đổi, ngay cả khi không có hành động riêng lẻ nào kích hoạt một cảnh báo thông thường.

Logic cơ bản giữ nguyên bất kể bối cảnh triển khai: an ninh neo tại lớp lời mời sẽ liên tục thua trước các kẻ tấn công hoạt động tại lớp hành động. Phòng thủ phải di chuyển đến nơi mối đe dọa thực sự sống.

Điều Mà Các Đội An Ninh Nên Làm Bây Giờ

Đối với các nhà lãnh đạo an ninh cố gắng vượt lên, một số thay đổi thực tế có thể đóng khoảng cách giữa nơi phòng thủ hiện tại và nơi họ cần đến.

Đánh giá an toàn trí tuệ nhân tạo trên toàn bộ ngăn xếp ứng dụng. Mô hình cơ sở là một lớp. Cũng quan trọng không kém là cách các tác nhân hành xử một khi được triển khai vào sản xuất, những công cụ nào chúng gọi, những quyền nào chúng sử dụng và cách những lựa chọn đó phát triển theo thời gian. Các đánh giá an ninh dừng lại tại ranh giới mô hình để lại bề mặt hoạt động hầu như không được kiểm tra.

Thực thi đặc quyền tối thiểu tại cấp tác nhân. Các tác nhân trí tuệ nhân tạo nên chỉ có quyền truy cập vào các công cụ, API và dữ liệu cần thiết cho chức năng được chỉ định của chúng. Sự hạn chế này quan trọng ngay cả khi đầu ra của tác nhân trông có vẻ vô hại. Giới hạn phạm vi giảm bán kính nổ của một tác nhân bị xâm phạm và tạo ra các đường cơ sở hành vi rõ ràng hơn mà phát hiện dị thường hiệu quả hơn.

Xử lý các tác nhân như các danh tính tạo ra dữ liệu telemetry. Mỗi hành động một tác nhân thực hiện là một điểm dữ liệu. Các đội an ninh nên xây dựng logic phát hiện xung quanh các chuỗi hành động do tác nhân khởi xướng, không chỉ lời mời của người dùng trước chúng. Sự thay đổi này chuyển đổi giám sát từ những gì ai đó yêu cầu tác nhân làm đến những gì tác nhân thực sự làm, đó là nơi ý định của kẻ tấn công trở nên rõ ràng.

Đầu tư vào giám sát hành vi liên tục với các mô hình phát hiện được thiết kế dành cho nhiệm vụ này. Xác định ý định恶 ý khi nó xuất hiện thông qua các chuỗi hành động đòi hỏi khả năng chuyên dụng. Các công cụ giám sát thông thường được xây dựng cho các mẫu hoạt động do con người tạo. Hành vi của tác nhân, với tốc độ, khối lượng và cấu trúc nhiều bước, đòi hỏi cơ sở hạ tầng phát hiện được thiết kế từ đầu với ngữ cảnh đó.

Ưu tiên phòng thủ tập thể. Các kỹ thuật tấn công hỗ trợ trí tuệ nhân tạo đang phát triển nhanh hơn bất kỳ tổ chức nào có thể theo dõi. Nghiên cứu chung, hợp tác mở và thông tin tình báo mối đe dọa của cộng đồng không phải là các bổ sung tùy chọn cho chiến lược an ninh trí tuệ nhân tạo; chúng là các đầu vào cốt lõi. Những người bảo vệ vẫn cập nhật là những người đóng góp và rút ra từ kiến thức tập thể.

An Ninh Hành Vi Thực Sự Cung Cấp

Đối với các đội an ninh thực hiện sự thay đổi này, khoản thanh toán hoạt động là cụ thể. Neo phát hiện trong hành vi của tác nhân thay vì đầu ra của mô hình cho phép xác định sớm hơn ý định恶 ý, ngay cả khi các cuộc tấn công là隐, thích nghi hoặc mã hóa. Các kẻ tấn công thành công trong việc biến đổi lời mời của họ qua các bộ lọc đầu vào vẫn phải hành động. Những hành động đó để lại dấu vết. Phát hiện hành vi tìm thấy những dấu vết đó trước khi thiệt hại lan truyền.

Có lẽ quan trọng nhất, cách tiếp cận này cung cấp cho các tổ chức một con đường đáng tin cậy để triển khai các tác nhân trí tuệ nhân tạo với quy mô mà không chấp nhận rủi ro an ninh tương ứng. Câu hỏi đang giữ nhiều doanh nghiệp lại không phải là liệu các tác nhân trí tuệ nhân tạo có thể cung cấp giá trị; nó là liệu chúng có thể được triển khai với sự tự tin đủ để không làm suy yếu tư thế an ninh khi triển khai tăng. An ninh hành vi, dựa trên cách các tác nhân thực sự hoạt động chứ không phải những gì đầu vào chúng nhận, cung cấp sự tự tin đó theo cách mà các kiểm soát dựa trên lời mời không thể.

Rào cản an ninh được vẽ tại nơi sai, và sự nhầm lẫn đó có ý nghĩa khi trí tuệ nhân tạo là một công cụ chờ đợi đầu vào. Nó không còn chờ đợi, các hệ thống có khả năng hoạt động thực hiện, chuỗi, leo thang và tích lũy trên các môi trường mà không thử nghiệm trước khi triển khai dự kiến. Các tổ chức nhận ra điều này sớm nhất sẽ là những tổ chức thực sự mở rộng quy mô trí tuệ nhân tạo với sự tự tin. Mọi người khác sẽ dành vài năm tới để khám phá, vi phạm bởi vi phạm, rằng kiểm soát những gì một mô hình nói không bao giờ là điều tương tự như kiểm soát những gì nó làm.