Lãnh đạo tư tưởng
Ai Watches Agents? Thời Đại Mới Của Giám Sát Trí Tuệ Nhân Tạo

Khi thảo luận về các tác nhân trí tuệ nhân tạo, hầu hết mọi người tưởng tượng ra một hệ thống siêu thông minh hoạt động độc lập, thực hiện các hành động khó dự đoán. Vì vậy, một ngày nào đó, trợ lý ảo có thể rất hữu ích, và ngày tiếp theo nó có thể cung cấp thông tin tài khoản ngân hàng của bạn cho một người lạ.
Phần “siêu thông minh” không thực sự quan trọng trong mối quan tâm này. Vấn đề chính không phải là tác nhân trí tuệ nhân tạo “thông minh” như thế nào, mà là mức độ tự do và quyền truy cập vào cơ sở hạ tầng mà nó có.
Trong thực tế, giá trị của một tác nhân được định nghĩa ít hơn bởi mức độ thông minh của nó và nhiều hơn bởi ranh giới của thẩm quyền. Ngay cả một tác nhân tương đối đơn giản, khi được cấp quyền truy cập vào các tập dữ liệu, hệ thống doanh nghiệp, hoạt động tài chính hoặc các API bên ngoài, cũng có thể ảnh hưởng đến các quy trình ở quy mô đòi hỏi sự chú ý và giám sát đặc biệt.
Đó là lý do tại sao các hệ thống giám sát và kiểm soát trở nên quan trọng hơn, không chỉ ở cấp độ mô hình mà còn ở cấp độ hành vi của chúng trong cơ sở hạ tầng.
Không phải ngẫu nhiên mà các sáng kiến nhằm quan sát và kiểm soát hoạt động của tác nhân đã ngày càng được chú trọng trong những năm gần đây. Các giải pháp thực tế này đã được các công ty công nghệ lớn triển khai.
Làm thế nào một tác nhân hoạt động
Để hiểu cách giám sát hoạt động, trước tiên chúng ta cần xem xét một tác nhân bao gồm những gì. Trong thuật ngữ đơn giản, nó có thể được xem là sự kết hợp của một lõi nhận thức và các công cụ.
Các công cụ là các dịch vụ và tích hợp bên ngoài mà tác nhân có thể truy cập. Ví dụ, đối với một tác nhân du lịch, điều này có thể bao gồm Booking.com hoặc Airbnb để tìm kiếm khách sạn, các công cụ tổng hợp vé máy bay để mua vé và hệ thống thanh toán hoặc thẻ ngân hàng để thực hiện thanh toán. Bản thân các công cụ này không thông minh; chúng chỉ cho phép tác nhân hoạt động trong thế giới thực.
Lõi nhận thức là một mô hình ngôn ngữ (LLM). Nó cho phép tác nhân làm việc có ý nghĩa với các yêu cầu do con người đặt ra. Ví dụ, yêu cầu “Tôi muốn bay đến châu Âu trong ba ngày vào tháng tới, nơi thời tiết sẽ tốt” quá mơ hồ. Tác nhân yêu cầu LLM “phân chia yêu cầu thành các danh mục.” Trong phản hồi, nó nhận được các tham số đã được cấu trúc: nơi, khi, trong bao lâu và dưới những điều kiện nào.
Trước đây, ChatGPT chỉ tạo ra các phản hồi văn bản. Giờ đây, khi được nhúng vào một tác nhân, nó trở thành sự kết hợp của “lõi nhận thức + công cụ”, có khả năng không chỉ giải thích mà còn thực hiện hành động. LLM cấu trúc nhiệm vụ, và các công cụ cho phép nó thực hiện các hành động cụ thể.
Làm thế nào giám sát hoạt động
Tại giai đoạn này, một hệ thống kiểm soát được đưa vào hoạt động. Tôi gọi giải pháp an toàn này là “người giám sát” (một thời gian trước, tôi thậm chí đã xem xét việc tạo một công ty khởi nghiệp tập trung vào điều này), một loại chó canh gác được tích hợp vào tác nhân. Nhiệm vụ của nó là theo dõi các hành động của tác nhân và kiểm tra chúng so với yêu cầu ban đầu. Mục tiêu là đảm bảo tác nhân hoạt động trong các ranh giới dự định.
Quay lại ví dụ về du lịch: giả sử người dùng của chúng tôi muốn đặt chuyến đi ba ngày đến châu Âu. Tác nhân tương tác với các dịch vụ thời tiết, vé máy bay và tài khoản ngân hàng để thanh toán. Mọi thứ dường như bình thường. Nhưng đột nhiên, “người giám sát” phát hiện ra tác nhân yêu cầu truy cập vào một cơ sở dữ liệu doanh nghiệp hoặc tài khoản ngân hàng không liên quan đến việc thanh toán cho chuyến đi. Điều này kích hoạt một cảnh báo an toàn và báo hiệu hành vi đáng ngờ.
Điều quan trọng là phải hiểu quy mô: một tác nhân có thể phục vụ hàng nghìn người dùng mỗi ngày, với mỗi yêu cầu kích hoạt hàng trăm hoạt động, dẫn đến hàng triệu hành động. “Người giám sát” phân tích tất cả các hành động và tạo ra thống kê. Các báo cáo có thể chỉ ra: “13% hành động là thừa, 7% liên quan đến bảo mật tài chính.” Các chi tiết cụ thể giải thích các hành động cụ thể nào xuất hiện đáng ngờ.
Công cụ này cho phép các nhà phát triển nhìn thấy bức tranh toàn cảnh và phản ứng kịp thời với các bất thường, tạo thành một giải pháp kiểm soát trí tuệ nhân tạo thực tế kết hợp giám sát thời gian thực, phát hiện bất thường và trách nhiệm giải trình.
Ai được lợi từ “người giám sát”: nhà phát triển hay người dùng?
Trước hết, “người giám sát” được thiết kế cho các nhà phát triển để đảm bảo hệ thống hoạt động đúng. Tuy nhiên, cũng có thể tưởng tượng một phiên bản bên ngoài: một tác nhân quan sát riêng biệt theo dõi tác nhân chính. Điều này thêm một lớp an toàn trí tuệ nhân tạo khác, mở rộng giám sát vượt ra ngoài hệ thống nội bộ.
Có một hạn chế quan trọng: quá trình nội bộ của tác nhân vẫn “đóng”. Chúng ta chỉ có thể quan sát hành vi của nó, không phải quá trình nhận thức. Một phép tương tự với con người: tôi có thể thấy ai đó nhặt điện thoại, quay số và nói chuyện. Nhưng tôi không biết số nào được quay, ý định là gì, hoặc nội dung cuộc trò chuyện là gì. Tương tự, một người quan sát bên ngoài thấy hành động của tác nhân nhưng không thấy lõi nhận thức của nó.
Một cân nhắc thú vị khác: các tác nhân có thể cố gắng vượt qua hoặc vô hiệu hóa các quan sát viên như vậy trong tương lai, giống như con người thường kháng cự sự giám sát liên tục. Mặc dù điều này có thể nghe như khoa học viễn tưởng ngày nay, nhưng nó là có thể. Tích hợp các giải pháp an toàn trí tuệ nhân tạo nội bộ, phát hiện bất thường và giám sát phân lớp có thể giúp giảm thiểu những rủi ro này và duy trì kiểm soát đối với các hệ thống tự chủ ngày càng tăng.
Quy tắc nguyên thủy hay phân tích nhận thức ngữ cảnh?
Ngày nay, các hệ thống “người giám sát” như vậy hoạt động trên một nguyên tắc đơn giản: “cho phép” hoặc “không cho phép”. Ví dụ, nếu quy tắc nói “truy cập Amazon là bị cấm” và tác nhân đi đến đó, một vi phạm sẽ được ghi lại. Nhưng cách tiếp cận này không hiểu ngữ cảnh.
Một hệ thống tiên tiến hơn nên phân tích vi phạm và lý do của nó. Tại sao tác nhân lại đi đến Amazon? Liệu hành động đó có được lý giải trong nhiệm vụ hay không? Ở đây, chúng ta đang nói về giám sát nhận thức ngữ cảnh, tương tự như công việc của một nhà tâm lý học.
Hiện tại, những giải pháp như vậy chỉ tồn tại dưới dạng khái niệm. Các hệ thống hiện có chỉ giới hạn ở kiểm soát đen trắng nghiêm ngặt. Nhưng trong tương lai, khi các tác nhân trở nên phức tạp hơn, một “người giám sát” có khả năng xem xét ngữ cảnh sẽ xuất hiện.
Ngày nay, chúng ta đang chứng kiến sự tăng trưởng trong các sáng kiến giám sát tác nhân. Chúng đang được phát triển tích cực tại cấp độ của các công ty công nghệ lớn. Ví dụ, ActiveFence hợp tác với các công ty lớn như NVIDIA và Amazon.
Hơn nữa, có thể an toàn khi giả định rằng Google, OpenAI, Anthropic và Amazon đã sử dụng các hệ thống “người giám sát” nội bộ, phân tích và đo lường của riêng họ.
Tôi cũng nhận thấy nhu cầu này trong số các khách hàng doanh nghiệp của Keymakr – giám sát và kiểm soát đang trở thành một phần cốt lõi của cơ sở hạ tầng trí tuệ nhân tạo. Nếu không có chúng, việc triển khai tác nhân quy mô lớn sẽ là không thể.












