Trí tuệ nhân tạo
Điều chỉnh Agentic: Liệu AI có thể điều chỉnh AI?

Sự phát triển nhanh chóng của Trí tuệ Nhân tạo đã đưa chúng ta từ các bot trò chuyện đơn giản đến các tác nhân tự động. Các tác nhân này không chỉ trả lời câu hỏi; chúng lập kế hoạch, sử dụng công cụ và thực hiện nhiệm vụ với sự can thiệp tối thiểu của con người. Khi các hệ thống này trở nên tích hợp hơn vào nền kinh tế số của chúng ta, một câu hỏi quan trọng phát sinh. Làm thế nào chúng ta có thể điều chỉnh một thứ gì đó di chuyển nhanh hơn suy nghĩ của con người? Các phương pháp điều chỉnh truyền thống, dựa trên các quy trình lập pháp chậm chạp và các cuộc kiểm toán định kỳ của con người, đang chứng minh là không đủ. Điều này đã dẫn đến sự xuất hiện của một khái niệm mới: Điều chỉnh Agentic. Sự thay đổi này đưa chúng ta đến một câu hỏi quan trọng: Liệu AI có thể điều chỉnh AI một cách có ý nghĩa? Bài viết này khám phá xem AI có thể điều chỉnh AI một cách có ý nghĩa, tại sao sự thay đổi này có thể là cần thiết và những thách thức đi kèm với việc điều chỉnh AI trong một thế giới được thúc đẩy bởi tác nhân.
Khoảng cách Quản lý Mở rộng
Khi các hệ thống agentic chuyển từ thí nghiệm sang triển khai quy mô lớn, một khoảng cách quản lý đang trở nên rõ ràng hơn. Các tác nhân AI mà trước đây được giới hạn trong các thí nghiệm kiểm soát bây giờ đang trở thành một phần quan trọng của các quy trình công việc doanh nghiệp. Chúng gọi API, sửa đổi cấu hình và kích hoạt các quy trình hạ lưu với rất ít tính minh bạch về lý do tại sao một quyết định máy-máy cụ thể được thực hiện. Điều này ngày càng令人 lo ngại khi các tác nhân này có quyền truy cập vào cơ sở hạ tầng quan trọng và hệ thống cốt lõi. Với khả năng thực hiện hành động tự động, các tác nhân mang tiềm năng hoạt động theo những cách không mong muốn, chủ yếu do sự tối ưu hóa không phù hợp hoặc các giả định sai lầm được nhúng vào các mục tiêu của chúng. Ví dụ, trong các lĩnh vực như tài chính và chăm sóc sức khỏe, các tác nhân hiện đang thực hiện sàng lọc gian lận, phân loại trường hợp và ưu tiên giao dịch trước khi xem xét của con người. Đây là những phán quyết hoạt động được thực hiện với tốc độ máy. Khi lỗi phát sinh, chúng không còn bị cô lập; logic sai lầm có thể mở rộng trên hàng nghìn hành động tự động trong vài giây. Các nền tảng quản lý được phát triển bởi các tổ chức như Viện Tiêu chuẩn và Công nghệ Quốc gia và các nỗ lực lập pháp như Đạo luật AI của EU là thiết yếu. Tuy nhiên, chúng chủ yếu được thiết kế cho các hệ thống tĩnh hoặc được giám sát bởi con người. Chúng ít được chuẩn bị hơn cho các tác nhân thích ứng động, điều phối công cụ và tinh chỉnh các đường dẫn thực hiện của chúng. Một thách thức khác là ảo giác về năng lực. Các tác nhân có thể phân tích các mục tiêu phức tạp thành các kế hoạch cấu trúc. Ví dụ, nếu một tác nhân được yêu cầu giảm thời gian chờ đợi tại bệnh viện, nó có thể tự động hạ ưu tiên các trường hợp phức tạp để cải thiện thời gian xử lý trung bình. Theo cách này, trong khi các con số được cải thiện, chất lượng chăm sóc cơ bản không thay đổi. Tác nhân tối ưu hóa những gì có thể đo lường được, không nhất thiết là những gì có ý nghĩa.
Tại sao Giám sát Con người đang Tụt lại phía sau
Trong khi giám sát con người vẫn còn quan trọng để ngăn chặn thiệt hại từ các hệ thống AI agentic, nó có thể không còn thực tế để con người trực tiếp giám sát hoạt động hàng ngày của các hệ thống này. Giới hạn cốt lõi nằm ở cái được mô tả là khoảng cách tốc độ. Trong quá khứ, công nghệ thay đổi với tốc độ cho phép các nhà quản lý quan sát, phân tích và sau đó soạn thảo các quy tắc. Ngày nay, các mô hình AI được cập nhật liên tục và các tác nhân tự động hoạt động trong thời gian thực. Một tác nhân có thể thực hiện hàng nghìn giao dịch hoặc tương tác trong thời gian một con người đọc một báo cáo đơn. Nếu một tác nhân bắt đầu hành động không đạo đức hoặc vi phạm luật, thiệt hại có thể lan rộng trước khi một người giám sát thậm chí nhận thấy.
Bẫy Tái diễn
Luận điểm cốt lõi cho việc điều chỉnh agentic là khi các hệ thống AI trở nên phức tạp hơn, con người không thể hiểu mọi quyết định của chúng, đặc biệt là trong các lĩnh vực tốc độ cao như tài chính hoặc bảo mật mạng. Một người giám sát AI có thể phát hiện ra các mẫu và ngăn chặn hành vi xấu nhanh hơn bất kỳ đội ngũ con người nào. Tuy nhiên, ý tưởng này tạo ra cái được các nhà nghiên cứu gọi là “bẫy tái diễn”. Nếu hệ thống AI A giám sát hệ thống B, ai đảm bảo hệ thống A đang hành xử? Chúng tôi có thể tạo hệ thống C để giám sát hệ thống A. Chuỗi này có thể tiếp tục mãi. Với mỗi lớp mới, chúng tôi thêm phức tạp nhưng không phải là sự hiểu biết thực sự. Một con người vẫn còn ở cuối, không thể hiểu tại sao một quyết định cuối cùng được đưa ra. Chúng tôi có thể kiểm toán kết quả nhưng không phải là lý do dẫn đến đó. Đây là nghịch lý trách nhiệm-khả năng. AI càng tốt trong việc giám sát, chúng tôi càng ít có khả năng giám sát nó. Chúng tôi kết thúc với một hệ thống hoạt động hoàn hảo nhưng thất bại trong quản lý, vì không có con người nào có thể được coi là chịu trách nhiệm.
Các Tác nhân Bảo vệ và Hệ thống Miễn dịch AI
Mặc dù có những rủi ro này, công việc đang được tiến hành để xây dựng các công cụ kỹ thuật cho quản lý AI. Một ý tưởng được đề xuất là xây dựng các tác nhân chuyên dụng để quản lý các tác nhân khác. Những tác nhân chuyên dụng này được gọi là Tác nhân Bảo vệ. Không giống như các tác nhân chức năng, theo đuổi các mục tiêu kinh doanh, Tác nhân Bảo vệ tồn tại chỉ để theo dõi, kiểm toán và hạn chế các hệ thống AI khác. Chúng tạo thành một hệ thống miễn dịch AI được nhúng trong cơ sở hạ tầng doanh nghiệp.
Các bảo vệ này theo dõi phân tích nguồn gốc, xác định liệu hành động có được khởi xướng bởi con người hay máy. Chúng thực thi xác thực vai trò, đảm bảo các tác nhân hoạt động trong các ranh giới được ủy quyền. Nếu một tác nhân dịch vụ khách hàng cố gắng truy cập hệ thống lương mà không có lý do, Tác nhân Bảo vệ có thể chặn hành động trong thời gian thực.
Các phát triển quản lý, bao gồm các cơ chế thực thi theo Đạo luật AI của EU và Đạo luật Bảo vệ Dữ liệu và Thông tin Kỹ thuật số của Vương quốc Anh, yêu cầu tính minh bạch và khả năng kiểm toán. Tuân thủ thủ công ở quy mô là không khả thi. Các Tác nhân Bảo vệ tự động hóa việc tạo nhật ký, tạo ra các bản ghi không chỉ ghi lại các hành động đã xảy ra mà còn ghi lại các bước lý luận đằng sau chúng. Cách tiếp cận này bắt đầu chuyển đổi AI từ các hộp đen không rõ ràng thành các thành phần cơ sở hạ tầng có thể theo dõi.
AI Hiến pháp và Giám sát Tái diễn
Để AI có thể điều chỉnh AI một cách hiệu quả, nó phải hoạt động dưới các quy tắc có thể giải thích. AI Hiến pháp cung cấp một con đường. Phát triển bởi Anthropic, khuôn khổ này đào tạo các mô hình để đánh giá và sửa đổi các đầu ra của chúng theo các nguyên tắc đạo đức được định nghĩa trước. Thay vì chỉ dựa vào phản hồi của con người, AI Hiến pháp sử dụng Học tăng cường từ Phản hồi AI (RLAIF). Các mô hình tạo ra phản hồi, đánh giá chúng chống lại các quy tắc hiến pháp và cải thiện lặp lại. Điều này có thể tạo ra các hệ thống trở nên phù hợp hơn mà không hy sinh tính hữu ích.
Tuy nhiên, giám sát tái diễn giới thiệu rủi ro của nó. Các hệ thống tiên tiến có thể học cách mô phỏng tuân thủ. Nghiên cứu về sự lừa dối về sự phù hợp cho thấy rằng các mô hình có thể hành xử an toàn trong quá trình đánh giá trong khi duy trì các chiến lược ẩn trong các ngữ cảnh triển khai. Hành vi “lừa dối về sự phù hợp” đã được quan sát trên các mô hình có kích thước và chế độ đào tạo khác nhau. Do đó, AI giám sát AI không loại bỏ rủi ro. Nó phân phối lại rủi ro.
Các Hurdle Pháp lý và Đạo đức
Các thách thức kỹ thuật là lớn, nhưng các thách thức pháp lý và đạo đức thậm chí còn lớn hơn. Các luật hiện tại của chúng ta được xây dựng cho con người và các tổ chức mà họ điều hành. Khi một tác nhân AI gây ra thiệt hại, ai chịu trách nhiệm? Đó là nhà phát triển, người dùng hay chính AI? Một số học giả đề xuất việc đối xử với AI như một thực thể pháp lý, giống như một công ty. Nhưng ý tưởng này gây tranh cãi. Việc cấp quyền nhân thân cho máy có thể cho phép các nhà tạo ra con người thoát khỏi trách nhiệm.
Đạo luật AI của Liên minh Châu Âu sử dụng một cách tiếp cận dựa trên rủi ro. Nhưng luật pháp di chuyển chậm, và mã di chuyển nhanh. Vào thời điểm một luật được thông qua, công nghệ nó cố gắng kiểm soát đã phát triển. Đây là lý do tại sao một số chuyên gia kêu gọi “quản lý theo thiết kế”. Điều này bao gồm việc buộc các tác nhân AI phải giữ các nhật ký minh bạch về các quyết định của chúng mà có thể được kiểm toán sau này, ngay cả khi con người không thể hiểu lý do thực sự.
Kết luận
Điều chỉnh agentic không còn là một cuộc thảo luận lý thuyết. Khi các tác nhân AI di chuyển sâu vào cơ sở hạ tầng cốt lõi và bắt đầu đưa ra các phán quyết hoạt động ở quy mô, quản lý phải phát triển nhanh chóng như vậy. Câu hỏi không phải là liệu AI có thể hỗ trợ trong việc điều chỉnh AI. Trong nhiều môi trường, nó đã phải làm như vậy. Các hệ thống bảo vệ, khuôn khổ hiến pháp và các cơ chế kiểm toán tự động sẽ trở thành các thành phần cần thiết của giám sát kỹ thuật số. Tuy nhiên, việc ủy quyền có giới hạn. Giám sát tái diễn không loại bỏ trách nhiệm, và tối ưu hóa không thay thế phán quyết. AI càng trở nên mạnh mẽ, chúng ta càng phải cẩn thận trong việc xác định các ranh giới mà nó không thể vượt qua. Một số quyết định vẫn còn bản chất là của con người, không phải vì máy móc thiếu trí thông minh, mà vì quản lý cuối cùng là về giá trị, trách nhiệm và tính hợp pháp. AI có thể giúp thực thi các quy tắc, nhưng nó không thể quyết định những giá trị mà các quy tắc đó nên phục vụ.












