Myslitelé
Kdo dohlíží na agenty? Nová éra dohledu nad umělou inteligencí

Při diskusi o agentech AI si většina lidí představuje superinteligentní systémy, které jednají samostatně a dělají nepředvídatelné věci. Jednoho dne může být agent-sekretářka非常 užitečná a další den může předat vaše bankovní údaje náhodné osobě.
„Superinteligentní“ část vlastně není wichtig v tomto ohledu. Klíčovým problémem není, jak „chytrý“ je agent AI, ale spíše jak velkou svobodu a přístup k infrastruktuře má.
V praxi je hodnota agenta definována méně jeho úrovní inteligence a více hranicemi jeho pravomocí. I relativně jednoduchý agent, který má přístup k datovým sadám, firemním systémům, finančním operacím nebo externím API, získá schopnost ovlivňovat procesy v měřítku, které vyžaduje zvláštní pozornost a dohled.
To je důvod, proč jsou monitorovací a obsahovací systémy stále důležitější, nejen na úrovni modelu, ale i na úrovni jejich chování v infrastruktuře.
Není náhodou, že iniciativy zaměřené na pozorování a kontrolu aktivity agentů získávají v posledních letech na významu. Tyto praktické řešení jsou již implementována velkými technologickými společnostmi.
Jak agent funguje
Abychom pochopili, jak dohled funguje, musíme se nejprve podívat na to, co agent tvoří. Ve zjednodušeném pojetí lze jej vidět jako kombinaci kognitivního jádra a nástrojů.
Nástroje jsou externí služby a integrace, ke kterým agent má přístup. Jako příklad pro cestovního agenta to může zahrnovat Booking.com nebo Airbnb pro nalezení hotelů, letecké agregátory pro nákup letenek a platební systémy nebo bankovní karty pro provádění plateb. Samy o sobě nejsou tyto nástroje inteligentní; umožňují agentovi jednat ve skutečném světě.
Kognitivní jádro je jazykový model (LLM). Umožňuje agentovi pracovat smysluplně s požadavky formulovanými lidmi. Například požadavek „Chci letět do Evropy na tři dny v příštím měsíci, kde bude hezké počasí“ je příliš vágní. Agent žádá LLM, aby „rozdělil požadavek do kategorií“. V odpovědi obdrží strukturované parametry: kde, kdy, na jak dlouho a za jakých podmínek.
Předtím generoval ChatGPT pouze textové odpovědi. Nyní, vložený do agenta, se stává kombinací „mozku + nástrojů“, schopnou nejen vysvětlovat, ale i jednat. LLM strukturuje úkol a nástroje umožňují agentovi provádět konkrétní akce.
Jak dohled funguje
V této fázi vstupuje do hry kontrolní systém. Nazývám toto bezpečnostní řešení „watchdog“ (před nějakým časem jsem dokonce zvažoval myšlenku založení startupu zaměřeného na toto), druh strážného psa vestavěného do agenta. Jeho úkolem je monitorovat akce agenta a kontrolovat je proti původnímu požadavku. Cílem je zajistit, aby agent fungoval v rámci stanovených hranic.
Vraťme se k příkladu s cestovním agentem: řekněme, že náš uživatel chce rezervovat třídní cestu do Evropy. Agent interaguje s meteorologickými službami, leteckými tickety a bankovním účtem pro platbu. Všechno vypadá normálně. Ale najednou „watchdog“ zaznamená, že agent požaduje přístup k firemní databázi nebo bankovnímu účtu, který není spojen s platbou za cestu. To spustí bezpečnostní výstrahu a signalizuje podezřelé chování.
Je důležité pochopit měřítko: agent může obsluhovat tisíce uživatelů denně, s každým požadavkem spouštějícím stovky operací, což vede k milionům akcí. „Watchdog“ analyzuje všechny akce a generuje statistiky. Zprávy mohou ukázat: „13 % akcí bylo redundantních, 7 % se týkalo finančních bezpečnostních opatření.“ Další podrobnosti vysvětlují, které konkrétní akce se zdály podezřelé.
Tento nástroj umožňuje vývojářům vidět úplný obraz a reagovat včas na anomálie, vytvářející praktické řešení AI kontroly, které kombinuje monitorování v reálném čase, detekci anomálií a odpovědnost.
Kdo má prospěch z „watchdogu“: vývojáři nebo uživatelé?
Primárně je „watchdog“ určen pro vývojáře, aby zajistili, že systém funguje správně. Nicméně lze si také představit externí verzi: samostatného pozorovatele, který monitoruje hlavního agenta. To přidává další vrstvu AI bezpečnosti, rozšiřující dohled za hranice interního systému.
Existuje důležitá omezení: interní proces agenta zůstává „uzavřený“. Můžeme pouze pozorovat jeho chování, ne jeho kognitivní procesy. Analogie s lidmi: mohu vidět, jak někdo zvedne telefon, vytočí číslo a mluví. Ale nevím, které číslo bylo vytočeno, jaký byl úmysl nebo co bylo řečeno. Podobně vnější pozorovatel vidí akce agenta, ale ne jeho kognitivní jádro.
Další zajímavá úvaha: agenti se mohou v budoucnu pokusit obejít nebo deaktivovat takové pozorovatele, stejně jako lidé často odolávají stálému dohledu. Ačkoli to může znít jako science fiction dnes, je to možné. Integrace interních AI bezpečnostních řešení, detekce anomálií a vrstveného dohledu může pomoci zmírnit tato rizika a udržet kontrolu nad stále autonomnějšími systémy.
Primitivní pravidla nebo kontextově vědomá analýza?
Dnes takové „watchdog“ systémy fungují na jednoduchém principu: „povoleno“ nebo „nepovoleno“. Například, pokud pravidlo říká, „přístup k Amazonu je zakázán“, a agent tam jde, je zaznamenána porušení. Ale tento přístup nerozumí kontextu.
Více pokročilý systém by měl analyzovat porušení a jeho důvod. Proč šel agent na Amazon? Bylo to odůvodněné z hlediska úkolu? Zde mluvíme o kontextově vědomém dohledu, podobném práci psychologa.
Prozatím existují takové řešení pouze jako koncepty. Stávající systémy jsou omezeny na přísnou černobílou kontrolu. Ale v budoucnu, jak agenti budou složitější, „watchdog“ schopen zohledňovat kontext se objeví.
Dnes vidíme růst iniciativ pro monitoring agentů. Aktivně se vyvíjejí na úrovni největších technologických společností. Například ActiveFence spolupracuje s velkými hráči jako NVIDIA a Amazon.
Kromě toho lze bezpečně předpokládat, že Google, OpenAI, Anthropic a Amazon již používají své vlastní interní „watchdog“ systémy, analytiky a telemetrii.
Všiml jsem si této poptávky i u klientů Keymakr enterprise – dohled a monitoring se stávají jádrem AI infrastruktury. Bez nich by nebylo možné nasadit agenti ve velkém měřítku.












