Liderzy opinii
Kto obserwuje agenci? Nowa era nadzoru nad sztuczną inteligencją

Prowadząc dyskusje na temat agentów sztucznej inteligencji, większość ludzi wyobraża sobie superinteligentne systemy działające samodzielnie, wykonujące nieprzewidywalne czynności. Jednego dnia agent-sekretarz może być niesamowicie przydatny, a następnego może udostępnić Twoje dane bankowe osobie losowej.
Część „superinteligentna” nie ma tutaj znaczenia. Kluczowym problemem nie jest to, jak „inteligentny” jest agent sztucznej inteligencji, ale raczej jaki poziom wolności i dostępu do infrastruktury posiada.
W praktyce wartość agenta jest określona nie przez jego poziom inteligencji, ale przez granice jego uprawnień. Nawet dość prosty agent, który otrzyma dostęp do zestawów danych, systemów korporacyjnych, operacji finansowych lub zewnętrznych interfejsów API, zyskuje możliwość wpływania na procesy w skali, która wymaga specjalnej uwagi i nadzoru.
Dlatego systemy monitorowania i zawężania są coraz bardziej istotne, nie tylko na poziomie modelu, ale także na poziomie ich zachowania w infrastrukturze.
Nie jest to zbieg okoliczności, że inicjatywy mające na celu obserwowanie i kontrolowanie aktywności agenta zyskują na popularności w ostatnich latach. Te praktyczne rozwiązania są już wdrożone przez duże firmy technologiczne.
Jak działa agent
Aby zrozumieć, jak działa nadzór, musimy najpierw przyjrzeć się, z czego składa się agent. W uproszczeniu można go uznać za połączenie rdzenia poznawczego, „mózgu” i narzędzi.
Narzędzia to zewnętrzne usługi i integracje, do których agent ma dostęp. Przykładowo, dla agenta podróży mogą to być Booking.com lub Airbnb do znalezienia hoteli, agregatory linii lotniczych do zakupu biletów oraz systemy płatnicze lub karty bankowe do realizacji płatności. Same w sobie te narzędzia nie są inteligentne; po prostu pozwalają agentowi działać w świecie rzeczywistym.
Rdzeń poznawczy to model językowy (LLM). Umożliwia on agentowi pracę z żądaniem sformułowanym przez ludzi. Na przykład, żądanie „chcę lecieć do Europy na trzy dni w następnym miesiącu, gdzie pogoda będzie ładna” jest zbyt niejasne. Agent prosi LLM o „rozłożenie żądania na kategorie”. W odpowiedzi otrzymuje sparametryzowane parametry: gdzie, kiedy, na jak długo i na jakich warunkach.
Wcześniej ChatGPT generował tylko odpowiedzi tekstowe. Teraz, wbudowany w agenta, staje się połączeniem „mózgu + narzędzi”, zdolnym nie tylko do wyjaśniania, ale także do działania. LLM strukturyzuje zadanie, a narzędzia pozwalają mu wykonać konkretne akcje.
Jak działa nadzór
W tym momencie pojawia się system kontroli. Nazywam to rozwiązanie bezpieczeństwa „watchdogiem” (kiedyś nawet rozważałem założenie startupu skupionego na tym), rodzajem strażnika wbudowanego w agenta. Jego zadaniem jest monitorowanie akcji agenta i sprawdzanie ich zgodności z pierwotnym żądaniem. Celem jest zapewnienie, że agent działa w ramach zamierzonych granic.
Powracając do przykładu podróży: zakładając, że nasz użytkownik chce zarezerwować trzydniową wycieczkę do Europy. Agent wchodzi w interakcje z usługami pogodowymi, biletami lotniczymi i kontem bankowym w celu dokonania płatności. Wszystko wydaje się normalne. Ale nagle „watchdog” zauważa, że agent żąda dostępu do bazy danych korporacyjnej lub konta bankowego niezwiązanego z płatnością za podróż. To wyzwala alert bezpieczeństwa i sygnalizuje podejrzane zachowanie.
Ważne jest zrozumienie skali: agent może obsługiwać tysiące użytkowników dziennie, przy czym każde żądanie wyzwala setki operacji, skutkując milionami akcji. „Watchdog” analizuje wszystkie akcje i generuje statystyki. Raporty mogą wskazywać: „13% akcji było zbędnych, 7% dotyczyło bezpieczeństwa finansowego”. Szczegółowe informacje wyjaśniają, które konkretnie akcje wydawały się podejrzane.
To narzędzie pozwala deweloperom zobaczyć pełen obraz i zareagować szybko na anomalie, tworząc praktyczne rozwiązanie kontroli sztucznej inteligencji, które łączy monitorowanie w czasie rzeczywistym, wykrywanie anomalii i odpowiedzialność.
Kto korzysta z „watchdoga”: deweloperzy czy użytkownicy?
Przede wszystkim „watchdog” jest przeznaczony dla deweloperów, aby upewnić się, że system działa poprawnie. Można jednak wyobrazić sobie wersję zewnętrzną: oddzielny agent obserwujący, który monitoruje głównego agenta. To dodaje kolejną warstwę bezpieczeństwa sztucznej inteligencji, rozszerzając nadzór poza wewnętrzny system.
Istnieje ważne ograniczenie: wewnętrzny proces agenta pozostaje „zamknięty”. Możemy tylko obserwować jego zachowanie, a nie procesy poznawcze. Analogia z ludźmi: mogę zobaczyć, jak ktoś podnosi telefon, wybiera numer i rozmawia. Ale nie wiem, jaki numer został wybrany, jaki był zamiar, czy co zostało powiedziane. Podobnie, zewnętrzny obserwator widzi akcje agenta, ale nie jego rdzeń poznawczy.
Inną interesującą kwestią jest to, że agenci mogą próbować ominąć lub wyłączyć takich obserwatorów w przyszłości, podobnie jak ludzie często opierają się stałej inwigilacji. Chociaż to może brzmieć jak science fiction dzisiaj, jest to możliwe. Wbudowywanie wewnętrznych rozwiązań bezpieczeństwa sztucznej inteligencji, wykrywania anomalii i warstwowego nadzoru może pomóc w złagodzeniu tych ryzyk i utrzymaniu kontroli nad coraz bardziej autonomicznymi systemami.
Czy prymitywne reguły, czy analiza kontekstowa?
Dziś takie „watchdog” systemy działają na prostym principie: „dozwolone” lub „nie dozwolone”. Na przykład, jeśli reguła mówi, „dostęp do Amazon jest zabroniony”, a agent tam się udaje, zostaje zarejestrowane naruszenie. Ale ten podejście nie rozumie kontekstu.
Bardziej zaawansowany system powinien analizować naruszenie i jego powód. Dlaczego agent poszedł do Amazon? Czy było to uzasadnione w kontekście zadania? Tutaj mówimy o kontekstowej kontroli, podobnej do pracy psychologa.
Na razie takie rozwiązania istnieją tylko jako koncepcje. Istniejące systemy są ograniczone do surowej, czarno-białej kontroli. Ale w przyszłości, gdy agenci staną się bardziej złożeni, „watchdog” zdolny do uwzględniania kontekstu się pojawi.
Dziś obserwujemy wzrost inicjatyw dotyczących monitorowania agentów. Aktywnie są one rozwijane na poziomie największych firm technologicznych. Na przykład ActiveFence współpracuje z dużymi graczami, takimi jak NVIDIA i Amazon.
Co więcej, można bezpiecznie założyć, że Google, OpenAI, Anthropic i Amazon już używają swoich wewnętrznych systemów „watchdog”, analityki i telemetrii.
Zauważyłem ten popyt wśród klientów przedsiębiorstw Keymakr – nadzór i monitorowanie stają się częścią rdzenia infrastruktury sztucznej inteligencji. Bez nich, dużych wdrożeń agentów byłoby niemożliwe.












