Tankeledere
Hvem overvåger agenterne? Den nye æra for AI-overvågning

Når vi taler om AI-agenter, forestiller de fleste sig et billede af superintelligente systemer, der handler på egen hånd og gør uforudsigelige ting. Så en dag kan agent-sekretæren være utrolig nyttig, og den næste dag kan den give dine bankoplysninger til en tilfældig person.
Det “superintelligente” er ikke det væsentlige i denne bekymring. Det centrale problem er ikke, hvor “smart” en AI-agent er, men snarere hvor meget frihed og adgang til infrastruktur den har.
I praksis defineres en agents værdi mindre af dets intelligensniveau og mere af grænserne for dets myndighed. Selv en relativt enkel agent, der får adgang til datasæt, virksomhedssystemer, finansielle operationer eller eksterne API’er, får mulighed for at påvirke processer i en skala, der kræver særlig opmærksomhed og overvågning.
Derfor bliver overvågnings- og indhegningsystemer mere og mere væsentlige, ikke kun på modelleniveau, men også på niveauet for deres adfærd inden for infrastrukturen.
Det er ingen tilfældighed, at initiativer, der sigter mod at observere og kontrollere agentaktivitet, har fået fremdrift i de seneste år. Disse praktiske løsninger bliver allerede implementeret af større teknologivirksomheder.
Hvordan fungerer en agent
For at forstå, hvordan overvågning fungerer, skal vi først se på, hvad en agent består af. I simplificerede vendinger kan det ses som en kombination af en kognitiv kerne, “hjernen” og værktøjer.
Værktøjer er eksterne tjenester og integrationer, som agenten kan få adgang til. Eksempelvis kan dette for en rejseagent inkludere Booking.com eller Airbnb til at finde hoteller, flyselskabsaggregatorer til at købe billetter og betalingssystemer eller kreditkort til at gøre betalinger. I sig selv er disse værktøjer ikke intelligente; de giver blot agenten mulighed for at handle i den virkelige verden.
Den kognitive kerne er et sprogmodel (LLM). Det giver agenten mulighed for at arbejde meningsfuldt med anmodninger formuleret af mennesker. For eksempel kan anmodningen “Jeg vil flyve til Europa i tre dage i den nærmeste måned, hvor vejret vil være godt” være for vag. Agenten beder LLM om at “bryde anmodningen ned i kategorier”. I respons modtager den strukturerede parametre: hvor, hvornår, i hvor lang tid og under hvilke betingelser.
Tidligere genererede ChatGPT kun tekstsvare. Nu, indlejret i en agent, bliver det en kombination af “hjerne + værktøjer”, der kan gøre mere end blot at forklare, men også handle. LLM strukturerer opgaven, og værktøjerne giver det mulighed for at udføre bestemte handlinger.
Hvordan overvågning fungerer
På dette stadium kommer et kontrolsystem i spil. Jeg kalder denne sikkerheds løsning en “vagthund” (for nogle år siden overvejede jeg endda at lave en startup, der fokuserede på dette), en slags vagthund indbygget i agenten. Dets job er at overvåge agentens handlinger og kontrollere dem i forhold til den oprindelige anmodning. Målet er at sikre, at agenten fungerer inden for de ønskede grænser.
Tilbage til rejsen eksempel: Lad os sige, at vores bruger ønsker at booke en tre-dages tur til Europa. Agenten interagerer med vejr-tjenester, flyselskabsbilletter og bankkonto for betaling. Alt synes normalt. Men pludselig bemærker “vagthunden”, at agenten anmoder om adgang til en virksomhedsdatabase eller en bankkonto, der ikke er relateret til turen. Dette udløser en sikkerhedsadvarsel og signalerer mistænkelig adfærd.
Det er vigtigt at forstå skalaen: En agent kan betjene tusinder af brugere om dagen, med hver anmodning, der udløser hundredvis af operationer, hvilket resulterer i millioner af handlinger. “Vagthunden” analyserer alle handlinger og genererer statistik. Rapporter kan vise: “13% af handlingerne var overflødige, 7% relaterede til finansielle sikkerhedsforanstaltninger.” Yderligere detaljer forklarer, hvilke bestemte handlinger, der så ud til at være mistænkelige.
Dette værktøj giver udviklere mulighed for at se det fulde billede og reagere prompt på afvigelser, hvilket danner en praktisk AI-kontrolløsning, der kombinerer realtids-overvågning, afvigelsesdetektion og ansvarlighed.
Hvem har gavn af ”vagthunden”: udviklere eller brugere?
Primært er “vagthunden” beregnet til udviklere for at sikre, at systemet fungerer korrekt. Men man kan også forestille sig en ekstern version: en separat observerende agent, der overvåger hovedagenten. Dette tilføjer endnu et lag af AI-sikkerhed, der udvider overvågning ud over det interne system.
Der er en vigtig begrænsning: Den interne proces for agenten forbliver “lukket”. Vi kan kun observere dets adfærd, ikke dets kognitive processer. En analogi med mennesker: Jeg kan se, at nogen tager en telefon, tastede et nummer og taler. Men jeg ved ikke, hvilket nummer der blev tastede, hvilken intention der var, eller hvad der blev sagt. Ligeså ser en ekstern observatør agentens handlinger, men ikke dets kognitive kerne.
En anden interessant overvejelse: Agenter kan forsøge at omgå eller deaktivere sådanne observatører i fremtiden, ligesom mennesker ofte modsætter sig konstant overvågning. Selv om dette kan lyde som science fiction i dag, er det muligt. Integration af interne AI-sikkerhedsløsninger, afvigelsesdetektion og lagdelt overvågning kan hjælpe med at mindske disse risici og opretholde kontrol over stadig mere autonome systemer.
Primitive regler eller kontekstbevidt analyse?
I dag fungerer sådanne “vagthund”-systemer på en simpel princip: “tilladt” eller “ikke tilladt”. For eksempel, hvis reglen siger, “adgang til Amazon er forbudt”, og agenten går der, registreres en overtrædelse. Men denne tilgang forstår ikke kontekst.
Et mere avanceret system skal analysere overtrædelsen og dens årsag. Hvorfor gik agenten til Amazon? Var det berettiget i forhold til opgaven? Her taler vi om kontekstbevidt overvågning, lignende en psykologs arbejde.
For nuværende eksisterer sådanne løsninger kun som koncepter. Eksisterende systemer er begrænsede til streng sort-hvid kontrol. Men i fremtiden, når agenter bliver mere komplekse, vil en “vagthund”, der kan tage kontekst i betragtning, opstå.
I dag ser vi en vækst i initiativer for agent-overvågning. De udvikles aktivt på niveauet for de største teknologivirksomheder. For eksempel arbejder ActiveFence med store spillere som NVIDIA og Amazon.
Desuden kan det med sikkerhed antages, at Google, OpenAI, Anthropic og Amazon allerede bruger deres egne interne “vagthund”-systemer, analytik og telemetri.
Jeg har bemærket denne efterspørgsel blandt Keymakr-virksomhedskunder også – overvågning og overvågning bliver en kerne-del af AI-infrastrukturen. Uden dem ville stor-skala agent-udrulning være umulig.












