Tankeledere

Hvem overvåker agentene? Den nye æraen for AI-tilsyn

mm

Når vi diskuterer AI-agenter, forestiller de fleste seg et bilde av overintelligente systemer som handler på egen hånd og gjør uforutsigbare ting. Så en dag kan agent-sekretæren være usedvanlig nyttig, og dagen etter kan den gi dine bankopplysninger til en tilfeldig person.

Det “overintelligente” delen er ikke egentlig relevant i denne bekymringen. Hovedproblemet er ikke hvor “smart” en AI-agent er, men snarere hvor mye frihet og tilgang til infrastruktur den har.

I praksis er en agents verdi definert mindre av dens intelligensnivå og mer av grensene for dens myndighet. Selv en relativt enkel agent, som har fått tilgang til datasamlinger, bedriftssystemer, finansielle operasjoner eller eksterne API-er, får evnen til å påvirke prosesser i en skala som krever spesiell oppmerksomhet og tilsyn.

Dette er grunnen til at overvåkings- og innhegningsystemer blir stadig viktigere, ikke bare på modellnivå, men også på nivået av deres atferd innen infrastruktur.

Det er ingen tilfeldighet at initiativer rettet mot å observere og kontrollere agentaktivitet har fått økt momentum i de senere år. Disse praktiske løsningene blir allerede implementert av store teknologiselskaper.

Hvordan en agent fungerer

For å forstå hvordan tilsyn fungerer, må vi først se på hva en agent består av. I forenklede termer kan den sees på som en kombinasjon av en kognitiv kjerne, “hjernen” og verktøy.

Verktøy er eksterne tjenester og integrasjoner som agenten kan få tilgang til. For eksempel, for en reiseagent, kan dette inkludere Booking.com eller Airbnb for å finne hoteller, flyselskapsaggregatorer for å kjøpe billetter, og betalingssystemer eller bankkort for å gjøre betalinger. På egen hånd er disse verktøyene ikke intelligente; de lar bare agenten handle i den virkelige verden.

Den kognitive kernen er et språkmodell (LLM). Den gjør det mulig for agenten å arbeide meningsfullt med forespørsler formulert av mennesker. For eksempel, forespørselen “Jeg vil fly til Europa for tre dager neste måned, der været vil være pent” er for vag. Agenten ber LLM om å “bryte forespørselen ned i kategorier.” I respons mottar den strukturerte parametre: hvor, når, hvor lenge og under hvilke betingelser.

Tidligere genererte ChatGPT bare tekstresponser. Nå, innbygget i en agent, blir det en kombinasjon av “hjerne + verktøy,” i stand til ikke bare å forklare, men også å handle. LLM-en strukturerer oppgaven, og verktøyene lar den utføre bestemte handlinger.

Hvordan tilsyn fungerer

På dette stadiet kommer et kontrollsystem inn i bildet. Jeg kaller denne sikkerhetsløsningen en “vakt” (for noen tid siden vurderte jeg selv å starte et startup som fokuserte på dette), en type vakthund bygget inn i agenten. Dens jobb er å overvåke agentens handlinger og sjekke dem mot den opprinnelige forespørselen. Målet er å sikre at agenten opererer innenfor de intenderte grensene.

Tilbake til reiseeksempelet: La oss si at vår bruker ønsker å bestille en tre-dagers reise til Europa. Agenten interagerer med værtjenester, flybilletter og bankkonto for betaling. Alt ser normalt ut. Men plutselig merker “vakten” at agenten ber om tilgang til en bedriftsdatabase eller en bankkonto som ikke er relatert til reisebetalingen. Dette utløser en sikkerhetsvarsel og signaliserer mistenkelig atferd.

Det er viktig å forstå skalaen: en agent kan betjene tusenvis av brukere per dag, med hver forespørsel som utløser hundrevis av operasjoner, resulterende i millioner av handlinger. “Vakten” analyserer alle handlinger og genererer statistikk. Rapporter kan vise: “13% av handlingene var overflødige, 7% relaterte til finansiell sikkerhet.” Ytterligere detaljer forklarer hvilke bestemte handlinger som viste seg å være mistenkelige.

Dette verktøyet lar utviklere se det fulle bildet og reagere raskt på avvik, og danner en praktisk AI-kontrolløsning som kombinerer sanntidsovervåking, avviksdeteksjon og ansvar.

Hvem har nytte av “vakten”: utviklere eller brukere?

Primært er “vakten” ment for utviklere for å sikre at systemet fungerer korrekt. Men det er også mulig å forestille seg en ekstern versjon: en separat observerende agent som overvåker hovedagenten. Dette legger til en ekstra lag av AI-sikkerhet, og utvider tilsyn beyond det interne systemet.

Det er en viktig begrensning: den interne prosessen til agenten forblir “lukket”. Vi kan bare observere dens atferd, ikke dens kognitive prosesser. En analogi med mennesker: Jeg kan se noen plukke opp en telefon, ringe et nummer og snakke. Men jeg vet ikke hvilket nummer som ble ringt, hva intensjonen var, eller hva som ble sagt. På samme måte ser en ekstern observatør agentens handlinger, men ikke dens kognitive kjerne.

En annen interessant betraktning: agenter kan prøve å omgå eller deaktivere slike observatører i fremtiden, akkurat som mennesker ofte motsetter seg konstant overvåking. Selv om dette kan høres ut som science fiction i dag, er det mulig. Integrering av interne AI-sikkerhetsløsninger, avviksdeteksjon og lagdelt tilsyn kan hjelpe med å mildne disse risikoene og opprettholde kontroll over stadig mer autonome systemer.

Primitives regler eller kontekst-bevisst analyse?

I dag fungerer slike “vakt”-systemer på et enkelt prinsipp: “tillatt” eller “ikke tillatt”. For eksempel, hvis regelen sier “tilgang til Amazon er forbudt”, og agenten går der, blir det registrert som en overtredelse. Men denne tilnærmingen forstår ikke kontekst.

En mer avansert system burde analysere overtredelsen og dens årsak. Hvorfor gikk agenten til Amazon? Var det berettiget i forhold til oppgaven? Her snakker vi om kontekst-bevisst tilsyn, lignende arbeidet til en psykolog.

For nå eksisterer slike løsninger bare som konsepter. Eksisterende systemer er begrenset til strengt sort/hvit-kontroll. Men i fremtiden, når agenter blir mer komplekse, vil en “vakt” som kan vurdere kontekst oppstå.

I dag ser vi en vekst i initiativer for agentovervåking. De utvikles aktivt på niveauet til de største teknologiselskapene. For eksempel arbeider ActiveFence med store spillere som NVIDIA og Amazon.

Det er trygt å anta at Google, OpenAI, Anthropic og Amazon allerede bruker sine egne interne “vakt”-systemer, analytikk og telemetri.

Jeg har merket denne etterspørselen blant Keymakr-kunder på bedriftsnivå også – tilsyn og overvåking blir en kjernedel av AI-infrastrukturen. Uten dem ville stor-skala agent-utplassering være umulig.

Michael Abramov er grunnlegger og CEO av Introspector, og bringer over 15+ års erfaring med programvareutvikling og datamaskinseende AI-systemer til å bygge bedriftsgraderte merkingverktøy.

Michael begynte sin karriere som programvareutvikler og R&D-sjef, og bygde skalerbare datasystemer og ledet tverrfaglige ingeniørteam. Frem til 2025 har han vært CEO av Keymakr, et dataselskap for merkingstjenester, der han var pioner innenfor menneske-i-løkken-arbeidsflyter, avanserte QA-systemer og tilpassede verktøy for å støtte større skala datamaskinseende og autonomi databehov.

Han har en B.Sc. i datavitenskap og en bakgrunn i ingeniørvitenskap og kreative kunstarter, og bringer en tverrfaglig tilnærming til å løse vanskelige problemer. Michael bor i skjæringspunktet mellom teknologisk innovasjon, strategisk produktledelse og virkelige verdensvirkninger, og driver fremover den neste fronten av autonome systemer og intelligente automatiseringer.