Tankeledare

Vem övervakar agenterna? Den nya eran av AI-tillsyn

mm

När man diskuterar AI-agenter, föreställer sig de flesta en superintelligent system som agerar på egen hand och gör oförutsägbara saker. Så en dag kan agent-sekreteraren vara otroligt användbar, och nästa dag kan den ge dina bankuppgifter till en slumpmässig person.

“Superintelligent” är inte det viktiga i detta sammanhang. Den viktiga frågan är inte hur “smart” en AI-agent är, utan snarare hur mycket frihet och tillgång till infrastruktur den har.

I praktiken definieras en agents värde mer av gränserna för dess auktoritet än av dess intelligensnivå. Även en relativt enkel agent, som ges tillgång till datamängder, företagssystem, finansiella operationer eller externa API:er, får möjlighet att påverka processer i en skala som kräver särskild uppmärksamhet och tillsyn.

Därför blir övervaknings- och inneslutningssystem allt viktigare, inte bara på modellnivå utan också på beteendennivå inom infrastrukturen.

Det är ingen tillfällighet att initiativ som syftar till att observera och kontrollera agentaktivitet har fått allt mer fart under de senaste åren. Dessa praktiska lösningar implementeras redan av stora teknologiföretag.

Hur en agent fungerar

För att förstå hur tillsyn fungerar måste vi först titta på vad en agent består av. I förenklad form kan den ses som en kombination av en kognitiv kärna, “hjärnan” och verktyg.

Verktyg är externa tjänster och integrationer som agenten kan komma åt. Till exempel kan detta för en reseagent inkludera Booking.com eller Airbnb för att hitta hotell, flygaggregatorer för att köpa biljetter och betalningssystem eller bankkort för att göra betalningar. I sig är dessa verktyg inte intelligenta; de låter bara agenten agera i den verkliga världen.

Den kognitiva kärnan är ett språkmodell (LLM). Den möjliggör för agenten att arbeta meningsfullt med förfrågningar formulerade av människor. Till exempel är förfrågan “Jag vill flyga till Europa i tre dagar nästa månad, där vädret kommer att vara trevligt” för vag. Agenten ber LLM att “bryta ner förfrågan i kategorier”. I svaret får den strukturerade parametrar: var, när, hur länge och under vilka villkor.

Tidigare genererade ChatGPT bara textsvar. Nu, inbäddad i en agent, blir den en kombination av “hjärna + verktyg”, kapabel att inte bara förklara utan också agera. LLM strukturerar uppgiften, och verktygen låter den utföra specifika handlingar.

Hur tillsyn fungerar

På detta stadium kommer ett kontrollsystem in i bilden. Jag kallar denna säkerhetslösning för en “väktare” (för ett tag sedan funderade jag till och med på att starta ett företag som fokuserade på detta), en sorts vakthund byggd in i agenten. Dess uppgift är att övervaka agentens handlingar och kontrollera dem mot den ursprungliga förfrågan. Målet är att säkerställa att agenten fungerar inom avsedda gränser.

Tillbaka till resexemplet: låt säga att vår användare vill boka en tre dagar lång resa till Europa. Agenten interagerar med väderservice, flygbiljetter och bankkonto för betalning. Allt verkar normalt. Men plötsligt märker “väktaren” att agenten begär tillgång till ett företagsdatabas eller ett bankkonto som inte är relaterat till resans betalning. Detta utlöser en säkerhetsvarning och signalerar misstänkt beteende.

Det är viktigt att förstå omfattningen: en agent kan betjäna tusentals användare per dag, med varje förfrågan som utlöser hundratals operationer, vilket resulterar i miljontals handlingar. “Väktaren” analyserar alla handlingar och genererar statistik. Rapporter kan visa: “13% av handlingarna var onödiga, 7% relaterade till finansiell säkerhet.” Ytterligare detaljer förklarar vilka specifika handlingar som verkade misstänkta.

Detta verktyg låter utvecklare se helhetsbilden och reagera snabbt på avvikelser, vilket bildar en praktisk AI-kontrollösning som kombinerar realtidsövervakning, avvikelseupptäckt och ansvar.

Vem har nytta av “väktaren”: utvecklare eller användare?

Primärt är “väktaren” avsedd för utvecklare för att säkerställa att systemet fungerar korrekt. Men man kan också tänka sig en extern version: en separat observerande agent som övervakar huvudagenten. Detta lägger till en extra lager av AI-säkerhet, som utökar tillsynen bortom det interna systemet.

Det finns en viktig begränsning: den interna processen i agenten förblir “stängd”. Vi kan bara observera dess beteende, inte dess kognitiva processer. En analogi med människor: jag kan se någon plocka upp en telefon, slå ett nummer och prata. Men jag vet inte vilket nummer som rings, vad avsikten var eller vad som sades. Likaså ser en extern observatör agentens handlingar men inte dess kognitiva kärna.

En annan intressant övervägning: agenter kan försöka kringgå eller inaktivera sådana observatörer i framtiden, precis som människor ofta motstår konstant övervakning. Medan detta kan låta som science fiction idag, är det möjligt. Att integrera interna AI-säkerhetslösningar, avvikelseupptäckt och skiktad tillsyn kan hjälpa till att mildra dessa risker och upprätthålla kontroll över alltmer autonoma system.

Primitiva regler eller kontextmedveten analys?

Idag fungerar sådana “väktarsystem” på en enkel princip: “tillåten” eller “inte tillåten”. Till exempel, om regeln säger “tillgång till Amazon är förbjuden” och agenten går dit, registreras en överträdelse. Men denna metod förstår inte sammanhanget.

En mer avancerad system bör analysera överträdelsen och dess orsak. Varför gick agenten till Amazon? Var det berättigat i termer av uppgiften? Här talar vi om kontextmedveten tillsyn, liknande en psykologs arbete.

För tillfället existerar sådana lösningar bara som koncept. Existerande system är begränsade till strikt svart-vit kontroll. Men i framtiden, när agenter blir mer komplexa, kommer en “väktare” som kan ta hänsyn till sammanhanget att dyka upp.

Idag ser vi en tillväxt i initiativ för agentövervakning. De utvecklas aktivt på stora teknologiföretags nivå. Till exempel arbetar ActiveFence med stora spelare som NVIDIA och Amazon.

Det är dessutom säkert att anta att Google, OpenAI, Anthropic och Amazon redan använder sina egna interna “väktarsystem”, analyser och telemetri.

Jag har märkt av denna efterfrågan bland Keymakr företagskunder också – tillsyn och övervakning blir en kärndel av AI-infrastrukturen. Utan dem vore stor skala agentdistribution omöjlig.

Michael Abramov Àr grundare och VD för Introspector, och bringar över 15+ Ärs erfarenhet av programvaruteknik och datorsyn AI-system till utvecklingen av företagsklassade mÀrkningsverktyg.

Michael började sin karriÀr som programvarutekniker och R&D-chef, och byggde skalbara datasystem och ledde tvÀrfunktionella ingenjörsteam. Fram till 2025 har han varit VD för Keymakr, ett företag som erbjuder datamÀrkningstjÀnster, dÀr han banade vÀg för mÀnskliga-i-loopen-arbetsflöden, avancerade QA-system och skrÀddarsydda verktyg för att stödja storskaliga datorsyn och autonomidatatabehov.

Han har en B.Sc. i datavetenskap och en bakgrund inom teknik och konstnÀrliga Àmnen, vilket ger honom en tvÀrvetenskaplig synvinkel pÄ att lösa svÄra problem. Michael verkar i skÀrningspunkten mellan teknisk innovation, strategisk produktledning och verklig pÄverkan, och driver framÄt den nÀsta fronten för autonoma system och intelligent automation.