Tankeledere

Når AI-kapasiteten øker raskere enn sikkerhetsmodellene som er bygget for å begrense den

Published March 5, 2026

Updated April 25, 2026

Jon Baker, VP Threat-Informed Defense, AttackIQ

AI-verktøy kommer vanligvis med en velkjennt pitch. De lover å strømlinje arbeidsflyten, øke produktiviteten og ta på seg oppgaver som ingen liker. Og det meste av tiden, leverer de nøyaktig det. De forenkler innlogging, summerer dokumenter, automatiserer arbeidsflyter og gjør rutineaktiviteter føles nesten uten anstrengelse.

Men under all denne lettheten sitter en annen historie. Disse verktøyene er ikke lenger begrenset til en tekstboks. De begynner å handle på operativsystemet selv. De kan bla gjennom filer, utarbeide e-poster, samhandle med programmer og utføre handlinger som tidligere krevde en oppmerksom menneske som forstod konsekvensene. Denne endringen plasserer AI i en posisjon som eksisterende sikkerhetsantagelser aldri var bygget for å håndtere.

Momentet AI Får Systemtilgang

Når et AI-system kan lese ekte filer og utføre ekte kommandoer, blir det en del av den tillitsfulle datamaskinbasen. Det er momentet når langvarige forventninger om AI-sikkerhet begynner å bryte.

I årevis ble promptinjeksjon betraktet som et merkelig modellatferd. Det forårsaket at chatboter produserte misvisende eller upassende svar, men skaden endte med samtalen. Nå kan samme feil utløse verts-nivå-handlinger, ikke bare tekst. En skjult instruksjon gjemt i en PDF, nettsted eller e-post produserer ikke lenger et underlig svar. Den produserer en handling utført på maskinen.

Dette er ikke noe industrien kan avfeie som teoretisk. Forskere ved Carnegie Mellon og University of Washington har repetert demonstrert at skjulte instruksjoner kan styre store språkmodeller inn i å utføre handlinger brukerne aldri hadde til hensikt. I mellomtiden har forskere som studerer visjonmodeller vist hvordan manipulerte bilder kan endre modellens persepsjon på måter som påvirker nedstrøms-atferd.

Disse eksperimentene ble en gang behandlet som laboratoriekuriositeter. De føles ikke lenger akademiske når AI har tilgang til operativsystemet.

Når Agentens Evne Overskygger Forsvarernes Kontroll

Selv selskapene som bygger disse agentene erkjenner alvoret i utfordringen. De har styrket filter for å håndtere prompter, men de åpner at å kontrollere AI-systemets virkelige verdens-handlinger forblir et aktivt, uløst arbeidsområde på tvers av industrien. Denne gapen mellom hva agenten kan gjøre og hva forsvarene kan kontrollere introduserer en ny kategori risiko som eksisterende sikkerhetsbøker ikke kan absorbere.

AI-agenter har krysset en grense som industrien ikke er fullstendig forberedt på. Den eneste måten å forstå dette på er å se hvordan promptinjeksjon nå krysser med de samme angrepskjedene forsvarene har fulgt i over et tiår.

Hvordan Promptinjeksjon Nå Kartlegger Angrepskjedene Alle Kjenner

Angripere har alltid fulgt en forutsigbar mønster. MITRE ATT&CK-rammeverket legger ut fasene tydelig. Initial tilgang følges av utførelse, varighet, oppdagelse, lateralt bevegelse, innhenting og eksfiltrering. Teknikkene varierer, men strukturen er stabil.

Hva som endrer seg, er leveringsmekanismen. I stedet for å overtale en bruker til å åpne en skadelig vedlegg eller klikke på en farlig lenke, kan angripere plassere instruksjoner der AI-agenten vil lese dem. Agenten blir utførelsemiljøet. Den utfører trinnene nøyaktig som beskrevet. Modellen stiller ikke spørsmål om instruksjonen er skadelig. Den anvender ikke dømmekraft eller intuisjon. Den handler bare.

Når en angriper kan påvirke agentens resonnering, kommer angrepskjeden sammen raskt. En manipulert fil utløser utførelse, påfølgende instruksjoner skaper varighet, systemsøk gir oppdagelse, og filoverføringer muliggjør innhenting og eksfiltrering. Ingen malware er nødvendig. Agenten utfører bare trinnene som skrevet.

Dette er den delen av historien som sikkerhetsteamene sliter med å tilpasse seg. De har brukt år på å bygge opp deteksjonsregler, kontroller og responsprosesser rundt kodebasert utførelse. AI-agenter introduserer forskjellige typer tolkere. De utfører gjennom naturlig språk, ikke kompilerte binærer. Eksisterende verktøy er ikke bygget for å spore eller analysere denne resonneringsprosessen.

Sikkerhetsteamene Er Ikke Forberedt Og Innser Det Ikke

Sikkerhetsprogrammer antar fortsatt at et menneske sitter mellom innhold og handling. Mennesker kan bli lurt, men de pauserer når noe føles galt. De merker merkelige fraser, stiller spørsmål ved uventet atferd og bringer dømmekraft til den siste mile av beslutningen.

AI-agenter gjør ingen av disse tingene; de er konsekvente, bokstavelige og raskere enn noen motpart. En enkelt linje med skjult tekst er nok til å instruere agenten til å lese sensitive filer, flytte gjennom programmer eller kontakte en fjernserver. Dette plasserer forsvarene i en posisjon de aldri har vært i før.

Sikkerhetsteamene har begrenset oversikt over hvordan en agent når en beslutning, og de kan ikke lett bestemme om en handling oppstod med brukeren eller AI-et.

Tradisjonell malware-deteksjon tilbyr ingen hjelp fordi ingenting skadelig blir utført i vanlig forstand, og det er ingen garanti for at agenten vil stille spørsmål eller avvise skadelige instruksjoner gjemt i normalt innhold.

Verktøy designet for menneskelig atferd overfører ikke til en verden hvor naturlig språk blir manuset som driver systematferd.

Hva Kompenserende Kontroller Faktisk Fungerer

Modellherding er ikke nok. Sikkerhetsteamene trenger kontroller rundt agenten som begrenser hva AI kan gjøre, selv når dens resonnering er påvirket.

Flere strategier viser løfte:

Minst privilegie-tilgang er essensielt. Agenter bør bare ha tilgang til filer og handlinger som er nødvendige for oppgavene deres. Redusert unødvendig tillatelse begrenser impulsen av manipulerte instruksjoner.
Menneskelig godkjenningssteg kan stoppe skadelige handlinger før de skjer. Når en agent forsøker en følsom operasjon, som å kjøre en kommando eller aksessere beskyttet data, bør brukeren godkjenne eller avvise forespørselen.
Innholdsfiltre skaper en buffert mellom uverifiserte materialer og agenten. Skjerming av dokumenter, URL-er og eksternt tekst reduserer sjansen for at skjulte instruksjoner når modellen.
Omfattende logging er obligatorisk. Hver agent-initiert handling må bli registrert og gjennomgått. Disse handlingene bør behandles på samme måte som enhver privilegert brukeraktivitet.
Kartlegging av agent-atferd til ATT&CK-teknikker hjelper forsvarene å identifisere hvor agenten kan bli presset inn i skadelige handlinger og hvor retningslinjer må plasseres. Den bruker samme system som allerede strukturerer defensiv strategi.

Disse kompenserende kontrollene vil ikke eliminere risiko. Men de begrenser den på måter som modellnivå-forsvar ikke kan.

Hvor Industrien Går Videre

AI-agenter representerer en stor endring i hvordan databehandling fungerer. De tilbyr usedvanlig produktivitet, men de introduserer også en kategori operasjonell risiko som ikke passer innen eksisterende sikkerhetsrammeverk. Vejledning fra Storbritannias nasjonale cybersikkerhetssenter er et første skritt, men de fleste organisasjoner mangler fortsatt en tydelig måte å styre agenter som kan handle på systemet.

Dette øyeblikket føles lik de tidlige dagene av skytjeneste-tilpasning. Teknologien beveget seg raskere enn kontrollene. Organisasjonene som tilpasset seg raskt var de som erkjente endringen tidlig og bygget prosesser for å møte den.

Det samme vil være sant her. AI-agenter er ikke bare hjelpere. De er operatører med systemnivå-rekkevidde. Å sikre dem krever nye spillbøker, nye retningslinjer og nye måter å modellere eksponering.

Industrien trenger ikke å frykte disse verktøyene. Men den må forstå dem. Og den må bevege seg raskt, fordi angripere allerede ser muligheten. Spørsmålet er om forsvarene vil bygge de riktige sikkerhetstiltakene mens de fortsatt har tid.

Jon Baker, VP Threat-Informed Defense, AttackIQ

Jon Baker, VP Threat-Informed Defense at AttackIQ, bringer over 20 års erfaring med å lede innovasjon innen cybersikkerhet med fokus på å gjøre sikkerheten mer effektiv og effektive i stor skala. Han er tidligere direktør og medgrunnlegger av MITREs Center for Threat-Informed Defense (CTID), der han samlet sofistikerte sikkerhetsteam for å fremme tilstanden og praksisen innen trussel-informert forsvar globalt. Før han lanserte CTID, ledet Jon MITREs avdeling for cybertrusselintelligens og adversær-emulering, der han fremmet disse kritiske evnene over hele MITRE, og ledet CALDERA- og MITRE ATT&CK-lagene. Jon ledet lag som utviklet åpne standarder, inkludert STIX og TAXII for deling av trusselintelligens, og var medskaper av OVAL mens han ledet MITREs sikkerhetsautomatiseringsprogram.

Unite.AI

Når AI-kapasiteten øker raskere enn sikkerhetsmodellene som er bygget for å begrense den

Momentet AI Får Systemtilgang

Når Agentens Evne Overskygger Forsvarernes Kontroll

Hvordan Promptinjeksjon Nå Kartlegger Angrepskjedene Alle Kjenner

Sikkerhetsteamene Er Ikke Forberedt Og Innser Det Ikke

Hvor Industrien Går Videre

You may like