Tankeledere

Når AI-kapasiteten øker raskere enn sikkerhetsmodellene som er bygget for å inneholde den

mm

AI-verktøy kommer vanligvis med en kjent introduksjon. De lover å strømlinje arbeidsflyter, øke produktiviteten og ta på seg oppgaver som ingen liker. Og de fleste ganger holder de hva de lover. De forenkler innlogginger, summerer dokumenter, automatiserer arbeidsflyter og gjør rutineaktiviteter nesten uten anstrengelse.

Men under all denne praktiskheten ligger en annen historie. Disse verktøyene er ikke lenger begrenset til en tekstboks. De begynner å handle på operativsystemet selv. De kan bla gjennom filer, skrive e-post, interagere med applikasjoner og utføre handlinger som tidligere krevde en oppmerksom menneske som forstod konsekvensene. Denne endringen plasserer AI i en posisjon som eksisterende sikkerhetsantagelser aldri var bygget for å håndtere.

Momentet AI får systemtilgang

Når et AI-system kan lese ekte filer og utføre ekte kommandoer, blir det en del av det pålitelige regnebasen. Det er momentet når langvarige forventninger om AI-sikkerhet begynner å bryte.

I årevis har promptinjeksjon vært betraktet som et underlig modellatferd. Det forårsaket at chatboter produserte misvisende eller upassende svar, men skaden stoppet ved samtalen. Nå kan samme feil utløse handlinger på verts-maskinen, ikke bare tekst. En skjult instruksjon i en PDF, nettside eller e-post kan ikke lenger produsere et underlig svar. Den produserer en handling utført på maskinen.

Dette er ikke noe industrien kan avfeie som teoretisk. Forskere ved Carnegie Mellon og University of Washington har repetert demonstrert at skjulte instruksjoner kan styre store språkmodeller til å utføre handlinger brukerne aldri hadde til hensikt. I mellomtiden har forskere som studerer visjonmodeller vist hvordan manipulerte bilder kan endre modellens persepsjon på måter som påvirker nedstrømsatferd.

Disse eksperimentene ble en gang behandlet som laboratoriekuriositeter. De føles ikke lenger akademiske når AI har tilgang til operativsystemet.

Når agentens evne overgår forsvarernes kontroll

Selv selskapene som bygger disse agentene erkjenner alvoret i utfordringen. De har styrket filter for å håndtere prompter, men de åpner at kontroll av AI-systemets virkelige handlinger fortsatt er et aktivt, uløst arbeidsområde i hele industrien. Denne gapen mellom hva agenten kan gjøre og hva forsvarerne kan kontrollere introduserer en ny kategori risiko som eksisterende sikkerhetsplaybooks ikke kan absorbere.

AI-agenter har krysset en grense som industrien ikke er fullt ut forberedt på. Den eneste måten å forstå dette på er å se hvordan promptinjeksjon nå krysser med de samme angrepskjedene forsvarerne har fulgt i over et tiår.

Hvordan promptinjeksjon nå kartlegger angrepskjedene alle kjenner

Angripere har alltid fulgt en forutsigbar mønster. MITRE ATT&CK-rammeverket beskriver fasene tydelig. Initial tilgang følges av eksekvering, varighet, oppdagelse, lateral bevegelse, innhenting og eksfiltrering. Teknikkene varierer, men strukturen er stabil.

Hva som endrer seg, er leveringsmekanismen. I stedet for å overtale en bruker til å åpne en skadelig vedlegg eller klikke på en farlig lenke, kan angripere plassere instruksjoner der AI-agenten vil lese dem. Agenten blir eksekveringsmiljøet. Den utfører trinnene nøyaktig som beskrevet. Modellen stiller ikke spørsmål om instruksjonen er skadelig. Den anvender ikke dømmekraft eller intuisjon. Den handler bare.

Når en angriper kan påvirke agentens resonnering, kommer angrepskjeden sammen raskt. En manipulert fil utløser eksekvering, påfølgende instruksjoner skaper varighet, systemsøk gir oppdagelse og filoverføringer muliggjør innhenting og eksfiltrering. Ingen malware er nødvendig. Agenten utfører bare trinnene som skrevet.

Dette er den delen av historien som sikkerhetsteamene sliter med å tilpasse seg. De har brukt år på å bygge oppdagelsesregler, kontroller og responsprosesser rundt kodebasert eksekvering. AI-agenter introduserer forskjellige typer tolkere. De eksekverer gjennom naturlig språk, ikke kompilerter binærer. Eksisterende verktøy er ikke bygget for å spore eller analysere denne resonneringsprosessen.

Sikkerhetsteamene er ikke forberedt og innser det ikke

Sikkerhetsprogrammer antar fortsatt at et menneske sitter mellom innhold og handling. Mennesker kan bli lurt, men de stopper når noe føles galt. De legger merke til underlige fraser, stiller spørsmål ved uventet atferd og bringer dømmekraft til siste del av beslutningen.

AI-agenter gjør ingen av disse tingene; de er konsekvente, bokstavelige og raskere enn noen motpart. En enkelt linje med skjult tekst er nok til å instruere agenten til å lese sensitive filer, flytte gjennom applikasjoner eller kontakte en fjernserver. Dette plasserer forsvarerne i en posisjon de aldri har vært i før.

Sikkerhetsteamene har begrenset oversikt over hvordan en agent når en beslutning, og de kan ikke lett bestemme om en handling oppstod med brukeren eller AI. Tradisjonell malwarerettning tilbyr ingen hjelp fordi ingenting skadelig blir eksekvert i vanlig forstand, og det er ingen garanti for at agenten vil stille spørsmål eller avvise skadelige instruksjoner skjult i normalt innhold.

Verktøy designet for menneskelig atferd overføres ikke til en verden hvor naturlig språk blir skriptet som driver systematferd.

Hva kompenserende kontroller faktisk fungerer

Modellherding er ikke nok. Sikkerhetsteamene trenger kontroller rundt agenten som begrenser hva AI kan gjøre, selv når dens resonnering påvirkes.

Flere strategier viser løfte:

  • Minst mulig tilgang er essensielt. Agenter bør bare ha tilgang til filer og handlinger som er nødvendige for oppgavene deres. Redusert unødvendig tillatelse begrenser virkningen av manipulerte instruksjoner.
  • Menneskelig godkjenning kan stoppe skadelige handlinger før de skjer. Når en agent forsøker en sensitiv operasjon, som å kjøre en kommando eller aksessere beskyttet data, bør brukeren godkjenne eller avvise forespørselen.
  • Innholdsfiltre skaper en buffer mellom uverifiserte materialer og agenten. Skjerming av dokumenter, URL-er og eksternt tekst reduserer sjansen for at skjulte instruksjoner når modellen.
  • Omfattende logging er obligatorisk. Hver agent-initiert handling må bli registrert og gjennomgått. Disse handlingene bør behandles på samme måte som enhver privilegert brukeraktivitet.
  • Kartlegging av agentatferd til ATT&CK-teknikker hjelper forsvarerne å identifisere hvor agenten kan bli presset inn i skadelige handlinger og hvor retningslinjer må plasseres. Den bruker samme system som allerede strukturerer defensiv strategi.

Disse kompenserende kontrollene vil ikke eliminere risiko. Men de begrenser den på måter som modellnivå-forsvar ikke kan.

Hvor industrien går videre

AI-agenter representerer en stor endring i hvordan databehandling fungerer. De tilbyr usedvanlig produktivitet, men de introduserer også en kategori operasjonell risiko som ikke passer inn i eksisterende sikkerhetsrammeverk. Veiledning fra Storbritannias nasjonale cybersikkerhetssenter er et første skritt, men de fleste organisasjoner mangler fortsatt en tydelig måte å styre agenter som kan handle på systemet.

Dette øyeblikket føles lik de tidlige dagene med skytjenester. Teknologien beveget seg raskere enn kontrollene. Organisasjonene som tilpasset seg raskt var de som erkjente endringen tidlig og bygget prosesser for å møte den.

Det samme vil være sant her. AI-agenter er ikke bare hjelpere. De er operatører med systemnivå-rekkevidde. Å sikre dem krever nye spillbøker, nye retningslinjer og nye måter å modellere eksponering på.

Industrien trenger ikke å frykte disse verktøyene. Men den må forstå dem. Og den må bevege seg raskt, fordi angriperne allerede ser muligheten. Spørsmålet er om forsvarerne vil bygge de riktige sikkerhetstiltakene mens de fortsatt har tid.

Jon Baker, VP for truslerinformert forsvar hos AttackIQ, bringer over 20 års erfaring med å lede innovasjon innen cybersikkerhet med fokus på å gjøre sikkerheten mer effektiv og effisient i stor skala. Han er tidligere direktør og medgrunnlegger av MITREs Center for Threat-Informed Defense (CTID), der han samlet sofistikerte sikkerhetsteam for å fremme kunnskapsnivået og praksis innen truslerinformert forsvar globalt. Før han lanserte CTID, ledet Jon MITREs avdeling for cybertrusler og adversær-emulering, der han utviklet kritiske evner over MITRE og ledet CALDERA og MITRE ATT&CK-lagene. Jon ledet team som utviklet åpne standarder, inkludert STIX og TAXII for deling av truslerinformasjon, og var medskaper av OVAL mens han ledet MITREs sikkerhetsautomatiseringsprogram.