Tankeledere
Sikkerhetsproblemene vi bygde inn: AI-agenter og problemet med lydighet

LLM-baserte AI-agenter introduserer en ny klasse sårbarheter, der angripere injiserer ondsinnede instruksjoner i data, og gjør nyttige systemer til uvitende medskyldige.
Microsoft Copilot ble ikke hacket i tradisjonell forstand. Det var ingen skadelig programvare, ingen phishing-lenker, ingen ondsinnet kode. Ingen klikket på noe eller distribuerte noen utnyttelse.
Trusselaktøren spurte bare. Microsoft 365 Copilot, som gjorde akkurat det den var laget for å gjøre, etterkom kravene. I det siste Ekkolokk I et nullklikk-angrep ble AI-agenten manipulert av en ledetekst forkledd som data. Den adlød, ikke fordi den var ødelagt, men fordi den fungerte slik den var designet for.
Denne sårbarheten utnyttet ikke programvarefeil. Den utnyttet språk. Og det markerer et stort vendepunkt innen cybersikkerhet, hvor angrepsflaten ikke lenger er kode, men samtale.
Det nye lydighetsproblemet med kunstig intelligens
AI-agenter er utformet for å hjelpe. Hensikten deres er å forstå brukerens intensjon og handle effektivt ut fra den. Dette verktøyet kommer med risiko. Når disse agentene er innebygd i filsystemer, produktivitetsplattformer eller operativsystemer, følger de kommandoer i naturlig språk med minimal motstand.
Trusselaktører utnytter akkurat denne egenskapen. Med raske injeksjoner som virker uskyldige, kan de utløse sensitive handlinger. Disse instruksjonene kan omfatte:
- Flerspråklige kodebiter
- Uklare filformater og innebygde instruksjoner
- Ikke-engelskspråklige inndata
- Flertrinnskommandoer skjult i uformelt språk
Fordi store språkmodeller (LLM-er) er trent til å forstå kompleksitet og tvetydighet, blir ledeteksten nyttelasten.
Siri og Alexas spøkelse
Dette mønsteret er ikke nytt. I Siri og Alexas tidlige dager, forskere demonstrert hvordan det å spille av en talekommando som «Send alle bildene mine til denne e-postadressen» kan utløse en handling uten brukerverifisering.
Nå er trusselen større. AI-agenter som Microsoft Copilot er dypt integrert i Office 365, Outlook og operativsystemet. De får tilgang til e-post, dokumenter, legitimasjon og API-er. Angripere trenger bare riktig ledetekst for å hente ut kritiske data, samtidig som de utgir seg for å være en legitim bruker.
Når datamaskiner forveksler instruksjoner med data
Dette er ikke et nytt prinsipp innen cybersikkerhet. Injeksjoner som SQL-angrep lyktes fordi systemene ikke kunne skille mellom input og instruksjon. I dag finnes den samme feilen, men på språklaget.
AI-agenter behandler naturlig språk som både input og intensjon. Et JSON-objekt, et spørsmål eller til og med en frase kan starte en handling. Denne tvetydigheten er det trusselaktører utnytter, ved å bygge inn kommandoer i det som ser ut som harmløst innhold.
Vi har integrert intensjon i infrastrukturen. Nå har trusselaktører lært hvordan de kan utvinne den for å gjøre det de vil.
AI-adopsjon overgår cybersikkerhet
Etter hvert som bedrifter haster med å integrere juridiske masterprogrammer, overser mange et kritisk spørsmål: hva har AI-en tilgang til?
Når Copilot kan berøre operativsystemet, utvides eksplosjonsradiusen langt utover innboksen. Ifølge Check Points AI-sikkerhetsrapport:
- 62 prosent av globale informasjonssikkerhetssjefer (CISO-er) frykter at de kan bli holdt personlig ansvarlige for AI-relaterte brudd
- Nesten 40 prosent av organisasjoner rapporterer usanksjonert intern bruk av AI, ofte uten sikkerhetstilsyn.
- 20 prosent av nettkriminelle grupper integrerer nå kunstig intelligens i driften sin, inkludert for å lage phishing og gjennomføre rekognosering.
Dette er ikke bare en fremvoksende risiko. Det er en eksisterende risiko som allerede forårsaker skade.
Hvorfor eksisterende sikkerhetstiltak ikke er tilstrekkelige
Noen leverandører bruker watchdogs – sekundære modeller trent til å fange opp farlige meldinger eller mistenkelig atferd. Disse filtrene kan oppdage grunnleggende trusler, men er sårbare for unnvikelsesteknikker.
Trusselaktører kan:
- Overbelastningsfiltre med støy
- Del intensjonen over flere trinn
- Bruk ikke-åpenbar formulering for å omgå deteksjon
I tilfellet med Echoleak var det sikkerhetstiltak til stede – og de ble omgått. Dette gjenspeiler ikke bare en feil i policyen, men også en feil i arkitekturen. Når en agent har tillatelser på høyt nivå, men kontekst på lavt nivå, kommer selv gode beskyttelsesrekkverk til kort.
Deteksjon, ikke perfeksjon
Å forhindre alle angrep kan være urealistisk. Målet må være rask deteksjon og rask inndæmning.
Organisasjoner kan starte med å:
- Overvåking av AI-agentaktivitet i sanntid og vedlikehold av raske revisjonslogger
- Anvender streng tilgang med minste rettigheter til AI-verktøy, og spegler kontroller på administratornivå
- Øker friksjonen ved sensitive operasjoner, som å kreve bekreftelser
- Flagging av uvanlige eller ugunstige spørsmålsmønstre for gjennomgang
Språkbaserte angrep vil ikke dukke opp i tradisjonelle endepunktdeteksjon og respons (EDR)-verktøy. De krever en ny deteksjonsmodell.
Hva organisasjoner bør gjøre nå for å beskytte seg selv
Før organisasjoner tar i bruk AI-agenter, må de forstå hvordan disse systemene fungerer og hvilke risikoer de introduserer.
Viktige anbefalinger inkluderer:
- Overvåk all tilgang: Vit hva agenter kan berøre eller utløse
- Begrens omfanget: Gi minimum nødvendige tillatelser
- Spor alle interaksjoner: Loggfør spørsmål, svar og resulterende handlinger
- Stresstest: Simuler motstridende input internt og ofte
- Plan for unnvikelse: Anta at filtrene vil bli omgått
- Samsvar med sikkerhet: Sørg for at LLM-systemer støtter, ikke kompromitterer, sikkerhetsmål
Den nye angrepsflaten
Echoleak er en forsmak på hva som skal komme. Etter hvert som LLM-er utvikler seg, blir deres hjelpsomhet en belastning. Dypt integrert i forretningssystemer, tilbyr de angripere en ny vei inn – gjennom enkle, velutformede ledetekster.
Dette handler ikke lenger bare om å sikre kode. Det handler om å sikre språk, intensjon og kontekst. Håndboken må endres nå, før det er for sent.
Og likevel finnes det noen gode nyheter. Det gjøres fremskritt når det gjelder å utnytte AI-agenter til forsvare mot nye og fremvoksende cybertrusler. Når de utnyttes riktig, kan disse autonome AI-agentene reagere på trusler raskere enn noe menneske, samarbeide på tvers av miljøer og proaktivt forsvare seg mot nye risikoer ved å lære av et enkelt inntrengingsforsøk.
Agentisk AI kan lære av hvert angrep, tilpasse seg i sanntid og forhindre trusler før de sprer seg. Den har potensial til å etablere en ny æra innen cyberrobusthet, men bare hvis vi griper dette øyeblikket og former fremtiden for cybersikkerhet sammen. Hvis vi ikke gjør det, kan denne nye æraen signalisere et mareritt innen cybersikkerhet og personvern for organisasjoner som allerede har implementert AI (noen ganger til og med ubevisst med skygge-IT-verktøy). Nå er det på tide å iverksette tiltak for å sikre at AI-agenter brukes til vår fordel i stedet for vår undergang.