Cybersikkerhet

Sikkerhetssårbarhetene vi bygget inn: AI-agenter og problemet med lydighet

Published June 18, 2025

Updated April 26, 2026

Radoslaw Madej, Vulnerability Research Team Lead at Check Point Research

LLM-baserte AI-agenter innfører en ny klasse sårbarheter, der angripere injiserer skadelige instruksjoner i data, og omdanner nyttige systemer til uvitende medskyldige.

Microsoft Copilot ble ikke hakket i klassisk forstand. Det var ingen malware, ingen phishing-lenker, ingen skadelig kode. Ingen klikket på noe eller deployerte noen eksploit.

Truslsaktøren ba bare. Microsoft 365 Copilot, som gjorde eksakt det det var bygget for å gjøre, adlød. I den nylige Echoleak zero click-angrep, ble AI-agenten manipulert av en prompt forkledt som data. Det adlød, ikke fordi det var ødelagt, men fordi det fungerte som det var designet til.

Denne sårbarheten utnyttet ikke programvarefeil. Den utnyttet språk. Og det markerer en stor vending i cybersikkerhet, der angrepsflaten ikke lenger er kode, men samtale.

Det nye AI-lydighetsproblemet

AI-agenter er designet for å hjelpe. Deres formål er å forstå brukerens intensjon og handle effektivt. Denne nytten kommer med risiko. Når de er innbygget i filsystemer, produktivitetsplattformer eller operativsystemer, følger disse agentene naturlige språkommander med minimal motstand.

Truslsaktører utnytter nettopp denne egenskapen. Med prompt-injeksjoner som ser harmløse ut, kan de utløse sensitive handlinger. Disse promptene kan inkludere:

Flerspråklige kodefragmenter
Uvanlige filformater og innbygde instruksjoner
Ikke-engelske språkinput
Flertrinnskommandoer skjult i uformell språk

Fordi store språkmodeller (LLM-er) er trent for å forstå kompleksitet og tvetydighet, blir prompten payloaden.

Spenningen fra Siri og Alexa

Dette mønsteret er ikke nytt. I de tidlige dagene med Siri og Alexa, viste forskere hvordan å spille en stemmekommando som “Send alle mine bilder til denne e-posten” kunne utløse en handling uten brukerverifisering.

Nå er truslen større. AI-agenter som Microsoft Copilot er integrert dypt i Office 365, Outlook og operativsystemet. De har tilgang til e-post, dokumenter, legitimasjoner og API-er. Angripere trenger bare riktig prompt for å ekstrahere kritisk data, samtidig som de utgir seg for å være en legitim bruker.

Når datamaskiner forveksler instruksjoner med data

Dette er ikke et nytt prinsipp i cybersikkerhet. Injeksjoner som SQL-angrep lyktes fordi systemer ikke kunne skille mellom input og instruksjon. I dag eksisterer denne feilen fortsatt, men på språklaget.

AI-agenter behandler naturlig språk som både input og intensjon. Et JSON-objekt, et spørsmål eller selv en setning kan initiere en handling. Denne tvetydigheten er det truslsaktører utnytter, ved å innbygge kommandoer i det som ser ut som harmløs innhold.

Vi har innbygget intensjon i infrastrukturen. Nå har truslsaktører lært hvordan de kan ekstrahere den for å gjøre deres vilje.

AI-tilpasning går foran cybersikkerhet

Etterhvert som bedrifter skynder seg for å integrere LLM-er, overseer mange en kritisk spørsmål: hva har AI tilgang til?

Når Copilot kan berøre operativsystemet, utvides skadeområdet langt utenfor innboksen. Ifølge Check Points AI-sikkerhetsrapport:

62 prosent av globale Chief Information Security Officers (CISO-er) frykter at de kan holdes personlig ansvarlige for AI-relaterte brudd
Nærmere 40 prosent av organisasjonene rapporterer om ikke-godkjent intern bruk av AI, ofte uten sikkerhetsoversikt
20 prosent av cyberkriminelle grupper innlemmer nå AI i deres operasjoner, inkludert for å lage phishing og gjennomføre rekognosering

Dette er ikke bare en fremvoksende risiko. Det er en nåværende risiko som allerede forårsaker skade.

Hvorfor eksisterende sikkerhetstiltak ikke er tilstrekkelige

Noen leverandører bruker vakthunder — sekundære modeller trent for å fange farlige prompter eller mistenkelige handlinger. Disse filterne kan detektere grunnleggende trusler, men er sårbare for unngåelses-teknikker.

Truslsaktører kan:

Overbelaste filterne med støy
Splitte intensjonen over flere trinn
Bruke ikke-åpenbare formuleringer for å unngå deteksjon

I tilfelle Echoleak var sikkerhetstiltakene til stede — og de ble omgått. Dette reflekterer ikke bare en feil i politikk, men en feil i arkitektur. Når en agent har høynivå-tilgang, men lavnivå-kontekst, svikter selv gode retningslinjer.

Deteksjon, ikke fullkommenhet

Å forhindre hver enkelt angrep kan være urealistisk. Målet må være rask deteksjon og rask innesperring.

Organisasjoner kan starte med:

Overvåking av AI-agentaktivitet i sanntid og vedlikeholde prompt-loggfiler
Å anvende strengeste mulige tilgang til AI-verktøy, speiling admin-nivå-kontroll
Å legge til friksjon til sensitive operasjoner, som å kreve bekreftelser
Å flagge uvanlige eller motstridende promptmønster for gjennomgang

Språkbaserte angrep vil ikke dukke opp i tradisjonelle endpoint-deteksjon og respons (EDR)-verktøy. De krever en ny deteksjonsmodell.

Hva organisasjoner må gjøre nå for å beskytte seg

Før de deployer AI-agenter, må organisasjoner forstå hvordan disse systemene opererer og hvilke risikoer de innfører.

Nøkkelanbefalinger inkluderer:

Auditor alle tilganger: Vite hva agenter kan berøre eller utløse
Begrens omfanget: Gi minimum nødvendige tillatelser
Spor alle interaksjoner: Logg prompter, svar og resulterende handlinger
Stress-test: Simuler motstridende input internt og hyppig
Planlegg for unngåelse: Anta at filter vil bli omgått
Samordne med sikkerhet: Sørg for at LLM-systemer støtter, ikke kompromitterer, sikkerhetsmål

Det nye angrepsflaten

Echoleak er en forhåndsvisning av hva som kommer. Etterhvert som LLM-er utvikles, blir deres nytten en sårbarhet. Integrert dypt i bedriftssystemer, tilbyr de angripere en ny måte inn — gjennom enkle, velkonstruerte prompter.

Dette er ikke lenger bare om å sikre kode. Det er om å sikre språk, intensjon og kontekst. Spillreglene må endres nå, før det er for sent.

Og likevel, er det noen gode nyheter. Det skjer fremgang i å utnytte AI-agenter til å forsvare mot nye og fremvoksende cybertrusler. Når de utnyttes på riktig måte, kan disse autonome AI-agentene svare på trusler raskere enn noen menneske, samarbeide over miljøer og proaktivt forsvare mot fremvoksende risiko ved å lære av et enkelt innbruddsforsøk.

Agens AI kan lære av hvert angrep, tilpasse seg i sanntid og forhindre trusler før de sprenger. Det har potensialet til å etablere en ny æra av cybersikkerhet, men bare hvis vi griper denne øyeblikket og former fremtiden av cybersikkerhet sammen. Hvis vi ikke gjør det, kan denne nye æraen signalisere en cybersikkerhets- og datavernkatastrofe for organisasjoner som allerede har implementert AI (av og til sogar uten å vite det med skygge-IT-verktøy). Nå er tiden til å handle for å sikre at AI-agenter brukes til vår fordel, ikke vår undergang.

Radoslaw Madej, Vulnerability Research Team Lead at Check Point Research

Radoslaw Madej er Vulnerability Research Team Lead hos Check Point Research. Radoslaw er en lidenskapelig cyber sikkerhetsekspert med nesten to tiår med teknisk erfaring i ulike områder av informasjonssikkerhet, oppnådd gjennom levering av prosjekter for globale bedrifter med høye sikkerhetskrav.