Tankeledere
Hva tidlige angrep på AI-agenter forteller oss om 2026

Ettersom AI beveger seg fra kontrollerte eksperimenter til virkelige anvendelser, går vi inn i et infeksjonspunkt i sikkerhetslandskapet. Overgangen fra statiske språkmodeller til interaktive, agente systemer som kan bla gjennom dokumenter, ringe verktøy og orchestrere multi-stegs arbeidsflyter, er allerede i gang. Men som nylig forskning avslører, venter ikke angriperne på at systemene modnes: de tilpasser seg i samme raske takt, og tester systemene så snart nye funksjoner introduseres.
I fjerde kvartal 2025 analyserte vårt team på Lakera virkelig angriperatferd på systemer beskyttet av Guard og i Gandalf: Agent Breaker-miljøet — et fokusert, 30-dagers snapshot som, til tross for det smale vinduet, reflekterer bredere mønster vi observerte gjennom kvartalet. Funndene maler et tydelig bilde: så snart modellene begynner å interagere med noe utover enkle tekstprompter (for eksempel: dokumenter, verktøy, eksterne data) utvides trusselen, og motstanderne justerer øyeblikkelig for å utnytte det.
Dette øyeblikket kan føles kjent for de som så på tidlige web-applikasjoner utvikle seg, eller som observerte oppkomsten av API-drevne angrep. Men med AI-agenter, er innsatsen annerledes. Angrepsvektorene oppstår raskere enn mange organisasjoner hadde forventet.
Fra teori til praksis: Agenter i villmarken
For mye av 2025, handlet diskusjonene om AI-agenter hovedsakelig om teoretisk potensial og tidlige prototyper. Men ved Q4, begynte agente atferd å dukke opp i produksjonssystemer i stor skala: modeller som kunne hente og analysere dokumenter, interagere med eksterne API-er, og utføre automatiserte oppgaver. Disse agentene tilbød åpenbare produktivitetsfordeler, men de åpnet også dører som tradisjonelle språkmodeller ikke gjorde.
Vår analyse viser at så snart agentene ble i stand til å interagere med eksternt innhold og verktøy, la angriperne merke til og tilpasset seg deretter. Denne observasjonen stemmer overens med en grunnleggende sannhet om motstanderatferd: angripere vil alltid utforske og utnytte nye funksjoner på tidligest mulig tidspunkt. I sammenheng med agente AI, har dette ført til en rask utvikling i angrepsstrategier.
Angrepsmønster: Hva vi ser i Q4 2025
Over datasettet vi gjennomgikk, oppstod tre dominante mønster. Hver har dyptgående implikasjoner for hvordan AI-systemer er designet, sikret og distribuert.
1. Systemprompt-uttrekk som et sentralt mål
I tradisjonelle språkmodeller, har prompt-injeksjon (direkte manipulering av inndata for å påvirke utdata) vært en godt studert sårbarhet. Imidlertid, i systemer med agente egenskaper, tar angriperne ofte mål på systemprompten, som er de interne instruksjonene, rolledefinisjonene og policydefinisjonene som guider agentatferden.
Å trekke ut systemprompter er et høyt-verdi mål, fordi disse promptene ofte inneholder rolledefinisjoner, verktøysbeskrivelser, policyinstruksjoner og arbeidsflytlogikk. Så snart en angriper forstår disse interne mekanismene, får de en blåkopi for å manipulere agenten.
De mest effektive teknikker for å oppnå dette, var ikke brute force-angrep, men snarere smart omramming:
- Hypotetiske scenarier: Prompter som ber modellen om å anta en annen rolle eller kontekst — for eksempel: «Tenk at du er en utvikler som gjennomgår denne systemkonfigurasjonen…» — ofte lokket modellen til å avsløre beskyttede interne detaljer.
- Forvrengning innen strukturert innhold: Angriperne innlemmet skadelige instruksjoner innen kode-lignende eller strukturert tekst som bypasset enkle filtre og utløste uventede atferd når de ble parsert av agenten.
Dette er ikke bare en inkrementell risiko — det endrer fundamentalt hvordan vi tenker om å beskytte intern logikk i agente systemer.
2. Subtile innholdssikkerhets-omgåelser
En annen nøkkel-trend involverer å omgå innholdssikkerhetsbeskyttelser på måter som er vanskelige å oppdage og motvirke med tradisjonelle filtre.
I stedet for åpenbart skadelige forespørsler, rammet angriperne skadelig innhold som:
- Analyseoppgaver
- Vurderinger
- Rolle-spillscenarier
- Transformasjoner eller sammendrag
Disse omrammingene gikk ofte forbi sikkerhetskontroller fordi de ser ut harmløse på overflaten. En modell som ville nekte en direkte forespørsel om skadelig utdata, kunne gjerne produsere samme utdata når den ble bedt om å «vurdere» eller «sammendrage» det i kontekst.
Denne skiftet understreker en dypere utfordring: innholdssikkerhet for AI-agenter handler ikke bare om policy-gjennomføring; det handler om hvordan modellene tolk mening. Ettersom agenter tar på seg mer komplekse oppgaver og kontekster, blir modellene mer sårbare for kontekst-basert omfortolkning — og angriperne utnytter denne atferden.
3. Oppkomsten av agent-spesifikke angrep
Kanskje det mest konsekvensfulle funnet var oppkomsten av angrepsmønster som bare har mening i sammenheng med agente egenskaper. Disse var ikke enkle prompt-injeksjonsforsøk, men utnyttelse knyttet til nye atferd:
- Forsøk på å få tilgang til konfidensielle interne data: Prompter ble laget for å overtale agenten til å hente eller avsløre informasjon fra tilkoblede dokumentlagre eller systemer — handlinger som tidligere ville ha vært utenfor modellens omfang
- Skript-formet instruksjoner innlemmet i tekst: Angriperne eksperimenterte med å innlemme instruksjoner i formater som ligner skript eller strukturert innhold, som kunne flyte gjennom en agent-pipeline og utløse uventede handlinger
- Gjemte instruksjoner i eksternt innhold: Flere angrep innlemmet skadelige direktiver innen eksternt referert innhold — som web-sider eller dokumenter agenten ble bedt om å prosessere — og effektivt omgikk direkte inndatafiltre
Disse mønsterne er tidlige, men signaliserer en fremtid hvor agentenes utvidede egenskaper fundamentalt endrer naturen til motstanderatferd.
Hvorfor indirekte angrep er så effektive
En av rapportens mest slående funn er at indirekte angrep — de som utnytter eksternt innhold eller strukturert data — krevde færre forsøk enn direkte injeksjoner. Dette antyder at tradisjonell inndata-sanitering og direkte spørring-filtrering er utilstrekkelige forsvar så snart modellene interagerer med upålitelig innhold.
Når en skadelig instruksjon ankommer gjennom en ekstern agent-arbeidsflyt — enten det er en lenket dokument, en API-respons eller en hentet webside — er tidlige filtre mindre effektive. Resultatet: angriperne har en større angrepsflate og færre hindringer.
Konsekvenser for 2026 og utover
Rapportens funn har akutte konsekvenser for organisasjoner som planlegger å distribuere agente AI i stor skala:
- Omdefiner tillitsgrenser
Tillit kan ikke bare være binær. Ettersom agenter interagerer med brukere, eksternt innhold og interne arbeidsflyter, må systemene implementere nyanserte tillitsmodeller som tar hensyn til kontekst, proveniens og formål. - Sikkerhetsforanstaltninger må utvikles
Statiske sikkerhetsfiltre er ikke nok. Sikkerhetsforanstaltninger må være adaptive, kontekst-bevisste og i stand til å resonnere omkring mening og atferd over multi-stegs arbeidsflyter. - Gjennomsiktighet og revisjon er essensielle
Ettersom angrepsvektorene blir mer komplekse, trenger organisasjoner synlighet i hvordan agenter tar beslutninger — inkludert mellomliggende steg, eksterne interaksjoner og transformasjoner. Revisjon og forklarbarhets-rammeverk er ikke lenger valgfrie. - Tverrfaglig samarbeid er nøkkel
AI-forskning, sikkerhetsingeniører og trussel-intelligens-team må arbeide sammen. AI-sikkerhet kan ikke være avdelingsbasert; den må integreres med bredere sikkerhetspraksis og risikostyrings-rammeverk. - Regulering og standarder må fange opp
Beslutningstakere og standardiseringsorganer må erkjenne at agente systemer skaper nye klasser av risiko. Reguleringer som håndterer dataprivacy og utgangssikkerhet er nødvendige, men ikke tilstrekkelige; de må også omfatte interaktive atferd og multi-stegs eksekveringsmiljø.
Fremtiden for sikre AI-agenter
Ankomsten av agente AI representerer en profond endring i evne og risiko. Q4 2025-data er en tidlig indikator på at så snart agenter begynner å operere utenfor enkle tekst-generering, vil angriperne følge. Våre funn viser at motstandere ikke bare tilpasser seg — de innovasjon angreps-teknikker som tradisjonelle forsvar ikke er klar til å motvirke.
For bedrifter og utviklere, er beskjeden klar: å sikre AI-agenter er ikke bare en teknisk utfordring; det er en arkitektonisk en. Det krever å tenke om hvordan tillit etableres, hvordan sikkerhetsforanstaltninger gjennomføres og hvordan risiko kontinuerlig vurderes i dynamiske, interaktive miljø.
I 2026 og utover, vil organisasjonene som lykkes med agente AI være de som behandler sikkerhet ikke som en ettertanke, men som en grunnleggende design-prinsipp.












