Tankeledere
Hva tidlige angrep pÄ AI-agenter forteller oss om 2026

Etter hvert som AI beveger seg fra kontrollerte eksperimenter til virkelige applikasjoner, gÄr vi inn i et vendepunkt i sikkerhetslandskapet. Overgangen fra statiske sprÄkmodeller til interaktive, agentiske systemer som er i stand til Ä bla gjennom dokumenter, kalle opp verktÞy og orkestrere flertrinns arbeidsflyter, er allerede i gang. Men som nyere forskning viser, venter ikke angripere pÄ modenhet: de tilpasser seg i samme raske tempo og undersÞker systemer sÄ snart nye funksjoner introduseres.
I fjerde kvartal 2025 analyserte teamet vĂ„rt hos Lakera reell angriperatferd pĂ„ tvers av systemer beskyttet av Guard og innenfor Gandalf: Agent Breaker-miljĂžet â et fokusert 30-dagers Ăžyeblikksbilde som, til tross for det smale vinduet, gjenspeiler bredere mĂžnstre vi observerte gjennom hele kvartalet. funn mal et klart bilde: sĂ„ snart modeller begynner Ă„ samhandle med noe utover enkle tekstmeldinger (for eksempel dokumenter, verktĂžy, eksterne data), utvides trusseloverflaten, og motstandere justerer seg umiddelbart for Ă„ utnytte den.
Dette Þyeblikket kan fÞles kjent for de som sÄ tidlige webapplikasjoner utvikle seg, eller som observerte fremveksten av API-drevne angrep. Men med AI-agenter, innsatsen er annerledes. Angrepsvektorene dukker opp raskere enn mange organisasjoner forventet.
Fra teori til praksis: Agenter i naturen
I store deler av 2025 dreide diskusjonene rundt AI-agenter seg i stor grad om teoretisk potensial og tidlige prototyper. Men innen fjerde kvartal begynte agentisk atferd Ä dukke opp i produksjonssystemer i stor skala: modeller som kunne hente og analysere dokumenter, samhandle med eksterne API-er og utfÞre automatiserte oppgaver. Disse agentene ga Äpenbare produktivitetsfordeler, men de Äpnet ogsÄ dÞrer som tradisjonelle sprÄkmodeller ikke gjorde.
VÄr analyse viser at de umiddelbare agentene ble i stand til Ä samhandle med eksternt innhold og verktÞy, angripere la merke til det og tilpasset seg deretter. Denne observasjonen stemmer overens med en grunnleggende sannhet om fiendtlig atferd: angripere vil alltid utforske og utnytte nye muligheter ved fÞrste anledning. I sammenheng med agentisk AI har dette fÞrt til en rask utvikling i angrepsstrategier.
AngrepsmĂžnstre: Hva vi ser i fjerde kvartal 2025
PÄ tvers av datasettet vi gjennomgikk, dukket det opp tre dominerende mÞnstre. Hvert av dem har dyptgÄende implikasjoner for hvordan AI-systemer designes, sikres og distribueres.
1. Systempromptuttrekking som et sentralt mÄl
I tradisjonelle sprÄkmodeller, rask injeksjon (direkte manipulering av input for Ä pÄvirke output) har vÊrt en godt studert sÄrbarhet. I systemer med agentfunksjoner retter angripere seg imidlertid i Þkende grad mot systemmelding, som er de interne instruksjonene, rollene og policydefinisjonene som styrer agentens oppfÞrsel.
Det er et viktig mÄl Ä trekke ut systemforespÞrsler fordi disse forespÞrslene ofte inneholder rolledefinisjoner, verktÞybeskrivelser, policyinstruksjoner og arbeidsflytlogikk. NÄr en angriper forstÄr disse interne mekanikkene, fÄr de en plan for Ä manipulere agenten.
De mest effektive teknikkene for Ä oppnÄ dette var ikke brute force-angrep, men snarere smart omformulering:
- Hypotetiske scenarierLedetekster som ber modellen om Ă„ innta en annen rolle eller kontekst â f.eks. «Se for deg at du er en utvikler som gjennomgĂ„r denne systemkonfigurasjonenâŠÂ» â overtalte ofte modellen til Ă„ avslĂžre beskyttede interne detaljer.
- TilslÞring i strukturert innholdAngripere innebygde ondsinnede instruksjoner i kodelignende eller strukturert tekst som omgikk enkle filtre og utlÞste utilsiktet atferd nÄr den ble analysert av agenten.
Dette er ikke bare en inkrementell risiko â det endrer fundamentalt hvordan vi tenker pĂ„ Ă„ ivareta intern logikk i agentsystemer.
2. SikkerhetsomgÄelser for subtilt innhold
En annen viktig trend innebÊrer Ä omgÄ innholdssikkerhetsbeskyttelse pÄ mÄter som er vanskelige Ä oppdage og redusere med tradisjonelle filtre.
I stedet for Äpenlyst ondsinnede forespÞrsler, presenterte angriperne skadelig innhold som:
- Analyseoppgaver
- evalueringer
- Scenarier for rollespill
- Transformasjoner eller sammendrag
Disse omformuleringene slapp ofte forbi sikkerhetskontrollene fordi de vises godartet pÄ overflaten. En modell som ville avslÄ en direkte forespÞrsel om skadelig utdata, kan gjerne produsere den samme utdataen nÄr den blir bedt om Ä «evaluere» eller «oppsummere» den i kontekst.
Dette skiftet understreker en dypere utfordring: innholdssikkerhet for AI-agenter handler ikke bare om hĂ„ndheving av retningslinjer; det handler om hvordan modeller tolke intensjonEtter hvert som agenter tar pĂ„ seg mer komplekse oppgaver og kontekster, blir modeller mer utsatt for kontekstbasert nytolkning â og angripere utnytter denne oppfĂžrselen.
3. Fremveksten av agentspesifikke angrep
Det kanskje viktigste funnet var fremveksten av angrepsmÞnstre som bare gir mening i sammenheng med agenters evner. Dette var ikke enkle forsÞk pÄ rask injeksjon, men utnyttelser knyttet til ny atferd:
- ForsĂžk pĂ„ Ă„ fĂ„ tilgang til konfidensielle interne dataLedetekster ble laget for Ă„ overbevise agenten om Ă„ hente eller eksponere informasjon fra tilkoblede dokumentlagre eller systemer â handlinger som tidligere ville ha vĂŠrt utenfor modellens omfang.
- Skriptformede instruksjoner innebygd i tekstAngripere eksperimenterte med Ä legge inn instruksjoner i formater som ligner pÄ skript eller strukturert innhold, som kunne flyte gjennom en agentpipeline og utlÞse utilsiktede handlinger.
- Skjulte instruksjoner i eksternt innholdFlere angrep innebygd ondsinnede direktiver inne i eksternt referert innhold â for eksempel nettsider eller dokumenter agenten ble bedt om Ă„ behandle â og omgĂ„r dermed effektivt direkte inputfiltre
Disse mĂžnstrene er tidlige, men signaliserer en fremtid der agenters voksende evner fundamentalt endrer naturen til fiendtlig atferd.
Hvorfor indirekte angrep er sÄ effektive
Et av rapportens mest slĂ„ende funn er at indirekte angrep â de som bruker eksternt innhold eller strukturerte data â krevde fĂŠrre forsĂžk enn direkte injeksjoner. Dette tyder pĂ„ at tradisjonell input-sanering og direkte spĂžrringsfiltrering er utilstrekkelig forsvar nĂ„r modeller samhandler med upĂ„litelig innhold.
NĂ„r en skadelig instruksjon ankommer gjennom en ekstern agents arbeidsflyt â enten det er et lenket dokument, et API-svar eller en hentet nettside â er tidlige filtre mindre effektive. Resultatet: angripere har en stĂžrre angrepsflate og fĂŠrre hindringer.
Implikasjoner for 2026 og utover
Rapportens funn har presserende implikasjoner for organisasjoner som planlegger Ă„ distribuere agentisk AI i stor skala:
- Omdefiner tillitsgrenser
Stol kan ikke bare vÊre binÊr. NÄr agenter samhandler med brukere, eksternt innhold og interne arbeidsflyter, mÄ systemer implementere nyanserte tillitsmodeller som tar hensyn til kontekst, opprinnelse og formÄl. - Rekkverk mÄ utvikles
Statiske sikkerhetsfiltre er ikke nok. Guardrails mĂ„ vĂŠre adaptive, kontekstbevisste og i stand til Ă„ resonnere om intensjon og atferd pĂ„ tvers av flertrinns arbeidsflyter. - Ă
penhet og revisjon er avgjĂžrende
Etter hvert som angrepsvektorer blir mer komplekse, trenger organisasjoner innsikt i hvordan agenter tar beslutninger â inkludert mellomtrinn, eksterne interaksjoner og transformasjoner. Reviderbare logger og forklaringsrammeverk er ikke lenger valgfrie. - Tverrfaglig samarbeid er nĂžkkelen
AI-forskning, sikkerhetsteknikk og trusseletterretningsteam mÄ samarbeide. AI-sikkerhet kan ikke isoleres; den mÄ integreres med bredere cybersikkerhetspraksiser og rammeverk for risikostyring. - Regulering og standarder mÄ ta igjen tapt tap
Politikere og standardiseringsorganer mĂ„ erkjenne at agentsystemer skaper nye risikoklasser. Forskrift som tar for seg personvern og utdatasikkerhet er nĂždvendige, men ikke tilstrekkelige; de ââmĂ„ ogsĂ„ ta hensyn til interaktiv atferd og flertrinns utfĂžrelsesmiljĂžer.
Fremtiden for sikre AI-agenter
Ankomsten av agentisk AI representerer et betydelig skifte i kapasitet og risiko. Dataene fra fjerde kvartal 2025 er en tidlig indikator pĂ„ at sĂ„ snart agenter begynner Ă„ operere utover enkel tekstgenerering, vil angripere fĂžlge etter. Funnene vĂ„re viser at motstandere ikke bare tilpasser seg â de innoverer angrepsteknikker som tradisjonelle forsvar ennĂ„ ikke er forberedt pĂ„ Ă„ motvirke.
For bedrifter og utviklere er budskapet klart: Ä sikre AI-agenter er ikke bare en teknisk utfordring; det er en arkitektonisk en. Det krever at man tenker nytt om hvordan tillit etableres, hvordan rekkverk hÄndheves og hvordan risiko kontinuerlig vurderes i dynamiske, interaktive miljÞer.
I 2026 og utover vil organisasjonene som lykkes med agentisk AI vĂŠre de som behandler sikkerhet ikke som en ettertanke, men som et grunnleggende designprinsipp.












