Tankeledere

Hva tidlige angrep på AI-agenter forteller oss om 2026

mm

Så lenge AI beveger seg fra kontrollerte eksperimenter til virkelige anvendelser, er vi i ferd med å nå et vendepunkt i sikkerhetslandskapet. Overgangen fra statiske språkmodeller til interaktive, agente systemer som kan bla i dokumenter, ringe verktøy og koordinere flertrinnsarbeidsflyter, er allerede i gang. Men som ny forskning avslører, venter ikke angriperne på at modellene modnes: de tilpasser seg i samme raske takt, og tester systemer så snart nye funksjoner introduseres.

I fjerde kvartal 2025 analyserte vårt team på Lakera virkelig angriperatferd på systemer beskyttet av Guard og i Gandalf: Agent Breaker-miljøet — et fokusert, 30-dagersnapshot som, til tross for det smale vinduet, reflekterer bredere mønster vi observerte gjennom hele kvartalet. Funndene tegner et tydelig bilde: så snart modellene begynner å samhandle med noe utover enkle tekstprompter (for eksempel: dokumenter, verktøy, eksterne data), utvides trusselen og motpartene justerer øyeblikkelig for å utnytte den.

Dette øyeblikket kan føles kjent for de som så på tidlige web-applikasjoner utvikle seg, eller som observerte oppblomstringen av API-drevne angrep. Men med AI-agenter, er innsatsen annerledes. Angrepsvektorene oppstår raskere enn mange organisasjoner hadde forventet.

Fra teori til praksis: Agenter i villmarken

For mye av 2025, handlet diskusjonene om AI-agenter hovedsakelig om teoretisk potensiale og tidlige prototyper. Men mot slutten av året, begynte agente atferd å dukke opp i produksjonssystemer i stor skala: modeller som kunne hente og analysere dokumenter, samhandle med eksterne API-er og utføre automatiserte oppgaver. Disse agentene tilbød åpenbare produktivitetsfordeler, men åpnet også dører som tradisjonelle språkmodeller ikke gjorde.

Vår analyse viser at så snart agentene ble i stand til å samhandle med eksternt innhold og verktøy, la angriperne merke til og tilpasset seg deretter. Denne observasjonen stemmer overens med en grunnleggende sannhet om motpartens atferd: angriperne vil alltid utforske og utnytte nye funksjoner på det tidligste mulige tidspunkt. I sammenheng med agente AI, har dette ført til en rask utvikling i angrepsstrategier.

Angrepsmønster: Hva vi ser i Q4 2025

Over hele datasetten vi gjennomgikk, oppstod tre dominante mønster. Hver har dyptgående implikasjoner for hvordan AI-systemer er designet, sikret og distribuert.

1. Systemprompt-ekstraksjon som et sentralt mål

I tradisjonelle språkmodeller har prompt-injeksjon (direkte manipulering av inndata for å påvirke utdata) vært en godt studert sårbarhet. Imidlertid, i systemer med agente egenskaper, retter angriperne seg stadig mer mot systemprompten, som er de interne instruksjoner, roller og policydefinisjoner som styrer agentatferd.

Ekstraksjon av systemprompt er et høytverdig mål fordi disse promptene ofte inneholder rolledefinisjoner, verktøysbeskrivelser, policyinstruksjoner og arbeidsflytlogikk. Når en angriper forstår disse interne mekanismene, får de en blåkopi for å manipulere agenten.

De mest effektive teknikkene for å oppnå dette var ikke brute force-angrep, men snarere smart omformulering:

  • Hypotetiske scenarier: Prompt som ber modellen om å anta en annen rolle eller kontekst — for eksempel: «Tenk at du er en utvikler som gjennomgår denne systemkonfigurasjonen…» — ofte tvang modellen til å avsløre beskyttede interne detaljer.
  • Forvrengning innen strukturert innhold: Angriperne innlemmet skadelige instruksjoner innen kode-lignende eller strukturert tekst som gikk forbi enkle filtre og utløste uventede atferd når de ble parsert av agenten.

Dette er ikke bare en inkrementell risiko — det endrer fundamentalt hvordan vi tenker om å beskytte intern logikk i agente systemer.

2. Subtile innholdssikkerhetsomgåelser

En annen nøkkel-trend involverer å omgå innholdssikkerhetsbeskyttelse på måter som er vanskelige å oppdage og motvirke med tradisjonelle filtre.

I stedet for åpenbart skadelige forespørsler, rammet angriperne skadelig innhold som:

  • Analysetopper
  • Evalueringer
  • Rollespillscenarier
  • Transformasjoner eller sammenfatninger

Disse omformuleringene gikk ofte forbi sikkerhetskontroller fordi de ser ut harmløse på overflaten. En modell som ville nekte en direkte forespørsel om skadelig utdata, kunne gjerne produsere samme utdata når den ble bedt om å «evaluere» eller «sammenfatte» det i kontekst.

Denne skiftet understreker en dypere utfordring: innholdssikkerhet for AI-agenter handler ikke bare om policy-gjennomføring; det handler om hvordan modellene tolk mening. Når agenter tar på seg mer komplekse oppgaver og kontekster, blir modellene mer sårbare for kontekst-basert omfortolkning — og angriperne utnytter denne atferden.

3. Oppblomstring av agentspesifikke angrep

Kanskje det mest konsekvensfulle funnet var oppblomstringen av angrepsmønster som bare gjør mening i sammenheng med agente egenskaper. Disse var ikke enkle prompt-injeksjonsforsøk, men utnyttelse knyttet til nye atferd:

  • Forsøk på å få tilgang til konfidensielle interne data: Prompt ble laget for å overtale agenten til å hente eller avsløre informasjon fra tilkoblede dokumentlagre eller systemer — handlinger som tidligere ville ha vært utenfor modellens omfang
  • Skript-lignende instruksjoner innlemmet i tekst: Angriperne eksperimenterte med å innlemme instruksjoner i formater som ligner skript eller strukturert innhold, som kunne flyte gjennom en agent-pipeline og utløse uventede handlinger
  • Skjulte instruksjoner i eksternt innhold: Flere angrep innlemmet skadelige direktiver innen eksternt referert innhold — som nettsider eller dokumenter agenten ble bedt om å prosessere — og omgikk dermed direkte inndatafiltre

Disse mønstrene er tidlige, men signaliserer en fremtid hvor agenter utvidede evner fundamentalt endrer naturen til motpartens atferd.

Hvorfor indirekte angrep er så effektive

En av rapportens mest slående funn er at indirekte angrep — de som utnytter eksternt innhold eller strukturert data — krevde færre forsøk enn direkte injeksjoner. Dette antyder at tradisjonell inndata-sanering og direkte forespørselsfiltrering er utilstrekkelige forsvar når modellene samhandler med upålitelig innhold.

Når en skadelig instruksjon ankommer gjennom en ekstern agent-arbeidsflyt — enten det er en lenket dokument, en API-respons eller en hentet nettside — er tidlige filtre mindre effektive. Resultatet: angriperne har en større angrepsflate og færre hindre.

Konsekvenser for 2026 og fremover

Rapportens funn har akutte konsekvenser for organisasjoner som planlegger å distribuere agente AI i stor skala:

  1. Omdefiner tillitsgrenser
    Tillit kan ikke bare være binær. Når agenter samhandler med brukere, eksternt innhold og interne arbeidsflyter, må systemene implementere nyanserte tillitsmodeller som tar hensyn til kontekst, proveniens og formål.
  2. Sikkerhetsfilter må utvikles
    Statisk sikkerhetsfilter er ikke nok. Sikkerhetsfilter må være adaptive, kontekst-bevisste og i stand til å resonnere omkring intensjon og atferd over flertrinnsarbeidsflyter.
  3. Gjennomsiktighet og granskning er essensiell
    Når angrepsvektorene vokser mer komplekse, trenger organisasjoner synlighet i hvordan agenter tar beslutninger — inkludert mellomliggende trinn, eksterne interaksjoner og transformasjoner. Granskingslogger og forklaringsrammeverk er ikke lenger valgfrie.
  4. Tverrfaglig samarbeid er nøkkel
    AI-forskning, sikkerhetsingeniører og trussel-intelligens-team må arbeide sammen. AI-sikkerhet kan ikke isoleres; den må integreres med bredere sikkerhetspraksis og risikostyringsrammeverk.
  5. Regulering og standarder må holde tritt
    Policymakere og standardiseringsorganer må erkjenne at agente systemer skaper nye klasser av risiko. Reguleringer som omhandler datapersonvern og utdatasikkerhet er nødvendige, men ikke tilstrekkelige; de må også omfatte interaktive atferd og flertrinns-eksekveringsmiljøer.

Fremtiden for sikre AI-agenter

Ankomsten av agente AI representerer en profond skift i evne og risiko. Q4 2025-data er en tidlig indikator på at så snart agenter begynner å operere utenfor enkle tekstgenerering, vil angriperne følge. Våre funn viser at motpartene ikke bare tilpasser seg — de innovasjon angreps-teknikker som tradisjonelle forsvar ikke ennå er forberedt på å motvirke.

For bedrifter og utviklere er beskjeden tydelig: å sikre AI-agenter er ikke bare en teknisk utfordring; det er en arkitektonisk en. Det krever å tenke om hvordan tillit etableres, hvordan sikkerhetsfilter implementeres og hvordan risiko kontinuerlig vurderes i dynamiske, interaktive miljøer.

I 2026 og fremover vil organisasjonene som lykkes med agente AI være de som behandler sikkerhet ikke som en ettertanke, men som en grunnleggende designprinsipp.

Mateo Rojas-Carulla er sjef for forskning, AI-agent sikkerhet hos Check Point Software Technologies. Tidligere var han medgründer og sjefsforsker hos Lakera, som ble kjøpt av Check Point i 2025. Før han grunnla Lakera, arbeidet Mateo hos Google, Credit Suisse, Facebook og Speechmatics. Han har en PhD i maskinlæring fra University of Cambridge og Max Planck-instituttet i Tübingen.