Tankeledere
Hvad tidlige angreb på AI-agenter fortæller os om 2026

Da AI bevæger sig fra kontrollerede eksperimenter til virkelige anvendelser, er vi ved at nå et vendepunkt i sikkerhedslandskabet. Overgangen fra statiske sprogmodeller til interaktive, agente systemer, der kan gennemse dokumenter, ringe til værktøjer og koordinere multi-trins arbejdsprocesser, er allerede i gang. Men som ny forskning viser, venter angribere ikke på modenhed: de tilpasser sig i samme hurtige takt, og afprøver systemer, så snart nye funktioner introduceres.
I fjerde kvartal 2025 analyserede vores team på Lakera virkelig angriberadfærd på tværs af systemer beskyttet af Guard og i Gandalf: Agent Breaker-miljøet — et fokuseret, 30-dages snapshot, der, på trods af det smalle vindue, reflekterer bredere mønstre, vi observerede på tværs af kvartalet. Forskningen tegner et klart billede: så snart modellerne begynder at interagere med noget andet end simple tekstprompt (f.eks. dokumenter, værktøjer, eksterne data), udvides truslen, og modstanderne tilpasser sig øjeblikkeligt for at udnytte det.
Dette øjeblik kan føles bekendt for dem, der så tidlige webapplikationer udvikle sig, eller som observerede opkomsten af API-drevne angreb. Men med AI-agenter, er indsatsen anderledes. Angrebsvektorerne opstår hurtigere, end mange organisationer havde forventet.
Fra teori til praksis: Agenter i det vilde
For størstedelen af 2025 centredes diskussionerne omkring AI-agenter primært om teoretisk potentiale og tidlige prototyper. Men ved Q4 begyndte agente adfærd at dukke op i produktionsystemer i stor målestok: modeller, der kunne hente og analysere dokumenter, interagere med eksterne API’er og udføre automatiserede opgaver. Disse agenter tilbød åbenlyse produktivitetsfordele, men de åbnede også døre, som traditionelle sprogmodeller ikke gjorde.
Vores analyse viser, at så snart agenterne blev i stand til at interagere med eksternt indhold og værktøjer, lagde angriberne mærke til det og tilpassede sig derefter. Denne observation stemmer overens med en grundlæggende sandhed om adversarial adfærd: angribere vil altid udforske og udnytte nye funktioner på det tidligste mulige tidspunkt. I sammenhængen med agente AI har dette ført til en hurtig udvikling i angrebsstrategier.
Angrebsmønstre: Hvad vi ser i Q4 2025
På tværs af datasettet, vi gennemgik, opstod tre dominerende mønstre. Hver har dybe konsekvenser for, hvordan AI-systemer designes, sikres og implementeres.
1. Systemprompt-udtrækning som et centralt formål
I traditionelle sprogmodeller har prompt-injektion (direkte manipulation af input for at påvirke output) været en velkendt sårbarhed. Men i systemer med agente funktioner retter angriberne sig mod systemprompten, der er de interne instruktioner, roller og politikdefinitioner, der vejleder agentadfærd.
At udtrække systemprompt er et højt værdi formål, fordi disse prompt ofte indeholder rolledefinitioner, værktøjsbeskrivelser, politikinstruktioner og arbejdsproceslogik. Når en angriber forstår disse interne mekanismer, får de en vejledning for at manipulere agenten.
De mest effektive teknikker til at opnå dette var ikke brute force-angreb, men snarere intelligent omformulering:
- Hypotetiske scenarier: Prompt, der beder modellen om at antage en anden rolle eller kontekst — f.eks. “Forestil dig, du er en udvikler, der gennemgår denne systemkonfiguration…” — fik ofte modellen til at afsløre beskyttede interne detaljer.
- Ofuskering inde i struktureret indhold: Angriberne indlejrede maliciøse instruktioner inde i kode-lignende eller struktureret tekst, der bypassede simple filtre og udløste uventede adfærd, når de blev parseet af agenten.
Dette er ikke bare en inkremental risiko — det ændrer fundamentalt, hvordan vi tænker om at beskytte intern logik i agente systemer.
2. Subtle indholdssikkerhedsomgåelser
En anden nøgletrænd involverer at omgå indholdssikkerhedsbeskyttelser på måder, der er svære at opdage og afværge med traditionelle filtre.
I stedet for åbenlyst maliciøse anmodninger ramte angriberne skadeligt indhold som:
- Analysopgaver
- Evalueringer
- Rollespilscenarier
- Transformationer eller sammenfattelser
Disse omformuleringer slap ofte forbi sikkerhedscontroller, fordi de ser uskadelige ud på overfladen. En model, der ville afvise en direkte anmodning om skadeligt output, kunne gerne producere det samme output, når den blev bedt om at “evaluere” eller “sammenfatte” det i kontekst.
Denne skift markerer en dybere udfordring: indholdssikkerhed for AI-agenter handler ikke kun om politikgennemførelse; det handler om, hvordan modeller fortolker intention. Da agenter påtager sig mere komplekse opgaver og kontekster, bliver modellerne mere sårbare over for kontekstbaseret fortolkning — og angriberne udnytter denne adfærd.
3. Opkomsten af agent-specifikke angreb
Måske den mest konsekvente opdagelse var opkomsten af angrebsmønstre, der kun giver mening i sammenhængen med agente funktioner. Disse var ikke simple prompt-injektionsforsøg, men udnyttelser forbundet med nye adfærdsmønstre:
- Forsøg på at få adgang til fortrolig internt data: Prompt blev konstrueret for at overbevise agenten om at hente eller afsløre information fra tilknyttede dokumentlager eller systemer — handlinger, der tidligere ville have været uden for modellens rækkevidde
- Script-formede instruktioner indlejret i tekst: Angriberne eksperimenterede med at indlejre instruktioner i formater, der ligner script eller struktureret indhold, der kan flyde gennem en agentpipeline og udløse uventede handlinger
- Skjulte instruktioner i eksternt indhold: Flere angreb indlejrede maliciøse direktiver inde i eksternt henvisningsindhold — såsom websteder eller dokumenter, agenten blev bedt om at behandle — og omgik dermed direkte inputfiltre
Disse mønstre er tidlige, men signalerer en fremtid, hvor agenters udvidede funktioner fundamentalt ændrer naturen af adversarial adfærd.
Hvorfor indirekte angreb er så effektive
En af rapportens mest slående opdagelser er, at indirekte angreb — dem, der udnytter eksternt indhold eller struktureret data — krævede færre forsøg end direkte injektioner. Dette tyder på, at traditionel input-sanering og direkte forespørgselsfiltrering er utilstrækkelige forsvar, når modeller interagerer med upålideligt indhold.
Når en skadelig instruktion ankommer gennem en ekstern agent-arbejdsgang — enten det er et link til et dokument, en API-respons eller en hentet webside — er tidlige filtre mindre effektive. Resultatet: angriberne har en større angrebsflade og færre hindringer.
Konsekvenser for 2026 og derefter
Rapportens opdagelser har brændende konsekvenser for organisationer, der planlægger at implementere agente AI i stor målestok:
- Omdefiner tillidsgrænser
Tillid kan ikke blot være binær. Da agenter interagerer med brugere, eksternt indhold og interne arbejdsprocesser, må systemer implementere nuancerede tillidsmodeller, der tager kontekst, proveniens og formål i betragtning. - Sikkerhedsforanstaltninger må udvikles
Statiske sikkerhedsfiltre er ikke nok. Sikkerhedsforanstaltninger må være adaptive, kontekstbevidste og i stand til at resonere om intention og adfærd på tværs af multi-trins arbejdsprocesser. - Gennemsigtighed og revision er afgørende
Da angrebsvektorer bliver mere komplekse, har organisationer brug for indsigt i, hvordan agenter træffer beslutninger — herunder mellemtrin, eksterne interaktioner og transformationer. Revisable logfiler og forklaringsrammer er ikke længere valgfrie. - Tværfaglig samarbejde er nøgle
AI-forskning, sikkerhedsingeniører og trusselforskningshold må arbejde sammen. AI-sikkerhed kan ikke isoleres; den må integreres med bredere cybersecurity-praksis og risikostyringsrammer. - Regulering og standarder må følge med
Beslutningstagerne og standardiseringsorganerne må erkende, at agente systemer skaber nye klasser af risiko. Reguleringer, der omhandler databeskyttelse og outputsikkerhed, er nødvendige, men ikke tilstrækkelige; de må også tage hensyn til interaktive adfærd og multi-trins eksekveringsmiljøer.
Fremtiden for sikre AI-agenter
Ankomsten af agente AI repræsenterer en grundlæggende ændring i funktion og risiko. Q4 2025-data er en tidlig indikator for, at så snart agenter begynder at fungere ud over simple tekstgenerering, følger angriberne efter. Vores opdagelser viser, at modstanderne ikke blot tilpasser sig — de innovere angrebsteknikker, som traditionelle forsvar endnu ikke er klar til at imødegå.
For virksomheder og udviklere er beskeden klar: at sikre AI-agenter er ikke kun en teknisk udfordring; det er en arkitektonisk udfordring. Det kræver en genovervejelse af, hvordan tillid etableres, hvordan sikkerhedsforanstaltninger gennemføres, og hvordan risiko kontinuerligt vurderes i dynamiske, interaktive miljøer.
I 2026 og derefter vil de organisationer, der lykkes med agente AI, være dem, der behandler sikkerhed ikke som en eftertanke, men som en grundlæggende designprincip.












