Tankeledare
Vad tidiga attacker pÄ AI-agenter berÀttar om 2026

När AI flyttar från kontrollerade experiment till verkliga tillämpningar går vi in i en vändpunkt i säkerhetslandskapet. Övergången från statiska språkmodeller till interaktiva, agenter som kan bläddra i dokument, ringa verktyg och orkestrera flerstegsarbetsflöden, är redan på gång. Men som nylig forskning avslöjar, väntar angripare inte på mognad: de anpassar sig i samma snabba takt, och provar system så snart nya funktioner introduceras.
I fjärde kvartalet 2025 analyserade vårt team på Lakera verkligt angriparbeteende över system som skyddades av Guard och inom Gandalf: Agent Breaker-miljön — en fokuserad, 30-dagars ögonblicksbild som, trots dess smala fönster, återspeglar bredare mönster som vi observerade under hela kvartalet. Resultaten målar en tydlig bild: så fort modeller börjar interagera med något utöver enkla textprompt (t.ex.: dokument, verktyg, extern data) utvidgas hotytan, och motståndare anpassar sig omedelbart för att utnyttja den.
Denna ögonblick kan kännas bekant för dem som såg tidiga webbapplikationer utvecklas, eller som observerade uppkomsten av API-drivna attacker. Men med AI-agenter, är insatserna olika. Attackvektorerna uppstår snabbare än många organisationer förutsett.
Från teori till praktik: Agenter i vilt tillstånd
Under större delen av 2025, handlade diskussioner om AI-agenter i huvudsak om teoretisk potential och tidiga prototyper. Men i Q4, började agenter beteenden dyka upp i produktionsystem i stor skala: modeller som kunde hämta och analysera dokument, interagera med externa API:er och utföra automatiserade uppgifter. Dessa agenter erbjöd uppenbara produktivitetsfördelar, men de öppnade också dörrar som traditionella språkmodeller inte gjorde.
Vår analys visar att så fort agenter blev kapabla att interagera med extern innehåll och verktyg, lade angripare märke till och anpassade sig enligt. Denna observation stämmer överens med en grundläggande sanning om antagonistiskt beteende: angripare kommer alltid att utforska och utnyttja nya funktioner vid den tidigaste möjliga tillfällen. I sammanhanget med agenter AI, har detta lett till en snabb evolution i attackstrategier.
Attackmönster: Vad vi ser i Q4 2025
Över hela datamängden som vi granskade, uppstod tre dominerande mönster. Var och en har djupgående implikationer för hur AI-system är utformade, säkrade och distribuerade.
1. Systempromptextrahering som ett centralt mål
I traditionella språkmodeller, har promptinjektion (direkt manipulation av indata för att påverka utdata) varit en väl studerad sårbarhet. Men i system med agenterförmågor, riktar angripare alltmer sig mot systemprompten, som är de interna instruktionerna, rolldefinitionerna och policydefinitionerna som styr agentbeteende.
Att extrahera systemprompt är ett högvärdigt mål eftersom dessa prompt ofta innehåller rolldefinitioner, verktygsbeskrivningar, policyinstruktioner och arbetsflödeslogik. När en angripare förstår dessa interna mekanismer, får de en ritning för att manipulera agenten.
De mest effektiva teknikerna för att uppnå detta var inte brutala attacker, utan snarare smart omformulering:
- Hypotetiska scenarier: Prompt som ber modellen att anta en annan roll eller kontext — t.ex. “Tänk att du är en utvecklare som granskar denna systemkonfiguration…” — ofta lockade modellen att avslöja skyddade interna detaljer.
- Oförståelse inuti strukturerat innehåll: Angripare inbäddade skadliga instruktioner inuti kodliknande eller strukturerat text som kringgick enkla filter och utlöste oavsiktliga beteenden när de tolkades av agenten.
Detta är inte bara en inkrementell risk — det förändrar grundläggande hur vi tänker om att skydda intern logik i agenter-system.
2. Subtila innehållssäkerhetsåtgärder
En annan viktig trend involverar att kringgå innehållssäkerhetsåtgärder på sätt som är svåra att upptäcka och mildra med traditionella filter.
I stället för öppet skadliga förfrågningar, ramade angripare skadligt innehåll som:
- Analystuppgifter
- Utvärderingar
- Rollspelscenario
- Transformationer eller sammanfattningar
Dessa omformuleringar gick ofta förbi säkerhetskontroller eftersom de verkar ofarliga på ytan. En modell som skulle vägra en direkt förfrågan om skadligt utdata kunde glatt producera samma utdata när den blev ombedd att “utvärdera” eller “sammanfatta” det i kontext.
Denna förändring understryker en djupare utmaning: innehållssäkerhet för AI-agenter handlar inte bara om policygenomförande; det handlar om hur modeller tolkar avsikt. När agenter tar på sig mer komplexa uppgifter och kontexter, blir modellerna mer känsliga för kontextbaserad omformulering — och angripare utnyttjar detta beteende.
3. Upptågandet av agentsspecifika attacker
Kanske den mest betydelsefulla upptäckten var uppkomsten av attackmönster som bara har mening i sammanhanget med agenterförmågor. Dessa var inte enkla promptinjektionsförsök utan exploateringar knutna till nya beteenden:
- Försök att komma åt konfidentiella interna data: Prompt formulerades för att övertyga agenten att hämta eller exponera information från anslutna dokumentarkiv eller system — åtgärder som tidigare skulle ha legat utanför modellens omfång
- Skriptformade instruktioner inbäddade i text: Angripare experimenterade med att inbädda instruktioner i format som liknade skript eller strukturerat innehåll, som kunde flöda genom en agentpipeline och utlösa oavsiktliga åtgärder
- Gömda instruktioner i externt innehåll: Flera attacker inbäddade skadliga direktiv inuti externt refererat innehåll — såsom webbsidor eller dokument som agenten blev ombedd att bearbeta — och kringgick därmed direkt indatafilter effektivt
Dessa mönster är tidiga men signalerar en framtid där agenters utvidgade förmågor grundläggande förändrar naturen hos antagonistiskt beteende.
Varför indirekta attacker är så effektiva
En av rapportens mest slående upptäckter är att indirekta attacker — de som utnyttjar externt innehåll eller strukturerat data — krävde färre försök än direkta injektioner. Detta tyder på att traditionell indatarening och direkt frågefiltering är otillräckliga försvar så fort modeller interagerar med obehörigt innehåll.
När en skadlig instruktion anländer genom en extern agentarbetsflöde — vare sig det är ett länkat dokument, ett API-svar eller en hämtad webbsida — är tidiga filter mindre effektiva. Resultatet: angripare har en större attackyta och färre hinder.
Implikationer för 2026 och framåt
Rapportens upptäckter har brådskande implikationer för organisationer som planerar att distribuera agenter AI i stor skala:
- Omdefiniera förtroendegränser
Förtroende kan inte bara vara binärt. När agenter interagerar med användare, externt innehåll och interna arbetsflöden, måste system implementera nyanserade förtroendemodeller som beaktar sammanhang, ursprung och syfte. - Säkerhetsstängsel måste utvecklas
Statiska säkerhetsfilter är inte tillräckligt. Säkerhetsstängsel måste vara adaptiva, kontextmedvetna och kapabla att resonera om avsikt och beteende över flerstegsarbetsflöden. - Transparens och granskning är avgörande
När attackvektorerna blir alltmer komplexa, behöver organisationer insyn i hur agenter fattar beslut — inklusive mellanliggande steg, externa interaktioner och transformationer. Granskningsbara loggar och förklarbarhetsramverk är inte längre valfria. - Tvärvetenskapligt samarbete är nyckeln
AI-forskning, säkerhetsingenjörer och hotintelligens-team måste arbeta tillsammans. AI-säkerhet kan inte isoleras; den måste integreras med bredare cybersäkerhetspraxis och riskhanteringsramverk. - Reglering och standarder måste komma ikapp
Beslutsfattare och standardiseringsorgan måste erkänna att agenter-system skapar nya klasser av risk. Regleringar som hanterar dataskydd och utdata-säkerhet är nödvändiga men inte tillräckliga; de måste också ta hänsyn till interaktiva beteenden och flerstegsutföringsmiljöer.
Framtiden för säkra AI-agenter
Ankomsten av agenter AI representerar en grundläggande förändring i förmåga och risk. Q4 2025-data är en tidig indikator på att så fort agenter börjar operera utöver enkel textgenerering, kommer angripare att följa. Våra upptäckter visar att angripare inte bara anpassar sig — de innovativa attacktekniker som traditionella försvar inte är redo att motverka.
För företag och utvecklare är budskapet tydligt: att säkra AI-agenter är inte bara en teknisk utmaning; det är en arkitektonisk utmaning. Det kräver att man omprövar hur förtroende etableras, hur säkerhetsstängsel genomförs och hur risk kontinuerligt bedöms i dynamiska, interaktiva miljöer.
I 2026 och framåt, kommer de organisationer som lyckas med agenter AI att vara de som behandlar säkerhet inte som en eftertanke, utan som en grundläggande designprincip.












