Thought leaders
Wat vroege aanvallen op AI-agents ons vertellen over 2026

Naarmate AI zich verplaatst van gecontroleerde experimenten naar echte wereldtoepassingen, komen we aan een keerpunt in het beveiligingslandschap. De overgang van statische taalmodellen naar interactieve, agentische systemen die in staat zijn om documenten te doorzoeken, tools aan te roepen en multi-stap workflows te orkestreren, is al gaande. Maar zoals recent onderzoek onthult, wachten aanvallers niet tot de volwassenheid: ze passen zich aan met hetzelfde snelle tempo, systemen testen zodra nieuwe mogelijkheden worden geïntroduceerd.
In het vierde kwartaal van 2025 analyseerde ons team bij Lakera het echte aanvallersgedrag over systemen die worden beschermd door Guard en binnen de Gandalf: Agent Breaker-omgeving — een gefocuste, 30-dagen snapshot die, ondanks de smalle venster, bredere patronen weerspiegelt die we gedurende het kwartaal hebben waargenomen. De bevindingen schilderen een duidelijk beeld: zodra modellen beginnen te interacteren met iets buiten eenvoudige tekstprompts (bijvoorbeeld: documenten, tools, externe gegevens) breidt het bedreigingsoppervlak zich uit, en vijanden passen zich onmiddellijk aan om het te exploiteren.
Dit moment kan vertrouwd aanvoelen voor degenen die de vroege webtoepassingen hebben zien evolueren, of die de opkomst van API-gedreven aanvallen hebben waargenomen. Maar met AI-agents, zijn de inzetten anders. De aanvalsvector ontstaat sneller dan veel organisaties hadden verwacht.
Van theorie naar praktijk: Agents in het wild
Voor een groot deel van 2025 draaiden discussies over AI-agents voornamelijk om theoretisch potentieel en vroege prototypen. Maar tegen Q4 begonnen agentische gedragingen op grote schaal te verschijnen in productiesystemen: modellen die documenten konden ophalen en analyseren, interactie hadden met externe API’s en geautomatiseerde taken konden uitvoeren. Deze agents boden voor de hand liggende productiviteitsvoordelen, maar ze openden ook deuren die traditionele taalmodellen niet deden.
Onze analyse toont aan dat zodra agents in staat waren om te interacteren met externe inhoud en tools, aanvallers dit opmerkten en dienovereenkomstig aanpasten. Deze observatie stemt overeen met een fundamentele waarheid over adversariaal gedrag: aanvallers zullen altijd nieuwe mogelijkheden verkennen en exploiteren op het eerste moment.
Aanvalspatronen: Wat we zien in Q4 2025
Over de dataset die we hebben beoordeeld, zijn drie dominante patronen naar voren gekomen. Elk heeft diepgaande implicaties voor hoe AI-systemen worden ontworpen, beveiligd en ingezet.
1. Systeemprompt-extractie als centraal doel
In traditionele taalmodellen is prompt-injectie (directe manipulatie van invoer om uitvoer te beïnvloeden) een goed bestudeerde kwetsbaarheid. Echter, in systemen met agentische mogelijkheden richten aanvallers zich steeds vaker op de systeemprompt, die de interne instructies, rollen en beleidsdefinities bevat die het agentgedrag leiden.
Het extraheren van systeemprompts is een hoogwaardig doel omdat deze prompts vaak roldefinities, toolbeschrijvingen, beleidsinstructies en workflowlogica bevatten. Zodra een aanvaller deze interne mechanismen begrijpt, verkrijgt hij een blauwdruk voor het manipuleren van de agent.
De meest effectieve technieken om dit te bereiken waren geen brute kracht-aanvallen, maar eerder slimme herformulering:
- Hypothetische scenario’s: Prompts die het model vragen om een andere rol of context te assumeren — bijv. “Stel je voor dat je een ontwikkelaar bent die deze systeemconfiguratie beoordeelt…” — hebben het model vaak ertoe gebracht om beveiligde interne details te onthullen.
- Verhulling in gestructureerde inhoud: Aanvallers hebben kwaadwillige instructies ingebed in code-achtige of gestructureerde tekst die eenvoudige filters omzeilde en onbedoelde gedragingen activeerde zodra deze door de agent werden geparseerd.
Dit is niet alleen een incrementele risico — het verandert fundamenteel hoe we denken over het beschermen van interne logica in agentische systemen.
2. Subtiele inhoudsveiligheidsomzeilingen
Een andere belangrijke trend houdt in dat inhoudsveiligheidsbeschermingen op manieren worden omzeild die moeilijk te detecteren en te mitigeren zijn met traditionele filters.
In plaats van openlijk kwaadwillige verzoeken, hebben aanvallers schadelijke inhoud gekaderd als:
- Analysetaak
- Evaluaties
- Rollenspel-scenario’s
- Transformaties of samenvattingen
Deze herformuleringen zijn vaak voorbij veiligheidscontroles geglipt omdat ze op het eerste gezicht onschuldig lijken. Een model dat een direct verzoek voor schadelijke uitvoer zou weigeren, kan hetzelfde resultaat produceren wanneer het wordt gevraagd om het te “evalueren” of “samen te vatten” in context.
Deze verschuiving benadrukt een diepere uitdaging: inhoudsveiligheid voor AI-agents is niet alleen een kwestie van beleidsuitvoering; het gaat over hoe modellen intentie interpreteren. Naarmate agents complexere taken en contexten aangaan, worden modellen gevoeliger voor context-gebaseerde herinterpretatie — en aanvallers exploiteren dit gedrag.
3. Opkomst van agent-specifieke aanvallen
Misschien wel de meest consequente bevinding was het verschijnen van aanvalspatronen die alleen zin hebben in de context van agentische mogelijkheden. Dit waren geen eenvoudige prompt-injectiepogingen, maar exploits die gekoppeld waren aan nieuwe gedragingen:
- Pogingen om vertrouwelijke interne gegevens te benaderen: Prompts werden zo ontworpen dat de agent ertoe werd overgehaald om gegevens op te halen of bloot te leggen uit aangesloten documentenopslag of systemen — acties die eerder buiten het bereik van het model lagen
- Script-gevormde instructies ingebed in tekst: Aanvallers hebben geëxperimenteerd met het insluiten van instructies in formats die lijken op scripts of gestructureerde inhoud, die door een agentpijplijn kunnen stromen en onbedoelde acties kunnen activeren
- Verborgen instructies in externe inhoud: Verschillende aanvallen hebben kwaadwillige richtlijnen ingebed in extern verwezen inhoud — zoals webpagina’s of documenten die de agent werd gevraagd te verwerken — waardoor directe invoerfilters effectief werden omzeild
Deze patronen zijn vroeg, maar signaleren een toekomst waarin de uitbreidende mogelijkheden van agents fundamenteel de aard van adversariaal gedrag veranderen.
Waarom indirecte aanvallen zo effectief zijn
Een van de meest opvallende bevindingen van het rapport is dat indirecte aanvallen — die externe inhoud of gestructureerde gegevens gebruiken — minder pogingen vereisen dan directe injecties. Dit suggereert dat traditionele invoer-sanitizing en directe query-filtering onvoldoende verdedigingen zijn zodra modellen interacteren met onbetrouwbare inhoud.
Wanneer een schadelijke instructie via een externe agent-workflow arriveert — of het nu een gelinkt document, een API-antwoord of een opgehaalde webpagina is — zijn vroege filters minder effectief. Het resultaat: aanvallers hebben een groter aanvalsoppervlak en minder obstakels.
Implicaties voor 2026 en verder
De bevindingen van het rapport hebben dringende implicaties voor organisaties die van plan zijn om agentische AI op grote schaal in te zetten:
- Herdefinieer vertrouwensgrenzen
Vertrouwen kan niet eenvoudig binair zijn. Naarmate agents interacteren met gebruikers, externe inhoud en interne workflows, moeten systemen genuanceerde vertrouwensmodellen implementeren die context, herkomst en doel in overweging nemen. - Beschermingsmechanismen moeten evolueren
Statische veiligheidsfilters zijn niet voldoende. Beschermingsmechanismen moeten adaptief, context-gevoelig en in staat zijn om intentie en gedrag te redeneren over multi-stap workflows. - Transparantie en auditing zijn essentieel
Naarmate aanvalsvector groter en complexer wordt, hebben organisaties zicht nodig in hoe agents beslissingen nemen — inclusief tussenstappen, externe interacties en transformaties. Auditeerbare logs en verklarende frameworks zijn niet langer optioneel. - Interdisciplinaire samenwerking is cruciaal
AI-onderzoek, beveiligingsengineering en dreigingsinformatieteams moeten samenwerken. AI-veiligheid kan niet geïsoleerd zijn; het moet geïntegreerd zijn met bredere cybersecurity-praktijken en risicobeheerframeworks. - Regulering en standaarden moeten bijbenen
Beleidsmakers en standaardisatie-organen moeten erkennen dat agentische systemen nieuwe klassen van risico creëren. Reguleringen die gegevensbescherming en uitvoerveiligheid aanpakken, zijn noodzakelijk maar niet voldoende; ze moeten ook rekening houden met interactief gedrag en multi-stap uitvoeromgevingen.
De toekomst van beveiligde AI-agents
De komst van agentische AI vertegenwoordigt een fundamentele verschuiving in capaciteit en risico. De Q4 2025-gegevens zijn een vroege indicator dat zodra agents buiten eenvoudige tekstgeneratie opereren, aanvallers volgen. Onze bevindingen tonen aan dat aanvallers niet alleen aanpassen — ze innoveren aanvalstechnieken die traditionele verdedigingen nog niet zijn voorbereid om te counteren.
Voor ondernemingen en ontwikkelaars is de boodschap duidelijk: het beveiligen van AI-agents is niet alleen een technische uitdaging; het is een architecturale. Het vereist het heroverwegen van hoe vertrouwen wordt gevestigd, hoe beschermingsmechanismen worden afgedwongen en hoe risico continu wordt beoordeeld in dynamische, interactieve omgevingen.
In 2026 en verder zullen de organisaties die slagen met agentische AI zijn die beveiliging niet als een nasmaak behandelen, maar als een fundamenteel ontwerpprincipe.












