Cyberbeveiliging

De beveiligingskwetsbaarheden die we zelf hebben gebouwd: AI-agents en het probleem met gehoorzaamheid

Published June 18, 2025

Updated April 26, 2026

Radoslaw Madej, Vulnerability Research Team Lead at Check Point Research

LLM-gebaseerde AI-agents introduceren een nieuwe klasse van kwetsbaarheden, waarbij aanvallers kwaadaardige instructies in data injecteren, waardoor nuttige systemen ongewild tot medeplichtigen worden.

Microsoft Copilot was niet gehackt in de klassieke zin. Er was geen malware, geen phishing-link, geen kwaadaardige code. Niemand hoefde iets aan te klikken of een exploit te deployen.

De dreigingsactor vroeg het gewoon. Microsoft 365 Copilot, dat precies deed wat het was ontworpen om te doen, volgde de instructies. In de recente Echoleak zero-click-aanval werd de AI-agent gemanipuleerd door een prompt die vermomd was als data. Het volgde de instructies, niet omdat het kapot was, maar omdat het functioneerde zoals het was ontworpen.

Deze kwetsbaarheid benutte geen softwarebugs. Het benutte taal. En dat markeert een belangrijke keerpunt in cybersecurity, waar het aanvalsoppervlak niet langer code is, maar conversatie.

Het nieuwe AI-gehoorzaamheidsprobleem

AI-agents zijn ontworpen om te helpen. Hun doel is om de intentie van de gebruiker te begrijpen en daar efficiënt op te reageren. Die functionaliteit gaat gepaard met risico’s. Wanneer ze zijn geïntegreerd in bestandssystemen, productiviteitsplatforms of besturingssystemen, volgen deze agents natuurlijke taalopdrachten met minimale weerstand.

Dreigingsactoren benutten die eigenschap exact. Met prompt-injecties die onschuldig lijken, kunnen ze gevoelige acties triggeren. Deze prompts kunnen onder andere omvatten:

Multilinguale code-snippets
Onbekende bestandsformaten en ingebedde instructies
Niet-Engelse taalinput
Multi-step-opdrachten verborgen in informele taal

Omdat grote taalmodellen (LLM’s) zijn getraind om complexiteit en ambiguïteit te begrijpen, wordt de prompt de payload.

De geest van Siri en Alexa

Dit patroon is niet nieuw. In de vroege dagen van Siri en Alexa toonden onderzoekers aan hoe het afspelen van een spraakopdracht zoals “Stuur alle mijn foto’s naar dit e-mailadres” een actie kon triggeren zonder verificatie van de gebruiker.

Nu is de dreiging groter. AI-agents zoals Microsoft Copilot zijn diep geïntegreerd in Office 365, Outlook en het besturingssysteem. Ze hebben toegang tot e-mails, documenten, referenties en API’s. Aanvallers hebben alleen de juiste prompt nodig om kritieke gegevens te extraheren, terwijl ze zich voordoen als een legitieme gebruiker.

Wanneer computers instructies voor data aanzien

Dit is geen nieuw principe in cybersecurity. Injecties zoals SQL-aanvallen slaagden omdat systemen niet konden onderscheiden tussen input en instructie. Vandaag bestaat diezelfde zwakke plek, maar op het taalniveau.

AI-agents behandelen natuurlijke taal als zowel input als intentie. Een JSON-object, een vraag of zelfs een zin kan een actie initiëren. Deze ambiguïteit is wat dreigingsactoren benutten, door opdrachten in te bedden in wat eruitziet als onschuldige inhoud.

We hebben intentie in onze infrastructuur ingebed. Nu hebben dreigingsactoren geleerd hoe ze die kunnen extraheren om hun eigen doelen te bereiken.

AI-adoptie gaat sneller dan cybersecurity

Terwijl ondernemingen haasten om LLM’s te integreren, veronachtzamen velen een kritische vraag: wat heeft de AI toegang tot?

Wanneer Copilot toegang heeft tot het besturingssysteem, breidt het blastgebied zich verder uit dan alleen de inbox. Volgens Check Point’s AI Security Report:

62 procent van de wereldwijde Chief Information Security Officers (CISO’s) vrezen dat ze persoonlijk aansprakelijk kunnen worden gesteld voor AI-gerelateerde inbreuken
Bijna 40 procent van de organisaties meldt ongeautoriseerd intern gebruik van AI, vaak zonder toezicht van de beveiliging
20 procent van de cybercriminele groepen integreert nu AI in hun operaties, inclusief voor het maken van phishing en het uitvoeren van verkenningen

Dit is niet alleen een opkomend risico. Het is een huidig risico dat al schade veroorzaakt.

Waarom bestaande beveiligingsmaatregelen tekortschieten

Sommige leveranciers gebruiken watchdogs — secundaire modellen die zijn getraind om gevaarlijke prompts of verdacht gedrag te detecteren. Deze filters kunnen basisbedreigingen detecteren, maar zijn kwetsbaar voor ontwijkingsmethoden.

Dreigingsactoren kunnen:

Filters overbelasten met ruis
Intentie opsplitsen over meerdere stappen
Gebruikmaken van niet-evidente formuleringen om detectie te omzeilen

In het geval van Echoleak waren beveiligingsmaatregelen aanwezig — en ze werden omzeild. Dit weerspiegelt niet alleen een falen van het beleid, maar ook een falen van de architectuur. Wanneer een agent hoge toegangsrechten heeft, maar weinig context, falen zelfs goede beveiligingsmaatregelen.

Detectie, geen perfectie

Het voorkomen van elke aanval kan onrealistisch zijn. Het doel moet zijn om snel te detecteren en snel te containen.

Organisaties kunnen beginnen met:

AI-agentactiviteit in real-time monitoren en prompt-auditlogs bijhouden
Strengste toegangsrechten toepassen op AI-hulpmiddelen, spiegelend aan admin-niveau-controles
Wrijving toevoegen aan gevoelige operaties, zoals het vereisen van bevestigingen
Ongebruikelijke of vijandige promptpatronen markeren voor herziening

Taalgebaseerde aanvallen zullen niet verschijnen in traditionele endpoint detection and response (EDR)-tools. Ze vereisen een nieuw detectiemodel.

Wat organisaties nu moeten doen om zichzelf te beschermen

Voordat ze AI-agents implementeren, moeten organisaties begrijpen hoe deze systemen werken en welke risico’s ze introduceren.

Belangrijke aanbevelingen zijn:

Alle toegang controleren: weten wat agents kunnen triggeren of toegang tot hebben
Het bereik beperken: minimale noodzakelijke toegangsrechten verlenen
Alle interacties bijhouden: prompts, antwoorden en resulterende acties loggen
Stresstests uitvoeren: interne en frequente simulaties van vijandige input
Plannen voor ontwijkingsmethoden: aannemen dat filters zullen worden omzeild
Beveiliging aligneren: ervoor zorgen dat LLM-systemen beveiligingsdoelstellingen ondersteunen, in plaats van te compromitteren

Het nieuwe aanvalsoppervlak

Echoleak is een voorbeeld van wat er gaat komen. Naarmate LLM’s evolueren, wordt hun behulpzaamheid een aansprakelijkheid. Diep geïntegreerd in bedrijfssystemen, bieden ze aanvallers een nieuwe manier om binnen te dringen — via eenvoudige, goed geconstrueerde prompts.

Dit gaat niet langer alleen over het beveiligen van code. Het gaat over het beveiligen van taal, intentie en context. Het spelboek moet nu veranderen, voordat het te laat is.

En toch is er goed nieuws. Er wordt vooruitgang geboekt in het gebruik van AI-agents om te verdedigen tegen nieuwe en opkomende cyberdreigingen. Wanneer ze op de juiste manier worden gebruikt, kunnen deze autonome AI-agents sneller reageren op dreigingen dan enige mens, samenwerken over omgevingen heen en proactief verdedigen tegen opkomende risico’s door te leren van een enkele inbraakpoging.

Agente AI kan leren van elke aanval, zich in real-time aanpassen en dreigingen voorkomen voordat ze zich verspreiden. Het heeft het potentieel om een nieuwe era van cyberweerbaarheid te vestigen, maar alleen als we dit moment aangrijpen en de toekomst van cybersecurity samen vormgeven. Als we dat niet doen, kan deze nieuwe era een cybersecurity- en dataprivacy-nachtmerrie betekenen voor organisaties die al AI hebben geïmplementeerd (soms zelfs onbewust met shadow IT-hulpmiddelen). Nu is het moment om actie te ondernemen om ervoor te zorgen dat AI-agents voor ons worden gebruikt in plaats van tegen ons.

Radoslaw Madej, Vulnerability Research Team Lead at Check Point Research

Radoslaw Madej is Vulnerability Research Team Lead at Check Point Research. Radoslaw is een gepassioneerde cyberbeveiligingsexpert met bijna twee decennia technische ervaring in verschillende gebieden van informatieveiligheid, opgedaan door projecten te leveren voor wereldwijde ondernemingen met hoge beveiligingseisen.