Connect with us

Cyberbeveiliging

De beveiligingszwakheden die we zelf hebben ingebouwd: AI-agents en het probleem met gehoorzaamheid

mm

LLM-gebaseerde AI-agents introduceren een nieuwe klasse van zwakheden, waarbij aanvallers kwaadaardige instructies in data injecteren, waardoor behulpzame systemen ongewild tot medeplichtigen worden.

Microsoft Copilot was niet gehackt in de klassieke zin. Er was geen malware, geen phishing-link, geen kwaadaardige code. Niemand hoefde iets aan te klikken of een exploit te deployen.

De dreigingsactor hoefde alleen maar te vragen. Microsoft 365 Copilot, dat precies deed wat het was ontworpen om te doen, volgde de instructies. In de recente Echoleak zero-click-aanval werd de AI-agent gemanipuleerd door een prompt die was vermomd als data. Het gehoorzaamde niet omdat het kapot was, maar omdat het functioneerde zoals het was ontworpen.

Deze zwakheid benutte geen softwarebugs. Het benutte taal. En dat markeert een belangrijke mijlpaal in cybersecurity, waar het aanvalsoppervlak niet langer code is, maar conversatie.

Het nieuwe AI-gehoorzaamheidsprobleem

AI-agents zijn ontworpen om te helpen. Hun doel is om de intentie van de gebruiker te begrijpen en daar efficiënt op te reageren. Die utiliteit komt met risico’s. Wanneer ze zijn ingebed in bestandssystemen, productiviteitsplatforms of besturingssystemen, volgen deze agents natuurlijke taalopdrachten met minimale weerstand.

Dreigingsactoren benutten die eigenschap precies. Met prompt-injecties die onschuldig lijken, kunnen ze gevoelige acties triggeren. Deze prompts kunnen onder andere omvatten:

  • Multilingual code-snippets
  • Obscure bestandsformaten en ingebedde instructies
  • Niet-Engelse taalinput
  • Multi-step-opdrachten verborgen in informele taal

Omdat grote taalmodellen (LLM’s) zijn getraind om complexiteit en ambiguïteit te begrijpen, wordt de prompt de payload.

De geest van Siri en Alexa

Dit patroon is niet nieuw. In de vroege dagen van Siri en Alexa toonden onderzoekers aan hoe het afspelen van een spraakopdracht zoals “Stuur al mijn foto’s naar dit e-mailadres” een actie kon triggeren zonder verificatie van de gebruiker.

Nu is de dreiging groter. AI-agents zoals Microsoft Copilot zijn diep geïntegreerd in Office 365, Outlook en het besturingssysteem. Ze hebben toegang tot e-mails, documenten, referenties en API’s. Aanvallers hebben alleen de juiste prompt nodig om kritische data te extraheren, terwijl ze zich voordoen als een legitieme gebruiker.

Wanneer computers instructies voor data aanzien

Dit is geen nieuw principe in cybersecurity. Injecties zoals SQL-aanvallen slaagden omdat systemen niet konden onderscheiden tussen input en instructie. Vandaag bestaat diezelfde zwakheid, maar op het taalniveau.

AI-agents behandelen natuurlijke taal als zowel input als intentie. Een JSON-object, een vraag of zelfs een zin kan een actie initiëren. Deze ambiguïteit is wat dreigingsactoren benutten, door opdrachten in te bedden in wat eruitziet als onschuldige inhoud.

We hebben intentie in onze infrastructuur ingebed. Nu hebben dreigingsactoren geleerd hoe ze die kunnen extraheren om hun eigen doelen te bereiken.

AI-adoptie gaat sneller dan cybersecurity

Terwijl ondernemingen haasten om LLM’s te integreren, veronachtzamen velen een kritische vraag: wat heeft de AI toegang tot?

Wanneer Copilot het besturingssysteem kan aanraken, breidt het blastgebied zich uit ver voorbij de inbox. Volgens Check Point’s AI Security Report:

  • 62 procent van de wereldwijde Chief Information Security Officers (CISO’s) vrezen dat ze persoonlijk aansprakelijk kunnen worden gesteld voor AI-gerelateerde inbreuken
  • Bijna 40 procent van de organisaties meldt ongeautoriseerd intern gebruik van AI, vaak zonder security-toezicht
  • 20 procent van de cybercriminele groepen voert nu AI in bij hun operaties, inclusief voor het maken van phishing en het uitvoeren van verkenningen

Dit is niet alleen een opkomend risico. Het is een huidig risico dat al schade veroorzaakt.

Waarom bestaande beveiligingsmaatregelen tekortschieten

Sommige leveranciers gebruiken watchdogs — secundaire modellen die zijn getraind om gevaarlijke prompts of verdacht gedrag te detecteren. Deze filters kunnen basisbedreigingen detecteren, maar zijn kwetsbaar voor ontwijktechnieken.

Radoslaw Madej is Vulnerability Research Team Lead at Check Point Research. Radoslaw is een gepassioneerde cyberbeveiligingsexpert met bijna twee decennia technische ervaring in verschillende gebieden van informatieveiligheid, opgedaan door projecten te leveren voor wereldwijde ondernemingen met hoge beveiligingseisen.