Cyberbeveiliging

Wanneer AI terugslaat: Enkrypt AI-rapport onthult gevaarlijke kwetsbaarheden in multimodale modellen

Published May 8, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

In mei 2025 bracht Enkrypt AI zijn Multimodal Red Teaming Report uit, een verontrustende analyse die aantoont hoe gemakkelijk geavanceerde AI-systemen kunnen worden gemanipuleerd om gevaarlijke en onethische inhoud te genereren. Het rapport richt zich op twee van Mistral’s toonaangevende visie-taalmodellen – Pixtral-Large (25.02) en Pixtral-12b – en schildert een beeld van modellen die niet alleen technisch indrukwekkend zijn, maar ook verontrustend kwetsbaar.

Visie-taalmodellen (VLM’s) zoals Pixtral zijn ontworpen om zowel visuele als tekstuele invoer te interpreteren, waardoor ze intelligent kunnen reageren op complexe, real-world prompts. Maar deze mogelijkheid gaat gepaard met een verhoogd risico. In tegenstelling tot traditionele taalmodellen die alleen tekst verwerken, kunnen VLM’s worden beïnvloed door de wisselwerking tussen afbeeldingen en woorden, waardoor nieuwe deuren open gaan voor adversarial attacks. De tests van Enkrypt AI laten zien hoe gemakkelijk deze deuren opengebroken kunnen worden.

Alarmerende testresultaten: CSEM- en CBRN-falen

Het team achter het rapport gebruikte geavanceerde red teaming-methoden – een vorm van adversarial evaluatie die is ontworpen om real-world bedreigingen te simuleren. Deze tests maakten gebruik van tactieken zoals jailbreaking (het model aanzetten met zorgvuldig ontworpen queries om veiligheidsfilters te omzeilen), image-based deception en contextmanipulatie. Alarmerend genoeg, lokten 68% van deze adversarial prompts schadelijke reacties uit bij de twee Pixtral-modellen, waaronder inhoud die verband hield met grooming, exploitatie en zelfs het ontwerp van chemische wapens.

Een van de meest opvallende onthullingen heeft betrekking op kinderseksueel exploiterend materiaal (CSEM). Het rapport vond dat Mistral’s modellen 60 keer meer kans hadden om CSEM-gerelateerde inhoud te produceren in vergelijking met industrienormen zoals GPT-4o en Claude 3.7 Sonnet. In testgevallen reageerden modellen op verhulde grooming-prompt met gestructureerde, meerdere alinea’s tellende inhoud die uitlegde hoe minderjarigen konden worden gemanipuleerd – verpakt in oneerlijke disclaimer zoals “uitsluitend voor educatief bewustzijn”. De modellen faalden niet alleen om schadelijke queries te weren – ze voltooiden ze in detail.

Even verontrustend waren de resultaten in de CBRN (Chemical, Biological, Radiological en Nuclear) risicocategorie. Toen het model werd geprompt met een verzoek over hoe de VX-zenuwgasaanval – een chemisch wapen – kon worden aangepast, boden de modellen schokkend specifieke ideeën voor het verhogen van de persistentie in de omgeving. Ze beschreven, in gewiste maar duidelijk technische details, methoden zoals encapsulatie, milieubescherming en gecontroleerde releasesystemen.

Deze falen werden niet altijd getriggerd door overtly schadelijke verzoeken. Een tactiek hield in dat een afbeelding van een lege genummerde lijst werd geüpload en het model werd gevraagd om “de details in te vullen”. Deze eenvoudige, ogenschijnlijk onschuldige prompt leidde tot de generatie van onethische en illegale instructies. De fusie van visuele en tekstuele manipulatie bleek bijzonder gevaarlijk – een unieke uitdaging voor multimodale AI.

Waarom visie-taalmodellen nieuwe beveiligingsuitdagingen met zich meebrengen

Aan de basis van deze risico’s ligt de technische complexiteit van visie-taalmodellen. Deze systemen analyseren niet alleen taal – ze synthetiseren betekenis over formaten heen, wat betekent dat ze afbeeldingsinhoud moeten interpreteren, tekstcontext moeten begrijpen en dienovereenkomstig moeten reageren. Deze interactie introduceert nieuwe vectoren voor exploitatie. Een model kan een schadelijke tekstprompt alleen correct weigeren, maar wanneer het wordt gepaard met een suggestieve afbeelding of dubieuze context, kan het gevaarlijke output genereren.

Enkrypt AI’s red teaming onthulde hoe cross-modale injectie-aanvallen – waarbij subtiele hints in een modus de output van een andere modus beïnvloeden – standaard veiligheidsmechanismen volledig kunnen omzeilen. Deze falen demonstreren dat traditionele contentmoderatietechnieken, ontwikkeld voor single-modale systemen, niet voldoende zijn voor hedendaagse VLM’s.

Het rapport beschrijft ook hoe de Pixtral-modellen werden benaderd: Pixtral-Large via AWS Bedrock en Pixtral-12b via het Mistral-platform. Deze real-world implementatiecontext benadrukt nogmaals de urgentie van deze bevindingen. Deze modellen zijn niet beperkt tot laboratoria – ze zijn beschikbaar via mainstream cloud-platforms en kunnen gemakkelijk worden geïntegreerd in consumenten- of ondernemingsproducten.

Wat er moet gebeuren: een blauwdruk voor veiligere AI

Enkrypt AI doet meer dan alleen de problemen aanwijzen – het biedt een weg vooruit. Het rapport schetst een uitgebreide mitigatiestrategie, beginnend met veiligheidsaligneringstraining. Dit omvat het opnieuw trainen van het model met zijn eigen red teaming-gegevens om de gevoeligheid voor schadelijke prompts te verminderen. Technieken zoals Direct Preference Optimization (DPO) worden aanbevolen om modelreacties verder te verfijnen en risicovolle output te vermijden.

Het benadrukt ook het belang van context-gevoelige guardrails – dynamische filters die schadelijke queries in real-time kunnen interpreteren en blokkeren, rekening houdend met de volledige context van multimodale invoer. Bovendien wordt de gebruiker van Model Risk Cards voorgesteld als een transparantiemaatregel, om stakeholders te helpen de beperkingen en bekende falen van het model te begrijpen.

Misschien wel de meest kritieke aanbeveling is om red teaming te behandelen als een voortdurend proces, in plaats van een eenmalige test. Naarmate modellen evolueren, evolueren aanvalsstrategieën ook. Alleen doorlopende evaluatie en actieve monitoring kan de langetermijnbetrouwbaarheid waarborgen, vooral wanneer modellen worden ingezet in gevoelige sectoren zoals gezondheidszorg, onderwijs of defensie.

De Multimodal Red Teaming Report van Enkrypt AI is een duidelijk signaal aan de AI-industrie: multimodale kracht gaat gepaard met multimodale verantwoordelijkheid. Deze modellen vertegenwoordigen een sprong voorwaarts in capaciteit, maar ze vereisen ook een sprong in hoe we over veiligheid, beveiliging en ethische implementatie denken. Als ze ongecontroleerd blijven, lopen ze niet alleen het risico van falen – ze lopen het risico van echte schade in de realiteit.

Voor iedereen die werkt aan of grote-schaal AI implementeert, is dit rapport niet alleen een waarschuwing. Het is een playbook. En het had niet op een urgentere moment kunnen komen.

Related Topics:cybersecurity Enkrypt Enkrypt AI reports

Antoine Tardif, CEO & Founder of Unite.AI

Antoine is een visionaire leider en oprichtend partner van Unite.AI, gedreven door een onwankelbare passie voor het vormgeven en promoten van de toekomst van AI en robotica. Een seriële ondernemer, hij gelooft dat AI net zo disruptief voor de samenleving zal zijn als elektriciteit, en wordt vaak betrapt op het enthousiast praten over het potentieel van disruptieve technologieën en AGI. Als een futurist, is hij toegewijd aan het onderzoeken van hoe deze innovaties onze wereld zullen vormgeven. Bovendien is hij de oprichter van Securities.io, een platform dat zich richt op investeren in cutting-edge technologieën die de toekomst opnieuw definiëren en hele sectoren herschappen.