Cyberbeveiliging
Simbian Lanciert Cyber Defense Benchmark, Ontdekt Grote Kloof in AI-beveiligingsmogelijkheden

Een nieuwe benchmark die is uitgebracht door Simbian daagt een van de meest breed gehouden aannames in kunstmatige intelligentie uit: dat de modellen die in staat zijn om kwetsbaarheden te vinden, ook kunnen verdedigen tegen hen.
Het bedrijf heeft onlangs de Cyber Defense Benchmark geïntroduceerd, ontwikkeld door het Simbian Research Lab, die beoordeelt hoe goed leidende grote taalmodellen (LLM’s) presteren in real-world cyberdefensiescenario’s. De resultaten zijn schokkend. Terwijl moderne AI-systemen steeds effectiever worden in het ontdekken en exploiteren van zwakheden, worstelen ze aanzienlijk wanneer ze worden opgedragen om actieve aanvallen te identificeren en te stoppen.
Frontiermodellen Voldoen Niet Aan de Minimale Verdedigingsnorm
De benchmark testte leidende modellen, waaronder Claude Opus 4.6, GPT-5, Gemini 3.1 Pro en anderen in gesimuleerde ondernemingsomgevingen.
Geen van de modellen behaalde een voldoende score.
Claude Opus 4.6, de sterkste presteerder in de test, detecteerde slechts een deel van de aanvalsbewijzen over MITRE ATT&CK tactieken, terwijl veel modellen hele categorieën van kwaadaardige activiteit niet konden identificeren. Onafhankelijk academisch onderzoek bevestigde deze bevindingen, waaruit bleek dat zelfs de beste modellen worstelen met open-ended threat hunting, waarbij slechts een klein deel van de kwaadaardige gebeurtenissen in realistische scenario’s wordt gedetecteerd.
Deze kloof benadrukt een kritieke beperking. De AI-systemen van vandaag kunnen uitstekend zijn in het beantwoorden van gestructureerde vragen of het oplossen van beperkte problemen, maar ze falen wanneer ze moeten onderzoeken naar complexe, evoluerende aanvalsketens zonder leiding.
Een Verschuiving Naar Realistische, Agent-Gebaseerde Evaluatie
Wat deze benchmark onderscheidt, is het ontwerp.
In tegenstelling tot eerdere cybersecuritytests die zijn gebaseerd op multiple-choice vragen of statische datasets, gebruikt Simbian’s benadering echte telemetriedata en plaatst modellen in een agent-gebaseerde onderzoeksloop. In plaats van te worden verteld wat te zoeken, moet de AI logbestanden onderzoeken, hypotheses vormen en bedreigingen onafhankelijk identificeren.
Dit spiegelt hoe menselijke beveiligingsanalisten opereren in echte Security Operations Centers.
De benchmark omvat tientallen aanvalstechnieken over meerdere fasen, waardoor modellen signalen over tijd en systemen moeten verbinden. Door context te muteren en deterministische scoring af te dwingen, reduceert het ook het risico dat modellen alleen maar patronen memoriseren.
Deze verschuiving naar realisme is significant. In AI-ontwikkeling is het creëren van een benchmark die de real-world complexiteit nauwkeurig weerspiegelt, vaak de eerste stap naar het oplossen van het probleem zelf.
De Groeiende Kloof Tussen Offensieve en Defensieve AI
De bevindingen versterken een bredere trend die in de industrie opkomt.
AI is snel aan het verbeteren in offensieve cybersecuritytaken. Recente studies laten zien dat frontiermodellen al multi-step aanvallen in gesimuleerde omgevingen kunnen uitvoeren en dit steeds vaker doen met minimale tooling. Tegelijkertijd blijven defensieve capaciteiten achter.
Deze onevenwichtigheid creëert een groeiende asymmetrie. Aanvallers kunnen automatisering en schaalbaarheid gebruiken, terwijl verdedigers nog steeds sterk afhankelijk zijn van menselijke expertise en gefragmenteerde tooling. Zelfs wanneer AI een kwetsbaarheid identificeert, kan het de ernst ervan verkeerd interpreteren of niet adequaat reageren, waardoor de kloof tussen detectie en begrip wordt benadrukt.
Waarom “Out-of-the-Box” AI Tekort Schiet
Simbian’s conclusie is niet dat AI systemen niet kan verdedigen, maar dat het niet alleen kan.
De benchmark suggereert dat LLM’s een “gesofisticeerd harnas” nodig hebben – een combinatie van externe intelligentie, gestructureerde workflows en systeemniveau-integratie – om effectief te functioneren in beveiligingsomgevingen.
Dit komt overeen met bredere onderzoek dat aantoont dat het toevoegen van tools, geheugen en context de prestaties van AI in cybersecuritytaken aanzienlijk verbetert.
In productieomgevingen claimt Simbian dat het aanzienlijk hogere detectie nauwkeurigheid heeft bereikt door modellen te combineren met deze extra lagen. De implicatie is duidelijk: de rauwe modelcapaciteit is slechts één onderdeel van de puzzel.
Een Nieuwe Categorie van Benchmark voor AI-beveiliging
De release van de Cyber Defense Benchmark markeert een belangrijke stap in de manier waarop AI-systemen worden geëvalueerd voor real-world inzet.
Door zich te concentreren op bewijs-gebaseerde bedreigingsjacht in plaats van vraagbeantwoording, herformuleert het de problematiek van intelligentie naar uitvoering. Het introduceert ook kosten als een meetbare factor, waarbij het de afwegingen tussen prestaties en efficiëntie over modellen benadrukt.
Terwijl AI de cybersecurity blijft hervormen, kunnen benchmarks zoals deze essentiële tools worden voor het begrijpen van niet alleen wat modellen kunnen doen, maar waar ze falen – en waarom.
Voor nu is de conclusie rechttoe rechtaan. Ondanks snelle vooruitgang in AI, blijft volledig autonome cyberdefensie buiten bereik. De volgende fase van innovatie zal waarschijnlijk minder afhankelijk zijn van het bouwen van grotere modellen en meer van het ontwerpen van systemen die AI combineren met gestructureerde intelligentie, context en menselijke toezicht.












