Cybersikkerhed
Simbian Lancerer Cyber Defense Benchmark, Afslører Stor Lücke i AI-Sikkerhedsfunktioner

En ny benchmark udgivet af Simbian udfordrer en af de mest udbredte antagelser i kunstig intelligens: at de samme modeller, der kan finde sårbarheder, også kan forsvare imod dem.
Selskabets nyligt introducerede Cyber Defense Benchmark, udviklet af dets Simbian Research Lab, evaluerer, hvor godt førende store sprogmodeller (LLM’er) performer i virkelige cybersikkerhedsscenarier. Resultaterne er slående. Mens moderne AI-systemer er stadig mere effektive til at opdage og udnytte svagheder, kæmper de betydeligt, når de bliver bedt om at identificere og stoppe aktive angreb.
Frontier-modeller opfylder ikke minimumskravene for forsvar
Benchmarket testede førende modeller, herunder Claude Opus 4.6, GPT-5, Gemini 3.1 Pro og andre i simulerede virksomhedsmiljøer.
Ingen af modellerne opnåede en bestående score.
Claude Opus 4.6, den stærkeste performer i testen, opdagede kun en del af angrebsbeviser på tværs af MITRE ATT&CK-taktikker, mens mange modeller ikke kunne identificere hele kategorier af ondsindet aktivitet. Uafhængig akademisk forskning, der stemmer overens med disse resultater, viser, at selv topmodellerne kæmper med åben-endede truslehunts, og kun kan opdage en lille brøkdel af ondsindet begivenheder i realistiske scenarier.
Denne lücke understreger en kritisk begrænsning. I dag kan AI-systemer måske udmærke sig til at besvare strukturerede spørgsmål eller løse indhegnede problemer, men de fejler, når de skal undersøge komplekse, udviklende angrebskæder uden vejledning.
En skiftning mod realistisk, agentbaseret evaluering
Det, der adskiller denne benchmark fra andre, er dens design.
I modsætning til tidligere cybersikkerhedstest, der afhænger af multiple-choice-spørgsmål eller statiske datasæt, bruger Simbians tilgang virkelig telemetridata og placerer modellerne i en agentbaseret undersøgelsesløkke. I stedet for at blive fortalt, hvad de skal lede efter, må AI’en udforske logfiler, danne hypoteser og identificere trusler uafhængigt.
Dette spejler, hvordan menneskelige sikkerhedsanalytikere opererer i virkelige Security Operations Center.
Benchmarket omfatter dusinvis af angrebsteknikker på tværs af flere faser, og tvinger modellerne til at forbinde signaler på tværs af tid og systemer. Ved at mutere kontekst og påtvinge deterministisk scoring reduceres også risikoen for, at modellerne blot husker mønstre.
Denne skiftning mod realisme er betydelig. I AI-udvikling er det ofte det første skridt mod at løse problemet selv at skabe en benchmark, der nøjagtigt reflekterer virkelighedens kompleksitet.
Den voksende lücke mellem offensiv og defensiv AI
Resultaterne understreger en bredere tendens, der opstår på tværs af branchen.
AI er hurtigt i gang med at forbedre sig til offensiv cybersikkerhed. Seneste studier viser, at frontier-modeller allerede kan udføre multi-step-angreb i simulerede miljøer og gør det stadig mere med minimalt værktøj. Samtidig er defensive evner tilbagestående.
Denne ubalance skaber en voksende asymmetri. Angribere kan udnytte automatisering og skala, mens forsvarere stadig afhænger stærkt af menneskelig ekspertise og fragmenteret værktøj. Selv når AI identificerer en sårbarhed, kan den misfortolke dets alvor eller fejle i at handle passende, hvilket understreger lücken mellem opdagede og forståede trusler.
Hvorfor “Out-of-the-Box” AI fejler
Simbians konklusion er ikke, at AI ikke kan forsvare systemer, men at det ikke kan gøre det alene.
Benchmarket antyder, at LLM’er kræver, hvad selskabet beskriver som en “sophisticeret harness” – en kombination af ekstern intelligens, strukturerede arbejdsgange og systemniveau-integration – for at fungere effektivt i sikkerhedsmiljøer.
Dette stemmer overens med bredere forskning, der viser, at tilføjelse af værktøj, hukommelse og kontekst betydeligt forbedrer AI-præstationen i cybersikkerhedstasks.
I produktionsmiljøer hævder Simbian, at de har opnået væsentligt højere detektionsnøjagtighed ved at kombinere modeller med disse ekstra lag. Implikationen er klar: rå modelkapacitet er kun et stykke af puslespillet.
En ny kategori af benchmark for AI-sikkerhed
Udgivelsen af Cyber Defense Benchmark markerer et vigtigt skridt i, hvordan AI-systemer evalueres til virkelige installationer.
Ved at fokusere på bevisbaseret truslehunts i stedet for spørgsmål, omdefinerer det problemet fra intelligens til udførelse. Det introducerer også omkostninger som en målbart faktor, og understreger kompromiser mellem præstation og effektivitet på tværs af modeller.
Da AI fortsætter med at forme cybersikkerheden, kan benchmarks som denne blive essentielle værktøjer til at forstå ikke kun, hvad modeller kan gøre, men hvor de fejler – og hvorfor.
For nu er budskabet enkelt. Trods hurtig fremgang i AI, er fuldt selvstændig cybersikkerhed stadig utilgængelig. Den næste fase af innovation vil sandsynligvis afhænge mindre af at bygge større modeller og mere af at designe systemer, der kombinerer AI med struktureret intelligens, kontekst og menneskelig oversigt.












