Cybersikkerhet

Simbian Lanserer Cyber Defense Benchmark, Avslører Stor Gap i AI-Sikkerhetskapasiteter

mm

En ny benchmark lansert av Simbian utfordrer ett av de mest utbredte antakelsene i kunstig intelligens: at de samme modellene som kan finne sårbarheter også kan forsvare mot dem.

Selskapets nyintroduserte Cyber Defense Benchmark, utviklet av deres Simbian Research Lab, vurderer hvor godt ledende store språkmodeller (LLM) utfører i realverdenens cybersikkerhetsscenarier. Resultatene er slående. Mens moderne AI-systemer er stadig mer effektive til å oppdage og utnytte svakheter, sliter de betydelig når de blir bedt om å identifisere og stoppe aktive angrep.

Frontier-modeller møter ikke minimumskravene for forsvar

Benchmarken testet ledende modeller, inkludert Claude Opus 4.6, GPT-5, Gemini 3.1 Pro og andre i simulerede bedriftsmiljøer.

Ingen av modellene oppnådde en bestått score.

Claude Opus 4.6, den sterkeste performeren i testen, detekterte bare en del av angrepsbevisene over MITRE ATT&CK-taktikker, mens mange modeller ikke klarte å identifisere hele kategorier av ondsinnet aktivitet. Uavhengig akademisk forskning stemmer overens med disse funnene, og viser at selv toppmodellene sliter med åpen-endede trusler, og bare detekterer en liten brøkdel av ondsinnet hendelser i realistiske scenarier.

Denne gapet understreker en kritisk begrensning. I dagens AI-systemer kan være glimrende til å svare på strukturerte spørsmål eller løse innhegnede problemer, men de feiler når de må undersøke komplekse, utviklende angrepskjeder uten veiledning.

En skifte mot realistisk, agent-basert vurdering

Hva som skiller denne benchmarken fra andre, er dens design.

I motsetning til tidligere cybersikkerhetstester som avhenger av flervalgsspørsmål eller statiske datasett, bruker Simbians tilnærming sanntidsdata og plasserer modellene i en agent-basert undersøkelsesløkke. I stedet for å bli fortalt hva de skal lete etter, må AI-en utforske logger, danne hypoteser og identifisere trusler uavhengig.

Dette speiler hvordan menneskelige sikkerhetsanalytikere opererer i virkelige Sikkerhetsoperasjons-sentre.

Benchmarken inkorporerer dusinvis av angrepsmetoder over flere stadier, og tvinger modellene til å koble signaler over tid og systemer. Ved å mutere kontekst og påtvinge deterministisk scoring, reduserer den også risikoen for at modellene bare husker mønster.

Denne skiftet mot realisme er betydelig. I AI-utvikling er å lage en benchmark som nøyaktig reflekterer virkelige kompleksiteter ofte det første skrittet mot å løse problemet selv.

Den økende forskjellen mellom offensiv og defensiv AI

Funnene forsterker en bredere trend som oppstår over hele industrien.

AI er raskt bedre på offensivt cybertiltak. Nylige studier viser at frontier-modeller allerede kan utføre multi-stegsangrep i simulerede miljøer og gjør det stadig mer med minimalt verktøy. Samtidig ligger defensive evner etter.

Denne ubalansen skaper en økende asymmetri. Angripere kan utnytte automatisering og skala, mens forsvarerne fortsatt avhenger sterkt av menneskelig ekspertise og fragmentert verktøy. Selv når AI identifiserer en sårbarhet, kan den misforstå alvorlighetsgraden eller feile i å handle riktig, og understreker gapet mellom oppdaging og forståelse.

Hvorfor “ut-av-boksen” AI ikke holder mål

Simbians konklusjon er ikke at AI ikke kan forsvare systemer, men at det ikke kan gjøre det alene.

Benchmarken antyder at LLM-modeller krever hva selskapet beskriver som en “sophisticert harness” – en kombinasjon av ekstern intelligens, strukturerte arbeidsflyter og systemnivå-integrasjon – for å fungere effektivt i sikkerhetsmiljøer.

Dette stemmer overens med bredere forskning som viser at å legge til verktøy, minne og kontekst betydelig forbedrer AI-ytelse i cybersikkerhetstiltak.

I produksjonsmiljøer hevder Simbian at de har oppnådd vesentlig høyere oppdagingssikkerhet ved å kombinere modeller med disse ekstra lagene. Implikasjonen er klar: rå modellkapasitet er bare ett stykke av puslespillet.

En ny kategori av benchmark for AI-sikkerhet

Lanseringen av Cyber Defense Benchmark markerer et viktig skritt i hvordan AI-systemer vurderes for virkelige utrolleringer.

Ved å fokusere på bevisbasert trusseljakt i stedet for spørsmålssvar, omdefinerer den problemet fra intelligens til utførelse. Den introduserer også kostnad som en målbar faktor, og understreker avveininger mellom ytelse og effisiens over modeller.

Ettersom AI fortsetter å forme om cybersikkerheten, kan benchmarkene som denne bli essensielle verktøy for å forstå ikke bare hva modellene kan gjøre, men hvor de feiler—and hvorfor.

For nå er takeaway-en rett frem. Til tross for raskt fremgang i AI, er fullt autonomt cybersikkerhetsforsvar fortsatt utilgjengelig. Den neste fasen av innovasjon vil sannsynligvis avhenge mindre av å bygge større modeller, og mer av å designe systemer som kombinerer AI med strukturert intelligens, kontekst og menneskelig tilsyn.

Antoine er en visjonær leder og medstifter av Unite.AI, drevet av en urokkelig lidenskap for å forme og fremme fremtiden for AI og robotikk. En serial entrepreneur, han tror at AI vil være like disruptiv for samfunnet som elektrisitet, og blir ofte fanget i å prise potensialet for disruptive teknologier og AGI.

Som en futurist, er han dedikert til å utforske hvordan disse innovasjonene vil forme vår verden. I tillegg er han grunnlegger av Securities.io, en plattform fokusert på å investere i banebrytende teknologier som omdefinerer fremtiden og omformer hele sektorer.