Cybersikkerhet

Simbian Lanserer Cyber Defense Benchmark, Avdekker Stor Gap i AI-Sikkerhetskapasiteter

Published April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

En ny benchmark lansert av Simbian utfordrer ett av de mest utbredte antakelsene i kunstig intelligens: at de samme modellene som kan finne sårbarheter også kan forsvare mot dem.

Selskapets nyintroduserte Cyber Defense Benchmark, utviklet av sitt Simbian Research Lab, vurderer hvor godt ledende store språkmodeller (LLM) utfører seg i virkelige cyberforsvarsscenarier. Resultatene er slående. Mens moderne AI-systemer blir stadig mer effektive i å oppdage og utnytte svakheter, sliter de betydelig når de blir bedt om å identifisere og stoppe aktive angrep.

Frontermodellene Klarer Ikke å Møte Minimumskravene for Forsvar

Benchmarken testet ledende modeller, inkludert Claude Opus 4.6, GPT-5, Gemini 3.1 Pro og andre i simulerede bedriftsmiljøer.

Ingen av modellene oppnådde en bestått score.

Claude Opus 4.6, den sterkeste utføreren i testen, oppdaget bare en del av angrepsbevisene over MITRE ATT&CK-taktikker, mens mange modeller ikke klarte å identifisere hele kategorier av skadelig aktivitet. Uavhengig akademisk forskning som stemmer overens med disse funn, viser at selv toppmodellene sliter med åpen-endede trusler, og oppdager bare en liten brøkdel av skadelige hendelser i realistiske scenarier.

Denne gapet understreker en kritisk begrensning. I dagens AI-systemer kan utmerke seg i å svare på strukturerte spørsmål eller løse innelukkede problemer, men de feiler når de blir bedt om å undersøke komplekse, utviklende angrepskjeder uten veiledning.

En Skifte Mot Realistiske, Agentbaserte Evalueringer

Hva som skiller denne benchmarken fra andre, er dens design.

I motsetning til tidligere cybersecurity-tester som baserer seg på flervalgsspørsmål eller statiske datasett, bruker Simbians tilnærming virkelige telemetridata og plasserer modellene i en agensiv etterforskningsloop. I stedet for å bli fortalt hva de skal se etter, må AI-en utforske logger, danne hypoteser og identifisere trusler uavhengig.

Dette speiler hvordan menneskelige sikkerhetsanalytikere opererer i virkelige Sikkerhetsoperasjons-sentre.

Benchmarken inkorporerer dusinvis av angrepsmetoder over flere stadier, og tvinger modellene til å koble signaler over tid og systemer. Ved å mutere kontekst og påtvinge deterministisk scoring, reduserer den også risikoen for at modellene bare husker mønster.

Denne skiftet mot realisme er betydelig. I AI-utvikling er å lage en benchmark som nøyaktig reflekterer virkelige kompleksiteter ofte det første skrittet mot å løse problemet selv.

Den Økende Gapet Mellom Offensiv og Defensiv AI

Funnene forsterker en bredere trend som oppstår over hele industrien.

AI blir raskt bedre på offensiv cyber-oppgaver. Nylige studier viser at frontermodellene allerede kan utføre multi-stegsangrep i simulerede miljøer og gjør det stadig mer med minimalt verktøy. Samtidig ligger defensive evner etter.

Denne ubalansen skaper en økende asymmetri. Angripere kan utnytte automatisering og skala, mens forsvarerne fortsatt avhenger tungt av menneskelig ekspertise og fragmentert verktøy. Selv når AI identifiserer en sårbarhet, kan det misforstå alvorlighetsgraden eller feile i å handle riktig, og understreker gapet mellom oppdagelse og forståelse.

Hvorfor “Utenfor-Boxen” AI Feiler

Simbians konklusjon er ikke at AI ikke kan forsvare systemer, men at det ikke kan gjøre det alene.

Benchmarken antyder at LLM-er krever hva selskapet beskriver som en “sophisticated harness” – en kombinasjon av ekstern intelligens, strukturerte arbeidsflyter og systemnivå-integrasjon – for å fungere effektivt i sikkerhetsmiljøer.

Dette stemmer overens med bredere forskning som viser at tilføyelse av verktøy, minne og kontekst betydelig forbedrer AI-ytelse i cybersecurity-oppgaver.

I produksjonsmiljøer hevder Simbian at de har oppnådd betydelig høyere oppdagelsesnøyaktighet ved å kombinere modeller med disse ekstra lagene. Implikasjonen er klar: rå modellkapasitet er bare ett stykke av puslespillet.

En Ny Kategori av Benchmark for AI-Sikkerhet

Lanseringen av Cyber Defense Benchmark markerer et viktig skritt i hvordan AI-systemer vurderes for virkelige utviklingsmiljøer.

Ved å fokusere på bevisbasert trusseljakt i stedet for spørsmålssvar, omdefinierer den problemet fra intelligens til utførelse. Den introduserer også kostnad som en målbar faktor, og understreker kompromissene mellom ytelse og effektivitet over modeller.

Etter hvert som AI fortsetter å forme cybersecurity, kan benchmarkene som denne bli essensielle verktøy for å forstå ikke bare hva modellene kan gjøre, men hvor de feiler – og hvorfor.

For nå er budskapet enkelt. Til tross for rask fremgang i AI, forblir fullstendig autonom cyberforsvar utenfor rekkevidde. Den neste fasen av innovasjon vil sannsynligvis avhenge mindre av å bygge større modeller, og mer av å designe systemer som kombinerer AI med strukturert intelligens, kontekst og menneskelig tilsyn.