Cybersicherheit

Simbian Launches Cyber Defense Benchmark, Reveals Major Gap in AI Security Capabilities

Published April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Ein neuer Benchmark, der von Simbian veröffentlicht wurde, fordert eine der am weitesten verbreiteten Annahmen im Bereich der künstlichen Intelligenz heraus: dass die gleichen Modelle, die in der Lage sind, Schwachstellen zu finden, auch in der Lage sind, sich dagegen zu verteidigen.

Das neu eingeführte Cyber Defense Benchmark des Unternehmens, das von seinem Simbian Research Lab entwickelt wurde, bewertet, wie gut führende Large Language Modelle (LLMs) in realen Cyber-Verteidigungsszenarien abschneiden. Die Ergebnisse sind eindeutig. Während moderne KI-Systeme immer effektiver darin sind, Schwachstellen zu entdecken und auszunutzen, haben sie erhebliche Schwierigkeiten, wenn sie mit der Identifizierung und Abwehr von aktiven Angriffen beauftragt werden.

Frontier-Modelle erreichen nicht die Mindestanforderungen für die Verteidigung

Der Benchmark testete führende Modelle, einschließlich Claude Opus 4.6, GPT-5, Gemini 3.1 Pro und andere in simulierten Unternehmensumgebungen.

Keines der Modelle erreichte eine bestandene Punktzahl.

Claude Opus 4.6, der stärkste Teilnehmer im Test, erkannte nur einen Teil der Angriffsbeweise über MITRE ATT&CK-Taktiken, während viele Modelle nicht in der Lage waren, ganze Kategorien von bösartiger Aktivität zu identifizieren. Unabhängige akademische Forschung, die mit diesen Ergebnissen übereinstimmt, zeigt, dass sogar die besten Modelle bei der offenen Bedrohungsjagd Schwierigkeiten haben und nur einen kleinen Bruchteil von bösartigen Ereignissen in realistischen Szenarien erkennen.
Diese Lücke unterstreicht eine kritische Einschränkung. Heutige KI-Systeme mögen bei der Beantwortung strukturierter Fragen oder der Lösung abgegrenzter Probleme hervorragend sein, aber sie versagen, wenn sie aufgefordert werden, komplexe, sich entwickelnde Angriffsketten ohne Anleitung zu untersuchen.

Ein Shift hin zu realistischer, agentenbasierter Bewertung

Was diesen Benchmark auszeichnet, ist sein Design.

Anders als frühere Cybersicherheitstests, die auf Multiple-Choice-Fragen oder statischen Datenbanken basieren, verwendet Simbians Ansatz reale Telemetriedaten und setzt Modelle in einer agentenbasierten Untersuchungsschleife ein. Anstatt gesagt zu bekommen, wonach sie suchen sollen, muss die KI Logdateien durchsuchen, Hypothesen bilden und Bedrohungen unabhängig identifizieren.

Dies spiegelt die Art und Weise wider, wie menschliche Sicherheitsanalysten in realen Security Operations Centers arbeiten.
Der Benchmark umfasst Dutzende von Angriffstechniken über mehrere Stufen, wodurch Modelle gezwungen werden, Signale über Zeit und Systeme hinweg zu verbinden. Durch die Mutation von Kontext und die Durchsetzung deterministischer Bewertung verringert es auch das Risiko, dass Modelle einfach Muster memorieren.
Dieser Shift hin zu Realismus ist erheblich. Bei der KI-Entwicklung ist die Erstellung eines Benchmarks, der die reale Komplexität genau widerspiegelt, oft der erste Schritt zur Lösung des Problems selbst.

Die wachsende Kluft zwischen offensiver und defensiver KI

Die Ergebnisse bestätigen einen breiteren Trend, der sich in der Branche abzeichnet.

KI verbessert sich rasch bei offensiven Cybertätigkeiten. Aktuelle Studien zeigen, dass Frontier-Modelle bereits heute in simulierten Umgebungen mehrstufige Angriffe ausführen können und dies immer häufiger mit minimaler Tooling tun. Gleichzeitig bleiben die defensiven Fähigkeiten zurück.
Diese Ungleichheit schafft eine wachsende Asymmetrie. Angreifer können Automation und Skalierbarkeit nutzen, während Verteidiger noch immer stark auf menschliche Expertise und fragmentierte Tooling angewiesen sind. Selbst wenn KI eine Schwachstelle identifiziert, kann sie deren Schwere falsch interpretieren oder nicht angemessen reagieren, was die Lücke zwischen Erkennung und Verständnis unterstreicht.

Warum “Out-of-the-Box”-KI nicht ausreicht

Simbians Schlussfolgerung ist nicht, dass KI Systeme nicht verteidigen kann, sondern dass sie es nicht allein kann.

Der Benchmark legt nahe, dass LLMs eine sogenannte “sophisticated harness” benötigen – eine Kombination aus externer Intelligenz, strukturierten Workflows und Systemintegration – um in Sicherheitsumgebungen effektiv zu arbeiten.

Dies stimmt mit weiterer Forschung überein, die zeigt, dass die Hinzufügung von Tools, Speicher und Kontext die Leistung von KI in Cybersicherungsaufgaben erheblich verbessert.
In Produktionsumgebungen behauptet Simbian, dass es durch die Kombination von Modellen mit diesen zusätzlichen Schichten wesentlich höhere Erkennungsgenauigkeit erzielt hat. Die Implikation ist klar: Die reine Modellfähigkeit ist nur ein Teil des Puzzles.

Eine neue Kategorie von Benchmark für KI-Sicherheit

Die Veröffentlichung des Cyber Defense Benchmark markiert einen wichtigen Schritt in der Bewertung von KI-Systemen für die reale Einsatzbereitschaft.

Indem es sich auf evidenzbasierte Bedrohungsjagd konzentriert und nicht auf Fragebeantwortung, formuliert es das Problem von Intelligenz zu Ausführung um. Es führt auch Kosten als messbaren Faktor ein, wodurch Kompromisse zwischen Leistung und Effizienz über Modelle hinweg hervorgehoben werden.
Da KI die Cybersicherheit weiterhin umgestaltet, können Benchmarks wie dieser zu unverzichtbaren Werkzeugen für das Verständnis werden, nicht nur dessen, was Modelle können, sondern auch, wo sie versagen – und warum.
Für den Moment ist die Schlussfolgerung einfach. Trotz raschen Fortschritts in der KI bleibt eine vollständig autonome Cyber-Verteidigung außer Reichweite. Die nächste Phase der Innovation wird wahrscheinlich weniger von der Entwicklung größerer Modelle abhängen und mehr von der Gestaltung von Systemen, die KI mit strukturierter Intelligenz, Kontext und menschlicher Aufsicht kombinieren.