Connect with us

Simbian Launches Cyber Defense Benchmark, Reveals Major Gap in AI Security Capabilities

Κυβερνοασφάλεια

Simbian Launches Cyber Defense Benchmark, Reveals Major Gap in AI Security Capabilities

mm

Ένα νέο benchmark που κυκλοφόρησε από το Simbian προκλήθηκε μια από τις πιο ευρέως διαδεδομένες υποθέσεις στην τεχνητή νοημοσύνη: ότι τα ίδια μοντέλα που μπορούν να βρουν ευπάθειες μπορούν επίσης να τις προστατέψουν.

Η εταιρεία introduced το καινούριο Cyber Defense Benchmark, που αναπτύχθηκε από το Simbian Research Lab, αξιολογεί πώς καλά τα leading large language models (LLMs) εκτελούνται σε πραγματικές κυβερνοαμυντικές σκηνές. Τα αποτελέσματα είναι δραματικά. Ενώ τα σύγχρονα συστήματα AI είναι ολοένα και πιο αποτελεσματικά στο να ανακαλύπτουν και να εκμεταλλεύονται弱ότητες, έχουν δυσκολίες όταν τους ζητείται να αναγνωρίσουν και να σταματήσουν ενεργές επιθέσεις.

Frontier Models Fail to Meet the Minimum Bar for Defense

Το benchmark tested leading μοντέλα, συμπεριλαμβανομένων των Claude Opus 4.6, GPT-5, Gemini 3.1 Pro, και άλλων σε προσομοιωμένα επιχειρησιακά περιβάλλοντα.

Κανένα από τα μοντέλα δεν πέτυχε ένα passing score.

Το Claude Opus 4.6, το ισχυρότερο performer στο τεστ, ανίχνευσε μόνο ένα μέρος των ενδείξεων επιθέσεων σε MITRE ATT&CK τακτικές, ενώ πολλά μοντέλα απέτυχαν να αναγνωρίσουν ολόκληρες κατηγορίες κακόβουλου δραστηριότητας. Ανεξάρτητη ακαδημαϊκή έρευνα συμφωνεί με αυτά τα ευρήματα, δείχνοντας ότι ακόμη και τα κορυφαία μοντέλα έχουν δυσκολίες με ανοιχτή θήραυση απειλών, αναγνωρίζοντας μόνο một μικρό κλάσμα των κακόβουλων συμβάντων σε ρεαλιστικές σκηνές.

Αυτή η διαφορά υπογραμμίζει μια κρίσιμη περιορισμένη. Τα σημερινά συστήματα AI μπορεί να excelling στο να απαντούν σε δομημένες ερωτήσεις ή να λύνουν περιεχόμενα προβλήματα, αλλά σπάνε όταν απαιτείται να διερευνήσουν σύνθετες, εξελισσόμενες αλυσίδες επιθέσεων χωρίς καθοδήγηση.

Α Shift Toward Realistic, Agent-Based Evaluation

Τι διακρίνει αυτό το benchmark είναι το σχέδιό του.

Σε αντίθεση με προηγούμενες κυβερνοαμυντικές δοκιμές που βασίζονται σε πολλαπλές επιλογές ή στατικά σύνολα δεδομένων, η προσέγγιση του Simbian χρησιμοποιεί πραγματικά δεδομένα τηλεμετρίας και τοποθετεί τα μοντέλα σε một ατζεντικό κύκλο διερεύνησης. Αντί να τους λένε τι να ψάξουν, το AI πρέπει να εξετάσει τα logs, να διαμορφώσει υποθέσεις και να αναγνωρίσει απειλές ανεξάρτητα.

Αυτό αντανακλά πώς οι ανθρώπινοι αναλυτές ασφαλείας λειτουργούν σε πραγματικά Κέντρα Επιχειρήσεων Ασφαλείας.
Το benchmark ενσωματώνει δεκάδες τεχνικές επιθέσεων σε πολλαπλά στάδια, αναγκάζοντας τα μοντέλα να συνδέσουν σήματα σε διάφορες χρονικές στιγμές και συστήματα. Αναγκάζοντας τη μετάλλαξη του περιεχομένου και επιβάλλοντας μια determinιστική βαθμολόγηση, μειώνει επίσης τον κίνδυνο των μοντέλων να θυμόντουσαν einfach μοτίβα.

Αυτή η στροφή προς τον ρεαλισμό είναι σημαντική. Στην ανάπτυξη AI, η δημιουργία ενός benchmark που αντανακλά με ακρίβεια την πραγματική πολυπλοκότητα είναι συχνά το πρώτο βήμα για την επίλυση του προβλήματος.

Η Growing Divide Between Offensive and Defensive AI

Τα ευρήματα ενισχύουν μια ευρύτερη τάση που εμφανίζεται σε όλη την βιομηχανία.

Η AI βελτιώνεται ταχύτατα στις επιθετικές κυβερνοαμυντικές εργασίες. Πρόσφατες μελέτες δείχνουν ότι τα frontier μοντέλα μπορούν ήδη να εκτελέσουν πολλαπλά βήματα επιθέσεων σε προσομοιωμένα περιβάλλοντα και ολοένα και περισσότερο το κάνουν με ελάχιστη εργαλειοποίηση. Ταυτόχρονα, οι αμυντικές ικανότητες είναι πίσω.
Αυτή η ανισότητα δημιουργεί μια ευρεία ασυμμετρία. Οι επιτιθέμενοι μπορούν να εκμεταλλευτούν την αυτοματοποίηση και την κλίμακα, ενώ οι αμυνόμενοι εξακολουθούν να βασίζονται σε ανθρώπινη εμπειρία και θραυσματική εργαλειοποίηση. Ακόμη και όταν το AI αναγνωρίζει μια ευπάθεια, μπορεί να παρεξηγήσει τη σοβαρότητά της ή να αποτύχει να ενεργήσει κατάλληλα, υπογραμμίζοντας την διαφορά μεταξύ ανίχνευσης και κατανόησης.

Γιατί το “Out-of-the-Box” AI Falls Short

Το συμπέρασμα του Simbian δεν είναι ότι το AI δεν μπορεί να προστατέψει τα συστήματα, αλλά ότι δεν μπορεί να το κάνει μόνο του.

Το benchmark υποδηλώνει ότι τα LLMs απαιτούν αυτό που η εταιρεία περιγράφει ως “एक sophisticated harness”—μια συνδυασμένη εξωτερική νοημοσύνη, δομημένες εργοτικές διαδικασίες και ολοκληρωμένη ολοκλήρωση συστήματος—για να λειτουργήσουν αποτελεσματικά σε περιβάλλοντα ασφαλείας.

Αυτή η συμφωνία με ευρύτερη έρευνα που δείχνει ότι η προσθήκη εργαλείων, μνήμης και περιεχομένου βελτιώνει σημαντικά την απόδοση του AI στις κυβερνοαμυντικές εργασίες.

Σε παραγωγικά περιβάλλοντα, το Simbian ισχυρίζεται ότι έχει επιτύχει σημαντικά υψηλότερη ακρίβεια ανίχνευσης συνδυάζοντας τα μοντέλα με αυτά τα πρόσθετα στρώματα. Η επικύρωση είναι σαφής: η сыρά ικανότητα του μοντέλου είναι μόνο ένα μέρος του puzzle.

Μια Νέα Κατηγορία Benchmark για AI Security

Η κυκλοφορία του Cyber Defense Benchmark σηματοδοτεί ένα σημαντικό βήμα στην αξιολόγηση των συστημάτων AI για πραγματική ανάπτυξη.

Βάζοντας το επίκεντρο στην ανίχνευση απειλών με βάση τις ενδείξεις αντί για την απάντηση σε ερωτήσεις, αναδιαμορφώνει το πρόβλημα από την νοημοσύνη στην εκτέλεση. Επίσης, εισάγει το κόστος ως一个 μετρήσιμο παράγοντα, υπογραμμίζοντας τις ανταλλαγές μεταξύ απόδοσης και αποδοτικότητας μεταξύ των μοντέλων.

Καθώς η AI συνεχίζει να μεταμορφώνει την κυβερνοασφάλεια, τα benchmarks σαν αυτό μπορεί να γίνουν απαραίτητα εργαλεία για την κατανόηση όχι μόνο τι μπορούν να κάνουν τα μοντέλα, αλλά και πού αποτυγχάνουν—και γιατί.

Για τώρα, η λήψη είναι απλή. Παρά την ταχεία πρόοδο στην AI, η πλήρως αυτόνομη κυβερνοαμυντική παραμένει εκτός εύρους. Η επόμενη φάση της καινοτομίας θα εξαρτηθεί λιγότερο από την κατασκευή μεγαλύτερων μοντέλων και περισσότερο από το σχεδιασμό συστημάτων που συνδυάζουν την AI με δομημένη νοημοσύνη, περιεχόμενο και ανθρώπινη επιτήρηση.

Ο Antoine είναι ένας οραματιστής ηγέτης και συνιδρυτής του Unite.AI, οδηγείται από μια αμετάβλητη страсть για το σχήμα και την προώθηση του μέλλοντος του AI και της ρομποτικής. Ένας σειριακός επιχειρηματίας, πιστεύει ότι το AI θα είναι τόσο διαταρακτικό για την κοινωνία όσο η ηλεκτρική ενέργεια, και συχνά πιάνεται να μιλάει για το δυναμικό των διαταρακτικών τεχνολογιών και του AGI.

Ως futurist, είναι αφοσιωμένος στο να εξερευνήσει πώς αυτές οι καινοτομίες θα σχήματίσουν τον κόσμο μας. Επιπλέον, είναι ο ιδρυτής του Securities.io, μια πλατφόρμα που επικεντρώνεται στις επενδύσεις σε τεχνολογίες που αναedefinουν το μέλλον και ανασχήματίσουν ολόκληρους τομείς.