Ηγέτες σκέψης

Γιατί τα Μέτρα Ασφαλείας των Chatbot είναι το Λάθος Σύνορο Ασφαλείας

mm

Το Επιχειρηματικό AI έχει προχωρήσει πολύ πέρα από το στάδιο της απόδειξης της концепції. 23% των οργανισμών έχουν ήδη αναπτύξει συστήματα AI με αυτονομία κάπου στην επιχείρησή τους, και 62% είναι τουλάχιστον σε πειραματικό στάδιο με τους πράκτορες AI. Αυτά δεν είναι ερευνητικά προγράμματα. Είναι παραγωγικές αναπτύξεις, ενσωματωμένες σε ροές εργασιών που αφορούν αποθετήρια κώδικα, δεδομένα πελατών, εσωτερικούς API και λειτουργική υποδομή.

Η απάντηση της βιομηχανίας σε αυτήν την ανάπτυξη έχει επικεντρωθεί σε μεγάλο βαθμό σε αυτό που συμβαίνει πριν από την ενεργοποίηση ενός πράκτορα. Οι προμηθευτές και οι ερευνητές έχουν καταβάλει ενέργειες για τα μέτρα ασφαλείας πριν από την αναπτύξη: δημοσίευση πολιτικών κλιμάκωσης, ενίσχυση των θεμελιωδών μοντέλων, φιλτράρισμα εισόδων, ασφάλεια της αλυσίδας εφοδιασμού AI και επιβολή συμμόρφωσης κατά την εκπαίδευση. Οι μεγάλες εταιρείες AI έχουν κάνει ουσιαστικές επενδύσεις σε εργαλεία ασφαλείας για τους développers, ενισχύοντας μια κεντρική υπόθεση: αν το μοντέλο και οι εισόδοι ελέγχονται, ο κίνδυνος μετά την αναπτύξη μπορεί να περιοριστεί.

Είναι ένα λογικό ένστικτο, αλλά ένα ολοένα και πιο不πλήρες.

Το Prompt Δεν Είναι Ένα Σύνορο Ασφαλείας

Τα μέτρα ασφαλείας που λειτουργούν στο σύνορο του μοντέλου ωφελούν κυρίως τις ομάδες που ελέγχουν τον κώδικα της εφαρμογής, τη διαμόρφωση του μοντέλου και την υποκείμενη υποδομή. Προσφέρουν πολύ λιγότερη προστασία στους υπερασπιστές που έχουν ανατεθεί να ασφαλίσουν συστήματα AI που δεν έχουν δημιουργήσει και δεν μπορούν να τροποποιήσουν. Αυτό είναι ένα σημαντικό τυφλό σημείο, και οι αντίπαλοι έχουν ήδη το βρήκαν.

Η τελευταία έκθεση επιτήρησης απειλών της OpenAI τεκμηριώνει ακριβώς αυτήν τη δυναμική. Οι θρησκευτικοί παράγοντες εκμεταλλεύονται ενεργά το ChatGPT και παρόμοια εργαλεία σε περιβάλλοντα παραγωγής, όχι με την εφεύρεση νέων τεχνικών επιθέσεων, αλλά με την ενσωμάτωση της AI σε υπάρχουσες ροές εργασιών για να κινηθούν γρηγορότερα. Η αναγνώριση γίνεται πιο αποτελεσματική. Η κοινωνική μηχανική κλιμακώνεται. Η ανάπτυξη κακόβουλου λογισμικού επιταχύνεται. Η επιφάνεια επιθέσεων δεν έχει αλλάξει θεμελιωδώς· η ταχύτητα και ο όγκος της εκμετάλλευσης έχει.

Περισσότερο αποκαλυπτικό είναι το πώς οι επιτιθέμενοι ανταποκρίθηκαν όταν αυτά τα εργαλεία ανταποκρίθηκαν. Η OpenAI παρατήρησε τους θρησκευτικούς παράγοντες να μεταλλάσσουν γρήγορα τις προτροπές τους, διατηρώντας την υποκείμενη πρόθεση ενώ κυκλοφορούσαν επιφανειακές παραλλαγές για να παρακάμψουν τον έλεγχο του μετώπου. Αυτό είναι ένα μοτίβο που οι chuyênικοί ασφαλείας έχουν δει trước. Στατικές αμυντικές, είτε με βάση την υπογραφή ανтивίρου είτε με φιλτράρισμα εισόδων, δεν κρατούν απέναντι σε αντίπαλους που επαναλαμβάνουν γρηγορότερα από τις ενημερώσεις των κανόνων.

Η πρόκληση ενισχύεται καθώς οι πράκτορες κερδίζουν αυτονομία. Οι σύγχρονοι πράκτορες AI δεν λειτουργούν σε μια seule ανταλλαγή. Εκτελούν ακολουθίες δράσεων πολλαπλών βημάτων, καλώντας έγκυρα εργαλεία και άδειες με τρόπο που φαίνεται εντελώς φυσιολογικό σε απομόνωση. Ένας πράκτορας που χρησιμοποιεί έγκυρες πιστοποιήσεις για να αναφέρει εσωτερικούς API δεν προκαλεί ειδοποίηση. Ένας πράκτορας που προσεγγίζει ευαίσθητα αποθετήρια δεδομένων κατά τη διάρκεια μιας που φαίνεται ως μια κανονική ροή εργασιών δεν γεννά αμέσως σημαία. Κάθε μεμονωμένη δράση περνά τον έλεγχο· ο κίνδυνος ζει στην συνδυαστική και ακολουθία.

Όταν Η Απειλή Κινείται Κατωτέρω

Οι ομάδες ασφαλείας που υπερασπίζονται τις αναπτύξεις AI σήμερα αντιμετωπίζουν μια δομική ανταπόκριση. Τα εργαλεία που διαθέτουν είναι σε μεγάλο βαθμό κατασκευασμένα για να σκέφτονται τι επιτρέπεται να πει ένα μοντέλο. Ο πραγματικός κίνδυνος που πρέπει να διαχειριστούν είναι τι κάνει ένας πράκτορας σε συστήματα, δίκτυα και ταυτότητες μια φορά που έχει λάβει άδειες και έχει απελευθερωθεί σε ένα περιβάλλον παραγωγής.

Τα μέτρα ασφαλείας που βασίζονται σε προτροπές μοιράζονται τις θεμελιώδεις αδυναμίες των προηγούμενων προσεγγίσεων ασφαλείας με βάση τον κανόνα. Είναι εύθραυστα επειδή εξαρτώνται από την πρόβλεψη προτύπων επιθέσεων εκ των προτέρων. Είναι αντιδραστικά επειδή απαιτούν κάποιον να έχει παρατηρήσει και κωδικοποιήσει την απειλή πριν η άμυνα να λειτουργήσει. Και είναι υπερβαίνονται από αντίπαλους που έχουν υιοθετήσει την επανάληψη AI ως τυποποιημένη πρακτική. Ένας υπερασπιστής που βασίζεται στο φιλτράρισμα εισόδων για να πιάσει έναν θρησκευτικό παράγοντα που χρησιμοποιεί ένα μοντέλο γλώσσας για να δημιουργήσει φρέσκες παραλλαγές προτροπών βρίσκεται σε μια ουσιαστικά χαμένη θέση.

Η πραγματική έκθεση εμφανίζεται μετά την αναπτύξη. Οι δράσεις των πρακτόρων διαδίδονται σε περιβάλλοντα με τρόπο που δεν μπορεί να προβλεφθεί πλήρως από κανένα προ-αναπτύξιο έλεγχο. Οι πράκτορες συναντούν περιπτώσεις άκρων, αλληλεπιδρούν με πηγές δεδομένων που δεν είχαν σχεδιαστεί να χειριστούν, λαμβάνουν εισόδους από συστήματα εκτός της αρχικής αρχιτεκτονικής και λαμβάνουν αποφάσεις που συσσωρεύονται με τον καιρό. Ο προ-αναπτύξιος έλεγχος είναι μια στιγμιότυπη λήψη· η παραγωγή είναι μια συνεχής ροή. Η άμυνα μόνο της στιγμιότυπης λήψης σημαίνει ότι όλα όσα συμβαίνουν στη ροή είναι ουσιαστικά ανεπίσημα.

Μεταφέροντας το Σύνορο Ασφαλείας στα Χαρακτηριστικά του Πράκτορα

Η κατασκευή ανθεκτικότητας AI απαιτεί μια διαφορετική πλαισίωση και ο στόχος δεν πρέπει να είναι η προστασία του συνόρου του μοντέλου. Πρέπει να είναι η ανίχνευση της πρόθεσης του επιτιθέμενου μέσω των παρατηρήσιμων συνεπειών των δράσεων του πράκτορα. Αυτή είναι μια σημαντική διάκριση. Η πρόθεση δεν εμφανίζεται πάντα σε αυτό που λέει ένας πράκτορας ή σε τι εισόδους λαμβάνει.

Η ασφάλεια των συστημάτων AI πρέπει να επεκταθεί πέρα από τις ελέγχους συμμόρφωσης και τις αξιολογήσεις ανθεκτικότητας στην συνεχή αξιολόγηση του πώς οι πράκτορες συμπεριφέρονται μια φορά που αλληλεπιδρούν με πραγματικά εργαλεία, πραγματικά API και πραγματικά δεδομένα. Η στατική αξιολόγηση στο χρόνο αναπτύξεως είναι απαραίτητη αλλά ανεπαρκής. Το περιβάλλον απειλής που λειτουργεί ένας πράκτορας αλλάζει συνεχώς. Η συμπεριφορά του πράκτορα πρέπει να παρακολουθείται με την ίδια συνέχεια.

Αυτό είναι ένα πρόβλημα που η σκληροποίηση της προτροπής δεν μπορεί να λύσει. Η ανίχνευση κακόβουλης πρόθεσης όπως εμφανίζεται μέσω ακολουθιών δράσεων απαιτεί μοντέλα ικανά να κατανοούν σύνθετη, ακολουθιακή συμπεριφορά σε λειτουργικά περιβάλλοντα. Τα μοντέλα θεμελιώδους μάθησης που κατασκευάζονται για την ανάλυση συμπεριφοράς μπορούν να το κάνουν με τρόπους που τα συστήματα με βάση τον κανόνα και τα παραδοσιακά εργαλεία SIEM δεν μπορούν. Μαθαίνουν τι σημαίνει το κανονικό σε όλο το контέκστ της δραστηριότητας του πράκτορα και επιφανείζουν αποκλίσεις που δείχνουν ότι κάτι έχει αλλάξει, ακόμη και όταν καμία μεμονωμένη δράση δεν θα προκαλούσε μια συμβατική ειδοποίηση.

Η υποκείμενη λογική ισχύει ανεξάρτητα από το контέκστ αναπτύξεως: η ασφάλεια που εδράζεται στο σύνορο της προτροπής θα χάσει συνεχώς απέναντι σε επιτιθέμενους που λειτουργούν στο επίπεδο της δράσης. Η άμυνα πρέπει να μεταφερθεί όπου ζει η απειλή.

Τι πρέπει να Κάνουν οι Ομάδες Ασφαλείας Τώρα

Για τους ηγέτες ασφαλείας που προσπαθούν να προηγηθούν, μερικές πρακτικές μετατοπίσεις μπορούν να κλείσουν το χάσμα μεταξύ του σημείου όπου βρίσκονται οι αμυντικές και του σημείου όπου πρέπει να είναι.

Αξιολογήστε την ασφάλεια AI σε όλο το στοίβα της εφαρμογής. Το θεμελιώδες μοντέλο είναι ένα επίπεδο. Ισότιμα σημαντικό είναι το πώς οι πράκτορες συμπεριφέρονται μια φορά που αναπτύσσονται σε παραγωγή, ποια εργαλεία καλούν, ποίες άδειες χρησιμοποιούν και πώς αυτές οι επιλογές εξελίσσονται με τον καιρό. Οι αξιολογήσεις ασφαλείας που σταματούν στο σύνορο του μοντέλου αφήνουν την επιφάνεια λειτουργίας σε μεγάλο βαθμό ανεξέταστη.

Επιβάλετε την αρχή του ελάχιστου απορρήτου στο επίπεδο του πράκτορα. Οι πράκτορες AI πρέπει να έχουν πρόσβαση μόνο στα εργαλεία, API και δεδομένα που είναι απαραίτητα για τη λειτουργία τους. Αυτή η περιόριση έχει σημασία ακόμη και όταν οι εξόδους του πράκτορα φαίνονται αβλαβή. Η περιόριση της εμβέλειας μειώνει την ακτίνα της ζημιάς ενός παραβιασμένου πράκτορα και δημιουργεί πιο σαφείς βασικές γραμμές συμπεριφοράς που κάνουν την ανίχνευση ανωμαλιών πιο αποτελεσματική.

Θεωρήστε τους πράκτορες ως ταυτότητες που παράγουν τηλεμετρία. Κάθε δράση που thực施 ένας πράκτορας είναι ένα σημείο δεδομένων. Οι ομάδες ασφαλείας πρέπει να κατασκευάσουν λογική ανίχνευσης γύρω από αλυσίδες δράσεων που ξεκινούν από τον πράκτορα, όχι μόνο τις προτροπές του χρήστη που τις προηγούνται. Αυτή η ανακατασκευή μεταφέρει την παρακολούθηση από το τι ζήτησε ο χρήστης από τον πράκτορα να κάνει στο τι έκανε ο πράκτορας, όπου η πρόθεση του επιτιθέμενου γίνεται ορατή.

Επενδύστε στην συνεχή παρακολούθηση συμπεριφοράς με μοντέλα ανίχνευσης που κατασκευάζονται ειδικά για αυτήν την εργασία. Η ανίχνευση κακόβουλης πρόθεσης όπως εμφανίζεται μέσω ακολουθιών δράσεων απαιτεί εξειδικευμένη ικανότητα. Τα συμβατικά εργαλεία παρακολούθησης κατασκευάζονται για μοτίβα δραστηριότητας που παράγονται από ανθρώπους. Η συμπεριφορά του πράκτορα, με την ταχύτητά της, τον όγκο και τη δομή πολλαπλών βημάτων, απαιτεί υποδομή ανίχνευσης που σχεδιάζεται από την αρχή με αυτόν τον контέκστ.

Προτεραιότητα στην ομαδική άμυνα. Οι τεχνικές επιθέσεων AI εξελίσσονται γρηγορότερα από ό,τι μπορεί να παρακολουθήσει οποιαδήποτε οργάνωση. Η κοινή έρευνα, η ανοιχτή συνεργασία και η κοινοτική επιτήρηση απειλών δεν είναι προαιρετικά συμπληρώματα μιας στρατηγικής ασφαλείας AI· είναι βασικά εισαγόμενα. Οι υπερασπιστές που παραμένουν επίκαιροι είναι εκείνοι που συμβάλλουν και που आकरούν από την ομαδική γνώση.

Η Συμπεριφορική Ασφάλεια Πραγματικά Παρέχει

Για τις ομάδες ασφαλείας που κάνουν αυτήν τη μετατόπιση, η λειτουργική απόδοση είναι συγκεκριμένη. Η άγκυρα ανίχνευσης στη συμπεριφορά του πράκτορα και όχι στις εξόδους του μοντέλου ermögίζει την προηγούμενη ταυτοποίηση της κακόβουλης πρόθεσης, ακόμη και όταν οι επιθέσεις είναι κρυφές, προσαρμοστικές ή κρυπτογραφημένες. Οι επιτιθέμενοι που μεταλλάσσουν με επιτυχία τις προτροπές τους πέρα από τα φίλτρα εισόδου πρέπει ακόμη να ενεργήσουν. Αυτές οι δράσεις αφήνουν ίχνη. Η ανίχνευση συμπεριφοράς βρίσκει αυτά τα ίχνη πριν η ζημιά εξαπλωθεί.

Πιθανότατα το πιο σημαντικό, αυτή η προσέγγιση δίνει στις οργανώσεις ένα πιστό μονοπάτι για την αναπτύξη πρακτόρων AI σε κλίμακα χωρίς να αποδεχθούν αναλογικό κίνδυνο ασφαλείας. Το ερώτημα που κρατά πολλές επιχειρήσεις πίσω δεν είναι αν οι πράκτορες AI μπορούν να παρέχουν αξία· είναι αν μπορούν να αναπτυχθούν με επαρκή εμπιστοσύνη ότι η στάση ασφαλείας δεν χειροτερεύει καθώς η αναπτύξη αυξάνεται. Η συμπεριφορική ασφάλεια, εδραιωμένη στο πώς οι πράκτορες λειτουργούν στην πράξη και όχι σε τι εισόδους λαμβάνουν, παρέχει αυτήν την εμπιστοσύνη με τρόπο που τα μέτρα ασφαλείας με βάση την προτροπή δεν μπορούν.

Το σύνορο ασφαλείας σχεδιάστηκε στο λάθος σημείο, και αυτό το λάθος είχε νόημα όταν το AI ήταν ένα εργαλείο που περίμενε εισόδους. Δεν περιμένει πλέον, τα συστήματα με αυτονομία ενεργούν, αλυσίδες, εσκαλώνουν και συσσωρεύουν σε περιβάλλοντα που δεν προέβλεψαν οι προ-αναπτύξεις δοκιμές. Οι οργανώσεις που αναγνωρίζουν αυτό το νωρίτερα θα είναι αυτές που πραγματικά κλιμακώνουν το AI με εμπιστοσύνη. Όλοι οι άλλοι θα περάσουν τα επόμενα χρόνια ανακαλύπτοντας, παραβίαση με παραβίαση, ότι το έλεγχο του τι λέει ένα μοντέλο δεν ήταν ποτέ το ίδιο πράγμα με το έλεγχο του τι κάνει.

Ο Mayank Kumar είναι ο Ιδρυτικός Μηχανικός ΙΑ στην DeepTempo, όπου ηγείται του σχεδιασμού και της ανάπτυξης του θεμελιώδους Λογικού Μοντέλου Γλώσσας (LogLM) της εταιρείας. Με ισχυρό ακαδημαϊκό και ερευνητικό υπόβαθρο στις γενετικές και πολυμεσικές ΙΑ, φέρνει εξειδικευμένη εμπειρογνωσία στην κατασκευή μοντέλων που ενισχύουν την ανίχνευση και απόκριση απειλών σε περιβάλλοντα κυβερνοασφάλειας.