Συνδεθείτε μαζί μας

Το OpenAI παραδέχεται ότι τα προγράμματα περιήγησης τεχνητής νοημοσύνης ενδέχεται να μην είναι ποτέ πλήρως ασφαλή

Κυβερνασφάλεια

Το OpenAI παραδέχεται ότι τα προγράμματα περιήγησης τεχνητής νοημοσύνης ενδέχεται να μην είναι ποτέ πλήρως ασφαλή

mm

Το OpenAI δημοσίευσε α ανάρτηση ιστολογίου ασφαλείας στις 22 Δεκεμβρίου που περιείχε μια εντυπωσιακή παραδοχή: οι επιθέσεις άμεσης ένεσης κατά των προγραμμάτων περιήγησης τεχνητής νοημοσύνης «ενδέχεται να μην επιλυθούν ποτέ πλήρως». Η παραχώρηση έρχεται μόλις δύο μήνες μετά την έναρξη λειτουργίας της εταιρείας Άτλας ChatGPT, το πρόγραμμα περιήγησής του με δυνατότητες αυτόνομου πράκτορα.

Η εταιρεία συνέκρινε την άμεση έγχυση με «απάτες και κοινωνική μηχανική στο διαδίκτυο» — επίμονες απειλές που οι υπερασπιστές διαχειρίζονται αντί να εξαλείφουν. Για τους χρήστες που εμπιστεύονται πράκτορες τεχνητής νοημοσύνης για να πλοηγούνται στο διαδίκτυο εκ μέρους τους, αυτό το πλαίσιο εγείρει θεμελιώδη ερωτήματα σχετικά με το πόση αυτονομία είναι κατάλληλη.

Τι αποκάλυψε η OpenAI

Η ανάρτηση ιστολογίου περιγράφει την αμυντική αρχιτεκτονική του OpenAI για το Atlas, συμπεριλαμβανομένου ενός «αυτοματοποιημένου εισβολέα» με ενισχυτική μάθηση που αναζητά τρωτά σημεία πριν τα εντοπίσουν κακόβουλοι παράγοντες. Η εταιρεία ισχυρίζεται ότι αυτή η εσωτερική ομάδα red έχει ανακαλύψει «νέες στρατηγικές επίθεσης που δεν εμφανίστηκαν στην καμπάνια ανθρώπινης red teaming ή σε εξωτερικές αναφορές».

Μια επίδειξη έδειξε πώς ένα κακόβουλο email θα μπορούσε να παραβιάσει έναν πράκτορα τεχνητής νοημοσύνης που έλεγχε τα εισερχόμενα ενός χρήστη. Αντί να συντάξει μια απάντηση "εκτός γραφείου" όπως είχε υποδειχθεί, ο παραβιασμένος πράκτορας έστειλε ένα μήνυμα παραίτησης. Η OpenAI αναφέρει ότι η τελευταία ενημέρωση ασφαλείας εντοπίζει τώρα αυτήν την επίθεση - αλλά το παράδειγμα καταδεικνύει τα διακυβεύματα όταν οι πράκτορες τεχνητής νοημοσύνης ενεργούν αυτόνομα σε ευαίσθητα περιβάλλοντα.

Ο αυτοματοποιημένος εισβολέας «μπορεί να οδηγήσει έναν πράκτορα στην εκτέλεση εξελιγμένων, μακροπρόθεσμων επιβλαβών ροών εργασίας που ξεδιπλώνονται σε δεκάδες (ή και εκατοντάδες) βήματα», έγραψε το OpenAI. Αυτή η δυνατότητα βοηθά το OpenAI να εντοπίζει ελαττώματα πιο γρήγορα από τους εξωτερικούς εισβολείς, αλλά αποκαλύπτει επίσης πόσο πολύπλοκες και καταστροφικές μπορούν να γίνουν οι επιθέσεις άμεσης έγχυσης.

Εικόνα: OpenAI

Το Βασικό Πρόβλημα Ασφάλειας

Η άμεση έγχυση εκμεταλλεύεται έναν βασικό περιορισμό των μεγάλων γλωσσικών μοντέλων: δεν μπορούν να διακρίνουν αξιόπιστα μεταξύ νόμιμων οδηγιών και κακόβουλου περιεχομένου που είναι ενσωματωμένο στα δεδομένα που επεξεργάζονται. Όταν ένα πρόγραμμα περιήγησης τεχνητής νοημοσύνης διαβάζει μια ιστοσελίδα, οποιοδήποτε κείμενο σε αυτήν τη σελίδα θα μπορούσε ενδεχομένως να επηρεάσει τη συμπεριφορά της.

Οι ερευνητές ασφαλείας το έχουν καταδείξει επανειλημμένα. Τα προγράμματα περιήγησης τεχνητής νοημοσύνης συνδυάζουν μέτρια αυτονομία με πολύ υψηλή πρόσβαση—μια δύσκολη θέση στον χώρο της ασφάλειας.

Οι επιθέσεις δεν απαιτούν εξελιγμένες τεχνικές. Κρυφό κείμενο σε ιστοσελίδες, προσεκτικά γραμμένα email ή αόρατες οδηγίες σε έγγραφα μπορούν να παραποιηθούν. Πράκτορες AI στην εκτέλεση ακούσιων ενεργειών. Μερικοί ερευνητές έχουν δείξει ότι κακόβουλες προτροπές που είναι κρυμμένες σε στιγμιότυπα οθόνης μπορούν να εκτελεστούν όταν μια τεχνητή νοημοσύνη τραβάει μια φωτογραφία της οθόνης ενός χρήστη.

Πώς ανταποκρίνεται το OpenAI

Οι άμυνες της OpenAI περιλαμβάνουν μοντέλα που έχουν εκπαιδευτεί με αντιπαλότητα, ταξινομητές άμεσης εισαγωγής και «προβλήματα ταχύτητας» που απαιτούν επιβεβαίωση από τον χρήστη πριν από ευαίσθητες ενέργειες. Η εταιρεία συνιστά στους χρήστες να περιορίσουν τα στοιχεία που μπορεί να έχει πρόσβαση η Atlas—περιορίζοντας την πρόσβαση των συνδεδεμένων χρηστών, απαιτώντας επιβεβαιώσεις πριν από πληρωμές ή μηνύματα και παρέχοντας περιορισμένες οδηγίες αντί για ευρείες εντολές.

Αυτή η σύσταση είναι αποκαλυπτική. Η OpenAI ουσιαστικά συμβουλεύει να αντιμετωπίζεται το ίδιο της το προϊόν με καχυποψία, περιορίζοντας την αυτονομία που καθιστά εξαρχής ελκυστικά τα προγράμματα περιήγησης με τεχνητή νοημοσύνη. Οι χρήστες που θέλουν τα προγράμματα περιήγησης με τεχνητή νοημοσύνη να διαχειρίζονται όλα τα εισερχόμενά τους ή να διαχειρίζονται τα οικονομικά τους αναλαμβάνουν κινδύνους που η ίδια η εταιρεία δεν υποστηρίζει.

Η ενημέρωση ασφαλείας μειώνει τις επιτυχημένες επιθέσεις injection. Αυτή η βελτίωση έχει σημασία, αλλά σημαίνει επίσης ότι η υπόλοιπη επιφάνεια επίθεσης θα παραμένει—και οι επιτιθέμενοι θα προσαρμοστούν σε όποιες άμυνες αναπτύξει το OpenAI.

Επιπτώσεις σε όλη τη βιομηχανία

Η OpenAI δεν είναι η μόνη που αντιμετωπίζει αυτές τις προκλήσεις. Το πλαίσιο ασφαλείας της Google Οι λειτουργίες πρακτόρων του Chrome περιλαμβάνουν πολλαπλά επίπεδα άμυνας, συμπεριλαμβανομένου ενός ξεχωριστού μοντέλου τεχνητής νοημοσύνης που ελέγχει κάθε προτεινόμενη ενέργεια. Το πρόγραμμα περιήγησης Comet της Perplexity έχει αντιμετωπίσει παρόμοιο έλεγχο από ερευνητές ασφαλείας στην Brave, οι οποίοι διαπίστωσαν ότι η πλοήγηση σε μια κακόβουλη ιστοσελίδα θα μπορούσε να προκαλέσει επιβλαβείς ενέργειες τεχνητής νοημοσύνης.

Ο κλάδος φαίνεται να συγκλίνει σε μια κοινή αντίληψη: η άμεση έγχυση είναι ένας θεμελιώδης περιορισμός, όχι ένα σφάλμα που πρέπει να διορθωθεί. Αυτό έχει σημαντικές επιπτώσεις στο όραμα των πρακτόρων Τεχνητής Νοημοσύνης που χειρίζονται αυτόνομα πολύπλοκες, ευαίσθητες εργασίες.

Τι πρέπει να λάβουν υπόψη οι χρήστες

Η ειλικρινής εκτίμηση είναι άβολη: Τα προγράμματα περιήγησης τεχνητής νοημοσύνης είναι χρήσιμα εργαλεία με εγγενείς περιορισμούς ασφαλείας που δεν μπορούν να εξαλειφθούν μέσω καλύτερης μηχανικής. Οι χρήστες αντιμετωπίζουν μια αντιστάθμιση μεταξύ ευκολίας και κινδύνου που κανένας προμηθευτής δεν μπορεί να επιλύσει πλήρως.

Οι οδηγίες της OpenAI —περιορισμός της πρόσβασης, απαίτηση επιβεβαιώσεων, αποφυγή ευρέων εντολών— ισοδυναμούν με συμβουλές για τη χρήση λιγότερο ισχυρών εκδόσεων του προϊόντος. Δεν πρόκειται για κυνική τοποθέτηση. Είναι ρεαλιστική αναγνώριση των τρεχόντων περιορισμών. Βοηθοί AI που μπορεί να κάνει περισσότερα μπορεί επίσης να χειραγωγηθεί ώστε να κάνει περισσότερα.

Ο παραλληλισμός με την παραδοσιακή ασφάλεια ιστού είναι διδακτικός. Οι χρήστες εξακολουθούν να πέφτουν θύματα επιθέσεων ηλεκτρονικού "ψαρέματος" (phishing) δεκαετίες μετά την εμφάνισή τους. Τα προγράμματα περιήγησης εξακολουθούν να μπλοκάρουν εκατομμύρια κακόβουλους ιστότοπους καθημερινά. Η απειλή προσαρμόζεται ταχύτερα από ό,τι μπορούν να την αντιμετωπίσουν μόνιμα οι άμυνες.

Τα προγράμματα περιήγησης τεχνητής νοημοσύνης προσθέτουν μια νέα διάσταση σε αυτή τη γνώριμη δυναμική. Όταν οι άνθρωποι περιηγούνται, κρίνουν τι φαίνεται ύποπτο. Οι πράκτορες τεχνητής νοημοσύνης επεξεργάζονται τα πάντα με την ίδια εμπιστοσύνη, καθιστώντας τους πιο ευάλωτους σε χειραγώγηση, ακόμη και καθώς γίνονται πιο ικανοί.

Η πορεία προς τα εμπρός

Η διαφάνεια της OpenAI αξίζει αναγνώρισης. Η εταιρεία θα μπορούσε να είχε αποστείλει ενημερώσεις ασφαλείας αθόρυβα χωρίς να αναγνωρίσει την επιμονή του υποκείμενου προβλήματος. Αντ' αυτού, δημοσίευσε λεπτομερή ανάλυση των φορέων επίθεσης και των αμυντικών αρχιτεκτονικών - πληροφορίες που βοηθούν τους χρήστες να λαμβάνουν τεκμηριωμένες αποφάσεις και τους ανταγωνιστές να βελτιώνουν τις δικές τους προστασίες.

Αλλά η διαφάνεια δεν λύνει το θεμελιώδες ζήτημα. Όσο πιο ισχυροί γίνονται οι πράκτορες τεχνητής νοημοσύνης, τόσο πιο ελκυστικοί στόχοι αποτελούν. Οι ίδιες δυνατότητες που επιτρέπουν στην Atlas να χειρίζεται πολύπλοκες ροές εργασίας δημιουργούν επίσης ευκαιρίες για εξελιγμένες επιθέσεις.

Προς το παρόν, οι χρήστες των προγραμμάτων περιήγησης τεχνητής νοημοσύνης θα πρέπει να τα αντιμετωπίζουν ως ισχυρά εργαλεία με σημαντικούς περιορισμούς — όχι ως πλήρως αυτόνομοι ψηφιακοί βοηθοί έτοιμοι να χειριστούν ευαίσθητες εργασίες χωρίς επίβλεψη. Το OpenAI ήταν ασυνήθιστα ειλικρινές σχετικά με αυτή την πραγματικότητα. Το ερώτημα είναι εάν το μάρκετινγκ του κλάδου θα καλύψει αυτό που ήδη γνωρίζουν οι ομάδες ασφαλείας.

Ο Alex McFarland είναι δημοσιογράφος και συγγραφέας AI που εξερευνά τις τελευταίες εξελίξεις στην τεχνητή νοημοσύνη. Έχει συνεργαστεί με πολλές startups και εκδόσεις AI παγκοσμίως.