Connect with us

Μια Επίθεση Εισαγωγής Προτροπής που Δεν Μπορεί να Αποτραπεί: Ευχάριστος Λόγος ή Πραγματικός Κίνδυνος;

Ηγέτες σκέψης

Μια Επίθεση Εισαγωγής Προτροπής που Δεν Μπορεί να Αποτραπεί: Ευχάριστος Λόγος ή Πραγματικός Κίνδυνος;

mm
A digital 3D render of a dark server room with a computer monitor displaying a

Σε αυτό το άρθρο, θα ήθελα να εμπλέξω τον αναγνώστη σε ένα πείραμα σκέψης. Θα επιχειρήσω να υποστηρίξω ότι σε ένα μη πολύ μακρινό μέλλον, ένας bestimmός τύπος επίθεσης εισαγωγής προτροπής θα είναι αποτελεσματικά α防ίμητος. Το επιχείρημά μου θα είναι πιο εικασιακό παρά συγκεκριμένο, οπότε δεν προσπαθώ να σας πείσω για κάτι. Αντίθετα, σας προσκαλώ να εξερευνήσετε αυτές τις σκέψεις. Πριν ξεκινήσω, όπως θα έκανε οποιοσδήποτε πειστικός συγγραφέας, θέλω να συζητήσω για το σκάκι και τους κινητήρες σκακιού.

Υπεράνθρωποι Κινητήρες Σκακιού και μια Δήλωση για την Ανθρώπινη Εμπειρία

Ένα από τα ωραία στοιχεία του σκακιού που λείπει σε άλλες дисципλίνες είναι η ικανότητα να μετρήσετε αντικειμενικά την ποιότητα ή τη δύναμη ενός παίκτη. Το σύστημα βαθμολογίας ELO που χρησιμοποιείται για αυτό το σκοπό έχει τις ελαττώματές του, αλλά παρέχει μια πολύ καλή περίπου εκτίμηση που διαρκεί με τον καιρό. Ένας βαθμός 2700 ή υψηλότερος αναγνωρίζεται συνήθως ως παγκόσμιας κλάσης (πρώτοι 30 στον κόσμο). Ο καλύτερος παίκτης του κόσμου είναι λίγο κάτω από 2850. Κανένας άνθρωπος δεν έχει φτάσει ποτέ σε βαθμό 2900.
Στα μέσα της δεκαετίας του ’90, είδαμε τον πρώτο κινητήρα AI (Deep Blue) που έφτασε σε παγκόσμιας κλάσης επίπεδο. Η πρακτική επιπτώσεις αυτού του ορόσημου ήταν η ευρεία υιοθέτηση των κινητήρων από παίκτες όλων των επιπέδων για άσκηση και ανάλυση. Στην πραγματικότητα, η χρήση του κινητήρα έγινε απαραίτητη για τους καλύτερους παίκτες του κόσμου. Ωστόσο, για αρκετές γενιές αυτών των κινητήρων παγκόσμιας κλάσης, η αναθεώρηση των προτεινόμενων κινήσεων (δηλ. εξόδου) ήταν απαραίτητη. Υπήρχε ακόμη και ένα ειδικό φορμάτ που δημιουργήθηκε με το όνομα “προηγμένο σκάκι” στο οποίο οι άνθρωποι ανταγωνίζονταν με έναν κινητήρα δίπλα τους, και η ανθρώπινη + μηχανική συνδυασμός θεωρήθηκε ανώτερος από τη μηχανή μόνο.
Πήρε περίπου 20 χρόνια, και κάποια κρίσιμη πρόοδο στη βαθιά μάθηση και τη μάθηση ενίσχυσης για τους κινητήρες σκακιού να φτάσουν σε υπεράνθρωπο επίπεδο (περίπου 3200 ELO). Αλλά μια φορά που αυτό το στρώμα διαπέρασε γύρω στο 2017, κάτι πολύ απροσδόκητο συνέβη. Ναι, στην πραγματικότητα, δύο πράγματα συνέβησαν. Το πρώτο ήταν完全 αναμενόμενο· οι κινητήρες έγιναν η de facto πηγή “αληθινής αλήθειας” στο 99% όλων των θέσεων. Στην πράξη, αυτό σήμαινε ότι εισήλθαμε στην “εποχή του τυφλού ελέγχου” του κινητήρα. Αυτές τις μέρες, είναι σχεδόν αδύνατο για έναν άνθρωπο να προτείνει μια σημαντικά καλύτερη κίνηση από τον κινητήρα. Όσο διασκεδαστικό ήταν το “προηγμένο σκάκι”, είναι τώρα μια άχρηστη άσκηση· οι άνθρωποι θα συνεισέφεραν σχεδόν τίποτα στο παιχνίδι. Αλλά το δεύτερο ήταν σοκαριστικό για τους περισσότερους παίκτες σκακιού. Αυτοί οι υπεράνθρωποι νευρωνικοί (δηλ. βαθιά νευρωνικά δίκτυα) κινητήρες θα έπαιζαν μερικές φορές σε ένα στυλ που μπορεί να περιγραφεί ως “ρομαντικό”. Με άλλα λόγια, θα έκαναν κινήσεις που η αξία τους θα μπορούσε να εκτιμηθεί μόνο μετά από πολλές, πολλές κινήσεις, πολύ πέρα από αυτό που θα μπορούσε να υπολογίσει οποιοσδήποτε άνθρωπος ή κινητήρας παγκόσμιας κλάσης. Νιώθαι πολύ σαν να αναπτύχθηκαν μια “αίσθηση” ή μια “ενστικτώδους” για ορισμένες θέσεις. Εκτός από το ότι αυτή η ενστικτώδους δεν είναι κάτι που θα μπορούσε να κατανοήσει ή να μιμηθεί ένας άνθρωπος.
Δηλωμένο διαφορετικά, ένας υπεράνθρωπος νευρωνικός κινητήρας μπορεί να κάνει κινήσεις που είναι πέρα από τον γνωστικό ορίζοντα ενός ανθρώπου. Αυτό είναι το κρίσιμο σημείο εδώ· το ζήτημα δεν είναι αυτό της ερμηνευσιμότητας. Αντίθετα, ένας άνθρωπος απλά δεν μπορεί να κατανοήσει γιατί ένας κινητήρας συνιστά μια κίνηση χωρίς να παίξει την θέση και να παρατηρήσει το αποτέλεσμα πολλές κινήσεις αργότερα, δηλ. αναπτύσσοντας ολόκληρη την πορεία των πιθανών ακολουθιών παιχνιδιού. Ως αποτέλεσμα, έχουμε ένα ανυπέρβλητο χάσμα ικανοτήτων. Είναι βέλτιστο να αποδεχθούμε την έξοδο του κινητήρα χωρίς αναθεώρηση. Μπορώ να συνοψίσω την δήλωσή μου ως εξής:

Το σκάκι είναι μια απόδειξη ότι η υπεράνθρωπη AI θα λειτουργούσε αποτελεσματικά αυτονομικά σε ορισμένα πεδία. Η ενεργοποίηση του συστήματος AI να λαμβάνει αποφάσεις χωρίς ανθρώπινη αναθεώρηση θα ήταν ο βέλτιστος τρόπος για την ανάπτυξη ενός τέτοιου συστήματος.

Από τη στιγμή που η δήλωσή μου μπορεί να φαίνεται προφανής ή μη αξιοσημείωτη, θέλω να υπογραμμίσω μερικές νюάνσεις. Υποθέτουμε ότι έχουμε ένα σύστημα AI που αποδεικνύει υπεράνθρωπο επίπεδο σε ένα σύνθετο, κρίσιμο, έργο με συγκεκριμένα, μη αναστρέψιμα, συνέπειες. Υπάρχουν δύο επιπτώσεις στη δήλωσή μου:

  1. Το σύστημα θα αναπτυχθεί για να λαμβάνει αποφάσεις για το έργο χωρίς ανθρώπινη αναθεώρηση, παρά τον εγγενή κίνδυνο
  2. Η έμπνευση που λαμβάνεται από την παρακολούθηση ενός τέτοιου συστήματος δεν θα αποτρέψει μια βλαβερή απόφαση· η ζημιά θα είχε ήδη γίνει

Η αναθεώρηση της εξόδου και η παρακολούθηση είναι ακριβώς τα δύο τελευταία στρώματα άμυνας ενάντια στις επιθέσεις εισαγωγής προτροπής. Ως εκ τούτου, η υποθετική επίθεση εισαγωγής προτροπής θα μπορούσε να παρακάμψει αυτά τα στρώματα απλώς στόχευοντας το κατάλληλο σύστημα.
Αυτό είναι ένα πολύ ρεαλιστικό σενάριο στο μυαλό μου. Ένα σύστημα AI υπεράνθρωπου επιπέδου σε ένα συγκεκριμένο πεδίο δεν είναι AGI, και οι περισσότεροι εμπειρογνώμονες πιστεύουν ότι τέτοια συστήματα είναι ακριβώς γύρω από τη γωνία. Δεν χρειαζόμαστε να υποθέσουμε ότι οι αποφάσεις είναι ευαίσθητες στον χρόνο, απλώς ότι το έργο είναι αρκετά σύνθετο για να κάνει την ανθρώπινη αναθεώρηση αδύνατη.
Βέβαια, έχουμε μόνο παρακάμψει δύο στρώματα άμυνας μέχρι τώρα, και ευτυχώς για μας, έχουν αναπτυχθεί πολλά άλλα. Για να αντιμετωπίσουμε τα υπόλοιπα, ας εμβαθύνουμε στα βασικά στοιχεία που κάνουν την εισαγωγή προτροπής δύσκολο να αμυνθεί.

Τι είναι η Εισαγωγή Προτροπής;

Η εισαγωγή προτροπής είναι μια χειραγώγηση ενός Μεγάλου Μοντέλου Γλώσσας (LLM) μέσω κατασκευασμένων εισαγωγών, που προκαλούν το LLM να εκτελεί άγνοια τις προθέσεις του επιτιθέμενου. Μπορεί να θεωρηθεί ως κοινωνική μηχανική για AI. Κρίσιμο, δεν είναι ένα συνήθης σφάλμα λογισμικού. Μια επίθεση εισαγωγής προτροπής εκμεταλλεύεται μια εγγενή ευπάθεια LLM.既然 τα LLM επεξεργάζονται τόσο τις προτροπές του συστήματος όσο και τις προτροπές του χρήστη ως ακολουθίες κειμένου, δεν μπορούν να διακρίνουν εγγενώς μεταξύ νόμιμων και επιβλαβών εντολών. Η ευπάθεια είναι επομένως αποτελεσματικά από-σχεδιασμός, παρά από-τυχαίο.

Τεχνικές Εισαγωγής Προτροπής

Η εισαγωγή προτροπής αναγνωρίζεται γενικά ως ο #1 κίνδυνος για εφαρμογές LLM. Υπάρχουν πολλά λόγια γιατί αυτό είναι το caso. Ο πιο προφανής παράγοντας είναι η ποικιλία των τεχνικών εισαγωγής που έχουν αναπτυχθεί. Περίπου ομαδοποιώντας τις σε τέσσερις κατηγορίες, οι πιο γνωστές τεχνικές περιλαμβάνουν:

  • Συμβατική: χρήση ειδικών χαρακτήρων, εικονιδίων ή εναλλακτικής γλώσσας
  • Επ间: χρήση εξωτερικών πηγών (αναζήτηση από site), κωδικοποίησης (base 64), ή πολλαπλής αναφοράς (κειμενο σε εικόνα)
  • «Ας Παίξουμε»: εισαγωγή ενός χειραγωγικού στυλ με π.χ. ρόλο, υποθετική, εмоциональική έφεση, ηθική πλαισίωση και αλλαγή μορφής
  • Βίαιη: ρητή προσπάθεια να “ισχυροποιήσετε” τις οδηγίες του μοντέλου με βία, ενίσχυση ή αρνητική προτροπή

Η ποικιλία μόνη της παρέχει μια πρόκληση για τους développers εφαρμογών, αλλά αυτές οι επιθέσεις έχουν επίσης συνεχίσει να εξελίσσονται γρήγορα. Η αριστερή πλευρά του διαγράμματος παρακάτω υποστηρίζει ότι περιγράφει το state-of-the-art για τις αρχές του 2023, ενώ η δεξιά πλευρά αντανακλά τη φύση των επιθέσεων σήμερα.

Εξέλιξη των Διανυσμάτων Επιθέσεων

Οι développers εφαρμογών LLM πρέπει επίσης να λάβουν υπόψη το τυπικό tradeoff μεταξύ ευχρηστίας και ασφάλειας. Θα μπορούσαν να εισαγάγουν κάθε κατάλληλο στρώμα άμυνας και σχέδιο, αλλά με ποιο κόστος; Τα στρώματα άμυνας προστίθενται σημαντική καθυστέρηση και εισαγάγουν Ψευδείς Θετικούς (FPs) – λανθασμένα σηματοδοτούν ασφαλείς προτροπές ως επιβλαβείς – και οι δύο παράγοντες έχουν αρνητική επίδραση στην εμπειρία του χρήστη. Ως αποτέλεσμα, κάποια mức độ συμβιβασμού είναι αναπόφευκτο στην πράξη, και δεν υπάρχει “ασημένιο βόλι” λύση.
Ωστόσο, σε αυτό το άρθρο, δεν με ενδιαφέρει πραγματικά αυτό το ατελείωτο παιχνίδι γάτας και ποντικού. Αντίθετα, ερευνώ αν μια επίθεση μπορεί να είναι α防ίμητη σε αρχή. Από την πλευρά του développer/αμυντή, υπάρχει μόνο μια κρίσιμη έμπνευση:

Η διαχωριστική γραμμή των εντολών από τα δεδομένα στην προτροπή είναι θεμελιώδους σημασίας για την αντιμετώπιση του κινδύνου εισαγωγής προτροπής

Μπορούμε να υποθέσουμε ότι οι συμβιβασμοί δεν είναι παράγοντας, και οποιοδήποτε στρώμα άμυνας ή τεχνική μπορεί να χρησιμοποιηθεί. Υπό αυτή τη (ισχυρή) υπόθεση, είναι δυνατό να συνθέσουμε ένα σενάριο στο οποίο η διαχωριστική γραμμή των εντολών-δεδομένων σε μια προτροπή είναι αποτελεσματικά αδύνατο;

Η Αναλογία του DNA

Μόλις το ζήτημα διατυπώθηκε σε όρους διαχωριστικής γραμμής εντολών-δεδομένων, η αρχική μου σκέψη ήταν να χρησιμοποιήσω τη βιολογία ως αναλογία.
Σκεφτείτε ένα κύτταρο και μια εκτεταμένη ακολουθία DNA (γνωστή ως γονίδιο). Το γονίδιο παρέχει οδηγίες για την κατασκευή μιας πρωτεΐνης μέσω μεταγραφής και μετάφρασης. Επίσης, κωδικοποιεί τις πληροφορίες (δεδομένα) που επηρεάζουν τη δομή και τη λειτουργία της πρωτεΐνης. Ως εκ τούτου, το γονίδιο δикτάζει ταυτόχρονα τι να χτίσει και πώς να το χτίσει, ή έτσι σκέφτηκα. Ωστόσο, αυτό είναι απλώς ψευδές,既然 ένα γονίδιο δεν αποφασίζει πώς να ερμηνεύσει τον εαυτό του. Δεν υπάρχει ισοδύναμο της ακολουθίας εντολών στη βιολογία στο επίπεδο γονιδιώματος.
Ως εκ τούτου, ακόμη και αν δεν μπορώ να σταματήσω το αίσθημα ότι οι μελλοντικές γενιές των LLM – ή πιο ακριβώς, τα συστήματα που θα εξελιχθούν – θα μοιάζουν με βιολογικές μηχανές σε μεγαλύτερο βαθμό, η προτεινόμενη αναλογία απλώς δεν λειτουργεί. Δεν μπορούμε να υποκαταστήσουμε ένα κύτταρο με ένα LLM και ένα γονίδιο με μια προτροπή και στη συνέχεια να εκτελέσουμε μια ένεση στο γονίδιο που θα προκαλούσε μια “βλαβερή” πρωτεΐνη να χτιστεί. Φαίνεται πιο παραγωγικό να μείνουμε με τη φυσική γλώσσα και τις εργασίες που απαιτούν σεμαντική ερμηνεία.

Απομάκρυνση των Στρωμάτων Άμυνας

Δεν πρέπει να είναι έκπληξη ότι οι στρατηγικές πολλαπλών στρωμάτων άμυνας θεωρούνται πιο αποτελεσματικές στην αποτροπή επιθέσεων εισαγωγής προτροπής. Η εικόνα παρακάτω δείχνει τα πιο κοινά στρώματα άμυνας με τη σειρά, και τις συνδεδεμένες τεχνικές που χρησιμοποιούνται σε κάθε στρώμα.

Στρώματα Άμυνας Εισαγωγής Προτροπής

Έχουμε ήδη συζητήσει τα δύο τελευταία στρώματα (έξοδος, παρακολούθηση) παραπάνω, οπότε ας επικεντρωθούμε στα πρώτα τέσσερα.
Συγκριτικά με το στρώμα εισαγωγής, είναι εύλογο να υποθέσουμε ότι η αποστείρωση ή η επικύρωση της προτροπής θα ήταν αρκετά επιτυχημένες στην ανίχνευση 间接 επιθέσεων. Ωστόσο, αν η ένεση παραδίδεται απευθείας, και όπως προτάθηκε παραπάνω, με την εξάρτηση από τη σεμαντική ερμηνεία, ίσως η αποστείρωση είναι άσχετη (τίποτα να αποστείρωσει), και η επικύρωση είναι αδύνατη από προεπιλογή,既然 η υπολογισμός πρέπει να ολοκληρωθεί για να αναγνωριστεί το ζήτημα.
Υπάρχουν ουσιαστικά keine όρια στα φράγματα που θα μπορούσατε να κατασκευάσετε στο στρώμα ανίχνευσης. Στην πραγματικότητα, θα μπορούσατε ακόμη και να χρησιμοποιήσετε ένα αφιερωμένο LLM για ανίχνευση ένεσης. Αλλά και πάλι, θα είναι δύσκολο για einen ταξινόμηση ή einen ανίχνευση ανωμαλιών να σηματοδοτήσει μια προτροπή ως ύποπτη όταν το δηλητήριο είναι έξυπνα κρυμμένο μέσα στη σεμαντική.
Το στρώμα μοντέλου μπορεί να είναι αρκετά αποτελεσματικό όταν ο σκοπός των εργασιών είναι στενός, και η λεπτομέρεια είναι εφικτή. Ένα παρόμοιο επιχείρημα θα μπορούσε να γίνει για το στρώμα συστήματος όταν η χρήση εργαλείων είναι προβλέψιμη. Ωστόσο, τουλάχιστον ενστικτωδώς, κανένα από αυτά δεν θα σηματοδοτούσε μια ενέσιμη ένεση.

Σπίτι από Κάρτες

Η πρόθεσή μου όταν ξεκίνησα να γράφω αυτό το άρθρο ήταν να περιγράψω μια “α防ίμητη” επίθεση εισαγωγής προτροπής σε ευρείες πινελιές. Ίσως τελικά ακολούθησα μια “μη-κατασκευαστική” προσέγγιση με το να κάνω τρύπες στα υπάρχοντα στρώματα άμυνας. Τεχνικές άμυνας συνεχίζουν να εξελίσσονται γρήγορα, και così και η επιφάνεια επιθέσεων. Αυτό το παιχνίδι δεν δείχνει σημάδια τερματισμού σύντομα. Ωστόσο, πιστεύω επίσης ότι δεν θα είμαστε αυτοί που θα το παίζουν για πολύ καιρό. Θα στοίχημα ότι η επιτυχημένη ένεση προτροπής στο μέλλον θα ήταν ακόμη σε φυσική γλώσσα, απλώς μια γλώσσα που οι άνθρωποι δεν μπορούν να κατανοήσουν· και θα στοίχημα ότι θα ήταν auto-ανακαλυπτόμενη από ένα σύστημα που κατασκευάστηκε για αυτό το συγκεκριμένο σκοπό ή vielleicht τυχαία μετά από την αντιμετώπιση ενός συναφούς έργου, όπως την αναζήτηση σεμαντικής αμφιβολίας σε κάποιο χώρο αναπαράστασης.

Ο Eli Vovsha είναι Data Science Manager στην εταιρεία Fortra. Μαζί με την ομάδα Data Science, είναι υπεύθυνος για την ανάπτυξη και τη διατήρηση όλων των μοντέλων machine learning (ML) που χρησιμοποιούνται από τα προϊόντα CEP και XDR, καθώς και για την γενική έρευνα ML. Έλαβε το μεταπτυχιακό του δίπλωμα στα εφαρμοσμένα μαθηματικά από το Stevens Institute of Technology, πριν γίνει υποψήφιος διδάκτωρ στο τμήμα πληροφορικής του Πανεπιστημίου Columbia, όπου ήταν επίσης διδάσκων. Αργότερα συνίδρυσε μια εταιρεία EdTech με στόχο την κατασκευή μιας πλατφόρμας μάθησης που βασίζεται στην τεχνητή νοημοσύνη και στη συνέχεια δίδασκε μαθηματικά και πληροφορική σε ένα ιδιωτικό σχολείο της Νέας Υόρκης. Προτού追ει τις μεταπτυχιακές σπουδές του, ο Eli αφιέρωσε σημαντικό χρόνο στο σκάκι, κερδίζοντας τον τίτλο του Διεθνούς Μαίτρο (IM).