Connect with us

Jailbreaking AI Censors Via In-Image Text

Η γωνία του Anderson

Jailbreaking AI Censors Via In-Image Text

mm
AI-generated image featuring the Mona Lisa painting embedded in the wall of a jail cell with the bars smashed and the inmates escaped. Apparently the painting caused all this damage. On the Mona Lisa painting are the words 'Open the cell'. GPT Image 1.5.

Ερευνητές ισχυρίζονται ότι οι κορυφαίες εφαρμογές επεξεργασίας εικόνων AI μπορούν να jailbreak με τη χρήση ραστερισμένου κειμένου και οπτικών ενδείξεων, επιτρέποντας τις απαγορευμένες επεξεργασίες να παρακάμψουν τους φίλτρες ασφαλείας και να επιτύχουν σε μέχρι και 80,9% των περιπτώσεων.

 

Παρακαλούμε να είστε ενήμεροι ότι αυτό το άρθρο περιέχει πιθανώς προσβλητικά σχέδια, τα οποία δημιουργήθηκαν με AI από τους συγγραφείς του ερευνητικού εργασιού για να εικονογραφήσουν τη νέα αμυντική μέθοδό τους.

Για να αποφευχθεί η νομική εκθέσεις και η ζημιά στην φήμη, τα τρέχοντα state-of-the-art πλαίσια επεξεργασίας εικόνων AI θεσμοθετούν eine σειρά από μετρα цензουρας για να σταματήσουν τους χρήστες να δημιουργούν ‘απαγορευμένες’ εικόνες σε διάφορες κατηγορίες, όπως NSFW και/ή δυσφημιστικό περιεχόμενο. Ακόμη και τα πιο ανυπότακτα πλαίσια – ιδιαίτερα το Grok – έχουν τηρήσει τη γραμμή υπό λαϊκή ή πολιτική πίεση.

Γνωστό ως ‘συνάδεια’, τόσο τα εισερχόμενα όσο και τα εξερχόμενα δεδομένα σαρώνονται για παραβιάσεις των κανόνων χρήσης. Έτσι, η ανέβασμα μιας αθώας εικόνας ενός ατόμου θα περάσει τους ελέγχους με βάση την εικόνα – αλλά η ζήτηση από το γεννητικό μοντέλο να το μετατρέψει σε βίντεο που θα προχωρήσει σε ασφαλή περιεχόμενο (π.χ. ‘δείξτε το άτομο να γδύνεται’) θα interceptεται στο επίπεδο κειμένου.

Οι χρήστες μπορούν να παρακάμψουν αυτό το μέτρο ασφαλείας χρησιμοποιώντας προτροπές που δεν ενεργοποιούν άμεσα τους φίλτρες κειμένου, αλλά οδηγούν λογικά στην δημιουργία ασφαλών περιεχομένων (π.χ. ‘Κάνε τους να σηκωθούν’, όταν η εικόνα προτροπή είναι ένα άτομο που είναι βυθισμένο σε μια πěnυμένη μπανιέρα). Εδώ, σύστημα>χρήστης φίλτρες συνήθως παρεμβαίνουν, σαρώνοντας τις απαντήσεις του συστήματος, όπως εικόνες, κείμενο, ήχο, βίντεο κ.λπ. για οτιδήποτε θα είχε απαγορευτεί ως είσοδος.

Με αυτόν τον τρόπο, ένας χρήστης μπορεί να αναγκάσει το σύστημα να δημιουργήσει ασφαλές περιεχόμενο· αλλά στις περισσότερες περιπτώσεις, ο γεννήτορας δεν θα περάσει το περιεχόμενο πίσω στον χρήστη.

Απλά σημασιολογία

Αυτό το τελικό απαγόρευση συμβαίνει επειδή η απόδοση εξόδου αξιολογείται από πολυμορφικά συστήματα όπως το CLIP, τα οποία μπορούν να ερμηνεύουν εικόνες πίσω στο χώρο κειμένου και στη συνέχεια να εφαρμόσουν φίλτρο κειμένου. Καθώς οι σύγχρονοι γεννήτορες εικόνων είναι διαχυτικοί συστήματα που εκπαιδεύονται σε ζευγαρωμένες εικόνες και κείμενο, ακόμη και όταν ένας χρήστης παρέχει μόνο μια εικόνα, το μοντέλο την ερμηνεύει μέσω σημασιολογικών αναπαραστάσεων που διαμορφώθηκαν από τη γλώσσα κατά την εκπαίδευση.

Αυτή η κοινή εμπλοκή δομή έχει επηρεάσει τον τρόπο με τον οποίο κατασκευάζονται τα μέτρα ασφαλείας,既然 τα στρώματα επιτήρησης συχνά αξιολογούν τις προτροπές ως κείμενο και μετατρέπουν τις οπτικές εισόδους σε περιγραφική μορφή πριν λάβουν αποφάσεις· και λόγω αυτής της αρχιτεκτονικής, η εργασία συνάδειάς έχει επικεντρωθεί κυρίως στη γλώσσα, χρησιμοποιώντας την περιγραφή των εικόνων ως μηχανισμό πυροσβεστήρα.

Ωστόσο, προηγούμενη έρευνα σε πολυμορφικά συστήματα genAI έχει ήδη αποδείξει ότι οι οδηγίες μπορούν να ενσωματωθούν μέσα στις εικόνες μέσω τυπογραφικών επικάλυψων, δομημένων διατάξεων, τεχνικών βελτιστοποίησης δια-μοντέλων ή στεγανογραφικής κωδικοποίησης:

… (το υπόλοιπο του κειμένου παραμένει ίδιο, με την ίδια δομή και τις ίδιες οδηγίες)

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]