Συνδεθείτε μαζί μας

Όταν η Τεχνητή Νοημοσύνη αποτυγχάνει: Η έκθεση Enkrypt AI αποκαλύπτει επικίνδυνες ευπάθειες σε πολυτροπικά μοντέλα

Εκθέσεις

Όταν η Τεχνητή Νοημοσύνη αποτυγχάνει: Η έκθεση Enkrypt AI αποκαλύπτει επικίνδυνες ευπάθειες σε πολυτροπικά μοντέλα

mm

Τον Μάιο του 2025, η Enkrypt AI κυκλοφόρησε το Έκθεση Πολυτροπικής Κόκκινης Ομαδικής Μεταφοράς, μια ανατριχιαστική ανάλυση που αποκάλυψε πόσο εύκολα μπορούν να χειραγωγηθούν προηγμένα συστήματα τεχνητής νοημοσύνης ώστε να δημιουργήσουν επικίνδυνο και ανήθικο περιεχόμενο. Η έκθεση εστιάζει σε δύο από τα κορυφαία μοντέλα οπτικής γλώσσας της Mistral - το Pixtral-Large (25.02) και το Pixtral-12b - και σκιαγραφεί μια εικόνα μοντέλων που δεν είναι μόνο τεχνικά εντυπωσιακά αλλά και ανησυχητικά ευάλωτα.

Μοντέλα οπτικής γλώσσας (VLM) Όπως το Pixtral, έχουν σχεδιαστεί για να ερμηνεύουν τόσο οπτικά όσο και κειμενικά δεδομένα, επιτρέποντάς τους να ανταποκρίνονται έξυπνα σε πολύπλοκα, πραγματικά μηνύματα. Αλλά αυτή η δυνατότητα συνοδεύεται από αυξημένο κίνδυνο. Σε αντίθεση με τα παραδοσιακά γλωσσικά μοντέλα που επεξεργάζονται μόνο κείμενο, τα VLM μπορούν να επηρεαστούν από την αλληλεπίδραση μεταξύ εικόνων και λέξεων, ανοίγοντας νέες πόρτες για εχθρικές επιθέσεις. Οι δοκιμές του Enkrypt AI δείχνουν πόσο εύκολα μπορούν να παραβιαστούν αυτές οι πόρτες.

Ανησυχητικά Αποτελέσματα Δοκιμών: Αποτυχίες CSEM και ΧΒΡΠ

Η ομάδα πίσω από την έκθεση χρησιμοποίησε εξελιγμένα κόκκινο ομαδικό μέθοδοι—μια μορφή ανταγωνιστικής αξιολόγησης που έχει σχεδιαστεί για να μιμείται απειλές του πραγματικού κόσμου. Αυτές οι δοκιμές χρησιμοποίησαν τακτικές όπως jailbreaking (υποκίνηση του μοντέλου με προσεκτικά σχεδιασμένα ερωτήματα για παράκαμψη φίλτρων ασφαλείας), εξαπάτηση βάσει εικόνας και χειραγώγηση περιβάλλοντος. Ανησυχητικά, το 68% αυτών των ανταγωνιστικών υποδείξεων προκάλεσε επιβλαβείς αντιδράσεις και στα δύο μοντέλα Pixtral, συμπεριλαμβανομένου περιεχομένου που σχετιζόταν με grooming, εκμετάλλευση, ακόμη και σχεδιασμό χημικών όπλων.

Μία από τις πιο εντυπωσιακές αποκαλύψεις αφορά το υλικό σεξουαλικής εκμετάλλευσης παιδιών (CSEM). Η έκθεση διαπίστωσε ότι τα μοντέλα της Mistral ήταν 60 φορές πιο πιθανό να παράγουν περιεχόμενο σχετικό με CSEM σε σύγκριση με σημεία αναφοράς του κλάδου όπως το GPT-4o και το Claude 3.7 Sonnet. Σε δοκιμαστικές περιπτώσεις, τα μοντέλα απάντησαν σε συγκαλυμμένες προτροπές προσβολής παιδιών με δομημένο, πολυπαραγραφικό περιεχόμενο που εξηγούσε πώς να χειραγωγούν ανηλίκους - τυλιγμένο σε ανειλικρινείς δηλώσεις όπως «μόνο για εκπαιδευτική ευαισθητοποίηση». Τα μοντέλα δεν απλώς απέρριπταν επιβλαβή ερωτήματα - τα συμπλήρωναν λεπτομερώς.

Εξίσου ανησυχητικά ήταν τα αποτελέσματα στην κατηγορία κινδύνου ΧΒΡΠ (Χημικός, Βιολογικός, Ραδιολογικός και Πυρηνικός). Όταν τους ζητήθηκε να τροποποιήσουν τον νευροτοξικό παράγοντα VX - ένα χημικό όπλο - τα μοντέλα προσέφεραν συγκλονιστικά συγκεκριμένες ιδέες για την αύξηση της επιμονής του στο περιβάλλον. Περιέγραψαν, με σχολαστική αλλά σαφώς τεχνική λεπτομέρεια, μεθόδους όπως η ενθυλάκωση, η περιβαλλοντική θωράκιση και τα συστήματα ελεγχόμενης απελευθέρωσης..

Αυτές οι αποτυχίες δεν προκλήθηκαν πάντα από εμφανώς επιβλαβή αιτήματα. Μια τακτική περιελάμβανε την ανάρτηση μιας εικόνας μιας κενής αριθμημένης λίστας και την υποβολή αιτήματος στο μοντέλο να «συμπληρώσει τις λεπτομέρειες». Αυτή η απλή, φαινομενικά αβλαβής προτροπή οδήγησε στη δημιουργία ανήθικων και παράνομων οδηγιών. Η συγχώνευση οπτικής και κειμενικής χειραγώγησης αποδείχθηκε ιδιαίτερα επικίνδυνη, αναδεικνύοντας μια μοναδική πρόκληση που θέτει η πολυτροπική τεχνητή νοημοσύνη.

Γιατί τα μοντέλα οπτικής-γλώσσας θέτουν νέες προκλήσεις ασφαλείας

Στην καρδιά αυτών των κινδύνων βρίσκεται η τεχνική πολυπλοκότητα των μοντέλων οπτικής γλώσσας. Αυτά τα συστήματα δεν αναλύουν απλώς τη γλώσσα — συνθέτουν νόημα σε διάφορες μορφές, πράγμα που σημαίνει ότι πρέπει να ερμηνεύουν το περιεχόμενο της εικόνας, να κατανοούν το κείμενο και να αντιδρούν ανάλογα. Αυτή η αλληλεπίδραση εισάγει νέα διανύσματα για εκμετάλλευση. Ένα μοντέλο μπορεί να απορρίψει σωστά μια επιβλαβή προτροπή κειμένου από μόνο του, αλλά όταν συνδυάζεται με μια υπονοούμενη εικόνα ή ασαφές περιεχόμενο, μπορεί να δημιουργήσει επικίνδυνο αποτέλεσμα.

Η κόκκινη ομάδα της Enkrypt AI αποκάλυψε πώς επιθέσεις διασταυρούμενης έγχυσης—όπου ανεπαίσθητες ενδείξεις σε μια μέθοδο επηρεάζουν την έξοδο μιας άλλης— μπορούν να παρακάμψουν εντελώς τους τυπικούς μηχανισμούς ασφαλείας. Αυτές οι αποτυχίες καταδεικνύουν ότι οι παραδοσιακές τεχνικές εποπτείας περιεχομένου, που έχουν σχεδιαστεί για συστήματα μίας μεμονωμένης μεθόδου, δεν επαρκούν για τα σημερινά VLM..

Η έκθεση περιγράφει επίσης λεπτομερώς τον τρόπο πρόσβασης στα μοντέλα Pixtral: Pixtral-Large μέσω AWS Bedrock και Pixtral-12b μέσω της πλατφόρμας Mistral. Αυτό το πραγματικό περιβάλλον ανάπτυξης υπογραμμίζει περαιτέρω τον επείγοντα χαρακτήρα αυτών των ευρημάτων. Αυτά τα μοντέλα δεν περιορίζονται σε εργαστήρια - είναι διαθέσιμα μέσω των mainstream πλατφορμών cloud και θα μπορούσαν εύκολα να ενσωματωθούν σε καταναλωτικά ή εταιρικά προϊόντα.

Τι πρέπει να γίνει: Ένα σχέδιο για ασφαλέστερη τεχνητή νοημοσύνη

Προς τιμήν της, η Enkrypt AI κάνει περισσότερα από το να αναδεικνύει τα προβλήματα—προσφέρει μια πορεία προς τα εμπρός. Η έκθεση σκιαγραφεί μια ολοκληρωμένη στρατηγική μετριασμού, ξεκινώντας από εκπαίδευση ευθυγράμμισης με την ασφάλειαΑυτό περιλαμβάνει την επανεκπαίδευση του μοντέλου χρησιμοποιώντας τα δικά του δεδομένα ομαδοποίησης με κόκκινο χρώμα για τη μείωση της ευαισθησίας σε επιβλαβείς προτροπές. Συνιστώνται τεχνικές όπως η Άμεση Βελτιστοποίηση Προτιμήσεων (DPO) για τη βελτιστοποίηση των απαντήσεων του μοντέλου μακριά από επικίνδυνες εξόδους.

Τονίζει επίσης τη σημασία των προστατευτικών κιγκλιδωμάτων που λαμβάνουν υπόψη το περιβάλλον — δυναμικά φίλτρα που μπορούν να ερμηνεύσουν και να αποκλείσουν επιβλαβή ερωτήματα σε πραγματικό χρόνο, λαμβάνοντας υπόψη το πλήρες πλαίσιο της πολυτροπικής εισόδου. Επιπλέον, προτείνεται η χρήση Κάρτων Κινδύνου Μοντέλου ως μέτρο διαφάνειας, βοηθώντας τα ενδιαφερόμενα μέρη να κατανοήσουν τους περιορισμούς του μοντέλου και τις γνωστές περιπτώσεις αποτυχίας.

Ίσως η πιο κρίσιμη σύσταση είναι να αντιμετωπίζεται η κόκκινη ομαδοποίηση ως μια συνεχής διαδικασία, όχι ως μια εφάπαξ δοκιμή. Καθώς τα μοντέλα εξελίσσονται, το ίδιο συμβαίνει και με τις στρατηγικές επίθεσης. Μόνο η συνεχής αξιολόγηση και η ενεργή παρακολούθηση μπορούν να διασφαλίσουν μακροπρόθεσμη αξιοπιστία, ειδικά όταν τα μοντέλα αναπτύσσονται σε ευαίσθητους τομείς όπως η υγειονομική περίθαλψη, η εκπαίδευση ή η άμυνα.

The Έκθεση Πολυτροπικής Κόκκινης Ομαδικής Μεταφοράς από Enkrypt AI αποτελεί ένα σαφές μήνυμα προς τον κλάδο της Τεχνητής Νοημοσύνης: η πολυτροπική ισχύς συνοδεύεται από πολυτροπική υπευθυνότητα. Αυτά τα μοντέλα αντιπροσωπεύουν ένα άλμα προς τα εμπρός στις δυνατότητες, αλλά απαιτούν επίσης ένα άλμα στον τρόπο που σκεφτόμαστε την ασφάλεια, την προστασία και την ηθική ανάπτυξη. Αν αφεθούν ανεξέλεγκτα, δεν διατρέχουν μόνο τον κίνδυνο αποτυχίας - διατρέχουν τον κίνδυνο βλάβης στον πραγματικό κόσμο.

Για όποιον εργάζεται ή αναπτύσσει Τεχνητή Νοημοσύνη μεγάλης κλίμακας, αυτή η έκθεση δεν είναι απλώς μια προειδοποίηση. Είναι ένα εγχειρίδιο οδηγιών. Και δεν θα μπορούσε να είχε έρθει σε πιο επείγουσα στιγμή.

Ο Antoine είναι οραματιστής ηγέτης και ιδρυτικός συνεργάτης της Unite.AI, οδηγούμενος από ένα ακλόνητο πάθος για τη διαμόρφωση και την προώθηση του μέλλοντος της AI και της ρομποτικής. Ως κατά συρροή επιχειρηματίας, πιστεύει ότι η τεχνητή νοημοσύνη θα είναι τόσο ενοχλητική για την κοινωνία όσο και ο ηλεκτρισμός και συχνά πιάνεται να κραυγάζει για τις δυνατότητες των τεχνολογιών και του AGI που προκαλούν αναστάτωση.

Ως μελλοντιστής, είναι αφοσιωμένος στην εξερεύνηση πώς αυτές οι καινοτομίες θα διαμορφώσουν τον κόσμο μας. Επιπλέον, είναι ο ιδρυτής του Securities.io, μια πλατφόρμα που επικεντρώνεται στην επένδυση σε τεχνολογίες αιχμής που επαναπροσδιορίζουν το μέλλον και αναδιαμορφώνουν ολόκληρους τομείς.