Συνδεθείτε μαζί μας

Η λογοκρισία μοντέλων τεχνητής νοημοσύνης δεν λειτουργεί καλά, αποκαλύπτει μελέτη

Η γωνία του Άντερσον

Η λογοκρισία μοντέλων τεχνητής νοημοσύνης δεν λειτουργεί καλά, αποκαλύπτει μελέτη

mm
ChatGPT-4o, Krita (Flux/Flux Koncept Dev), Firefly.

Οι προσπάθειες λογοκρισίας των δημιουργών εικόνων τεχνητής νοημοσύνης μέσω της διαγραφής απαγορευμένου περιεχομένου (όπως πορνογραφία, βία ή στυλ που προστατεύονται από πνευματικά δικαιώματα) από τα εκπαιδευμένα μοντέλα αποτυγχάνουν: μια νέα μελέτη διαπιστώνει ότι οι τρέχουσες μέθοδοι διαγραφής εννοιών επιτρέπουν σε «απαγορευμένα» χαρακτηριστικά να διαχέονται σε άσχετες εικόνες και επίσης δεν καταφέρνουν να εμποδίσουν την εμφάνιση στενά συνδεδεμένων εκδόσεων του υποτιθέμενα «διαγραμμένου» περιεχομένου.

 

Εάν οι εταιρείες που παράγουν βασικά μοντέλα τεχνητής νοημοσύνης δεν μπορούν να αποτρέψουν την κακή χρήση τους για την παραγωγή απαράδεκτου ή παράνομου υλικού, κινδυνεύουν να διωχθούν ή/και να κλείσουν. Αντίθετα, οι προμηθευτές που διαθέτουν μόνο τα μοντέλα τους... μέσω ενός API, όπως και με την Adobe Firefly μια γεννητική μηχανή, είναι σε θέση να μην ανησυχούν για το τι μπορεί να δημιουργήσουν τα μοντέλα τους, καθώς τόσο η προτροπή του χρήστη όσο και η προκύπτουσα έξοδος ελέγχονται και απολυμαίνονται:

Το σύστημα Firefly της Adobe, που χρησιμοποιείται σε εργαλεία όπως το Photoshop, μερικές φορές απορρίπτει ένα δημιουργικό αίτημα αμέσως, μπλοκάροντας την προτροπή πριν δημιουργηθεί οτιδήποτε. Άλλες φορές, δημιουργεί την εικόνα αλλά στη συνέχεια μπλοκάρει το αποτέλεσμα μετά από έλεγχο. Αυτό το είδος άρνησης κατά τη διάρκεια της διαδικασίας μπορεί επίσης να συμβεί στο ChatGPT, όταν το μοντέλο ξεκινά μια απόκριση αλλά τη διακόπτει αφού αναγνωρίσει μια παραβίαση πολιτικής.

Το σύστημα Firefly της Adobe, που χρησιμοποιείται σε εργαλεία όπως το Photoshop, μερικές φορές απορρίπτει ένα δημιουργικό αίτημα αμέσως, μπλοκάροντας την προτροπή πριν δημιουργηθεί οτιδήποτε. Άλλες φορές, δημιουργεί την εικόνα αλλά στη συνέχεια μπλοκάρει το αποτέλεσμα μετά από έλεγχο. Αυτό το είδος άρνησης κατά τη διάρκεια της διαδικασίας μπορεί επίσης να συμβεί στο ChatGPT, όταν το μοντέλο ξεκινά μια απόκριση αλλά τη διακόπτει αφού αναγνωρίσει μια παραβίαση πολιτικής - και περιστασιακά μπορεί κανείς να δει την εικόνα που ακυρώθηκε για λίγο κατά τη διάρκεια αυτής της διαδικασίας.

Ωστόσο, τα φίλτρα τύπου API αυτού του είδους μπορούν συνήθως να εξουδετερωθούν από τους χρήστες σε τοπικά εγκατεστημένα μοντέλα, συμπεριλαμβανομένων των μοντέλων γλώσσας όρασης (VLM) τα οποία ο χρήστης μπορεί να επιθυμεί να προσαρμόσει μέσω τοπικής εκπαίδευσης σε προσαρμοσμένα δεδομένα.

Στις περισσότερες περιπτώσεις, η απενεργοποίηση τέτοιων λειτουργιών είναι απλή υπόθεση, καθώς περιλαμβάνει τον σχολιασμό μιας κλήσης συνάρτησης στην Python (αν και τέτοιου είδους hacks πρέπει συνήθως να επαναλαμβάνονται ή να επανεφευρίσκονται μετά από ενημερώσεις του framework).

Από επιχειρηματικής άποψης, είναι δύσκολο να κατανοήσουμε πώς αυτό θα μπορούσε να αποτελέσει πρόβλημα, δεδομένου ότι μια προσέγγιση API μεγιστοποιεί τον εταιρικό έλεγχο στη ροή εργασίας του χρήστη. Από την πλευρά του χρήστη, ωστόσο, τόσο το κόστος των μοντέλων που βασίζονται μόνο σε API όσο και ο κίνδυνος εσφαλμένης ή υπερβολικής λογοκρισίας είναι πιθανό να τον αναγκάσουν να κατεβάσει και να προσαρμόσει τοπικές εγκαταστάσεις εναλλακτικών λύσεων ανοιχτού κώδικα - τουλάχιστον, όπου η αδειοδότηση ΕΛ/ΛΑΚ είναι ευνοϊκή.

Το τελευταίο σημαντικό μοντέλο που κυκλοφόρησε χωρίς καμία προσπάθεια εδραίωσης αυτολογοκρισίας ήταν το Stable Diffusion V1.5, σχεδόν πριν από τρία χρόνιαΑργότερα, η αποκάλυψη ότι τα σώματα εκπαίδευσης συμπεριλαμβανόμενα δεδομένα CSAM οδήγησε σε αυξανόμενες εκκλήσεις για απαγόρευση της διαθεσιμότητάς του, και το αφαίρεση από το αποθετήριο Hugging Face το 2024.

Κόψτε το!

Οι κυνικοί υποστηρίζουν ότι το ενδιαφέρον μιας εταιρείας για τη λογοκρισία τοπικά εγκατεστημένων μοντέλων γενετικής τεχνητής νοημοσύνης βασίζεται αποκλειστικά σε ανησυχίες. σχετικά με τη νομική έκθεση, σε περίπτωση που τα πλαίσιά τους δημοσιοποιηθούν για διευκόλυνση παράνομου ή ανάρμοστου περιεχομένου.

Πράγματι, ορισμένα «φιλικά προς την τοπική κοινωνία» μοντέλα ανοιχτού κώδικα δεν είναι τόσο δύσκολο να απολογοκριθούν (όπως π.χ. Σταθερή Διάχυση 1.5 και DeepSeek R1).

Αντιθέτως, η πρόσφατη κυκλοφορία του Flux του Black Forest Lab Σειρά μοντέλων Kontext έλαβε την πιστοποίηση της εταιρείας αξιοσημείωτες δεσμεύσειςνα βελτιστοποιήσει ολόκληρο το εύρος του Kontext. Αυτό επιτεύχθηκε τόσο με προσεκτική επιμέλεια δεδομένων όσο και με στοχευμένη τελειοποίηση μετά την εκπαίδευση, σχεδιασμένο για να απομακρύνει οποιαδήποτε υπολειμματική τάση προς NSFW ή απαγορευμένο περιεχόμενο.

Αυτό είναι το σημείο όπου βρίσκεται το επίκεντρο της ερευνητικής δράσης τα τελευταία 2-3 χρόνια: με έμφαση στην εκ των υστέρων διόρθωση μοντέλων με ανεπαρκώς επιμελημένα δεδομένα. Προσφορές αυτού του είδους περιλαμβάνουν Επεξεργασία Ενοποιημένης Έννοιας σε Μοντέλα Διάχυσης (ECU); Αξιόπιστη και Αποτελεσματική Διαγραφή Εννοιών Μοντέλων Διάχυσης Κειμένου σε Εικόνα (ΠΡΟΣΕΥΧΟΜΑΙ); Διαγραφή Έννοιας Μάζας σε Μοντέλα Διάχυσης (ΣΚΗΠΤΡΟ) · και Η ιδέα-Ημιδιαπερατή δομή εγχέεται ως μεμβράνη (SPM):

Η δημοσίευση του 2024 με τίτλο «Unified Concept Editing in Diffusion Models» (Ενοποιημένη Επεξεργασία Εννοιών σε Μοντέλα Διάχυσης) προσέφερε κλειστής μορφής επεξεργασίες σε βάρη προσοχής, επιτρέποντας την αποτελεσματική επεξεργασία πολλαπλών εννοιών σε μοντέλα μετατροπής κειμένου σε εικόνα. Αλλά αντέχει η μέθοδος στον έλεγχο; Πηγή: https://arxiv.org/pdf/2308.14761

Η δημοσίευση του 2024 με τίτλο «Unified Concept Editing in Diffusion Models» (Ενοποιημένη Επεξεργασία Εννοιών σε Μοντέλα Διάχυσης) προσέφερε κλειστής μορφής επεξεργασίες σε βάρη προσοχής, επιτρέποντας την αποτελεσματική επεξεργασία πολλαπλών εννοιών σε μοντέλα μετατροπής κειμένου σε εικόνα. Αλλά αντέχει η μέθοδος στον έλεγχο; Πηγή: https://arxiv.org/pdf/2308.14761

Αν και αυτή είναι μια αποτελεσματική προσέγγιση (υπερκλιμακωτές συλλογές όπως ΛΑΙΟΝ είναι πολύ μεγάλα για χειροκίνητη επιμέλεια), δεν είναι απαραίτητα αποτελεσματικό: σύμφωνα με μια νέα αμερικανική μελέτη, καμία από τις προαναφερθείσες διαδικασίες επεξεργασίας - οι οποίες αντιπροσωπεύουν την τελευταία λέξη της τεχνολογίας στην τροποποίηση μοντέλων Τεχνητής Νοημοσύνης μετά την εκπαίδευση - δεν λειτουργεί στην πραγματικότητα πολύ καλά.

Οι συγγραφείς διαπίστωσαν ότι αυτές οι Τεχνικές Διαγραφής Εννοιών (CETs) μπορούν συνήθως να παρακαμφθούν εύκολα και ότι ακόμη και όταν είναι αποτελεσματικές, έχουν σημαντικές παρενέργειες:

Επιδράσεις της διαγραφής εννοιών σε μοντέλα μετατροπής κειμένου σε εικόνα. Κάθε στήλη εμφανίζει μια προτροπή και την έννοια που έχει επισημανθεί για διαγραφή, μαζί με τα παραγόμενα αποτελέσματα πριν και μετά την επεξεργασία. Οι ιεραρχίες υποδεικνύουν τις σχέσεις γονέα-παιδιού μεταξύ εννοιών. Τα παραδείγματα επισημαίνουν συνήθεις παρενέργειες, όπως η αδυναμία διαγραφής των παιδικών εννοιών, η καταστολή γειτονικών εννοιών, η αποφυγή μέσω αναδιατύπωσης και η μεταφορά διαγραμμένων χαρακτηριστικών σε άσχετα αντικείμενα. Πηγή: https://arxiv.org/pdf/2508.15124

Επιδράσεις της διαγραφής εννοιών σε μοντέλα μετατροπής κειμένου σε εικόνα. Κάθε στήλη εμφανίζει μια προτροπή και την έννοια που έχει επισημανθεί για διαγραφή, μαζί με τα παραγόμενα αποτελέσματα πριν και μετά την επεξεργασία. Οι ιεραρχίες υποδεικνύουν τις σχέσεις γονέα-παιδιού μεταξύ εννοιών. Τα παραδείγματα επισημαίνουν συνήθεις παρενέργειες, όπως η αδυναμία διαγραφής των θυγατρικών εννοιών, η καταστολή γειτονικών εννοιών, η αποφυγή μέσω αναδιατύπωσης και η μεταφορά διαγραμμένων χαρακτηριστικών σε άσχετα αντικείμενα. Πηγή: https://arxiv.org/pdf/2508.15124

Οι συγγραφείς διαπίστωσαν ότι οι κορυφαίες τρέχουσες τεχνικές διαγραφής εννοιών αποτυγχάνουν να μπλοκάρουν συνθετικές προτροπές (για παράδειγμα, κόκκινο αυτοκίνητο or μικρή ξύλινη καρέκλα); συχνά αφήνουν τις υποκλάσεις να περνούν ακόμα και μετά τη διαγραφή μιας γονικής κατηγορίας (όπως π.χ. αυτοκίνητο or λεωφορείο συνεχίζει να εμφανίζεται μετά την αφαίρεση όχημα); και εισάγουν νέα προβλήματα όπως η διαρροή χαρακτηριστικών (όπου, για παράδειγμα, η διαγραφή μπλε καναπές θα μπορούσε να προκαλέσει στο μοντέλο τη δημιουργία άσχετων αντικειμένων, όπως μπλε καρέκλα).

Σε πάνω από το 80% των δοκιμαστικών περιπτώσεων, η διαγραφή μιας ευρείας έννοιας όπως όχημα δεν εμπόδισε το μοντέλο να παράγει πιο συγκεκριμένες όχημα περιπτώσεις όπως αυτοκίνητα ή λεωφορεία.

Η επεξεργασία, παρατηρεί η εργασία, προκαλεί επίσης χάρτες προσοχής (τα μέρη του μοντέλου που αποφασίζουν πού θα εστιάσουν στην εικόνα) να διασκορπιστούν, αποδυναμώνοντας την ποιότητα εξόδου.

Είναι ενδιαφέρον ότι η εργασία διαπιστώνει ότι η διαγραφή σχετικών εκπαιδευμένων εννοιών μία προς μία λειτουργεί καλύτερα από την προσπάθεια αφαίρεσης όλων μαζί - αν και δεν εξαλείφει όλα τα μειονεκτήματα των μελετημένων μεθόδων επεξεργασίας:

Σύγκριση στρατηγικών προοδευτικής και ταυτόχρονης διαγραφής. Όταν όλες οι παραλλαγές του «αρκουδάκι» διαγράφονται ταυτόχρονα, το μοντέλο συνεχίζει να δημιουργεί αντικείμενα που μοιάζουν με αρκούδα. Η διαγραφή των παραλλαγών βήμα προς βήμα είναι πιο αποτελεσματική, οδηγώντας το μοντέλο στην πιο αξιόπιστη καταστολή της έννοιας-στόχου.

Σύγκριση στρατηγικών προοδευτικής και ταυτόχρονης διαγραφής. Όταν όλες οι παραλλαγές του «αρκουδάκι» διαγράφονται ταυτόχρονα, το μοντέλο συνεχίζει να δημιουργεί αντικείμενα που μοιάζουν με αρκούδα. Η διαγραφή των παραλλαγών βήμα προς βήμα είναι πιο αποτελεσματική, οδηγώντας το μοντέλο στην πιο αξιόπιστη καταστολή της έννοιας-στόχου.

Παρόλο που οι ερευνητές δεν μπορούν προς το παρόν να προσφέρουν καμία λύση στα ζητήματα που περιγράφει η εργασία, έχουν αναπτύξει ένα νέο σύνολο δεδομένων και σημείο αναφοράς που μπορεί να βοηθήσει μελλοντικά ερευνητικά έργα να κατανοήσουν εάν τα δικά τους «λογοκριμένα» μοντέλα λειτουργούν όπως αναμένεται.

Το έγγραφο αναφέρει:

«Οι προηγούμενες αξιολογήσεις βασίζονταν αποκλειστικά σε ένα μικρό σύνολο κλάσεων-στόχων και διατήρησης. Για παράδειγμα, κατά τη διαγραφή του «αυτοκινήτου», ελέγχεται μόνο η ικανότητα του μοντέλου να δημιουργεί αυτοκίνητα. Δείχνουμε ότι αυτή η προσέγγιση είναι θεμελιωδώς ανεπαρκής και η αξιολόγηση της διαγραφής εννοιών θα πρέπει να είναι πιο ολοκληρωμένη ώστε να περιλαμβάνει όλες τις σχετικές υποέννοιες όπως το «κόκκινο αυτοκίνητο».»

«Εισάγοντας ένα ποικίλο σύνολο δεδομένων με συνθετικές παραλλαγές και αναλύοντας συστηματικά επιδράσεις όπως ο αντίκτυπος σε γειτονικές έννοιες, η αποφυγή εννοιών και η διαρροή χαρακτηριστικών, αποκαλύπτουμε σημαντικούς περιορισμούς και παρενέργειες των υφιστάμενων CET».

«Το σημείο αναφοράς μας δεν εξαρτάται από μοντέλα και είναι εύκολα ενσωματώσιμο, ενώ είναι ιδανικό για να βοηθήσει στην ανάπτυξη νέων Τεχνικών Διαγραφής Εννοιών (CETs).»

Παρόλο που τα CET διαγράφουν την έννοια-στόχο «πουλί», αποτυγχάνουν στην παραλλαγή σύνθεσης «κόκκινο πουλί» (πάνω). Μετά τη διαγραφή του «μπλε καναπέ», όλες οι μέθοδοι χάνουν επίσης τη δυνατότητα δημιουργίας μιας μπλε καρέκλας (κάτω). Τα επιτυχημένα αποτελέσματα σημειώνονται με ένα πράσινο σύμβολο τικ και τα αποτυχημένα με ένα κόκκινο σταυρό.

Παρόλο που τα CET διαγράφουν την έννοια-στόχο «πουλί», αποτυγχάνουν στην παραλλαγή σύνθεσης «κόκκινο πουλί» (πάνω). Μετά τη διαγραφή του «μπλε καναπέ», όλες οι μέθοδοι χάνουν επίσης τη δυνατότητα δημιουργίας μιας μπλε καρέκλας (κάτω). Τα επιτυχημένα αποτελέσματα σημειώνονται με ένα πράσινο σύμβολο τικ και τα αποτυχημένα με ένα κόκκινο σύμβολο «X».

Η μελέτη προσφέρει μια ενδιαφέρουσα εικόνα για την έκταση της διαπλοκής εννοιών που εκπαιδεύονται σε ένα μοντέλο. λανθάνον χώρο, και ο βαθμός στον οποίο μπλέξιμο δεν θα επιτρέψει εύκολα κανενός είδους οριστική και πραγματικά διακριτή διαγραφή εννοιών.

The νέο χαρτί είναι ο τίτλος Παρενέργειες της διαγραφής εννοιών από μοντέλα διάχυσης, και προέρχεται από τέσσερις ερευνητές από το Πανεπιστήμιο του Μέριλαντ.

Μέθοδος και Δεδομένα

Οι συγγραφείς πιστεύουν ότι προηγούμενες εργασίες που ισχυρίζονται ότι διαγράφουν έννοιες από τα μοντέλα διάχυσης δεν αποδεικνύουν επαρκώς τον ισχυρισμό, δηλώνοντας*:

«Οι αιτήσεις διαγραφής χρειάζονται πιο εμπεριστατωμένη και ολοκληρωμένη αξιολόγηση. Για παράδειγμα, εάν η έννοια που πρόκειται να διαγραφεί είναι το «όχημα», θα πρέπει επίσης να διαγραφούν υποέννοιες όπως το «αυτοκίνητο» και έννοιες σύνθεσης όπως το «κόκκινο αυτοκίνητο» ή το «μικρό αυτοκίνητο».»

«Ωστόσο, αυτή η πτυχή της ιεραρχίας και της σύνθεσης των εννοιών δεν λαμβάνεται υπόψη στα υπάρχοντα πρωτόκολλα αξιολόγησης, καθώς εστιάζουν μόνο στην ακρίβεια της μοναδικής διαγραμμένης έννοιας. [Οι συγγραφείς του EraseBench] αξιολογούν πώς τα CET επηρεάζουν οπτικά παρόμοιες και παραφρασμένες έννοιες (όπως «γάτα» και «γατάκι»)[·] ωστόσο δεν διερευνούν εξαντλητικά την ιεραρχία και τη σύνθεση των εννοιών.

Προκειμένου να παρέχουν δεδομένα αναφοράς για μελλοντικά έργα, οι συγγραφείς δημιούργησαν το Αξιολόγηση παρενεργειών (SEE) σύνολο δεδομένων – μια μεγάλη συλλογή από μηνύματα κειμένου που έχουν σχεδιαστεί για να ελέγχουν πόσο καλά λειτουργούν οι μέθοδοι διαγραφής εννοιών.

Οι υποδείξεις ακολουθούν ένα απλό πρότυπο στο οποίο περιγράφεται ένα αντικείμενο με χαρακτηριστικά μεγέθους, χρώματος και υλικού – για παράδειγμα, μια εικόνα ενός μικρού κόκκινου ξύλινου αυτοκινήτου.

Τα αντικείμενα αντλήθηκαν από το MS-COCO σύνολο δεδομένων και οργανωμένο σε μια ιεραρχία υπερκλάσεων όπως όχημα, και υποκλάσεις όπως αυτοκίνητο or λεωφορείο, με τους συνδυασμούς χαρακτηριστικών τους να σχηματίζουν τους κόμβους φύλλων (το πιο συγκεκριμένο επίπεδο της ιεραρχίας). Αυτή η δομή καθιστά δυνατή τη δοκιμή διαγραφής σε διαφορετικά σημασιολογικά επίπεδα, από ευρείες κατηγορίες έως συγκεκριμένες παραλλαγές.

Για την υποστήριξη της αυτοματοποιημένης αξιολόγησης, κάθε ερώτηση αντιστοιχίστηκε με μια ερώτηση με απάντηση ναι ή όχι, όπως π.χ. Υπάρχει αυτοκίνητο στην εικόνα; και χρησιμοποιείται επίσης ως ετικέτα κλάσης για μοντέλα ταξινόμησης εικόνων:

Προτροπές συνδυασμών στο σύνολο δεδομένων SEE που δημιουργούνται από ποικίλα χαρακτηριστικά μεγέθους, χρώματος και υλικού.

Προτροπές συνδυασμών στο σύνολο δεδομένων SEE που δημιουργούνται από ποικίλα χαρακτηριστικά μεγέθους, χρώματος και υλικού.

Για να μετρήσουν την απόδοση κάθε μεθόδου διαγραφής εννοιών, οι συγγραφείς επινόησαν δύο μεθόδους βαθμολόγησης: Ακρίβεια στόχου, το οποίο παρακολουθεί πόσο συχνά οι διαγραμμένες έννοιες εξακολουθούν να εμφανίζονται στις δημιουργημένες εικόνες· και Διατήρηση ακρίβειας, το οποίο παρακολουθεί εάν το μοντέλο συνεχίζει να παράγει υλικό που δεν έπρεπε να διαγραφεί.

Η ισορροπία μεταξύ των δύο βαθμολογιών έχει ως στόχο να αποκαλύψει εάν η μέθοδος αφαιρεί με επιτυχία την απαγορευμένη έννοια χωρίς να βλάψει το ευρύτερο αποτέλεσμα του μοντέλου.

Οι συγγραφείς αξιολόγησαν τη διαγραφή εννοιών σε τρεις τρόπους αποτυχίας: πρώτον, ένα μέτρο του κατά πόσον η αφαίρεση μιας έννοιας όπως αυτοκίνητο διαταράσσει κοντινές ή άσχετες έννοιες, με βάση τη σημασιολογική ομοιότητα και την ομοιότητα χαρακτηριστικών· δεύτερον, μια δοκιμή για το εάν η διαγραφή μπορεί να παρακαμφθεί με την προτροπή υποεννοιών όπως κόκκινο αυτοκίνητο μετά τη διαγραφή όχημα.

Τέλος, διεξήχθη έλεγχος για διαρροή χαρακτηριστικών, όπου χαρακτηριστικά που συνδέονται με διαγραμμένες έννοιες εμφανίζονται σε άσχετα αντικείμενα (για παράδειγμα, διαγραφή καναπές μπορεί να προκαλέσει ένα άλλο αντικείμενο, όπως ένα φυτό σε γλάστρα, για να κληρονομήσει το χρώμα ή το υλικό του). Το τελικό σύνολο δεδομένων περιέχει 5056 συνθετικές υποδείξεις

Δοκιμές

Τα προηγούμενα frameworks που δοκιμάστηκαν ήταν αυτά που αναφέρθηκαν προηγουμένως – UCE, RECE, MACE και SPM. Οι ερευνητές υιοθέτησαν τις προεπιλεγμένες ρυθμίσεις από τα αρχικά έργα και βελτιστοποίησαν όλα τα μοντέλα σε μια GPU NVIDIA RTX 6000 με 48GB VRAM.

Το μοντέλο Σταθερής Διάχυσης 1.4, ένα από τα πιο διαχρονικά μοντέλα στη βιβλιογραφία, χρησιμοποιήθηκε για όλες τις δοκιμές - ίσως όχι μόνο επειδή τα πρώτα μοντέλα SD είχαν ελάχιστο ή καθόλου εννοιολογικό περιορισμό και ως εκ τούτου προσφέρουν ένα κενό φύλλο σε αυτό το συγκεκριμένο ερευνητικό πλαίσιο.

Κάθε μία από τις 5056 προτροπές από το σύνολο δεδομένων SEE εκτελέστηκε τόσο στην μη επεξεργασμένη όσο και στην επεξεργασμένη έκδοση του μοντέλου, δημιουργώντας τέσσερις εικόνες ανά προτροπή χρησιμοποιώντας σταθερό τυχαίους σπόρους, επιτρέποντας να ελεγχθεί εάν τα εφέ διαγραφής παρέμειναν σταθερά σε πολλαπλές εξόδους. Κάθε επεξεργασμένο μοντέλο παρήγαγε συνολικά 20,224 εικόνες.

Η παρουσία διατηρημένων εννοιών αξιολογήθηκε σύμφωνα με προηγούμενες μεθόδους για διαδικασίες διαγραφής κειμένου σε εικόνα, χρησιμοποιώντας τα μοντέλα VQA. BLIP, QWEN 2.5 VL, να Φλωρεντία-2base.

Επιπτώσεις στις Γειτονικές Έννοιες

Η πρώτη δοκιμή μέτρησε εάν η διαγραφή μιας έννοιας επηρέασε ακούσια κοντινές έννοιες. Για παράδειγμα, μετά την αφαίρεση αυτοκίνητο, το μοντέλο θα πρέπει να σταματήσει να δημιουργεί κόκκινο αυτοκίνητο or μεγάλο αυτοκίνητο. αλλά να εξακολουθεί να είναι σε θέση να παράγει σχετικές έννοιες όπως λεωφορείο or φορτηγόκαι άσχετα όπως π.χ. πιρούνι.

Η ανάλυση που χρησιμοποιήθηκε CLIP ενσωμάτωση ομοιότητας και απόστασης επεξεργασίας βάσει χαρακτηριστικών για την εκτίμηση της απόστασης κάθε έννοιας στον διαγραμμένο στόχο, επιτρέποντας στη μελέτη να ποσοτικοποιήσει πόσο μακριά εξαπλώθηκε η διαταραχή:

Συνδυασμένα αποτελέσματα για την ακρίβεια στόχου (αριστερά) και την ακρίβεια διατήρησης (δεξιά) σε σχέση με τη σημασιολογική ομοιότητα (πάνω) και την απόσταση σύνθεσης (κάτω). Μια ιδανική μέθοδος διαγραφής εννοιών θα έδειχνε χαμηλή ακρίβεια στόχου και υψηλή ακρίβεια διατήρησης σε όλες τις αποστάσεις, αλλά τα αποτελέσματα δείχνουν ότι οι τρέχουσες τεχνικές αποτυγχάνουν να γενικεύσουν καθαρά, με τις πιο στενές έννοιες είτε να διαγράφονται ανεπαρκώς είτε να διαταράσσονται δυσανάλογα.

Συνδυασμένα αποτελέσματα για την ακρίβεια στόχου (αριστερά) και την ακρίβεια διατήρησης (δεξιά) σε σχέση με τη σημασιολογική ομοιότητα (πάνω) και την απόσταση σύνθεσης (κάτω). Μια ιδανική μέθοδος διαγραφής εννοιών θα έδειχνε χαμηλή ακρίβεια στόχου και υψηλή ακρίβεια διατήρησης σε όλες τις αποστάσεις. Ωστόσο, τα αποτελέσματα δείχνουν ότι οι τρέχουσες τεχνικές αποτυγχάνουν να γενικεύσουν καθαρά, με τις πιο στενές έννοιες είτε να διαγράφονται ανεπαρκώς είτε να διαταράσσονται δυσανάλογα.

Από αυτά τα αποτελέσματα, οι συγγραφείς σχολιάζουν:

«Όλες οι μέθοδοι CET συνεχίζουν να δημιουργούν συνθετικές ή σημασιολογικά απομακρυσμένες παραλλαγές του στόχου παρά τη διαγραφή, η οποία ιδανικά δεν θα έπρεπε να συμβαίνει. Είναι προφανές ότι η UCE επιτυγχάνει σταθερά υψηλότερη ακρίβεια από άλλες μεθόδους CET στο [σύνολο διατήρησης], υποδεικνύοντας ελάχιστη ακούσια επίδραση σε σημασιολογικά σχετικές έννοιες.»

«Αντίθετα, το SPM επιτυγχάνει τη χαμηλότερη ακρίβεια, γεγονός που υποδηλώνει ότι η στρατηγική επεξεργασίας του είναι πιο ευάλωτη στην ομοιότητα των εννοιών.»

Μεταξύ των τεσσάρων μεθόδων που δοκιμάστηκαν, η RECE ήταν η πιο αποτελεσματική στο μπλοκάρισμα της έννοιας-στόχου. Ωστόσο, όπως φαίνεται στην αριστερή πλευρά της παραπάνω εικόνας, καμία μέθοδος δεν κατάφερε να καταστείλει τις παραλλαγές σύνθεσης. Μετά τη διαγραφή πουλί, το μοντέλο εξακολουθούσε να παρήγαγε εικόνες ενός κόκκινου πουλιού, υποδηλώνοντας ότι η ιδέα παρέμεινε εν μέρει άθικτη.

Αφαίρεση μπλε καναπές εμπόδισε επίσης το μοντέλο να δημιουργήσει ένα μπλε καρέκλα, υποδεικνύοντας βλάβη σε κοντινές έννοιες.

Το RECE χειρίστηκε τις συνθετικές παραλλαγές καλύτερα από τα άλλα, ενώ το UCE έκανε καλύτερη δουλειά στη διατήρηση σχετικών εννοιών.

Εισβολή διαγραφής

Η δοκιμή αποφυγής διαγραφής αξιολόγησε εάν τα μοντέλα μπορούσαν ακόμα να δημιουργήσουν έννοιες υποκλάσεων μετά τη διαγραφή της υπερκλάσης τους. Για παράδειγμα, εάν όχημα αφαιρέθηκε, η δοκιμή έλεγξε εάν το μοντέλο μπορούσε ακόμα να παράγει αποτελέσματα όπως ποδήλατο or κόκκινο αυτοκίνητο.

Τα μηνύματα στόχευαν τόσο τις άμεσες υποκλάσεις όσο και τις παραλλαγές σύνθεσης για να προσδιορίσουν εάν η λειτουργία διαγραφής εννοιών είχε πραγματικά αφαιρέσει ολόκληρη την ιεραρχία ή μπορούσε να παρακαμφθεί μέσω πιο συγκεκριμένων περιγραφών:

Στην έκδοση Stable Diffusion v1.4, παράκαμψη διαγραμμένων υπερκλάσεων μέσω των υποκλάσεων και των συνθετικών παραλλαγών τους, με υψηλότερη ακρίβεια που υποδηλώνει μεγαλύτερη αποφυγή.

Στην έκδοση Stable Diffusion v1.4, παράκαμψη διαγραμμένων υπερκλάσεων μέσω των υποκλάσεων και των συνθετικών παραλλαγών τους, με υψηλότερη ακρίβεια που υποδηλώνει μεγαλύτερη αποφυγή.

Το μη επεξεργασμένο μοντέλο διατήρησε υψηλή ακρίβεια σε όλες τις υπερκλάσεις, επιβεβαιώνοντας ότι είχε δεν αφαίρεσε τυχόν έννοιες-στόχους. Μεταξύ των CET, το MACE παρουσίασε τη μικρότερη αποφυγή, επιτυγχάνοντας τη χαμηλότερη ακρίβεια υποκατηγορίας σε περισσότερες από τις μισές από τις κατηγορίες που εξετάστηκαν. Το RECE είχε επίσης καλή απόδοση, ιδιαίτερα στις αξεσουάρ, αθλητισμός, να ηλεκτρονικά ομάδες.

Αντιθέτως, τα UCE και SPM έδειξαν υψηλότερη ακρίβεια υποκλάσεων, υποδεικνύοντας ότι οι διαγραμμένες έννοιες παρακάμπτονταν πιο εύκολα μέσω σχετικών ή ένθετων προτροπών.

Οι συγγραφείς σημειώνουν:

«[Όλες] οι μέθοδοι CET καταστέλλουν με επιτυχία την έννοια της υπερκλάσης-στόχου («φαγητό»). Ωστόσο, όταν τους ζητηθεί να χρησιμοποιήσουν θυγατρικά στοιχεία της ιεραρχίας τροφίμων που βασίζονται σε χαρακτηριστικά (π.χ., μια μεγάλη πίτσα»), όλες οι μέθοδοι παράγουν τρόφιμα.»

«Ομοίως και σε όχημα κατηγορία, όλα τα μοντέλα παράγουν ποδήλατα, παρά τη διαγραφή της λέξης «όχημα».

Διαρροή χαρακτηριστικού

Η τρίτη δοκιμή, η διαρροή χαρακτηριστικών, έλεγξε εάν χαρακτηριστικά που συνδέονται με μια διαγραμμένη έννοια εμφανίζονταν σε άλλα μέρη της εικόνας.

Για παράδειγμα, μετά τη διαγραφή καναπές, το μοντέλο δεν θα πρέπει ούτε να δημιουργεί έναν καναπέ ούτε να εφαρμόζει τα τυπικά χαρακτηριστικά του (όπως χρώμα ή υλικό) σε άσχετα αντικείμενα στην ίδια προτροπή. Αυτό μετρήθηκε υποβάλλοντας στο μοντέλο προτροπές με ζεύγη αντικειμένων και εξετάζοντας εάν τα διαγραμμένα χαρακτηριστικά εμφανίστηκαν λανθασμένα σε διατηρημένες έννοιες:

Χάρτες προσοχής για τα διακριτικά χαρακτηριστικών μετά τη διαγραφή της έννοιας. Αριστερά: Όταν διαγράφεται το «πάγκος», το διακριτικό «ξύλινο» μετατοπίζεται στο πουλί, με αποτέλεσμα τα ξύλινα πουλιά. Δεξιά: Η διαγραφή του «καναπές» δεν καταστέλλει τη δημιουργία καναπέ, ενώ το διακριτικό «μεγάλο» αντιστοιχίζεται λανθασμένα στο ντόνατ.

Χάρτες προσοχής για τα διακριτικά χαρακτηριστικών μετά τη διαγραφή της έννοιας. Αριστερά: Όταν διαγράφεται το «πάγκος», το διακριτικό «ξύλινο» μετατοπίζεται στο πουλί, με αποτέλεσμα τα ξύλινα πουλιά. Δεξιά: Η διαγραφή του «καναπές» δεν καταστέλλει τη δημιουργία καναπέ, ενώ το διακριτικό «μεγάλο» αντιστοιχίζεται λανθασμένα στο ντόνατ.

Το RECE ήταν το πιο αποτελεσματικό στη διαγραφή χαρακτηριστικών-στόχων, αλλά εισήγαγε επίσης τη μεγαλύτερη διαρροή χαρακτηριστικών σε διατηρημένα μηνύματα, ξεπερνώντας ακόμη και το μη επεξεργασμένο μοντέλο. Το UCE παρουσίασε λιγότερες διαρροές από άλλες μεθόδους.

Τα αποτελέσματα, σύμφωνα με τους συγγραφείς, υποδεικνύουν την αναγκαιότητα για μια εγγενή ανταλλαγή, με την ισχυρότερη διαγραφή να αυξάνει τον κίνδυνο λανθασμένης μεταφοράς χαρακτηριστικών.

Συμπέρασμα

Ο λανθάνων χώρος ενός μοντέλου δεν γεμίζει με τάξη κατά την εκπαίδευση, με παράγωγες έννοιες να εναποτίθενται τακτοποιημένα σε ράφια ή σε αρχειοθήκες. Αντίθετα, τα εκπαιδευμένα ενσωματώματα είναι ταυτόχρονα το περιεχόμενο και τα δοχεία τους: δεν χωρίζονται από αυστηρά όρια, αλλά μάλλον αναμειγνύονται μεταξύ τους με τρόπο που καθιστά την αφαίρεση προβληματική - σαν να προσπαθείς να εξαγάγεις μια λίβρα σάρκας χωρίς απώλεια αίματος.

Σε ευφυή και εξελισσόμενα συστήματα, τα θεμελιώδη γεγονότα - όπως το κάψιμο των δακτύλων κάποιου και στη συνέχεια η αντιμετώπιση της φωτιάς με σεβασμό - συνδέονται με τις συμπεριφορές και τους συσχετισμούς που αργότερα σχηματίζουν, καθιστώντας δύσκολη την παραγωγή ενός μοντέλου που μπορεί να έχει μείνει με τα επακόλουθα μιας κεντρικής, ενδεχομένως «απαγορευμένης» έννοιας, αλλά να μην έχει αυτή καθαυτή την έννοια.

 

* Η μετατροπή μου των ενσωματωμένων παραπομπών των συγγραφέων σε υπερσυνδέσμους.

Πρώτη δημοσίευση Παρασκευή, 22 Αυγούστου 2025