Η γωνία του Anderson

Η Λειτουργία των Μοντέλων AI με Σενάρια Λογοκρισίας Δεν Λειτουργεί Καλά, Αποκαλύπτει Μια Μελέτη

Published August 22, 2025

Updated April 2, 2026

Martin Anderson

ChatGPT-4o, Krita (Flux/Flux Koncept Dev), Firefly.

Οι προσπάθειες λογοκρισίας των γεννητριών εικόνων AI με τη διαγραφή του απαγορευμένου περιεχομένου (όπως πορνογραφία, βία ή πνευματικά δικαιώματα) από τα εκπαιδευμένα μοντέλα δεν αποδίδουν: μια νέα μελέτη διαπιστώνει ότι οι τρέχουσες μεθόδοι διαγραφή εννοιών επιτρέπουν τις “απαγορευμένες” ιδιότητες να διαρρεύσουν σε μη σχετικές εικόνες και επίσης αποτυγχάνουν να σταματήσουν στενά σχετικές εκδοχές του υποτιθέμενου “διαγραμμένου” περιεχομένου να εμφανιστούν.

Εάν οι εταιρείες που παράγουν βασικά μοντέλα AI δεν μπορέσουν να αποτρέψουν αυτά τα μοντέλα από τη μη κατάλληλη χρήση για την παραγωγή απεχθών ή παράνομου υλικού, κινδυνεύουν με δίωξη και/ή κλείσιμο. Αντίθετα, οι προμηθευτές που καθιστούν τα μοντέλα τους διαθέσιμα μόνο μέσω eines API, όπως η Adobe με τη γεννητική μηχανή Firefly, βρίσκονται σε θέση να μην ανησυχούν για το τι μπορεί να δημιουργήσουν τα μοντέλα τους,既然 και η πρόταση του χρήστη και η αποτελεσματική έξοδος ελέγχονται και αποστειροποιούνται:

Το σύστημα Firefly της Adobe, που χρησιμοποιείται σε εργαλεία όπως το Photoshop, đôi khi αρνείται αμέσως μια γεννητική αίτηση, μπλοκάροντας την πρόταση πριν δημιουργηθεί κάτι. Άλλες φορές, γεννά την εικόνα αλλά στη συνέχεια μπλοκάρει το αποτέλεσμα μετά από ανασκόπηση. Αυτού του είδους η μεσο-διαδικαστική άρνηση μπορεί επίσης να συμβεί στο ChatGPT, όταν το μοντέλο ξεκινά μια απάντηση αλλά τη κόβει μετά την αναγνώριση μιας παραβίασης πολιτικής - και περιστασιακά μπορεί κανείς να δει την ακύρωσή της εικόνας για λίγο κατά τη διάρκεια αυτής της διαδικασίας.

Το σύστημα Firefly της Adobe, που χρησιμοποιείται σε εργαλεία όπως το Photoshop, đôi時 αρνείται αμέσως μια γεννητική αίτηση, μπλοκάροντας την πρόταση πριν δημιουργηθεί κάτι. Άλλες φορές, γεννά την εικόνα αλλά στη συνέχεια μπλοκάρει το αποτέλεσμα μετά από ανασκόπηση. Αυτού του είδους η μεσο-διαδικαστική άρνηση μπορεί επίσης να συμβεί στο ChatGPT, όταν το μοντέλο ξεκινά μια απάντηση αλλά τη κόβει μετά την αναγνώριση μιας παραβίασης πολιτικής – και περιστασιακά μπορεί κανείς να δει την ακύρωσή της εικόνας για λίγο κατά τη διάρκεια αυτής της διαδικασίας.

Ωστόσο, τα φίλτρα API αυτού του είδους μπορούν συνήθως να αποneutralise από τους χρήστες σε τοπικά εγκατεστημένα μοντέλα, συμπεριλαμβανομένων των μοντέλων όρασης-γλώσσας (VLMs) που ο χρήστης μπορεί να επιθυμεί να προσαρμόσει μέσω τοπικής εκπαίδευσης σε δεδομένα προσαρμογής.

Στις περισσότερες περιπτώσεις, η απενεργοποίηση τέτοιων λειτουργιών είναι εύκολη, και περιλαμβάνει την ανακοίνωση μιας κλήσης συνάρτησης σε Python (αν και τέτοιου είδους hacks πρέπει συνήθως να επαναλαμβάνονται ή να ξαναεφευρίσκονται μετά από ενημερώσεις πλαισίου).

Από εμπορική πλευρά, είναι δύσκολο να κατανοηθεί πώς αυτό θα μπορούσε να είναι ένα πρόβλημα,既然 η προσέγγιση API μεγιστοποιεί τον εταιρικό έλεγχο над τη ροή εργασίας του χρήστη. Από την πλευρά του χρήστη, ωστόσο, και το κόστος των μοντέλων API-μόνο και ο κίνδυνος λανθασμένης ή υπερβολικής λογοκρισίας πιθανό να αναγκάσουν τους χρήστες να κατεβάσουν και να προσαρμόσουν τοπικές εγκαταστάσεις ανοικτών πηγών εναλλακτικών – τουλάχιστον, όπου η άδεια FOSS είναι ευνοϊκή.

Το τελευταίο σημαντικό μοντέλο που κυκλοφόρησε χωρίς καμία προσπάθεια να ενσωματωθεί η αυτο-λογοκρισία ήταν το Stable Diffusion V1.5, πριν από σχεδόν τρία χρόνια. Αργότερα, η αποκάλυψη ότι τα corpora εκπαίδευσής του περιελάμβαναν δεδομένα CSAM οδήγησε σε αυξανόμενες απαιτήσεις να απαγορευτεί η διαθεσιμότητά του, και την αφαίρεσή του από το αποθετήριο Hugging Face το 2024.

Κόψτε το!

Οι κυνικοί υποστηρίζουν ότι το ενδιαφέρον μιας εταιρείας για λογοκρισία τοπικά εγκατεστημένων γεννητριών AI βασίζεται αποκλειστικά σε ανησυχίες σχετικά με την νομική έκθεση, σε περίπτωση που τα πλαισιά τους γίνουν δημόσια για τη διευκόλυνση απεχθών ή παράνομου περιεχομένου.

Πράγματι, κάποια “τοπικά φιλικά” ανοικτά μοντέλα δεν είναι τόσο δύσκολο να απο-λογοκριστούν (όπως Stable Diffusion 1.5 και DeepSeek R1).

Αντίθετα, η πρόσφατη κυκλοφορία του Black Forest Lab’s Flux Kontext model series σηματοδοτήθηκε από την αξιοσημείωτη δέσμευση της εταιρείας να λογοκρίνει ολόκληρη τη σειρά Kontext. Αυτό επιτεύχθηκε τόσο με προσεκτική επιμέλεια δεδομένων όσο και με στοχευμένη λεπτοβελτίωση μετά την εκπαίδευση, σχεδιασμένη να αφαιρέσει οποιαδήποτε υπολειμματική τάση προς NSFW ή απαγορευμένο περιεχόμενο.

Αυτή είναι η τοποθεσία της δράσης στην ερευνητική σκηνή τα τελευταία 2-3 χρόνια: με έμφαση στην επιδιόρθωση μοντέλων μετά την εκπαίδευση με μη επικαιροποιημένα δεδομένα. Προσφορές αυτού του είδους περιλαμβάνουν Unified Concept Editing in Diffusion Models (UCE); Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models (RECE); Mass Concept Erasure in Diffusion Models (MACE); και concept-Semi-Permeable structure is injected as a Membrane (SPM):

Το έγγραφο του 2024 ‘Unified Concept Editing in Diffusion Models’ πρόσφερε κλειστού τύπου επεξεργασίες στα βαρηκοίματα προσοχής, ενεργοποιώντας την αποτελεσματική επεξεργασία πολλών εννοιών σε μοντέλα κειμένου-εικόνας. Αλλά αντέχει η μέθοδος στη σκληρή δοκιμή; Source: https://arxiv.org/pdf/2308.14761

Αν και αυτή είναι μια αποτελεσματική προσέγγιση (οι υπερκλίμακες συλλογές όπως LAION είναι πολύ μεγάλες για να επεξεργαστούν χειροκίνητα), δεν είναι απαραίτητα αποτελεσματική: σύμφωνα με μια νέα αμερικανική μελέτη, καμία από τις προαναφερθείσες μεθόδοι επεξεργασίας δεν λειτουργεί πολύ καλά.

Οι συγγραφείς βρήκαν ότι αυτές οι Τεχνικές Διαγραφής Εννοιών (CETs) μπορούν συνήθως να παρακαμφθούν εύκολα, και ότι ακόμη και όπου είναι αποτελεσματικές, έχουν σημαντικές παρενέργειες:

Εfects της διαγραφής εννοίας σε μοντέλα κειμένου-εικόνας. Κάθε στήλη δείχνει μια πρόταση και την έννοια που σημειώνεται για διαγραφή, μαζί με τις γεννημένες εξόδους πριν και μετά την επεξεργασία. Ιεραρχίες δείχνουν γονείς-παιδιά σχέσεις μεταξύ εννοιών. Τα παραδείγματα υπογραμμίζουν τις κοινές παρενέργειες, συμπεριλαμβανομένης της αποτυχίας να διαγράψουν παιδικές έννοιες, καταστολή γειτονικών εννοιών, διέλευση μέσω ανασυνθέσεων και μεταφορά διαγραμμένων ιδιοτήτων σε μη σχετικές αντικείμενα. Source: https://arxiv.org/pdf/2508.15124

Οι συγγραφείς βρήκαν ότι οι principales τεχνικές διαγραφής εννοιών αποτυγχάνουν να μπλοκάρουν σύνθετες προτάσεις (για παράδειγμα, red car ή small wooden chair); συχνά αφήνουν υποκατηγορίες να διαφεύγουν ακόμη και μετά τη διαγραφή μιας γονικής κατηγορίας (όπως car ή bus που συνεχίζουν να εμφανίζονται μετά την αφαίρεση vehicle); και εισάγουν νέα προβλήματα όπως η διαρροή ιδιοτήτων (όπου, για παράδειγμα, η διαγραφή blue couch θα μπορούσε να προκαλέσει το μοντέλο να γεννήσει μη σχετικά αντικείμενα όπως blue chair).

Σε πάνω από το 80% των περιπτώσεων δοκιμής, η διαγραφή μιας ευρείας έννοιας όπως vehicle δεν σταμάτησε το μοντέλο από το να γεννήσει πιο συγκεκριμένες vehicle εκδοχές όπως αυτοκίνητα ή λεωφορεία.

Η επεξεργασία, όπως παρατηρεί το έγγραφο, επίσης προκαλεί χάρτες προσοχής (τα μέρη του μοντέλου που αποφασίζουν πού να εστιάσουν στην εικόνα) να διασκορπιστούν, αδυνατίζοντας την ποιότητα εξόδου.

Ενδιαφέροντα, το έγγραφο διαπιστώνει ότι η διαγραφή σχετικών εκπαιδευμένων εννοιών μια-μια λειτουργεί καλύτερα από την προσπάθεια να τις αφαιρέσει όλες μαζί – αν και δεν αφαιρεί όλες τις ελαττώματα των μελετηθέντων μεθόδων επεξεργασίας:

Σύγκριση προοδευτικών και όλα-μαζί στρατηγικών διαγραφής. Όταν όλες οι παραλλαγές του ‘teddy bear’ διαγράφονται ταυτόχρονα, το μοντέλο συνεχίζει να γεννά αντικείμενα που μοιάζουν με αρκούδες. Η διαγραφή των παραλλαγών βήμα-βήμα είναι πιο αποτελεσματική, οδηγώντας το μοντέλο να καταστέλλει την στόχο έννοια πιο αξιόπιστα.

Αν και οι ερευνητές δεν μπορούν τώρα να προσφέρουν καμία λύση στα προβλήματα που περιγράφει το έγγραφο, έχουν αναπτύξει ένα νέο σύνολο δεδομένων και ένα βENCHMARK που μπορεί να βοηθήσει μελλοντικές ερευνητικές εργασίες να κατανοήσουν εάν τα δικά τους “λογοκρισμένα” μοντέλα λειτουργούν όπως αναμένεται.

Το έγγραφο αναφέρει:

‘Προηγούμενες αξιολογήσεις βασίζονταν αποκλειστικά σε một μικρό σύνολο στόχων και διατηρούμενων τάξεων; για παράδειγμα, όταν διαγράφεται η έννοια ‘αυτοκίνητο’, μόνο η ικανότητα του μοντέλου να γεννήσει αυτοκίνητα ελέγχεται. Αποδεικνύουμε ότι αυτή η προσέγγιση είναι θεμελιωδώς ανεπαρκής και η αξιολόγηση της διαγραφής εννοίας πρέπει να είναι πιο ολοκληρωμένη για να περιλαμβάνει όλες τις σχετικές υπο-έννοιες όπως ‘κόκκινο αυτοκίνητο’.

‘Με την εισαγωγή ενός διαφορετικού συνόλου δεδομένων με σύνθετες παραλλαγές και την αναλυτική ανάλυση επιπτώσεων όπως η επίδραση σε γειτονικές έννοιες, η διέλευση εννοιών και η διαρροή ιδιοτήτων, αποκαλύπτουμε σημαντικές περιορισμοί και παρενέργειες των υφιστάμενων CETs.

‘Το βENCHMARK μας είναι αμεσοδίας και εύκολα ενσωματώνεται και είναι ιδανικά κατάλληλο για να βοηθήσει την ανάπτυξη νέων Τεχνικών Διαγραφής Εννοιών (CETs).’

Αν και οι CETs διαγράφουν την στόχο έννοια ‘πτηνό’, αποτυγχάνουν στη σύνθετη παραλλαγή ‘κόκκινο πτηνό’ (πάνω). Μετά τη διαγραφή ‘μπλε καναπέ’, όλες οι μέθοδοι επίσης χάνουν την ικανότητα να γεννήσουν μια μπλε καρέκλα (κάτω). Οι επιτυχείς αποτελέσματα σημειώνονται με ένα πράσινο tick σύμβολο, και οι αποτυχίες με ένα κόκκινο ‘X’ σύμβολο.

Η μελέτη προσφέρει ένα ενδιαφέρον ερέθισμα στην έκταση της διείσδυσης των εννοιών που εκπαιδεύονται σε ένα μοντέλο latent χώρο, και την έκταση με την οποία entanglement δεν θα επιτρέψει καμία οριστική και πραγματικά διακριτή διαγραφή έννοιας.

Το νέο έγγραφο έχει τον τίτλο Παρενέργειες της Διαγραφής Εννοιών από Μοντέλα Diffusion, και προέρχεται από τέσσερις ερευνητές από το Πανεπιστήμιο του Maryland.

Μέθοδος και Δεδομένα

Οι συγγραφείς υποστηρίζουν ότι προηγούμενες εργασίες που ισχυρίζονται ότι διαγράφουν έννοιες από μοντέλα diffusion δεν αποδεικνύουν το ισχυρισμό τους επαρκώς, αναφέροντας*:

‘Οι ισχυρισμοί διαγραφής χρειάζονται πιο ρομπούστα και ολοκληρωμένη αξιολόγηση. Για παράδειγμα, αν η έννοια που πρέπει να διαγραφεί είναι ‘οχήματα’, υπο-έννοιες όπως ‘αυτοκίνητο’ και σύνθετες έννοιες όπως ‘κόκκινο αυτοκίνητο’ ή ‘μικρό αυτοκίνητο’ επίσης πρέπει να διαγραφούν.

‘Ωστόσο, αυτό το аспект της ιεραρχίας εννοίας και σύνθεσης δεν λαμβάνεται υπόψη στις υφιστάμενες αξιολογήσεις πρωτοκόλλων, καθώς εστιάζουν μόνο στην ακρίβεια της単ικής διαγραμμένης έννοιας. [Οι συγγραφείς του EraseBench] αξιολογούν πώς οι CETs επηρεάζουν οπτικά παρόμοιες και παραφρασμένες έννοιες (όπως ‘γάτα’ και ‘κουνέλι’)[;] ωστόσο δεν εξαντλούν την ιεραρχία και τη σύνθεση των εννοιών.’

Για να παρέχουν δεδομένα βENCHMARK για μελλοντικές εργασίες, οι συγγραφείς δημιούργησαν το Side Effect Evaluation (SEE) σύνολο δεδομένων – μια μεγάλη συλλογή κειμένων προτάσεων σχεδιασμένων για να ελέγξουν πώς καλά λειτουργούν οι μεθόδοι διαγραφής εννοιών.

Οι προτάσεις ακολουθούν ένα απλό πρότυπο στο οποίο ένα αντικείμενο περιγράφεται με ιδιότητες μεγέθους, χρώματος και υλικού – για παράδειγμα, μια εικόνα ενός μικρού κόκκινου ξύλινου αυτοκινήτου.

Αντικείμενα drawn από το MS-COCO σύνολο δεδομένων, και οργανωμένα σε μια ιεραρχία υπερκατηγοριών όπως οχήματα, και υποκατηγοριών όπως αυτοκίνητο ή λεωφορείο, με τις συνδυασμούς ιδιοτήτων τους να σχηματίζουν τα φύλλα κόμβους (το πιο συγκεκριμένο επίπεδο της ιεραρχίας). Αυτή η δομή επιτρέπει να ελέγχεται η διαγραφή σε διαφορετικά σεμαντικά επίπεδα, από ευρείες κατηγορίες σε συγκεκριμένες παραλλαγές.

Για να υποστηρίξουν την αυτοματοποιημένη αξιολόγηση, κάθε πρόταση ζευγαρώθηκε με ένα ναι-ή-όχι ερώτημα, όπως Υπάρχει ένα αυτοκίνητο στην εικόνα;, και επίσης χρησιμοποιήθηκε ως ένα class label για μοντέλα ταξινόμησης εικόνων:

Συνδυασμοί προτάσεων στο SEE σύνολο δεδομένων που παράγονται με την παραλλαγή μεγέθους, χρώματος και υλικού ιδιοτήτων.

Για να μετρήσουν πώς καλά λειτουργούν οι μεθόδοι διαγραφής εννοιών, οι συγγραφείς ανέπτυξαν δύο μεθόδοι βαθμολόγησης: στόχος ακρίβεια, η οποία παρακολουθεί πόσο συχνά διαγραμμένες έννοιες ακόμη εμφανίζονται στις γεννημένες εικόνες; και διατηρούμενη ακρίβεια, η οποία παρακολουθεί εάν το μοντέλο συνεχίζει να γεννά υλικό που δεν ήταν υποτιθέμενο να διαγραφεί.

Η ισορροπία μεταξύ των δύο σκορ προορίζεται να αποκαλύψει εάν η μέθοδος επιτυγχάνει να αφαιρέσει την απαγορευμένη έννοια χωρίς να βλάψει την ευρύτερη έξοδο του μοντέλου.

Οι συγγραφείς αξιολόγησαν τη διαγραφή εννοίας σε τρεις τρόπους αποτυχίας: πρώτον, ένα μέτρο του εάν η διαγραφή μιας έννοιας όπως αυτοκίνητο διαταράσσει κοντινές ή μη σχετικές έννοιες, με βάση σεμαντική και ιδιότητα ομοιότητα; δεύτερον, ένα τεστ για το εάν η διαγραφή μπορεί να παρακαμφθεί με την πρόταση υπο-εννοιών όπως κόκκινο αυτοκίνητο μετά τη διαγραφή οχήματα.

Τέλος, μια έλεγχος διεξήχθη για διαρροή ιδιοτήτων, όπου χαρακτηριστικά που συνδέονται με διαγραμμένες έννοιες εμφανίζονται σε άλλα αντικείμενα (για παράδειγμα, η διαγραφή καναπέ μπορεί να προκαλέσει ένα άλλο αντικείμενο, όπως ένα γλάστρα, να κληρονομήσει το χρώμα ή το υλικό του). Το τελικό σύνολο δεδομένων περιέχει 5056 σύνθετες προτάσεις

Δοκιμές

Οι προηγούμενες δοκιμές ήταν αυτές που αναφέρθηκαν νωρίτερα – UCE, RECE, MACE, και SPM. Οι ερευνητές υιοθέτησαν τις προεπιλεγμένες ρυθμίσεις από τα αρχικά projects, και λεπτοβελτίωσαν όλα τα μοντέλα σε ένα NVIDIA RTX 6000 GPU με 48GB VRAM.

Το Stable Diffusion 1.4, ένα από τα πιο διαρκή μοντέλα στη βιβλιογραφία, χρησιμοποιήθηκε για όλες τις δοκιμές – ίσως όχι τουλάχιστον γιατί τα πρώτα μοντέλα SD είχαν λίγη ή καθόλου концептуαλική αντοχή, και ως εκ τούτου προσφέρουν ένα κενό φύλλο σε αυτό το συγκεκριμένο ερευνητικό πλαίσιο.

Κάθε μια από τις 5056 προτάσεις από το SEE σύνολο δεδομένων εκτελέστηκε μέσω των αμεταλλασσόμενων και των επεξεργασμένων εκδόσεων του μοντέλου, γεννώντας τέσσερις εικόνες ανά πρόταση χρησιμοποιώντας σταθερές τυχαίες σπόρους, επιτρέποντας να ελεγχθεί εάν οι επιπτώσεις διαγραφής παρέμειναν σταθερές σε πολλαπλά αποτελέσματα. Κάθε επεξεργασμένο μοντέλο παρήγαγε συνολικά 20,224 εικόνες.

Η παρουσία διατηρημένων εννοιών αξιολογήθηκε σύμφωνα με προηγούμενες μεθόδοι για διαδικασίες διαγραφής κειμένου-εικόνας, χρησιμοποιώντας τα μοντέλα VQA BLIP, QWEN 2.5 VL, και Florence-2base.

Επίδραση σε Γειτονικές Έννοιες

Η πρώτη δοκιμή μετρούσε εάν η διαγραφή μιας έννοιας ανεπιθύμητα επηρέασε κοντινές έννοιες. Για παράδειγμα, μετά τη διαγραφή αυτοκίνητο, το μοντέλο πρέπει να σταματήσει να γεννά κόκκινο αυτοκίνητο ή μεγάλο αυτοκίνητο, αλλά ακόμη να μπορεί να γεννήσει σχετικές έννοιες όπως λεωφορείο ή φορτηγό, και μη σχετικές όπως πdür.

Η ανάλυση χρησιμοποιούσε CLIP εμβυθισμένη ομοιότητα και ιδιότητα-βασισμένη επεξεργασία απόσταση για να εκτιμήσει πόσο κοντά κάθε έννοια ήταν στη διαγραμμένη στόχο, επιτρέποντας στη μελέτη να ποσοτικοποιήσει πόσο μακριά η διαταραχή εξαπλώθηκε:

Συνδυασμένα αποτελέσματα για στόχο ακρίβεια (αριστερά) και διατηρούμενη ακρίβεια (δεξιά) που σχεδιάζονται με σεμαντική ομοιότητα (πάνω) και σύνθετη απόσταση (κάτω). Μια ιδανική μέθοδος διαγραφής έννοιας θα έδειχνε χαμηλή στόχο ακρίβεια και υψηλή διατηρούμενη ακρίβεια σε όλες τις αποστάσεις; αλλά τα αποτελέσματα δείχνουν ότι οι τρέχουσες τεχνικές αποτυγχάνουν να γενικεύσουν καθαρά, με κοντινές έννοιες είτε να μην διαγράφονται επαρκώς είτε να διαταράσσονται αναλογικά.

Από αυτά τα αποτελέσματα, οι συγγραφείς σχολιάζουν:

‘Όλες οι CETs συνεχίζουν να γεννούν σύνθετες ή σεμαντικά μακρινές παραλλαγές της στόχου παρά την διαγραφή, που ιδανικά δεν θα πρέπει να συμβεί. Είναι φανερό ότι η UCE συνεχώς επιτυγχάνει υψηλότερη ακρίβεια από άλλες CET μεθόδοι στο [διατηρούμενο σύνολο], υποδεικνύοντας ελάχιστη ανεπιθύμητη επίδραση σε σεμαντικά σχετικές έννοιες.

‘Αντίθετα, η SPM επιτυγχάνει την χαμηλότερη ακρίβεια, υποδεικνύοντας ότι η στρατηγική επεξεργασίας της είναι πιο ευάλωτη στη σεμαντική ομοιότητα.’

Από τις τέσσερις μεθόδοι που δοκιμάστηκαν, η RECE ήταν η πιο αποτελεσματική στο μπλοκάρισμα της στόχου έννοιας. Ωστόσο, όπως φαίνεται στην αριστερή πλευρά της εικόνας πάνω, όλες οι μεθόδοι απέτυχαν να καταστέλλουν τις σύνθετες παραλλαγές. Μετά τη διαγραφή πτηνό, το μοντέλο ακόμη παρήγαγε εικόνες ενός κόκκινου πτηνού, υποδεικνύοντας ότι η έννοια παρέμεινε μερικά ακέραιη.

Η διαγραφή μπλε καναπέ επίσης εμπόδισε το μοντέλο να γεννήσει μια μπλε καρέκλα, υποδεικνύοντας βλάβη σε γειτονικές έννοιες.

Η RECE χειρίστηκε τις σύνθετες παραλλαγές καλύτερα από τις άλλες, ενώ η UCE έκανε καλύτερη δουλειά στη διατήρηση σχετικών εννοιών.

Διαγραφή Εισβολής

Η δοκιμή διαγραφής εισβολής αξιολόγησε εάν τα μοντέλα μπορούσαν ακόμη να γεννήσουν υπο-κατηγορίες έννοιες μετά τη διαγραφή της υπερ-κατηγορίας τους. Για παράδειγμα, εάν οχήματα διαγράφηκαν, η δοκιμή ελέγχει εάν το μοντέλο μπορούσε ακόμη να παράγει εξόδους όπως ποδήλατο ή κόκκινο αυτοκίνητο.

Προτάσεις στόχευαν και σε άμεσες υπο-κατηγορίες και σε σύνθετες παραλλαγές για να καθορίσουν εάν η διαγραφή έννοιας είχε πραγματικά αφαιρέσει την πλήρη ιεραρχία ή μπορούσε να παρακαμφθεί μέσω πιο συγκεκριμένων περιγραφών:

Στην Stable Diffusion v1.4, παρακαμπτήρια διαγραφής διαγραμμένων υπερ-κατηγοριών μέσω των υπο-κατηγοριών και σύνθετων παραλλαγών τους, με υψηλότερη ακρίβεια που υποδηλώνει μεγαλύτερη διέλευση.

Το αμεταλλασσόμενο μοντέλο διατήρησε υψηλή ακρίβεια σε όλες τις υπερ-κατηγορίες, επιβεβαιώνοντας ότι δεν είχε όχι αφαιρέσει τις στόχους έννοιες. Από τις CETs, η MACE έδειξε την ελάχιστη διέλευση, επιτυγχάνοντας την χαμηλότερη υπο-κατηγορία ακρίβεια σε περισσότερες από τις μισές δοκιμασμένες κατηγορίες. Η RECE επίσης παρουσίασε καλή απόδοση, ιδιαίτερα στις αξεσουάρ, αθλήματα, και ηλεκτρονικά ομάδες.

Αντίθετα, η UCE και η SPM έδειξαν υψηλότερη υπο-κατηγορία ακρίβεια, υποδεικνύοντας ότι διαγραμμένες έννοιες ήταν πιο εύκολα να παρακαμφθούν μέσω σχετικών ή εμβυθισμένων προτάσεων.

Οι συγγραφείς σημειώνουν:

‘[Όλες] οι CETs επιτυγχάνουν να καταστέλλουν την στόχο υπερ-κατηγορία έννοια (“τροφή”). Ωστόσο, όταν προτείνονται με ιδιότητα-βασισμένες παιδικές έννοιες της ιεραρχίας τροφής (π.χ. “μεγάλο πίτσα”), όλα τα μοντέλα γεννούν είδη τροφής.

‘Παρόμοια στην κατηγορία “οχήματα”, όλα τα μοντέλα γεννούν ποδήλατα, παρά τη διαγραφή “οχήματα”.’

Διαρροή Ιδιοτήτων

Η τρίτη δοκιμή, διαρροή ιδιοτήτων, ελέγχει εάν χαρακτηριστικά που συνδέονται με μια διαγραμμένη έννοια εμφανίζονται σε άλλα μέρη της εικόνας.

Για παράδειγμα, μετά τη διαγραφή καναπέ, το μοντέλο δεν πρέπει να γεννήσει ούτε καναπέ ούτε να εφαρμόσει τα τυπικά χαρακτηριστικά του (όπως χρώμα ή υλικό) σε μη σχετικά αντικείμενα στην ίδια πρόταση. Αυτό μετρήθηκε με την πρόταση του μοντέλου με ζευγαρωμένα αντικείμενα και την εξέταση εάν τα διαγραμμένα χαρακτηριστικά λανθασμένα εμφανίζονται σε διατηρημένες έννοιες:

Χάρτες προσοχής για ιδιότητα-tokens μετά τη διαγραφή έννοιας. Αριστερά: Όταν ‘μπάνκ’ διαγράφεται, το token ‘ξύλινο’ μεταφέρεται στο πουλί αντί, αποτέλεσμα ξύλινα πουλιά. Δεξιά: Η διαγραφή ‘καναπέ’ αποτυγχάνει να καταστέλλει την γεννήτρια καναπέ, ενώ το token ‘μεγάλο’ είναι λανθασμένα ανατεθειμένο στο ντόνατ.

Η RECE ήταν η πιο αποτελεσματική στην διαγραφή στόχου ιδιοτήτων, αλλά επίσης εισήγαγε την περισσότερη διαρροή ιδιοτήτων σε διατηρημένες προτάσεις, υπερβαίνοντας ακόμη και το αμεταλλασσόμενο μοντέλο. Η UCE διέρρευσε λιγότερο από άλλες μεθόδοι.

Τα αποτελέσματα, όπως υποδηλώνουν οι συγγραφείς, υποδηλώνουν την αναγκαιότητα για μια εγγενή ανταλλαγή, με ισχυρότερη διαγραφή να αυξάνει τον κίνδυνο λανθασμένης μεταφοράς ιδιοτήτων.

Συμπέρασμα

Ο latent χώρος ενός μοντέλου δεν γεμίζει με einen τάξη κατά τη διάρκεια της εκπαίδευσης, με παράγωγες έννοιες που καταθέτονται ομαλά σε ράφια ή σε φακέλους; αλλά οι εκπαιδευμένες εμβυθίσεις είναι και το περιεχόμενο και τα δοχεία τους: δεν χωρίζονται από οποιαδήποτε σαφής οριοθέτηση, αλλά μάλλον αναμιγνύονται μεταξύ τους με έναν τρόπο που καθιστά τη διαγραφή προβληματική – σαν να προσπαθείς να αφαιρέσεις ένα πα운드 σάρκας χωρίς καμία απώλεια αίματος.

Σε έξυπνες και εξελισσόμενες συστήματα, θεμελιώδεις γεγονότες – όπως το κάψιμο των δακτύλων σας και στη συνέχεια το να αντιμετωπίζετε τη φωτιά με σεβασμό – είναι δεμένα με τις συμπεριφορές και τις асоціασιες που αργότερα σχηματίζουν, καθιστώντας το δύσκολο να παράγουν ένα μοντέλο που μπορεί να έχει αφαιρέσει τις επιπτώσεις μιας κεντρικής, πιθανώς “απαγορευμένης” έννοιας, αλλά να λείπει η έννοια αυτήเอง.

* Η μετατροπή μου των εσωτερικών παραπομπών των συγγραφέων σε υπερ-συνδέσμους.

Πρώτη δημοσίευση Παρασκευή, 22 Αυγούστου 2025

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]