Angolo di Anderson
La censura dei modelli di intelligenza artificiale non funziona bene, rivela uno studio

I tentativi di censurare i generatori di immagini di intelligenza artificiale cancellando il contenuto vietato (come la pornografia, la violenza o gli stili protetti da copyright) dai modelli addestrati stanno fallendo: uno studio recente scopre che i metodi di cancellazione di concetti attuali consentono agli attributi “vietati” di trapelare in immagini non correlate e non riescono a fermare le versioni strettamente correlate del contenuto “cancellato” dall’apparire.
Se le aziende che producono modelli di intelligenza artificiale di base non possono impedire che vengano utilizzati per produrre materiali oggetto di obiezione o illegali, rischiano di essere perseguite e/o chiuse. Al contrario, i venditori che mettono a disposizione i loro modelli solo tramite un’API, come ad esempio il motore generativo Firefly di Adobe, sono in una posizione tale da non preoccuparsi di ciò che i loro modelli potrebbero creare, poiché sia il prompt dell’utente che il risultato di output vengono ispezionati e sanificati:

Il sistema Firefly di Adobe, utilizzato in strumenti come Photoshop, a volte rifiuta una richiesta generativa subito, bloccando il prompt prima che venga creato qualcosa. Altre volte, genera l’immagine ma poi blocca il risultato dopo la revisione. Questo tipo di rifiuto a metà processo può anche verificarsi in ChatGPT, quando il modello inizia una risposta ma la interrompe dopo aver riconosciuto una violazione delle politiche – e occasionalmente si può vedere l’immagine abortita per un breve periodo durante questo processo.
Tuttavia, i filtri di tipo API di questo tipo possono di solito essere neutralizzati dagli utenti sui modelli installati localmente, compresi i modelli di linguaggio e visione (VLM) che l’utente potrebbe desiderare di personalizzare attraverso l’addestramento locale su dati personalizzati.
Nella maggior parte dei casi, disabilitare tali operazioni è banale, richiedendo solo il commento di una chiamata a una funzione in Python (anche se queste modifiche devono di solito essere ripetute o reinventate dopo gli aggiornamenti del framework).
Da un punto di vista aziendale, è difficile capire come questo potrebbe essere un problema, poiché un approccio API massimizza il controllo aziendale sul flusso di lavoro dell’utente. Tuttavia, dal punto di vista dell’utente, sia il costo dei modelli solo API che il rischio di censura errata o eccessiva è probabile che li spinga a scaricare e personalizzare installazioni locali di alternative open source – almeno, laddove la licenza FOSS sia favorevole.
L’ultimo modello significativo rilasciato senza alcun tentativo di incorporare l’autocensura è stato Stable Diffusion V1.5, quasi tre anni fa. Successivamente, la rivelazione che i suoi corpora di addestramento includevano dati CSAM ha portato a una crescente richiesta di vietarne la disponibilità e al suo ritiro dal repository Hugging Face nel 2024.
Taglia fuori!
I cinici sostengono che l’interesse di un’azienda a censurare i modelli di intelligenza artificiale generativa installabili localmente si basa esclusivamente su preoccupazioni relative all’esposizione legale, qualora i loro framework diventassero pubblici per aver facilitato contenuti oggetto di obiezione o illegali.
Infatti, alcuni modelli open source “amici dell’utente” non sono così difficili da decensurare (come Stable Diffusion 1.5 e DeepSeek R1).
Al contrario, il recente rilascio della serie di modelli Kontext di Black Forest Lab è stato caratterizzato dall’impegno dell’azienda a censurare l’intera gamma Kontext. Ciò è stato ottenuto sia attraverso una cura attenta dei dati, sia attraverso un affinamento mirato dopo l’addestramento, progettato per rimuovere qualsiasi residua tendenza verso contenuti NSFW o vietati.
Questo è il punto in cui si è concentrata la scena della ricerca negli ultimi 2-3 anni: con un’enfasi sulla correzione post-fatto dei modelli con dati non curati. Offerte di questo tipo includono Unified Concept Editing in Diffusion Models (UCE); Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models (RECE); Mass Concept Erasure in Diffusion Models (MACE); e concept-Semi-Permeable structure is injected as a Membrane (SPM):

Il paper del 2024 ‘Unified Concept Editing in Diffusion Models’ ha offerto modifiche in forma chiusa ai pesi dell’attenzione, consentendo la modifica efficiente di più concetti nei modelli di testo-immagine. Ma il metodo regge alla verifica? Source: https://arxiv.org/pdf/2308.14761
Sebbene questo sia un approccio efficiente (le raccolte iperscala come LAION sono troppo grandi per essere curate manualmente), non è necessariamente efficace: secondo uno studio statunitense, nessuno dei procedimenti di editing menzionati – che rappresentano lo stato dell’arte nella modifica post-addestramento dei modelli di intelligenza artificiale – funziona veramente bene.
Gli autori hanno scoperto che queste tecniche di cancellazione di concetti (CET) possono di solito essere facilmente aggirate e che, anche quando sono efficaci, hanno notevoli effetti collaterali:

Effetti della cancellazione di concetti sui modelli di testo-immagine. Ogni colonna mostra un prompt e il concetto segnato per la cancellazione, insieme ai risultati generati prima e dopo la modifica. Le gerarchie indicano relazioni genitore-figlio tra concetti. Gli esempi evidenziano effetti collaterali comuni, tra cui il fallimento nell’eliminare concetti figlio, la soppressione di concetti vicini, l’evasione attraverso la riformulazione e il trasferimento di attributi cancellati a oggetti non correlati. Source: https://arxiv.org/pdf/2508.15124
Gli autori hanno scoperto che le tecniche di cancellazione di concetti attuali falliscono nel bloccare i prompt composti (ad esempio, macchina rossa o sedia di legno piccola); spesso lasciano che le sottoclassi sfuggano anche dopo aver cancellato una categoria genitore (come macchina o bus che continuano ad apparire dopo aver rimosso veicolo); e introducono nuovi problemi come la perdita di attributi (ad esempio, cancellando sedia blu potrebbe far sì che il modello generi oggetti non correlati come sedia blu).
In oltre l’80% dei casi di test, cancellare un concetto ampio come veicolo non ha impedito al modello di generare istanze più specifiche di veicolo come macchine o autobus.
La modifica, osserva il paper, provoca anche la dispersione delle mappe di attenzione (le parti del modello che decidono dove concentrarsi nell’immagine), indebolendo la qualità di output.
Interessante notare che il paper scopre che cancellare concetti correlati addestrati uno per uno funziona meglio che cercare di rimuoverli tutti insieme – anche se non rimuove tutti i difetti dei metodi di editing esaminati:

Confronto tra strategie di cancellazione progressive e tutte-in-una-volta. Quando tutte le varianti di ‘orso di pezza’ vengono cancellate contemporaneamente, il modello continua a generare oggetti simili a orsi. Cancellare le varianti passo dopo passo è più efficace, portando il modello a sopprimere il concetto bersaglio in modo più affidabile.
Sebbene i ricercatori non possano attualmente offrire una soluzione ai problemi che il paper delinea, hanno sviluppato un nuovo set di dati e un benchmark che potrebbero aiutare progetti di ricerca futuri a capire se i loro modelli “censurati” funzionano come previsto.
Il paper afferma:
‘Le valutazioni precedenti si sono basate esclusivamente su un piccolo set di classi bersaglio e di conservazione; ad esempio, quando si cancella “macchina”, solo la capacità del modello di generare macchine viene testata. Dimostriamo che questo approccio è fondamentalmente inadeguato e che la valutazione della cancellazione di concetti dovrebbe essere più completa per abbracciare tutti i sottoclassi correlati come “macchina rossa”.’
‘Introducendo un set di dati diversificato con variazioni composte e analizzando sistematicamente effetti come l’impatto sui concetti vicini, l’evasione di concetti e la perdita di attributi, scopriamo limitazioni e effetti collaterali significativi delle CET esistenti. ‘
‘Il nostro benchmark è agnostico rispetto al modello e facilmente integrabile ed è ideale per aiutare lo sviluppo di nuove tecniche di cancellazione di concetti (CETs).’

Sebbene le CET cancellino il concetto bersaglio ‘uccello’, falliscono nella variante composta ‘uccello rosso’ (in alto). Dopo aver cancellato ‘sedia blu’, tutti i metodi perdono anche la capacità di generare una sedia blu (in basso). I risultati di successo sono contrassegnati con un simbolo di spunta verde e i fallimenti con un simbolo di croce rossa.
Lo studio offre un’interessante visione dell’estensione dell’intreccio dei concetti addestrati nello spazio latente di un modello e dell’estensione in cui l’intreccio non permetterà facilmente alcun tipo di cancellazione di concetti definitiva e veramente distinta.
Il nuovo paper si intitola Effetti collaterali della cancellazione di concetti dai modelli di diffusione e proviene da quattro ricercatori dell’Università del Maryland.
Metodo e dati
Gli autori ritengono che i lavori precedenti che affermano di cancellare concetti dai modelli di diffusione non dimostrano a sufficienza la loro affermazione, affermando*:
‘Le affermazioni di cancellazione richiedono una valutazione più robusta e completa. Ad esempio, se il concetto da cancellare è “veicolo”, anche i sottoclassi come “macchina” e i concetti composti come “macchina rossa” o “macchina piccola” dovrebbero essere cancellati. ‘
‘Tuttavia, questo aspetto della gerarchia dei concetti e della composizionalità non è considerato nei protocolli di valutazione esistenti, poiché si concentrano solo sull’accuratezza del singolo concetto cancellato. [Gli autori di EraseBench] valutano come le CET influenzano concetti visivamente simili e parafrasati (come “gatto” e “gattino”)[;] tuttavia, non esaminano esaustivamente la gerarchia e la composizionalità dei concetti.’
Al fine di fornire dati di benchmark per progetti futuri, gli autori hanno creato il set di dati Valutazione degli effetti collaterali (SEE) – una vasta raccolta di prompt di testo progettati per testare quanto bene funzionano i metodi di cancellazione di concetti.
I prompt seguono un modello semplice in cui un oggetto viene descritto con attributi di dimensione, colore e materiale – ad esempio, un’immagine di una macchina rossa di legno piccola.
Gli oggetti sono stati tratti dal set di dati MS-COCO e organizzati in una gerarchia di superclassi come veicolo, e sottoclassi come macchina o bus, con le loro combinazioni di attributi che formano i nodi foglia (il livello più specifico della gerarchia). Questa struttura consente di testare la cancellazione a diversi livelli semantici, dalle categorie ampie alle varianti specifiche.
Per supportare la valutazione automatizzata, ogni prompt è stato accoppiato con una domanda sì/no, come C’è una macchina nell’immagine?, e utilizzato anche come etichetta di classe per modelli di classificazione di immagini:

Combinazioni di prompt nel set di dati SEE generate variando gli attributi di dimensione, colore e materiale.
Per misurare quanto bene ogni metodo di cancellazione di concetti abbia funzionato, gli autori hanno ideato due metodi di punteggio: accuratezza del bersaglio, che tiene traccia di quanto spesso i concetti cancellati appaiono ancora nelle immagini generate; e accuratezza di conservazione, che tiene traccia di quanto il modello continui a generare materiale che non doveva essere cancellato.
L’equilibrio tra i due punteggi è destinato a rivelare se il metodo ha rimosso con successo il concetto vietato senza danneggiare l’output più ampio del modello.
Gli autori hanno valutato la cancellazione di concetti in tre modalità di fallimento: in primo luogo, una misura di quanto la rimozione di un concetto come macchina disturbi concetti vicini o non correlati, in base alla similarità semantica e agli attributi; in secondo luogo, un test per verificare se la cancellazione possa essere bypassata promuovendo sottoclassi come macchina rossa dopo aver cancellato veicolo.
Infine, è stata condotta una verifica per la perdita di attributi, dove i tratti collegati ai concetti cancellati appaiono in altre parti dell’immagine (ad esempio, cancellando sedia potrebbe far sì che un altro oggetto, come un vaso, erediti il suo colore o materiale). Il set di dati finale contiene 5056 prompt composti
Test
I framework testati in precedenza erano quelli elencati in precedenza – UCE, RECE, MACE e SPM. I ricercatori hanno adottato le impostazioni predefinite dei progetti originali e hanno affinato tutti i modelli su una GPU NVIDIA RTX 6000 con 48GB di VRAM.
Stable Diffusion 1.4, uno dei modelli più longevi nella letteratura, è stato utilizzato per tutti i test – forse non meno perché i primi modelli SD avevano poca o nessuna limitazione concettuale e, come tale, offrono una tabula rasa in questo particolare contesto di ricerca.
Ogni prompt dei 5056 nel set di dati SEE è stato eseguito sia sulla versione non modificata che su quella modificata del modello, generando quattro immagini per prompt utilizzando semi casuali fissi, consentendo di testare se gli effetti di cancellazione rimanevano coerenti in più output. Ogni modello modificato ha prodotto un totale di 20.224 immagini.
La presenza di concetti conservati è stata valutata in base a metodi precedenti per le procedure di cancellazione di testo-immagine, utilizzando i modelli VQA BLIP, QWEN 2.5 VL e Florence-2base.
Impatto sui concetti vicini
Il primo test ha misurato se la cancellazione di un concetto ha influenzato involontariamente concetti vicini. Ad esempio, dopo aver rimosso macchina, il modello dovrebbe smettere di generare macchina rossa o macchina grande, ma dovrebbe ancora essere in grado di generare concetti correlati come bus o camion, e quelli non correlati come forchetta.
L’analisi ha utilizzato la similarità di incorporamento CLIP e la distanza di editing basata sugli attributi per stimare quanto vicino fosse ogni concetto al bersaglio cancellato, consentendo allo studio di quantificare quanto si estendeva la perturbazione:

Risultati combinati per l’accuratezza del bersaglio (a sinistra) e l’accuratezza di conservazione (a destra) tracciati contro la similarità semantica (in alto) e la distanza compostale (in basso). Un metodo di cancellazione di concetti ideale mostrerebbe un’accuratezza del bersaglio bassa e un’accuratezza di conservazione alta in tutte le distanze; ma i risultati mostrano che le tecniche attuali non riescono a generalizzare in modo pulito, con concetti più vicini o insufficientemente cancellati o sproporzionatamente disturbati.
Di questi risultati, gli autori commentano:
‘Tutte le CET continuano a generare varianti composte o semanticamente distanti del bersaglio nonostante la cancellazione, che idealmente non dovrebbe accadere. È evidente che UCE raggiunge costantemente un’accuratezza più alta rispetto ad altri metodi CET nel set di conservazione, indicando un impatto minimo su concetti semanticamente correlati. ‘
‘In contrasto, SPM raggiunge l’accuratezza più bassa, suggerendo che la sua strategia di editing è più suscettibile alla similarità dei concetti.’
Tra i quattro metodi testati, RECE è stato il più efficace nel bloccare il concetto bersaglio. Tuttavia, come mostrato nel lato sinistro dell’immagine sopra, tutti i metodi hanno fallito nel sopprimere le varianti composte. Dopo aver cancellato uccello, il modello ha ancora prodotto immagini di un uccello rosso, suggerendo che il concetto è rimasto parzialmente intatto.
Rimuovere sedia blu ha anche impedito al modello di generare una sedia blu, indicando un danno ai concetti vicini.
RECE ha gestito meglio le varianti composte rispetto agli altri, mentre UCE ha fatto un lavoro migliore nella conservazione dei concetti correlati.
Invasione di cancellazione
Il test di evasione della cancellazione ha valutato se i modelli potevano ancora generare concetti di sottoclasse dopo che la loro superclasse era stata cancellata. Ad esempio, se veicolo era stato rimosso, il test ha verificato se il modello poteva ancora produrre output come bicicletta o macchina rossa.
I prompt hanno mirato sia ai sottoclassi diretti che alle varianti composte per determinare se l’operazione di cancellazione di concetti aveva veramente rimosso l’intera gerarchia o poteva essere bypassata attraverso descrizioni più specifiche:

Evasione delle superclassi cancellate attraverso le loro sottoclassi e varianti composte, con un’accuratezza più alta che indica una maggiore evasione.
Il modello non modificato ha mantenuto un’accuratezza elevata in tutte le superclassi, confermando che non aveva rimosso alcun concetto bersaglio. Tra le CET, MACE ha mostrato la minore evasione, raggiungendo l’accuratezza più bassa nella maggior parte delle categorie testate. RECE ha anche funzionato bene, in particolare nei gruppi accessorio, sport e elettronica.
Al contrario, UCE e SPM hanno mostrato un’accuratezza di sottoclasse più alta, indicando che i concetti cancellati erano più facilmente bypassati attraverso prompt correlati o annidati.
Gli autori notano:
‘Tutte le CET sopprimono con successo il concetto di superclasse bersaglio (“cibo”). Tuttavia, quando viene promosso con bambini basati su attributi della gerarchia del cibo (ad esempio, “una grande pizza”), tutti i metodi generano articoli di cibo. ‘
‘Allo stesso modo, nella categoria “veicolo”, tutti i modelli generano biciclette, nonostante la cancellazione di “veicolo”.’
Perdita di attributi
Il terzo test, la perdita di attributi, ha verificato se i tratti collegati a un concetto cancellato apparivano in altre parti dell’immagine.
Ad esempio, dopo aver cancellato sedia, il modello non dovrebbe generare una sedia né applicare i suoi attributi tipici (come colore o materiale) a oggetti non correlati nello stesso prompt. Ciò è stato misurato promuovendo il modello con oggetti accoppiati e esaminando se gli attributi cancellati apparivano per errore nei concetti conservati:

Mappe di attenzione per token di attributo dopo la cancellazione di concetti. Sinistra: quando ‘panca’ viene cancellata, il token ‘di legno’ si sposta sull’uccello, risultando in uccelli di legno. Destra: cancellare ‘sedia’ non impedisce la generazione di una sedia, mentre il token ‘grande’ viene assegnato per errore al doughnut.
RECE è stato il più efficace nell’eliminare gli attributi bersaglio, ma ha anche introdotto la maggiore perdita di attributi nei prompt conservati, superando addirittura il modello non modificato. UCE ha perso meno degli altri metodi.
I risultati, suggeriscono gli autori, indicano la necessità di un compromesso intrinseco, con una cancellazione più forte che aumenta il rischio di trasferimento di attributi errato.
Conclusione
Lo spazio latente di un modello non si riempie in modo ordinato durante l’addestramento, con concetti derivati depositati ordinatamente su scaffali o in cassette; piuttosto, gli incorporamenti addestrati sono sia il contenuto che i loro contenitori: non separati da confini netti, ma piuttosto si fondono l’uno nell’altro in un modo che rende difficile la rimozione – come cercare di estrarre una libbra di carne senza perdita di sangue.
Nelle strutture intelligenti ed evolutive, gli eventi fondamentali – come scottarsi le dita e trattare poi il fuoco con rispetto – sono legati ai comportamenti e alle associazioni che si formano in seguito, rendendo difficile produrre un modello che possa essere stato lasciato con le conseguenze di un concetto centrale, potenzialmente “vietato”, ma mancare di quel concetto in sé.
* La mia conversione delle citazioni in linea degli autori in collegamenti ipertestuali.
Pubblicato per la prima volta venerdì 22 agosto 2025












