Intelligenza artificiale

Il ‘Linguaggio Assurdo’ Che Potrebbe Sovvertire i Sistemi di Moderazione della Sintesi di Immagini

Published August 9, 2022

Updated April 28, 2026

Martin Anderson

DALL-E 2: 'a man in a state of exaspenttausacion' . https://labs.openai.com/s/PHCrZh2i5FC2N814U8pbxuug

Una nuova ricerca dell’Università di Columbia suggerisce che le salvaguardie che impediscono ai modelli di sintesi di immagini come DALL-E 2, Imagen e Parti di produrre immagini dannose o controversie sono suscettibili a un tipo di attacco avversario che coinvolge ‘parole inventate’.

L’autore ha sviluppato due approcci che potrebbero potenzialmente annullare le misure di moderazione del contenuto in un sistema di sintesi di immagini e ha scoperto che sono notevolmente robusti anche tra diverse architetture, indicando che la debolezza è più che solo sistemica e potrebbe essere legata a alcuni dei principi fondamentali della sintesi di immagini da testo.

Il primo, e il più forte dei due, è chiamato macaronic prompting. Il termine ‘macaronic’ originariamente si riferisce a una miscela di più lingue, come trovato in Esperanto o Unwinese. Forse l’esempio più diffuso a livello culturale sarebbe Urdu-inglese, un tipo di ‘code mixing’ comune in Pakistan, che mescola liberamente sostantivi inglesi e suffissi urdu.

Compositional macaronic prompting in DALL-E 2. Source: https://arxiv.org/pdf/2208.04135.pdf

In alcuni degli esempi sopra, le frazioni di parole significative sono state incollate insieme, utilizzando l’inglese come ‘scaffold’. Altri esempi nel documento utilizzano più lingue in un’unica richiesta.

Il sistema risponderà in modo semanticamente significativo a causa della relativa mancanza di curation nelle fonti web su cui il sistema è stato addestrato. Tali fonti avranno spesso etichette multilingue (ad esempio, da set di dati non specificamente progettati per un compito di sintesi di immagini), e ogni parola ingerita, in qualsiasi lingua, diventerà un ‘token’; ma allo stesso modo, parti di quelle parole diventeranno ‘subwords’ o token frazionati. Nell’elaborazione del linguaggio naturale (NLP), questo tipo di ‘stemming’ aiuta a distinguere l’etimologia di parole derivate più lunghe che possono sorgere in operazioni di trasformazione, ma crea anche un enorme set lessicale ‘Lego’ che il ‘prompting creativo’ può sfruttare.

Monolingual portmanteau words are also effective in obtaining images through indirect or non-prosaic language, with very similar results often obtainable across differing architectures, such as DALL-E 2 and DALL-E Mini (Craiyon).

Nel secondo tipo di approccio, chiamato evocative prompting, alcune delle parole congiunte sono simili nel tono alla più giovane corrente di ‘latino scolastico’ dimostrato in Monty Python’s Life of Brian (1979).

It’s no joke – faux Latin often succeeds in evincing a meaningful response from DALL-E 2.

L’autore afferma:

‘Un ovvio motivo di preoccupazione con questo metodo è l’elusione dei filtri di contenuto basati su prompt blacklistati. In principio, il macaronic prompting potrebbe fornire un modo facile e apparentemente affidabile per bypassare tali filtri al fine di generare contenuti dannosi, offensivi, illegali o altrimenti sensibili, inclusi immagini violente, odiose, razziste, sessiste o pornografiche, e forse immagini che violano la proprietà intellettuale o ritraggono individui reali.

‘Le aziende che offrono la generazione di immagini come servizio hanno posto grande cura nel prevenire la generazione di tali output in conformità con la loro politica di contenuto. Di conseguenza, il macaronic prompting dovrebbe essere sistematicamente indagato come minaccia ai protocolli di sicurezza utilizzati per la generazione di immagini commerciali.’

L’autore suggerisce una serie di rimedi contro questa vulnerabilità, alcuni dei quali ammette potrebbero essere considerati eccessivamente restrittivi.

La prima possibile soluzione è la più costosa: curare le immagini di origine più attentamente, con più controllo umano e meno algoritmi. Tuttavia, il documento ammette che ciò non impedirebbe al sistema di sintesi di immagini di creare una congiunzione offensiva tra due concetti di immagini che di per sé potrebbero essere innocui.

In secondo luogo, il documento suggerisce che i sistemi di sintesi di immagini potrebbero eseguire la loro output effettiva attraverso un sistema di filtri, intercettando eventuali associazioni problematiche prima che vengano servite all’utente. È possibile che DALL-E 2 attualmente operi un tale filtro, anche se OpenAI non ha divulgato esattamente come funziona la moderazione del contenuto di DALL-E 2.

Infine, l’autore considera la possibilità di un ‘dictionary whitelist’, che consentirebbe solo parole verificate e approvate per recuperare e rendere concetti, ma ammette che ciò potrebbe rappresentare una restrizione eccessivamente severa sull’utilità del sistema.

Sebbene il ricercatore abbia sperimentato solo con cinque lingue (inglese, tedesco, francese, spagnolo e italiano) nella creazione di prompt-assemblaggi, ritiene che questo tipo di ‘attacco avversario’ potrebbe diventare ancora più ‘criptico’ e difficile da detergere estendendo il numero di lingue, dato che modelli iperscala come DALL-E 2 sono addestrati su più lingue (semplicemente perché è più facile utilizzare input leggermente filtrati o ‘grezzi’ che considerare la grande spesa di curation, e perché la dimensione aggiuntiva è probabile che aggiunga all’utilità del sistema).

Il documento è intitolato Attacchi Avversari sulla Generazione di Immagini con Parole Inventate, e proviene da Raphaël Millière dell’Università di Columbia.

Lingua Criptica in DALL-E 2

È stato suggerito in precedenza che il nonsenso che DALL-E 2 produce quando tenta di rappresentare la lingua scritta potrebbe in sé essere un ‘vocabolario nascosto’. Tuttavia, la ricerca precedente su questa lingua misteriosa non ha offerto alcun modo per sviluppare stringhe nonce che possano evocare immagini specifiche.

Del lavoro precedente, il documento afferma:

‘[Esso] non offre un metodo affidabile per trovare stringhe nonce che suscitano immagini specifiche. La maggior parte del testo nonsenso incluso da DALL-E 2 nelle immagini non sembra essere associata in modo affidabile a concetti visivi specifici quando trascritta e utilizzata come prompt. Ciò limita la fattibilità di questo approccio come modo per eludere la moderazione di contenuti dannosi o offensivi; come tale, non è un rischio particolarmente preoccupante per l’abuso di modelli di generazione di immagini guidati da testo.’

Invece, i due metodi dell’autore sono elaborati come mezzi con cui il nonsenso può evocare immagini correlate e significative mentre bypassa l’etichetta convenzionale che si sta sviluppando in prompt engineering.

Ad esempio, l’autore considera la parola per ‘uccelli’ nelle cinque lingue che rientrano nell’ambito del documento: Vögel in tedesco, uccelli in italiano, oiseaux in francese, e pájaros in spagnolo.

Con la codifica a coppia di byte (BPE) utilizzata dall’implementazione di CLIP che è integrata in DALL-E 2, le parole vengono tokenizzate in inglese senza accenti, e possono essere ‘creativamente combinate’ per formare parole nonce che sembrano essere nonsenso per noi, ma conservano il loro significato incollato per DALL-E 2, consentendo al sistema di esprimere l’intento percepito:

Nell’esempio sopra, due delle ‘parole straniere’ per uccello sono incollate insieme in una stringa nonsenso. Grazie al peso frazionato dei sub-parole, il significato viene conservato.

L’autore sottolinea che risultati significativi possono anche essere ottenuti senza aderire ai confini della segmentazione dei sub-parole, presumibilmente perché DALL-E 2 (l’oggetto principale dello studio del documento) ha generalizzato abbastanza bene per permettere ai confini dei sub-parole di sfumare senza distruggere il loro significato.

Per dimostrare ulteriormente gli approcci sviluppati, il documento offre esempi di macaronic prompting tra diversi domini, utilizzando l’elenco di parole token illustrate di seguito (con parole ibride nonsenso a destra).

L’autore afferma che gli esempi seguenti da DALL-E 2 non sono ‘selezionati’:

Lingua Franca

Il documento osserva anche che diversi esempi funzionano altrettanto bene, o almeno molto simili, sia in DALL-E 2 che in DALL-E Mini (ora Craiyon), e che ciò è sorprendente, poiché DALL-E 2 è un modello di diffusione e DALL-E Mini non lo è; i due sistemi sono addestrati su set di dati diversi; e DALL-E Mini utilizza un tokenizer BART invece del tokenizer CLIP favorito da DALL-E 2.

Risultati sorprendentemente simili da DALL-E Mini, rispetto all’immagine precedente, che presentava risultati da DALL-E 2 con lo stesso input ‘nonsenso’.

Come si vede nella prima delle immagini sopra, il macaronic prompting può anche essere assemblato in frasi sintatticamente corrette per generare scene più complesse. Tuttavia, ciò richiede l’uso dell’inglese come ‘scaffold’ per assemblare i concetti, rendendo la procedura più probabile da essere intercettata dai sistemi di censura standard in un framework di sintesi di immagini.

Il documento osserva che l’ibridazione lessicale, l’incollaggio di parole per evocare contenuti correlati da un sistema di sintesi di immagini, può anche essere realizzato in una sola lingua, utilizzando parole portmanteau.

Evocative Prompting

L’approccio di evocative prompting presentato nel documento dipende dall’evocazione di una risposta più ampia dal sistema con parole che non sono strettamente basate su sub-parole o sub-token o etichette condivise.

Un tipo di evocative prompting è il pseudolatino, che può, tra gli altri usi, generare immagini di medicine fittizie, anche senza specificare che DALL-E 2 debba recuperare il concetto di ‘medicina’:

L’evocative prompting funziona anche particolarmente bene con prompt nonsensicali che si riferiscono ampiamente a possibili località geografiche, e funziona abbastanza affidabilmente tra le diverse architetture di DALL-E 2 e DALL-E Mini:

Le parole utilizzate per questi prompt a DALL-E 2 e DALL-E Mini sono ricche di nomi reali, ma sono in sé stesso nonsenso. Tuttavia, i sistemi hanno ‘catturato l’atmosfera’ delle parole.

Sembra esserci una sovrapposizione tra il macaronic prompting e l’evocative prompting. Il documento afferma:

‘Sembra che le differenze nei dati di addestramento, nella dimensione del modello e nell’architettura del modello possano causare la parsificazione di prompt come voiscellpajaraux e eidelucertlagarzard in modo “macaronic” o “evocativo”, anche quando questi modelli sono stati dimostrati essere sensibili a entrambi i metodi di prompting.’

Il documento conclude:

‘Mentre diverse proprietà di questi modelli – inclusa la dimensione, l’architettura, la procedura di tokenizzazione e i dati di addestramento – possono influenzare la loro vulnerabilità agli attacchi testuali avversari, le prove preliminari discusse in questo lavoro suggeriscono che alcuni di questi attacchi possano comunque funzionare in modo abbastanza affidabile tra i modelli.’

Arguably la più grande barriera per la sperimentazione attorno a questi metodi è il rischio di essere segnalati e banditi dal sistema host. DALL-E 2 richiede un numero di telefono associato a ogni account utente, limitando il numero di ‘account di prova’ che probabilmente sarebbero necessari per testare veramente i confini di questo tipo di hacking lessicale, in termini di elusione dei metodi di moderazione esistenti. Attualmente, la principale salvaguardia di DALL-E 2 rimane la volatilità dell’accesso.

Pubblicato per la prima volta il 9 agosto 2022.