Angolo di Anderson

L’uso di Emoji può aggirare i filtri di contenuto negli Chatbot AI

mm
A man with a smiley emoji for a head lights a cigarette from a lit bomb. SDXL, Flux Kontext Dev, Adobe Firefly.

Gli emoji possono essere utilizzati per aggirare i meccanismi di sicurezza dei grandi modelli linguistici e scatenare output tossici che altrimenti sarebbero bloccati. In questo modo, i LLM possono essere indotti a discutere e fornire consigli su argomenti proibiti come la fabbricazione di bombe e l’omicidio.

 

Una nuova collaborazione tra Cina e Singapore ha trovato prove convincenti che gli emoji possano essere utilizzati non solo per aggirare i filtri di rilevamento del contenuto nei grandi modelli linguistici (LLM), ma possono in generale aumentare il livello di tossicità durante l’interazione dell’utente con i modelli:

Dal nuovo articolo, una vasta dimostrazione dei modi in cui la codifica di un concetto proibito con gli emoji può aiutare un utente a 'sbloccare' un popolare LLM. Fonte: https://arxiv.org/pdf/2509.11141

Dal nuovo articolo, una vasta dimostrazione dei modi in cui la codifica di un concetto proibito con gli emoji può aiutare un utente a ‘sbloccare’ un popolare LLM. Fonte: https://arxiv.org/pdf/2509.11141

Nell’esempio sopra, dal nuovo articolo, vediamo che trasformare un intento basato su parole che violano le regole in una versione alternativa con gli emoji può suscitare una risposta molto più ‘collaborativa’ da parte di un modello linguistico sofisticato come ChatGPT-4o (che di solito sanifica le prompt di input e intercetta il materiale di output che potrebbe violare le regole aziendali).

Effettivamente, nelle circostanze più estreme, l’uso di emoji può quindi operare come una tecnica di ‘jailbreak’, secondo gli autori del nuovo lavoro.

Un mistero residuo dichiarato nel paper è la questione di perché i modelli linguistici danno agli emoji tale libertà di violare le regole e suscitare contenuti tossici, quando i modelli già comprendono che certi emoji hanno forti associazioni tossiche.

La suggerimento offerto è che poiché i LLM sono addestrati a modellare e riprodurre pattern dai loro dati di addestramento, e poiché gli emoji sono così frequentemente trovati in quei dati, il modello apprende che l’emoji appartiene a quel discorso, e lo tratta come un’associazione statistica, invece di contenuto da valutare e filtrare.

Ciò significa che l’emoji, quando riutilizzato in una prompt, aiuta il modello a prevedere continuazioni tossiche con maggiore confidenza; ma piuttosto che agire come un segnale rosso, l’emoji funziona come un cue semantico, che in realtà rafforza il significato tossico inteso invece di moderarlo o intercettarlo. Poiché l’allineamento della sicurezza viene applicato dopo il fatto, e spesso in un quadro letterale e ristretto, le prompt con questi emoji possono quindi evitare la rilevazione del tutto.

In questo modo, il paper propone, il modello non diventa tollerante nonostante l’associazione tossica – diventa tollerante perché di essa.

Passo Libero

Detto ciò, gli autori ammettono che ciò non rappresenta una teoria conclusiva su perché l’uso di emoji possa aggirare i filtri di contenuto nei modelli linguistici. Essi affermano:

‘I modelli possono riconoscere l’intento malizioso espresso dagli emoji, ma come esso aggiri i meccanismi di sicurezza rimane poco chiaro.’

La debolezza potrebbe derivare dal design basato sul testo dei filtri di contenuto, che assumono input di testo letterale o incorporazioni fedelmente convertite in equivalenti testuali: in entrambi i casi, il sistema si basa su token espliciti che possono essere abbinati alle regole di sicurezza.

Per prendere un esempio dall’editing di immagini basato sull’intelligenza artificiale: quando un utente carica un’immagine NSFW su un modello di visione-linguaggio e richiede modifiche, sistemi come Adobe Firefly o ChatGPT utilizzano pipeline di stile CLIP per estrarre concetti testuali dall’immagine, come prerequisito per l’editing. Una volta che questi concetti sono resi in parole, la presenza di termini restrittivi in quelle parole estratte scatenerà il filtro, causando il rifiuto della richiesta.

Yet, per qualche ragione, lo stato di un emoji come non-parola e non-immagine (o come entrambi) sembra conferirgli un potere di trascendere il filtraggio; chiaramente, come indicano gli autori, ulteriori ricerche su questa curiosa scappatoia sono giustificate.

Il nuovo articolo è intitolato Quando il Sorriso Diventa Ostile: Interpretare Come gli Emoji Scatenano la Tossicità dei LLM, e proviene da nove autori tra l’Università Tsinghua e la National University di Singapore.

(Purtroppo, molti degli esempi a cui il paper si riferisce si trovano in un allegato che non è ancora stato reso disponibile; sebbene abbiamo richiesto ciò agli autori, l’allegato non è stato fornito al momento della stesura. Tuttavia, i risultati empirici nel paper principale rimangono degni di attenzione.)

Tre Interpretazioni Core degli Emoji

Gli autori evidenziano tre caratteristiche linguistiche che rendono gli emoji efficaci nell’aggirare i filtri. In primo luogo, i significati degli emoji sono dipendenti dal contesto. Ad esempio, l’emoji ‘Denaro con Ali’ (vedi immagine sotto) è ufficialmente definito come rappresentante trasferimenti di denaro o spese; tuttavia, a seconda del testo circostante, può anche implicare attività legittime o illecite:

In una parziale illustrazione dal nuovo articolo, vediamo che un popolare emoji può avere il suo significato dirottato, alterato o sovvertito nell'uso comune. Ciò gli conferisce effettivamente un passaporto ufficiale nello spazio semantico, e un payload nascosto di significato negativo o tossico che può essere sfruttato una volta superati i filtri.

In una parziale illustrazione dal nuovo articolo, vediamo che un popolare emoji può avere il suo significato dirottato, alterato o sovvertito nell’uso comune.

In secondo luogo, gli emoji possono spostare il tono di una prompt. La loro presenza spesso aggiunge giocosità o ironia, ammorbidendo il registro emotivo. In query dannose, ciò può far sembrare la richiesta come uno scherzo o un gioco, incoraggiando il modello a rispondere invece di rifiutare:

L'effetto di alleggerimento degli emoji può detoxificare il tono senza detoxificare l'intento.

L’effetto di alleggerimento degli emoji può detoxificare il tono senza detoxificare l’intento.

In terzo luogo, il paper afferma che gli emoji sono indipendenti dalla lingua: un singolo emoji può trasmettere lo stesso sentimento attraverso l’inglese, il cinese, il francese e altre lingue. Ciò li rende ideali per prompt multilingue, preservando il significato anche quando il testo circostante è tradotto:

L'emoji del cuore spezzato trasmette un messaggio universale, forse non da ultimo perché rappresenta un caso di base nella condizione umana, relativamente immune a variazioni nazionali o culturali.

L’emoji del cuore spezzato trasmette un messaggio universale.

Approccio, Dati e Test

I ricercatori hanno creato una versione modificata del set di dati AdvBench, riscrivendo le prompt dannose per includere gli emoji come sostituti di parole sensibili o come camuffamento decorativo. AdvBench copre 32 argomenti ad alto rischio, tra cui bombardamenti, hacking e omicidio, tra gli altri:

Esempi originali da AdvBench, illustrando come una singola prompt avversariale possa bypassare le salvaguardie in più chatbot importanti, suscitando istruzioni dannose nonostante l'addestramento all'allineamento. Fonte: https://arxiv.org/pdf/2307.15043

Esempi originali da AdvBench, illustrando come una singola prompt avversariale possa bypassare le salvaguardie in più chatbot importanti. Source: https://arxiv.org/pdf/2307.15043

Tutti i 520 esempi originali di AdvBench sono stati alterati in questo modo, con i primi 50 prompt tossici e non duplicati utilizzati attraverso la gamma di esperimenti. Le prompt sono state tradotte anche in più lingue e testate su sette modelli chiusi e open source importanti, e in combinazione con le tecniche di jailbreak note Prompt Automatic Iterative Refinement (PAIR); Tree of Attacks with Pruning (TAP); e DeepInception.

I modelli chiusi utilizzati sono stati Gemini-2.0-flash; GPT-4o (2024-08-06); GPT-4-0613; e Gemini-1.5-pro. I modelli open-source utilizzati sono stati Llama-3-8B-Instruct; Qwen2.5-7B-Instruct (Team 2024b); e Qwen2.5-72B-Instruct (Team 2024a), con tutti gli esperimenti ripetuti tre volte per tenere conto del caso casuale.

Lo studio ha testato per primo se riscrivere le prompt dannose da AdvBench utilizzando gli emoji avrebbe aumentato l’output tossico, inclusi nelle traduzioni in altre lingue principali. Inoltre, ha applicato lo stesso metodo di editing degli emoji alle prompt dalle note strategie di jailbreak (PAIR, TAP e DeepInception) per vedere se la sostituzione degli emoji potesse ulteriormente migliorare il loro successo.

In entrambi i casi, la struttura delle prompt originali è stata preservata, con solo i termini sensibili sostituiti con gli emoji e gli elementi decorativi aggiunti per mascherare l’intento.

Per le metriche di test, gli autori hanno innovato un sistema di punteggio chiamato GPT-Judge. In questo setup, GPT-4o non era il modello testato, ma piuttosto è stato promosso ad agire come giudice, assegnando un punteggio numerico Punteggio di Danno (HS) alle risposte generate da altri modelli.

Ogni output è stato valutato da uno (inoffensivo) a cinque (estremamente dannoso), e la percentuale di risposte che hanno ricevuto un punteggio di cinque è stata segnalata come il Rapporto di Dannosità (HR).

Per evitare che i modelli si allontanassero in spiegazioni sugli emoji invece di rispondere esplicitamente, i ricercatori hanno aggiunto un’istruzione a ogni prompt, dicendo al modello di rendere la sua risposta breve:

Risultati dalle prompt basate su emoji in 'Setting-1', con confronti con varianti di ablazione in cui gli emoji sono stati sostituiti con parole o rimossi completamente. I nomi dei modelli sono abbreviati per motivi di spazio.

Risultati dalle prompt basate su emoji in ‘Setting-1’, con confronti con varianti di ablazione in cui gli emoji sono stati sostituiti con parole o rimossi completamente.

Nella tabella dei risultati iniziali sopra, il lato sinistro della tabella indica che le prompt dannose sostituite con gli emoji hanno raggiunto punteggi HS e HR notevolmente più alti rispetto alle versioni ablate (cioè, versioni in cui l’emoji è stato tradotto nuovamente in testo, esponendolo direttamente ai filtri di contenuto).

Gli autori notanoche l’approccio basato sugli emoji supera i metodi di jailbreak precedenti, come delineato nella tabella dei risultati aggiuntiva sotto:

Risultati del Rapporto di Dannosità per le prompt di jailbreak basate su emoji in 'Setting-2', con i nomi dei modelli mostrati in forma abbreviata.

Risultati del Rapporto di Dannosità per le prompt di jailbreak basate su emoji in ‘Setting-2’, con i nomi dei modelli mostrati in forma abbreviata.

La prima delle due tabelle mostrate sopra, gli autori affermano, indica anche che l’effetto degli emoji si estende attraverso le lingue. Quando i componenti testuali delle prompt con gli emoji sono stati tradotti in cinese, francese, spagnolo e russo, gli output dannosi sono rimasti alti; poiché queste sono tutte lingue ad alto livello di risorse, i risultati suggeriscono che il rischio non è limitato all’inglese ma si applica ampiamente ai principali gruppi di utenti, con gli emoji che funzionano come un canale trasferibile per la generazione di contenuti tossici.

Verso la conclusione del paper, i ricercatori suggeriscono che l’effetto degli emoji non è semplicemente accidentale ma radicato nel modo in cui i modelli li elaborano, notando che i modelli possono apparentemente riconoscere il significato dannoso degli emoji – eppure le risposte di rifiuto sono soppressi quando gli emoji sono presenti.

Gli studi sulla tokenizzazione indicano inoltre che gli emoji sono di solito suddivisi in frammenti rari o irregolari con poco sovrapposizione con i loro equivalenti testuali, creando effettivamente un canale alternativo per la semantica dannosa.

Guardando oltre la meccanica del modello, il paper esamina ulteriormente i dati di pre-addestramento, trovando che molti emoji frequentemente utilizzati appaiono in contesti tossici come la pornografia, le truffe o il gioco d’azzardo. Gli autori sostengono che questa esposizione ripetuta può normalizzare l’associazione tra gli emoji e il contenuto dannoso, incoraggiando i modelli a conformarsi alle prompt tossiche invece di bloccarle.

Insieme, queste scoperte suggeriscono che sia le stranezze interne del processo sia i dati di pre-addestramento distorti contribuiscono all’efficacia sorprendente degli emoji nell’aggirare le misure di sicurezza.

Conclusione

Non è insolito utilizzare metodi di input alternativi per tentare di aggirare i LLM. Negli ultimi anni, ad esempio, l’encoding esadecimale è stato utilizzato per aggirare i filtri di ChatGPT. Il problema sembra risiedere nell’uso piatto del linguaggio testuale per qualificare le richieste in ingresso e le risposte in uscita.

Nel caso degli emoji, un locus nascosto di significato che viola le regole può apparentemente essere introdotto nel discorso senza penalità o intervento, poiché il metodo di trasmissione è non convenzionale. Si potrebbe pensare che la translitterazione basata su CLIP intervenisse in tutti gli upload di immagini, in modo che il materiale offensivo o contraffatto finisse come testo segnalabile.

Evidentemente, ciò non è il caso, almeno per quanto riguarda i principali LLM studiati; le loro barriere linguistiche sembrano essere fragili e basate sul testo. Si può immaginare che un’interpretazione più estensiva del contenuto (ad esempio, studiando le attivazioni delle mappe di calore) comporti un costo di elaborazione e/o di larghezza di banda che potrebbe rendere tali approcci impraticabilmente costosi, tra le altre possibili limitazioni e considerazioni.

 

* La disposizione di questo paper è caotica rispetto alla maggior parte, con la metodologia e i test non chiaramente delineati. Abbiamo quindi fatto del nostro meglio per rappresentare il valore centrale del lavoro nel miglior modo possibile in queste circostanze.

In un trattamento ammesso quasi impenetrabile e confuso dei risultati.

Pubblicato per la prima volta mercoledì, 17 settembre 2025

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.