Connect with us

Angolo di Anderson

Utilizzare gli Emoji per Eludere i Filtri di Contenuto negli Chatbot AI

mm
A man with a smiley emoji for a head lights a cigarette from a lit bomb. SDXL, Flux Kontext Dev, Adobe Firefly.

Gli emoji possono essere utilizzati per eludere i meccanismi di sicurezza dei grandi modelli linguistici e scatenare output tossici che altrimenti sarebbero bloccati. In questo modo, i LLM possono essere indotti a discutere e fornire consigli su argomenti vietati come la fabbricazione di bombe e l’omicidio.

 

Una nuova collaborazione tra Cina e Singapore trova prove convincenti che gli emoji possano essere utilizzati non solo per eludere i filtri di rilevamento del contenuto nei grandi modelli linguistici (LLM), ma possono in generale aumentare il livello di tossicità durante l’interazione dell’utente con i modelli:

Dal nuovo articolo, una vasta dimostrazione dei modi in cui la codifica di un concetto vietato con gli emoji può aiutare un utente a 'svincolare' un popolare LLM. Fonte: https://arxiv.org/pdf/2509.11141

Dal nuovo articolo, una vasta dimostrazione dei modi in cui la codifica di un concetto vietato con gli emoji può aiutare un utente a ‘svincolare’ un popolare LLM. Fonte: https://arxiv.org/pdf/2509.11141

Nell’esempio sopra, dal nuovo articolo, vediamo che trasformare un intento basato su parole che violano le regole in una versione alternativa con gli emoji può suscitare una risposta molto più ‘cooperativa’ da parte di un modello linguistico sofisticato come ChatGPT-4o (che di solito sanifica le promt di input e intercetta il materiale di output che potrebbe violare le regole della società).

Effettivamente, nelle circostanze più estreme, l’uso degli emoji può quindi operare come una tecnica di jailbreak, secondo gli autori del nuovo lavoro.

Un mistero residuo affermato nel documento è la domanda di perché i modelli linguistici danno agli emoji tale libertà di violare le regole ed elicitare contenuti tossici, quando i modelli già comprendono che certains emoji hanno forti associazioni tossiche.

La suggerimento offerto è che poiché i LLM sono addestrati per modellare e riprodurre pattern dai loro dati di addestramento, e poiché gli emoji sono così frequentemente trovati in quei dati, il modello apprende che l’emoji appartiene a quel discorso, e lo tratta come un’associazione statistica, invece di contenuto da valutare e filtrare.

Ciò significa che l’emoji, quando riutilizzato in una promt, aiuta il modello a prevedere continuazioni tossiche con maggiore confidenza; ma invece di agire come una bandiera rossa, l’emoji funziona come un segno semantico, che rinforza effettivamente il significato tossico inteso invece di moderarlo o intercettarlo. Poiché l’allineamento della sicurezza viene applicato dopo il fatto, e spesso in un quadro stretto e letterale, le promt con questi emoji possono quindi evitare la rilevazione del tutto.

In questo modo, il documento propone, il modello non diventa tollerante nonostante l’associazione tossica – diventa tollerante perché di essa.

Pass Libre

Detto ciò, gli autori ammettono che ciò non rappresenta una teoria conclusiva su perché l’uso degli emoji possa bypassare così efficacemente i filtri di contenuto nei modelli linguistici. Affermano:

‘I modelli possono riconoscere l’intento malizioso espresso dagli emoji, yet come esso bypassi i meccanismi di sicurezza rimane poco chiaro.’

La debolezza può derivare dal design testuale dei filtri di contenuto, che assumono input testuali letterali o embeddings fedelmente convertiti in equivalenti testuali: in entrambi i casi, il sistema si basa su tokens espliciti che possono essere confrontati con le regole di sicurezza.

Per prendere un esempio dall’editing di immagini basato sull’intelligenza artificiale: quando un utente carica un’immagine NSFW su un modello di visione-linguaggio e richiede modifiche, sistemi come Adobe Firefly o ChatGPT utilizzano pipeline CLIP per estrarre concetti testuali dall’immagine, come prerequisito per l’editing. Una volta che quei concetti sono resi in parole, la presenza di termini restrittivi in quelle parole estratte scatenerà il filtro, causando il rifiuto della richiesta.

Eppure, per qualche ragione, lo stato degli emoji come non-parola e non-immagine (o come entrambi) sembra conferire loro il potere di trascendere la filtrazione; chiaramente, come indicano gli autori, ulteriori ricerche su questa curiosa scappatoia sono giustificate.

Il nuovo articolo è intitolato Quando il Sorriso Diventa Ostile: Interpretare Come gli Emoji Scatenano la Tossicità dei LLM, e proviene da nove autori tra l’Università Tsinghua e la National University of Singapore.

(Purtroppo, molti degli esempi a cui si fa riferimento nel documento sono in un allegato che non è ancora stato reso disponibile; sebbene abbiamo richiesto ciò agli autori, l’allegato non è stato fornito al momento della stesura. Tuttavia, i risultati empirici nel documento principale rimangono degni di attenzione.)

Tre Interpretazioni Core degli Emoji

Gli autori evidenziano tre tratti linguistici che rendono gli emoji efficaci nel bypassare i filtri. In primo luogo, il significato degli emoji è contestuale. Ad esempio, l’emoji ‘Denaro con Ali’ (vedi immagine sotto) è ufficialmente definito come rappresentante trasferimenti di denaro o spese; tuttavia, a seconda del testo circostante, può anche implicare attività legittime o illecite:

In una rappresentazione parziale dal nuovo articolo, vediamo che un emoji popolare può avere il suo significato dirottato, alterato o sovvertito nell'uso comune. Ciò gli conferisce effettivamente un passaporto ufficiale nello spazio semantico, e un payload nascosto di significato negativo o tossico che può essere sfruttato una volta superati i filtri.

In una rappresentazione parziale dal nuovo articolo, vediamo che un emoji popolare può avere il suo significato dirottato, alterato o sovvertito nell’uso comune. Ciò gli conferisce effettivamente un passaporto ufficiale nello spazio semantico, e un payload nascosto di significato negativo o tossico che può essere sfruttato una volta superati i filtri.

In secondo luogo, gli emoji possono spostare il tono di una promt. La loro presenza spesso aggiunge giocosità o ironia, ammorbidendo il registro emotivo. In query dannose, ciò può far sembrare la richiesta come uno scherzo o un gioco, incoraggiando il modello a rispondere invece di rifiutare:

L'effetto di alleggerimento degli emoji può detossificare il tono senza detossificare l'intento.

L’effetto di alleggerimento degli emoji può detossificare il tono senza detossificare l’intento.

In terzo luogo, il documento afferma, gli emoji sono linguisticamente agnostici: un singolo emoji può trasportare lo stesso sentimento attraverso l’inglese, il cinese, il francese e altre lingue. Ciò li rende ideali per promt multilingue, preservando il significato anche quando il testo circostante è tradotto:

L'emoji del cuore spezzato trasmette un messaggio universale, forse non meno perché rappresenta un caso di base nella condizione umana, relativamente immune a variazioni nazionali o culturali.

L’emoji del cuore spezzato trasmette un messaggio universale, forse non meno perché rappresenta un caso di base nella condizione umana, relativamente immune a variazioni nazionali o culturali.

Approccio, Dati e Test*

I ricercatori hanno creato una versione modificata del set di dati AdvBench, riscrivendo promt dannose per includere gli emoji come sostituti di parole sensibili o come camouflage decorativo. AdvBench copre 32 argomenti ad alto rischio, tra cui bombardamento, hacking e omicidio, tra gli altri:

Esempi originali da AdvBench, illustrando come una singola promt avversariale possa bypassare le salvaguardie in più chatbot importanti, suscitando istruzioni dannose nonostante l'addestramento all'allineamento. Fonte: https://arxiv.org/pdf/2307.15043

Esempi originali da AdvBench, illustrando come una singola promt avversariale possa bypassare le salvaguardie in più chatbot importanti, suscitando istruzioni dannose nonostante l’addestramento all’allineamento. Fonte: https://arxiv.org/pdf/2307.15043

Tutte le 520 istanze originali di AdvBench sono state modificate in questo modo, con le prime 50 promt tossiche e non duplicate utilizzate in tutta la gamma di esperimenti. Le promt sono state tradotte anche in più lingue e testate su sette modelli importanti chiusi e open source, e in combinazione con le tecniche di jailbreak note Prompt Automatic Iterative Refinement (PAIR); Tree of Attacks with Pruning (TAP); e DeepInception.

I modelli chiusi utilizzati sono stati Gemini-2.0-flash; GPT-4o (2024-08-06); GPT-4-0613; e Gemini-1.5-pro. I modelli open source utilizzati sono stati Llama-3-8B-Instruct; Qwen2.5-7B-Instruct (Team 2024b); e Qwen2.5-72B-Instruct (Team 2024a), con tutti gli esperimenti ripetuti tre volte per tenere conto della casualità.

Lo studio ha testato innanzitutto se riscrivere promt dannose da AdvBench utilizzando gli emoji avrebbe aumentato l’output tossico, incluso nelle traduzioni in altre lingue principali. Inoltre, ha applicato lo stesso metodo di editing degli emoji alle promt dalle strategie di jailbreak note (PAIR, TAP e DeepInception) per vedere se la sostituzione degli emoji potesse ulteriormente migliorare il loro successo.

In entrambi i casi, la struttura delle promt originali è stata preservata, con solo termini sensibili sostituiti con gli emoji e elementi decorativi aggiunti per mascherare l’intento.

Per le metriche di test, gli autori hanno innovato un sistema di punteggio chiamato GPT-Judge. In questo setup, GPT-4o non è stato il modello testato, ma piuttosto è stato richiesto di agire come giudice, assegnando un punteggio numerico Punteggio di Danno (HS) alle risposte generate da altri modelli.

Ogni output è stato valutato da uno (inoffensivo) a cinque (estremamente dannoso), e la percentuale di risposte che ha ricevuto un cinque è stata segnalata come Rapporto di Dannosità (HR).

Per evitare che i modelli si allontanassero nelle spiegazioni degli emoji invece di rispondere esplicitamente, i ricercatori hanno aggiunto un’istruzione a ogni promt, dicendo al modello di rendere la sua risposta breve:

Risultati dalle promt basate su emoji in 'Setting-1', con confronti con varianti di ablazione dove gli emoji sono stati sostituiti con parole o rimossi completamente. I nomi dei modelli sono abbreviati per motivi di spazio.

Risultati dalle promt basate su emoji in ‘Setting-1’, con confronti con varianti di ablazione dove gli emoji sono stati sostituiti con parole o rimossi completamente. I nomi dei modelli sono abbreviati per motivi di spazio.

Nella tabella dei risultati iniziali sopra, il lato sinistro della tabella indica che le promt dannose sostituite con gli emoji hanno raggiunto punteggi HS e HR notevolmente più alti rispetto alle varianti di ablazione (cioè, versioni in cui l’emoji è stato tradotto nuovamente in testo, esponendolo direttamente ai filtri di contenuto).

Gli autori notanoche l’approccio di sostituzione degli emoji supera i metodi di jailbreak precedenti, come delineato nella tabella aggiuntiva dei risultati sotto:

Risultati del Rapporto di Dannosità per le promt di jailbreak aumentate con gli emoji in 'Setting-2', con i nomi dei modelli mostrati in forma abbreviata.

Risultati del Rapporto di Dannosità per le promt di jailbreak aumentate con gli emoji in ‘Setting-2’, con i nomi dei modelli mostrati in forma abbreviata.

La prima delle due tabelle mostrate sopra, gli autori affermano, indica anche che l’effetto degli emoji si estende attraverso le lingue. Quando i componenti testuali delle promt degli emoji sono stati tradotti in cinese, francese, spagnolo e russo, gli output dannosi sono rimasti alti; poiché queste sono tutte lingue ad alta risorsa, i risultati suggeriscono che il rischio non è limitato all’inglese ma si applica ampiamente ai principali gruppi di utenti, con gli emoji che funzionano come un canale trasferibile per la generazione tossica.

Verso la conclusione del documento, i ricercatori suggeriscono che l’effetto degli emoji non è semplicemente accidentale ma radicato nel modo in cui i modelli li elaborano, notando che i modelli possono apparentemente riconoscere il significato dannoso degli emoji – eppure le risposte di rifiuto sono soppressi quando gli emoji sono presenti.

Gli studi sulla tokenizzazione indicano inoltre che gli emoji sono di solito suddivisi in frammenti rari o irregolari con poca sovrapposizione con i loro equivalenti testuali, creando efficacemente un canale alternativo per la semantica dannosa.

Guardando oltre la meccanica del modello, il documento esamina ulteriormente i dati di pre-addestramento, trovando che molti emoji frequentemente utilizzati appaiono in contesti tossici come la pornografia, le truffe o il gioco d’azzardo. Gli autori sostengono che questa esposizione ripetuta può normalizzare l’associazione tra gli emoji e il contenuto dannoso, incoraggiando i modelli a conformarsi alle promt tossiche invece di bloccarle.

Insieme, questi risultati suggeriscono che sia le peculiarità di elaborazione interna che i dati di pre-addestramento distorti contribuiscono all’efficacia sorprendente degli emoji nel bypassare le misure di sicurezza.

Conclusione

Non è insolito utilizzare metodi di input alternativi per tentare di jailbreak i LLM. Negli ultimi anni, ad esempio, l’encoding esadecimale è stato utilizzato per bypassare i filtri di ChatGPT. Il problema sembra risiedere nell’uso piatto del linguaggio testuale per qualificare le richieste in entrata e le risposte in uscita.

Nel caso degli emoji, un locus nascosto di significato che viola le regole può apparentemente essere introdotto nel discorso senza penalità o intervento, perché il metodo di trasmissione è non convenzionale. Si potrebbe pensare che la traslitterazione basata su CLIP intervenisse in tutti gli upload di immagini, in modo che il materiale offensivo o contraffatto finisse come testo segnalabile.

Evidentemente, ciò non è il caso, almeno per quanto riguarda i principali LLM studiati; le loro barriere linguistiche sembrano essere fragili e centrate sul testo. Si può immaginare che un’interpretazione più estensiva del contenuto (ad esempio, studiando le attivazioni del calore) comporti un costo di elaborazione e/o di larghezza di banda che potrebbe rendere tali approcci impraticabilmente costosi, tra le altre possibili limitazioni e considerazioni.

 

* La disposizione di questo documento è caotica rispetto alla maggior parte, con metodologia e test non chiaramente delineati. Abbiamo quindi fatto del nostro meglio per rappresentare il valore principale del lavoro nel modo più possibile in queste circostanze.

Nel trattamento ammettiamo quasi impenetrabile e confuso dei risultati.

Pubblicato per la prima volta mercoledì, 17 settembre 2025

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.