Modelli e piattaforme di IA

Che cos’è la poesia avversariale? Un nuovo metodo di violazione della sicurezza dell’IA

mm

La sicurezza dell’intelligenza artificiale (IA) è diventata un gioco del gatto e del topo costante. Mentre gli sviluppatori aggiungono barriere per bloccare le richieste dannose, gli attaccanti continuano a cercare nuovi modi per aggirarle. Una delle svolte più strane finora è la poesia avversariale. Questa tattica consiste nel mascherare le richieste come versi e utilizzare la rima, la metafora e la fraseologia insolita per far apparire le istruzioni rischiose come meno pericolose di quanto non siano in realtà.

Nella pratica, il contenuto stesso non cambia molto. È il contenitore che cambia, il che può essere sufficiente per confondere i filtri basati su modelli. È un promemoria che, con i modelli di oggi, come si chiede qualcosa può essere quasi altrettanto importante di ciò che si sta chiedendo.

Cosa è successo quando i ricercatori hanno utilizzato poesie per violare l’IA?

All’inizio del 2025, i ricercatori hanno dimostrato che i grandi modelli linguistici (LLM) potevano essere indotti a rispondere a richieste limitate avvolgendole in forma poetica. Invece di emettere istruzioni dirette che attivassero le politiche di sicurezza, i ricercatori hanno incorporato le stesse richieste all’interno di rime, metafore e versi narrativi.

In superficie, le richieste sembravano esercizi di scrittura creativa, ma sotto, trasportavano la stessa intenzione che normalmente sarebbe stata bloccata. Su 25 modelli proprietari e open-source, il team ha riferito che la cornice poetica ha raggiunto una media del 62% di successo per le poesie fatte a mano e circa il 43% per la “conversione in versi” in massa utilizzando un meta-prompt standardizzato. 62% per le poesie fatte a mano e circa il 43% per la “conversione in versi” in massa utilizzando un meta-prompt standardizzato.

Le risposte stesse non erano nuovi tipi di fallimenti, ma fallimenti familiari che apparivano attraverso una porta inaspettata. I modelli sono stati spinti a produrre contenuti che normalmente evitano – come spiegazioni che toccano attività illegali o dannose – perché la richiesta sottostante era frammentata e oscurata dalla struttura poetica.

Il take-away dello studio è che la variazione stilistica da sola può essere sufficiente per evitare i sistemi di sicurezza regolati per una fraseologia più letterale. Rivela una vulnerabilità che è evidente in tutte le famiglie di modelli e approcci di allineamento.

Come funziona la poesia avversariale

Gli attacchi avversari sfruttano una realtà semplice: i sistemi di apprendimento automatico non “capiscono” il linguaggio come fanno gli esseri umani. Rilevano modelli, prevedono continuazioni probabili e seguono istruzioni in base a ciò che i loro strati di sicurezza interpretano come intenzione.

Quando una richiesta è formulata in modo diretto e letterale, è più facile per le barriere riconoscerla e bloccarla. Tuttavia, quando lo stesso scopo è mascherato – diviso, ammorbidito o riformulato – gli strati di protezione possono perdere ciò che viene effettivamente chiesto.

Perché la poesia può essere un veicolo efficace

La poesia è naturalmente costruita per l’ambiguità. Si basa sulla metafora, l’astrazione, la struttura insolita e la fraseologia indiretta. Questi sono esattamente i tipi di caratteristiche che possono confondere la linea tra “scrittura creativa innocua” e “una richiesta che dovrebbe essere rifiutata”.

Nello stesso studio del 2025, i ricercatori hanno riferito che le richieste poetiche hanno suscitato risposte non sicure al 90% di successo su un’ampia gamma di modelli, indicando che lo stile da solo può cambiare materialmente i risultati.

Come una poesia nasconde una richiesta reale

Considera la richiesta come un messaggio e la poesia come il contenitore. I filtri di sicurezza spesso cercano segni ovvi, come parole chiave esplicite, fraseologia passo-passo diretta o intento malizioso riconoscibile.

La poesia può nascondere quell’intento attraverso il linguaggio figurativo o distribuirlo su righe, rendendolo più difficile da rilevare in isolamento. Nel frattempo, il modello sottostante ricostruisce ancora il significato abbastanza bene da rispondere perché è ottimizzato per inferire l’intento anche quando il linguaggio è indiretto.

Rilevamento e mitigazione delle violazioni

Mentre i metodi di violazione diventano più creativi, la conversazione deve spostarsi da come funzionano a come vengono rilevati e contenuti. Questo è particolarmente vero ora che l’IA fa parte delle routine quotidiane di molte persone, come il 27% che riferisce di utilizzarla diverse volte al giorno.

Mentre più persone utilizzano i grandi modelli linguistici (LLM), ulteriori salvaguardie dovrebbero essere testate ed esplorate. Questo compito comporta la costruzione di difese stratificate che possono adattarsi a nuovi stili di prompt e trucchi di evasione man mano che emergono.

Il dilemma dello sviluppatore

La parte più difficile delle violazioni per i team di sicurezza dell’IA è che non arrivano come una minaccia nota. Cambiano costantemente nel tempo. Questo cambiamento costante si verifica perché un utente può riformulare una richiesta, dividerla in frammenti, avvolgerla in un ruolo o mascherarla come scrittura creativa. Quindi, ogni nuovo imballaggio può cambiare come il sistema interpreta l’intento della richiesta.

Questa sfida si amplifica rapidamente quando l’IA è già integrata nelle routine quotidiane, quindi l’uso effettivo crea infinite opportunità per casi limite.

È per questo che la sicurezza dell’IA di oggi assomiglia più alla gestione del rischio nel tempo. Il quadro di gestione del rischio dell’IA (AI RMF) del NIST tratta esplicitamente la gestione del rischio come un insieme di attività continue – organizzato intorno a govern, mappa, misura e gestisci – piuttosto che come una lista di controllo statica. L’obiettivo è creare processi che rendano più facile identificare modalità di fallimento emergenti, priorizzare le correzioni e stringere le salvaguardie man mano che appaiono nuovi stili di violazione.

Come i modelli si proteggono

La sicurezza dell’IA è composta da diversi strati. La maggior parte dei sistemi ha più di una difesa che lavora insieme, con ciascuna che cattura tipi diversi di comportamento a rischio. Al livello esterno, il filtro di input e output agisce come un custode.

Le richieste in entrata vengono scansionate per violazioni delle politiche prima di raggiungere il modello principale, mentre le risposte in uscita vengono controllate per assicurarsi che nulla sfugga nel percorso di ritorno all’utente. Questi sistemi sono bravi a identificare richieste dirette o segnali rossi familiari, ma sono anche i più facili da aggirare, il che è il motivo per cui le violazioni più ingannevoli spesso li bypassano.

Il livello successivo di protezione si verifica all’interno del modello stesso. Quando vengono scoperte le tecniche di violazione, vengono spesso trasformate in esempi di formazione. È qui che entra in gioco l’addestramento avversario e l’apprendimento per rinforzo da feedback umano (RLHF).

Rifinendo i modelli su esempi di interazioni fallite o a rischio, gli sviluppatori insegnano efficacemente al sistema a riconoscere modelli che dovrebbero rifiutare, anche quando sono avvolti in linguaggio creativo o indiretto. Nel tempo, quel processo aiuta a immunizzare il modello contro intere classi di attacchi.

Il ruolo del “Red Teaming” dell’IA

Invece di aspettare che si verifichi una violazione, le aziende utilizzano squadre di “Red Teaming” dell’IA. Queste squadre sono gruppi incaricati di provare a violare i modelli in ambienti controllati. Si avvicinano ai sistemi come potrebbe fare un attaccante, sperimentando con fraseologie insolite, formati creativi e casi limite per scoprire dove le salvaguardie sono carenti. L’obiettivo è esporre i punti deboli prima che si verifichino nell’uso del mondo reale.

Il “Red Teaming” sta diventando ora una parte fondamentale del ciclo di vita dello sviluppo nelle strategie di sicurezza informatica di oggi. Quando una squadra scopre una nuova tecnica di violazione, i dati risultanti alimentano direttamente i pipeline di formazione e valutazione. Quelle informazioni vengono utilizzate per definire filtri, regolare le politiche e rafforzare l’addestramento avversario in modo che tentativi simili siano meno probabili di avere successo in futuro. Nel tempo, questo crea un ciclo continuo: sondare i fallimenti, imparare da essi e migliorare il sistema, quindi ripetere.

Quando la poesia diventa un test di stress per la sicurezza dell’IA

La poesia avversariale è un promemoria che le salvaguardie dell’IA dipendono da come un utente formula le domande, non solo da cosa. Mentre i modelli diventano più accessibili e ampiamente utilizzati, i ricercatori continueranno a sondare le lacune tra il linguaggio creativo e i sistemi di sicurezza progettati per catturare intenti più diretti. Il take-away è che un’IA più sicura verrà da multiple difese che evolvono altrettanto rapidamente delle violazioni.

Zac Amos è uno scrittore di tecnologia che si concentra sull'intelligenza artificiale. È anche il caporedattore delle funzionalità di ReHack, dove puoi leggere altro del suo lavoro.