Seguici sui social

Cos'è la poesia avversaria? Un nuovo metodo di jailbreak basato sull'intelligenza artificiale

Intelligenza Artificiale

Cos'è la poesia avversaria? Un nuovo metodo di jailbreak basato sull'intelligenza artificiale

mm

La sicurezza dell'intelligenza artificiale (IA) si è trasformata in un continuo gioco del gatto e del topo. Mentre gli sviluppatori aggiungono barriere per bloccare le richieste dannose, gli aggressori continuano a provare nuovi modi per aggirarle. Una delle svolte più strane finora è la poesia avversaria. Questa tattica consiste nel camuffare i prompt come versi e nell'utilizzare rime, metafore e frasi insolite per far sembrare le istruzioni rischiose meno simili a quelle che i sistemi di sicurezza sono addestrati a intercettare. 

In pratica, il contenuto in sé non cambia molto. È il wrapper a cambiare, il che può essere sufficiente a confondere i filtri basati su pattern. È un promemoria del fatto che, con i modelli odierni, il modo in cui viene richiesta una cosa può essere importante quasi quanto il contenuto della domanda. 

Cosa è successo quando i ricercatori hanno utilizzato le poesie per decifrare l'intelligenza artificiale?

All'inizio del 2025, i ricercatori hanno dimostrato che i modelli linguistici di grandi dimensioni (LLM) potevano essere stimolati a rispondere a richieste limitate, racchiudendole in una forma poetica. Invece di impartire istruzioni dirette, che attivassero policy, i ricercatori hanno incorporato le stesse richieste all'interno di rime, metafore e versi narrativi.

In superficie, i prompt sembravano esercizi di scrittura creativa, ma sotto sotto trasmettevano lo stesso intento che normalmente verrebbe bloccato. In 25 modelli proprietari e open-weighted di frontiera, il team ha riportato che l'inquadramento poetico ha raggiunto un tasso medio di successo nel jailbreak di 62% per poesie fatte a mano e circa il 43% per la “conversione in versi” in blocco utilizzando un meta-prompt standardizzato.

Le risposte in sé non erano nuovi tipi di fallimenti, ma quelli familiari che si presentavano da una porta inaspettata. I modelli sono stati spinti a produrre contenuti che in genere evitano – come spiegazioni che toccano attività illegali o dannose – perché la richiesta di fondo era frammentata e oscurata dalla struttura poetica. 

La conclusione principale dello studio è che la sola variazione stilistica può essere sufficiente per eludere i sistemi di sicurezza calibrati su un linguaggio più letterale. Ciò rivela una vulnerabilità evidente in tutte le famiglie di modelli e negli approcci di allineamento. 

Come funziona la poesia avversaria

Gli attacchi avversari sfruttano una semplice realtà: i sistemi di apprendimento automatico non "capiscono" il linguaggio come gli esseri umani. Rilevano schemi, prevedono probabili continuazioni e seguono le istruzioni in base a ciò che i loro livelli di addestramento e sicurezza interpretano come intento. 

Quando un prompt è formulato in modo diretto e letterale, è più facile per i guardrail riconoscerlo e bloccarlo. Tuttavia, quando lo stesso scopo viene mascherato – suddiviso, attenuato o riformulato – gli strati protettivi possono non cogliere ciò che viene effettivamente richiesto. 

Perché la poesia può essere un veicolo efficace

La poesia è naturalmente predisposta all'ambiguità. Si basa su metafore, astrazioni, strutture insolite e frasi indirette. Sono proprio questi tratti che possono offuscare il confine tra "scrittura creativa innocua" e "una richiesta che dovrebbe essere rifiutata".

Nello stesso studio del 2025, i ricercatori hanno riferito che gli spunti poetici suscitavano risposte non sicure con un tasso di successo del 90% in un'ampia gamma di modelli, il che indica che lo stile da solo può modificare sostanzialmente i risultati. 

Come una poesia nasconde una richiesta reale

Considerate la richiesta come un messaggio e la poesia come la confezione. I filtri di sicurezza spesso cercano segnali evidenti, come parole chiave esplicite, frasi dirette e dettagliate o intenzioni malevole riconoscibili. 

La poesia può celare quell'intento attraverso un linguaggio figurato o diffonderlo su più versi, rendendolo più difficile da individuare isolatamente. Nel frattempo, il modello sottostante ricostruisce comunque il significato abbastanza bene da poter rispondere, perché è ottimizzato per dedurre l'intento anche quando il linguaggio è indiretto. 

Rilevamento e mitigazione dei jailbreak

Con l'aumentare della creatività nei metodi di jailbreak, il dibattito deve spostarsi dal loro funzionamento al modo in cui vengono individuati e contenuti. Ciò è particolarmente vero ora che l'intelligenza artificiale è parte integrante della routine quotidiana di molte persone. poiché il 27% dichiara di utilizzarlo più volte al giorno. 

Con l'aumento dell'utilizzo di modelli linguistici di grandi dimensioni (LLM), è necessario testare ed esplorare ulteriori misure di sicurezza. Questo compito implica la creazione di difese a più livelli, in grado di adattarsi ai nuovi stili di prompt e ai nuovi espedienti elusivi man mano che emergono.

Il dilemma dello sviluppatore

L'aspetto più difficile dei jailbreak per i team di sicurezza dell'IA è che non si presentano come una minaccia nota. Cambiano continuamente nel tempo. Questo cambiamento costante è dovuto al fatto che un utente può riformulare un prompt, suddividerlo in frammenti, trasformarlo in un gioco di ruolo o mascherarlo da testo creativo. Quindi, ogni nuovo packaging può cambiare il modo in cui il sistema interpreta l'intento del prompt. 

Questa sfida si amplia rapidamente quando l'intelligenza artificiale è già integrata nelle routine quotidiane, quindi l'utilizzo effettivo crea infinite opportunità per la comparsa di casi limite.

Ecco perché la sicurezza dell'IA odierna assomiglia più alla gestione del rischio nel tempo. Il NIST AI Risk Management Framework (AI RMF) tratta esplicitamente la gestione del rischio. come un insieme continuo di attività — organizzati attorno a governance, mappatura, misurazione e gestione — piuttosto che come una checklist statica. L'obiettivo è creare processi che facilitino l'identificazione di modalità di errore emergenti, la definizione delle priorità per le correzioni e il rafforzamento delle misure di sicurezza man mano che emergono nuovi stili di jailbreak. 

Come si proteggono le modelle

La sicurezza dell'IA si articola su diversi livelli. La maggior parte dei sistemi ha più di una difesa che interagisce, ciascuna delle quali rileva diversi tipi di comportamento rischioso. Al livello più esterno, il filtraggio di input e output funge da gatekeeper. 

I prompt in entrata vengono analizzati per individuare eventuali violazioni delle policy prima di raggiungere il modello principale, mentre le risposte in uscita vengono controllate per garantire che nulla sfugga all'utente. Questi sistemi sono efficaci nell'identificare richieste dirette o segnali d'allarme noti, ma sono anche i più facili da aggirare, motivo per cui i jailbreak più ingannevoli spesso li aggirano. 

Il livello di protezione successivo avviene all'interno del modello stesso. Quando vengono scoperte tecniche di jailbreak, spesso vengono trasformate in esempi di addestramento. È qui che entrano in gioco l'addestramento antagonista e l'apprendimento per rinforzo tramite feedback umano (RLHF). 

Ottimizzando i modelli su esempi di interazioni fallite o rischiose, gli sviluppatori insegnano efficacemente al sistema a riconoscere schemi che dovrebbe rifiutare, anche quando sono avvolti in un linguaggio creativo o indiretto. Nel tempo, questo processo aiuta a proteggere il modello da intere classi di attacchi.

Il ruolo del “Red Teaming” dell’IA

Invece di attendere che si verifichi un jailbreak, le aziende utilizzano i cosiddetti "red team" basati sull'intelligenza artificiale. Si tratta di gruppi incaricati di provare a violare i modelli in ambienti controllati. Si avvicinano ai sistemi come farebbe un aggressore, sperimentando formulazioni insolite, formati creativi e casi limite per scoprire dove le misure di sicurezza sono carenti. L'obiettivo è individuare i punti deboli prima che si manifestino nell'uso reale.

Il red teaming sta diventando una parte fondamentale del ciclo di vita dello sviluppo nelle attuali strategie di sicurezza informatica. Quando un team scopre una nuova tecnica di jailbreak, i dati risultanti vengono reimmessi direttamente nelle pipeline di formazione e valutazione. Queste informazioni vengono utilizzate per definire filtri, adattare le policy e rafforzare l'addestramento degli avversari, in modo che tentativi simili abbiano meno probabilità di successo in futuro. Nel tempo, questo crea un ciclo continuo: individuare i fallimenti, imparare da essi e migliorare il sistema, quindi ripetere l'operazione.

Quando la poesia diventa un test di stress per la sicurezza dell'intelligenza artificiale

La poesia avversaria ci ricorda che le misure di sicurezza dell'IA dipendono da come un utente formula le domande, non solo da cosa. Man mano che i modelli diventano più accessibili e ampiamente utilizzati, i ricercatori continueranno a sondare le lacune tra linguaggio creativo e sistemi di sicurezza progettati per cogliere un intento più diretto. La conclusione è che un'IA più sicura deriverà da molteplici difese che si evolvono con la stessa rapidità dei jailbreak.

Zac Amos è uno scrittore di tecnologia che si concentra sull'intelligenza artificiale. È anche il Features Editor di Rehack, dove puoi leggere altri suoi lavori.