Angolo di Anderson
Facile Riformulazione Rompe la Sicurezza dell’AI, Anche per Gemini e Claude

Test di sicurezza dell’AI hanno rivelato una dipendenza da “parole trigger” ovvie; con una facile riformulazione, modelli etichettati come “ragionevolmente sicuri” falliscono improvvisamente, con attacchi che hanno successo fino al 98% delle volte.
Nuove ricerche aziendali negli Stati Uniti hanno concluso che il buon record di sicurezza di una varietà di Large Language Models (LLM) – tra cui molti nomi di spicco come Gemini 3 Pro e Claude Sonnet 3.7 – potrebbe essere insignificante, poiché i set di dati e i benchmark utilizzati per stabilirli contengono un linguaggio “ovvio” ridicolo.
I due set di dati in questione, che sono stati presentati in varie recensioni di articoli su questo sito, sono HarmBench e AdvBench:
![Dai rispettivi articoli di HarmBench e AdvBench, ammettendo esempi rappresentativi di provocazione - ma il nuovo articolo sostiene che anche in scenari del mondo reale, gli esempi segnalano facilmente l'intento malevolo, il che porta a (presumibilmente) un 'gioco' non intenzionale dei risultati. Fonti - HarmBench [https://arxiv.org/pdf/2402.04249] e AdvBench [https://arxiv.org/pdf/2307.15043]](https://www.unite.ai/wp-content/uploads/2026/02/harmbench-and-advbench-examples.jpg)
Dai rispettivi articoli di HarmBench e AdvBench, ammettendo esempi rappresentativi di provocazione – ma il nuovo articolo sostiene che anche in scenari del mondo reale, gli esempi segnalano facilmente l’intento malevolo, il che porta a (presumibilmente) un ‘gioco’ non intenzionale dei risultati. Fonti – HarmBench [https://arxiv.org/pdf/2402.04249] e AdvBench [https://arxiv.org/pdf/2307.15043]
Sebbene gli esempi mostrati sopra, che sono tratti dai rispettivi articoli per ogni benchmark, siano deliberatamente semplicistici per illustrare i principi dei sistemi, la nuova ricerca sostiene che in realtà queste raccolte si concentrano davvero sui “frutti a portata di mano” e quindi potrebbero non essere benchmark efficaci – e che i risultati reali per le capacità di sicurezza dei LLM testati sono significativamente al di sotto di quanto segnalato:
‘[Noi] valutiamo se questi set di dati misurano realmente i rischi di sicurezza o semplicemente provocano rifiuti attraverso la attivazione di cue. Per esplorare questo, introduciamo il “lavaggio di intenti”: una procedura che astrae i cue di attivazione dagli attacchi (punti di dati) mentre preserva rigorosamente l’intento malevolo e tutti i dettagli rilevanti.
‘I nostri risultati indicano che gli attuali set di dati di sicurezza dell’AI non rappresentano fedelmente gli attacchi del mondo reale a causa della loro eccessiva dipendenza dai cue di attivazione.
‘In realtà, una volta che questi cue vengono rimossi, tutti i modelli precedentemente valutati come “ragionevolmente sicuri” diventano insicuri, compresi Gemini 3 Pro e Claude Sonnet 3.7.’
‘Sicurezza’ in questo senso rappresenta allineamento – la capacità del LLM di respingere i tentativi degli utenti di ‘violare’ le restrizioni sui sistemi API-only, al fine di far produrre al sistema output vietato, come testo diffamatorio o immagini.
… (rest of the content remains the same, following the exact structure and translation rules)












