Angolo di Anderson

Facile Riformulazione Rompe la Sicurezza dell’AI, Anche per Gemini e Claude

Published February 23, 2026

Updated April 25, 2026

Martin Anderson

An AI-generated image (GPT-1.5) depicting a crash test dummy embedded in the wall of a crash test laboratory.

Test di sicurezza dell’AI hanno rivelato una dipendenza da “parole trigger” ovvie; con una facile riformulazione, modelli etichettati come “ragionevolmente sicuri” falliscono improvvisamente, con attacchi che hanno successo fino al 98% delle volte.

Nuove ricerche aziendali negli Stati Uniti hanno concluso che il buon record di sicurezza di una varietà di Large Language Models (LLM) – tra cui molti nomi di spicco come Gemini 3 Pro e Claude Sonnet 3.7 – potrebbe essere insignificante, poiché i set di dati e i benchmark utilizzati per stabilirli contengono un linguaggio “ovvio” ridicolo.

I due set di dati in questione, che sono stati presentati in varie recensioni di articoli su questo sito, sono HarmBench e AdvBench:

Dai rispettivi articoli di HarmBench e AdvBench, ammettendo esempi rappresentativi di provocazione – ma il nuovo articolo sostiene che anche in scenari del mondo reale, gli esempi segnalano facilmente l’intento malevolo, il che porta a (presumibilmente) un ‘gioco’ non intenzionale dei risultati. Fonti – HarmBench [https://arxiv.org/pdf/2402.04249] e AdvBench [https://arxiv.org/pdf/2307.15043]

Sebbene gli esempi mostrati sopra, che sono tratti dai rispettivi articoli per ogni benchmark, siano deliberatamente semplicistici per illustrare i principi dei sistemi, la nuova ricerca sostiene che in realtà queste raccolte si concentrano davvero sui “frutti a portata di mano” e quindi potrebbero non essere benchmark efficaci – e che i risultati reali per le capacità di sicurezza dei LLM testati sono significativamente al di sotto di quanto segnalato:

‘[Noi] valutiamo se questi set di dati misurano realmente i rischi di sicurezza o semplicemente provocano rifiuti attraverso la attivazione di cue. Per esplorare questo, introduciamo il “lavaggio di intenti”: una procedura che astrae i cue di attivazione dagli attacchi (punti di dati) mentre preserva rigorosamente l’intento malevolo e tutti i dettagli rilevanti.

‘I nostri risultati indicano che gli attuali set di dati di sicurezza dell’AI non rappresentano fedelmente gli attacchi del mondo reale a causa della loro eccessiva dipendenza dai cue di attivazione.

‘In realtà, una volta che questi cue vengono rimossi, tutti i modelli precedentemente valutati come “ragionevolmente sicuri” diventano insicuri, compresi Gemini 3 Pro e Claude Sonnet 3.7.’

‘Sicurezza’ in questo senso rappresenta allineamento – la capacità del LLM di respingere i tentativi degli utenti di ‘violare’ le restrizioni sui sistemi API-only, al fine di far produrre al sistema output vietato, come testo diffamatorio o immagini.

… (rest of the content remains the same, following the exact structure and translation rules)