Connect with us

Facile Riformulazione Rompe la Sicurezza dell’AI, Anche per Gemini e Claude

Angolo di Anderson

Facile Riformulazione Rompe la Sicurezza dell’AI, Anche per Gemini e Claude

mm
An AI-generated image (GPT-1.5) depicting a crash test dummy embedded in the wall of a crash test laboratory.

Test di sicurezza dell’AI hanno rivelato una dipendenza da “parole trigger” ovvie; con una facile riformulazione, modelli etichettati come “ragionevolmente sicuri” falliscono improvvisamente, con attacchi che hanno successo fino al 98% delle volte.

 

Nuove ricerche aziendali negli Stati Uniti hanno concluso che il buon record di sicurezza di una varietà di Large Language Models (LLM) – tra cui molti nomi di spicco come Gemini 3 Pro e Claude Sonnet 3.7 – potrebbe essere insignificante, poiché i set di dati e i benchmark utilizzati per stabilirli contengono un linguaggio “ovvio” ridicolo.

I due set di dati in questione, che sono stati presentati in varie recensioni di articoli su questo sito, sono HarmBench e AdvBench:

Dai rispettivi articoli di HarmBench e AdvBench, ammettendo esempi rappresentativi di provocazione - ma il nuovo articolo sostiene che anche in scenari del mondo reale, gli esempi segnalano facilmente l'intento malevolo, il che porta a (presumibilmente) un 'gioco' non intenzionale dei risultati. Fonti - HarmBench [https://arxiv.org/pdf/2402.04249] e AdvBench [https://arxiv.org/pdf/2307.15043]

Dai rispettivi articoli di HarmBench e AdvBench, ammettendo esempi rappresentativi di provocazione – ma il nuovo articolo sostiene che anche in scenari del mondo reale, gli esempi segnalano facilmente l’intento malevolo, il che porta a (presumibilmente) un ‘gioco’ non intenzionale dei risultati. Fonti – HarmBench [https://arxiv.org/pdf/2402.04249] e AdvBench [https://arxiv.org/pdf/2307.15043]

Sebbene gli esempi mostrati sopra, che sono tratti dai rispettivi articoli per ogni benchmark, siano deliberatamente semplicistici per illustrare i principi dei sistemi, la nuova ricerca sostiene che in realtà queste raccolte si concentrano davvero sui “frutti a portata di mano” e quindi potrebbero non essere benchmark efficaci – e che i risultati reali per le capacità di sicurezza dei LLM testati sono significativamente al di sotto di quanto segnalato:

‘[Noi] valutiamo se questi set di dati misurano realmente i rischi di sicurezza o semplicemente provocano rifiuti attraverso la attivazione di cue. Per esplorare questo, introduciamo il “lavaggio di intenti”: una procedura che astrae i cue di attivazione dagli attacchi (punti di dati) mentre preserva rigorosamente l’intento malevolo e tutti i dettagli rilevanti.

‘I nostri risultati indicano che gli attuali set di dati di sicurezza dell’AI non rappresentano fedelmente gli attacchi del mondo reale a causa della loro eccessiva dipendenza dai cue di attivazione.

‘In realtà, una volta che questi cue vengono rimossi, tutti i modelli precedentemente valutati come “ragionevolmente sicuri” diventano insicuri, compresi Gemini 3 Pro e Claude Sonnet 3.7.’

‘Sicurezza’ in questo senso rappresenta allineamento – la capacità del LLM di respingere i tentativi degli utenti di ‘violare’ le restrizioni sui sistemi API-only, al fine di far produrre al sistema output vietato, come testo diffamatorio o immagini.

… (rest of the content remains the same, following the exact structure and translation rules)

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.