Intelligenza artificiale

Attaccare i Sistemi di Elaborazione del Linguaggio Naturale con Esempi Avversari

Published December 14, 2021

Updated April 5, 2026

Martin Anderson

I ricercatori del Regno Unito e del Canada hanno ideato una serie di attacchi avversari di tipo black box contro i sistemi di elaborazione del linguaggio naturale (NLP) che sono efficaci contro una vasta gamma di framework di elaborazione del linguaggio popolari, tra cui sistemi ampiamente distribuiti di Google, Facebook, IBM e Microsoft.

L’attacco può potenzialmente essere utilizzato per paralizzare i sistemi di traduzione automatica costringendoli a produrre nonsensi o addirittura a cambiare la natura della traduzione; per bloccare l’addestramento dei modelli NLP; per classificare erroneamente contenuti tossici; per avvelenare i risultati dei motori di ricerca causando un indice difettoso; per far fallire i motori di ricerca nell’identificare contenuti maligni o negativi che sono perfettamente leggibili per una persona; e persino per causare attacchi di Denial-of-Service (DoS) ai framework NLP.

Sebbene gli autori abbiano reso noti i punti deboli proposti nel paper a varie parti non nominate le cui prodotti figurano nella ricerca, ritengono che l’industria NLP sia stata lenta nel proteggersi contro gli attacchi avversari. Il paper afferma:

‘Questi attacchi sfruttano le caratteristiche di codifica del linguaggio, come i caratteri invisibili e gli omografi. Sebbene siano stati visti occasionalmente in passato in spam e truffe, i progettisti dei molti sistemi NLP che sono ora distribuiti su larga scala sembrano averli completamente ignorati.’

Molti degli attacchi sono stati condotti in un ambiente “black box” il più possibile – tramite chiamate API ai sistemi MLaaS, piuttosto che versioni FOSS localmente installate dei framework NLP. Riguardo all’efficacia combinata dei sistemi, gli autori scrivono:

‘Tutti gli esperimenti sono stati condotti in un ambiente black-box in cui sono consentite valutazioni del modello illimitate, ma l’accesso ai pesi o allo stato del modello valutato non è consentito. Ciò rappresenta uno dei modelli di minaccia più forti per cui sono possibili attacchi in quasi tutte le impostazioni, comprese quelle contro le offerte commerciali Machine-Learning-as-a-Service (MLaaS). Ogni modello esaminato era vulnerabile agli attacchi di perturbazione impercettibili.

‘Riteniamo che l’applicabilità di questi attacchi dovrebbe in teoria generalizzarsi a qualsiasi modello NLP basato su testo senza adeguate difese in atto.’

Il paper si intitola Bad Characters: Imperceptible NLP Attacks, e proviene da tre ricercatori di tre dipartimenti dell’Università di Cambridge e dell’Università di Edimburgo, e da un ricercatore dell’Università di Toronto.

Il titolo del paper è esemplare: è pieno di caratteri Unicode “impercettibili” che costituiscono la base di uno dei quattro metodi di attacco principali adottati dai ricercatori.