Connect with us

Intelligenza artificiale

Attaccare i Sistemi di Elaborazione del Linguaggio Naturale con Esempi Avversari

mm

I ricercatori del Regno Unito e del Canada hanno ideato una serie di attacchi avversari di tipo black box contro i sistemi di elaborazione del linguaggio naturale (NLP) che sono efficaci contro una vasta gamma di framework di elaborazione del linguaggio popolari, tra cui sistemi ampiamente distribuiti di Google, Facebook, IBM e Microsoft.

L’attacco può potenzialmente essere utilizzato per paralizzare i sistemi di traduzione automatica costringendoli a produrre nonsensi o addirittura a cambiare la natura della traduzione; per bloccare l’addestramento dei modelli NLP; per classificare erroneamente contenuti tossici; per avvelenare i risultati dei motori di ricerca causando un indice difettoso; per far fallire i motori di ricerca nell’identificare contenuti maligni o negativi che sono perfettamente leggibili per una persona; e persino per causare attacchi di Denial-of-Service (DoS) ai framework NLP.

Sebbene gli autori abbiano reso noti i punti deboli proposti nel paper a varie parti non nominate le cui prodotti figurano nella ricerca, ritengono che l’industria NLP sia stata lenta nel proteggersi contro gli attacchi avversari. Il paper afferma:

‘Questi attacchi sfruttano le caratteristiche di codifica del linguaggio, come i caratteri invisibili e gli omografi. Sebbene siano stati visti occasionalmente in passato in spam e truffe, i progettisti dei molti sistemi NLP che sono ora distribuiti su larga scala sembrano averli completamente ignorati.’

Molti degli attacchi sono stati condotti in un ambiente “black box” il più possibile – tramite chiamate API ai sistemi MLaaS, piuttosto che versioni FOSS localmente installate dei framework NLP. Riguardo all’efficacia combinata dei sistemi, gli autori scrivono:

‘Tutti gli esperimenti sono stati condotti in un ambiente black-box in cui sono consentite valutazioni del modello illimitate, ma l’accesso ai pesi o allo stato del modello valutato non è consentito. Ciò rappresenta uno dei modelli di minaccia più forti per cui sono possibili attacchi in quasi tutte le impostazioni, comprese quelle contro le offerte commerciali Machine-Learning-as-a-Service (MLaaS). Ogni modello esaminato era vulnerabile agli attacchi di perturbazione impercettibili.

‘Riteniamo che l’applicabilità di questi attacchi dovrebbe in teoria generalizzarsi a qualsiasi modello NLP basato su testo senza adeguate difese in atto.’

Il paper si intitola Bad Characters: Imperceptible NLP Attacks, e proviene da tre ricercatori di tre dipartimenti dell’Università di Cambridge e dell’Università di Edimburgo, e da un ricercatore dell’Università di Toronto.

Il titolo del paper è esemplare: è pieno di caratteri Unicode “impercettibili” che costituiscono la base di uno dei quattro metodi di attacco principali adottati dai ricercatori.

Anche il titolo del paper ha misteri nascosti.

Anche il titolo del paper ha misteri nascosti.

Metodo/i

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.