mozzicone Algoritmo TextFooler Fools PNL AI - Unite.AI
Seguici sui social

Intelligenza Artificiale

L'algoritmo TextFooler inganna l'IA della PNL

mm
aggiornato on

Per quanto impressionanti siano diventati negli ultimi anni gli algoritmi e i sistemi di elaborazione del linguaggio naturale, sono ancora vulnerabili a una sorta di exploit noto come “esempio contraddittorio”. Esempi contraddittori di frasi attentamente progettate che possono far sì che un sistema PNL si comporti in modi inaspettati e indesiderabili. È possibile che i programmi di intelligenza artificiale si comportino male con questi strani esempi e, di conseguenza, i ricercatori di intelligenza artificiale stanno cercando di progettare modi per proteggersi dagli effetti di esempi contraddittori.

Di recente, un team di ricercatori dell'Università di Hong Kong e dell'Agenzia per la scienza, la tecnologia e la ricerca di Singapore ha collaborato per creare un algoritmo che dimostri il pericolo degli esempi contraddittori. Come riportato da Wired, l'algoritmo è stato doppiato Fool di testo dal gruppo di ricerca e funziona modificando sottilmente parti di una frase, influenzando il modo in cui un classificatore di PNL potrebbe interpretare la frase. Ad esempio, l'algoritmo ha convertito una frase in un'altra frase simile e la frase è stata inserita in un classificatore progettato per determinare se una recensione era negativa o positiva. La frase originale era:

“I personaggi, inseriti in modo impossibile artificiosa situazioni, sono totalmente estraniato dalla realtà. "

È stato convertito in questa frase:

“I personaggi, inseriti in modo impossibile progettato circostanze, sono completamente estraniato dalla realtà. "

Questi sottili cambiamenti hanno spinto il classificatore di testo a classificare la recensione come positiva anziché negativa. Il team di ricerca ha testato lo stesso approccio (scambiando determinate parole con sinonimi) su diversi set di dati e algoritmi di classificazione del testo. Il team di ricerca riferisce di essere riuscito a ridurre l'accuratezza della classificazione di un algoritmo a solo il 10%, rispetto al 90%. Questo nonostante il fatto che le persone che leggono queste frasi le interpreterebbero con lo stesso significato.

Questi risultati sono preoccupanti in un'era in cui gli algoritmi di PNL e l'intelligenza artificiale vengono utilizzati sempre più frequentemente e per compiti importanti come la valutazione di reclami medici o l'analisi di documenti legali. Non si sa quanto siano pericolosi gli esempi contraddittori degli algoritmi attualmente utilizzati. I team di ricerca di tutto il mondo stanno ancora cercando di accertare quanto impatto possono avere. Di recente, un rapporto pubblicato dal gruppo Stanford Human-Centered AI ha suggerito che esempi contraddittori potrebbero ingannare gli algoritmi di intelligenza artificiale ed essere utilizzati per perpetrare frodi fiscali.

Ci sono alcune limitazioni al recente studio. Ad esempio, mentre Sameer Singh, un assistente professore di informatica presso l'UC Irvine, osserva che il metodo contraddittorio utilizzato è stato efficace, si basa su una certa conoscenza dell'architettura dell'IA. L'intelligenza artificiale deve essere ripetutamente sondata fino a trovare un gruppo di parole effettivo e tali attacchi ripetuti potrebbero essere rilevati dai programmi di sicurezza. Singh e colleghi hanno condotto le proprie ricerche sull'argomento e hanno scoperto che sistemi avanzati come gli algoritmi OpenAI possono fornire testo razzista e dannoso quando richiesto con determinate frasi trigger.

Gli esempi contraddittori sono anche un potenziale problema quando si ha a che fare con dati visivi come foto o video. Un famoso esempio riguarda l'applicazione di alcune sottili trasformazioni digitali all'immagine di un gattino, sollecitando il classificatore di immagini interpretarlo come un monitor o un PC desktop. In un altro esempio, una ricerca condotta dalla professoressa Dawn Song della UC Berekely ha scoperto che gli esempi contraddittori possono essere utilizzati per cambiare il modo in cui i segnali stradali vengono percepiti dai sistemi di visione artificiale, il che potrebbe essere potenzialmente pericoloso per i veicoli autonomi.

Una ricerca come quella svolta dal team di Hong Kong-Singapore potrebbe aiutare gli ingegneri dell'IA a comprendere meglio quali tipi di vulnerabilità hanno gli algoritmi di intelligenza artificiale e potenzialmente a progettare modi per proteggersi da queste vulnerabilità. Ad esempio, i classificatori di ensemble possono essere utilizzati per ridurre la possibilità che un esempio contraddittorio possa ingannare il sistema di visione artificiale. Con questa tecnica, vengono utilizzati numerosi classificatori e vengono apportate lievi trasformazioni all'immagine di input. La maggior parte dei classificatori in genere discerne aspetti del vero contenuto dell'immagine, che vengono poi aggregati insieme. Il risultato è che anche se alcuni dei classificatori vengono ingannati, la maggior parte non lo sarà e l'immagine verrà correttamente classificata.