stub TextFooler Algorithm Fools NLP AI - Unite.AI
Kontakt med oss

Kunstig intelligens

TextFooler Algorithm Fools NLP AI

mm
oppdatert on

Så imponerende som naturlige språkbehandlingsalgoritmer og -systemer har blitt de siste årene, er de fortsatt sårbare for en slags utnyttelse kjent som et "motstridende eksempel". Motstridende eksempler på nøye konstruerte setninger som kan få et NLP-system til å oppføre seg på uventede og uønskede måter. AI-programmer kan få til å oppføre seg dårlig med disse merkelige eksemplene, og som et resultat prøver AI-forskere å designe måter å beskytte mot effektene av motstridende eksempler.

Nylig samarbeidet et team av forskere fra både University of Hong Kong og Agency for Science, Technology, and Research i Singapore for å lage en algoritme som demonstrerer faren for motstridende eksempler. Som Wired rapporterte, ble algoritmen kalt TextFooler av forskerteamet, og det fungerer ved å subtilt endre deler av en setning, noe som påvirker hvordan en NLP-klassifiserer kan tolke setningen. Som et eksempel konverterte algoritmen en setning til en annen lignende setning, og setningen ble matet inn i en klassifiserer designet for å avgjøre om en anmeldelse var negativ eller positiv. Den opprinnelige setningen var:

"Karakterene, castet inn umulig foraktet situasjoner, er helt klart fremmedgjort fra virkeligheten."

Den ble konvertert til denne setningen:

"Karakterene, castet inn umulig konstruert omstendigheter, er fullt fremmedgjort fra virkeligheten."

Disse subtile endringene fikk tekstklassifisereren til å klassifisere anmeldelsen som positiv i stedet for negativ. Forskerteamet testet den samme tilnærmingen (bytte visse ord med synonymer) på flere forskjellige datasett og tekstklassifiseringsalgoritmer. Forskerteamet rapporterer at de var i stand til å redusere en algoritmes klassifiseringsnøyaktighet til bare 10 %, ned fra 90 %. Dette til tross for at folk som leser disse setningene ville tolket dem til å ha samme betydning.

Disse resultatene er bekymringsfulle i en tid der NLP-algoritmer og AI blir brukt stadig oftere, og til viktige oppgaver som å vurdere medisinske påstander eller analysere juridiske dokumenter. Det er ukjent hvor mye av en fare for for tiden brukte algoritmer motstridende eksempler er. Forskningsteam rundt om i verden prøver fortsatt å finne ut hvor stor innvirkning de kan ha. Nylig antydet en rapport publisert av Stanford Human-Centered AI-gruppen at motstridende eksempler kunne lure AI-algoritmer og brukes til å begå skattesvindel.

Det er noen begrensninger for den nylige studien. For eksempel, mens Sameer Singh, en assisterende professor i informatikk ved UC Irvine, bemerker at den kontradiktoriske metoden som ble brukt var effektiv, er den avhengig av en viss kunnskap om AIs arkitektur. AI må undersøkes gjentatte ganger til en effektiv gruppe ord kan bli funnet, og slike gjentatte angrep kan bli lagt merke til av sikkerhetsprogrammer. Singh og kolleger har gjort sin egen forskning på emnet og funnet ut at avanserte systemer som OpenAI-algoritmer kan levere rasistisk, skadelig tekst når de blir bedt om med visse triggerfraser.

Motstridende eksempler er også et potensielt problem når du arbeider med visuelle data som bilder eller video. Et kjent eksempel involverer å bruke visse subtile digitale transformasjoner på et bilde av en kattunge, noe som får bildeklassifisereren til å tolke det som en skjerm eller stasjonær PC. I et annet eksempel fant forskning utført av UC Berekely-professor Dawn Song at motstridende eksempler kan brukes til å endre hvordan veiskilt oppfattes av datasynssystemer, som potensielt kan være farlige for autonome kjøretøy.

Forskning som den typen gjort av Hong Kong-Singapore-teamet kan hjelpe AI-ingeniører bedre å forstå hva slags sårbarheter AI-algoritmer har, og potensielt utforme måter å beskytte seg mot disse sårbarhetene. Som et eksempel kan ensembleklassifiserere brukes for å redusere sjansen for at et motstridende eksempel vil være i stand til å lure datasynssystemet. Med denne teknikken brukes en rekke klassifikatorer og det gjøres små transformasjoner til inngangsbildet. Flertallet av klassifikatorene vil typisk skjelne aspekter av bildets sanne innhold, som deretter aggregeres sammen. Resultatet er at selv om noen få av klassifisere blir lurt, vil de fleste av dem ikke bli det, og bildet vil bli riktig klassifisert.