stub TextFooler Algorithm Fools NLP AI – Unite.AI
Susisiekti su mumis

Dirbtinis intelektas

TextFooler Algorithm Fools NLP AI

mm
Atnaujinta on

Kad ir kokie įspūdingi pastaraisiais metais tapo natūralios kalbos apdorojimo algoritmai ir sistemos, jie vis dar yra pažeidžiami tam tikro išnaudojimo, žinomo kaip „priešingas pavyzdys“. Prieštaringi kruopščiai sukurtų frazių, kurios gali sukelti NLP sistemos netikėtą ir nepageidaujamą elgesį, pavyzdžiai. Naudojant šiuos keistus pavyzdžius dirbtinio intelekto programos gali netinkamai veikti, todėl AI tyrėjai bando kurti būdus, kaip apsisaugoti nuo priešingų pavyzdžių poveikio.

Neseniai mokslininkų komanda iš Honkongo universiteto ir Singapūro Mokslo, technologijų ir tyrimų agentūros bendradarbiavo, kad sukurtų algoritmą, parodantį priešingų pavyzdžių pavojų. Kaip pranešė „Wired“., algoritmas buvo pavadintas TextFooler tyrėjų komanda ir ji veikia subtiliai keisdama sakinio dalis, paveikdama tai, kaip NLP klasifikatorius gali interpretuoti sakinį. Pavyzdžiui, algoritmas konvertavo vieną sakinį į kitą panašų sakinį ir sakinys buvo įtrauktas į klasifikatorių, skirtą nustatyti, ar apžvalga buvo neigiama ar teigiama. Originalus sakinys buvo:

„Personažai, suvaidinti neįmanomai sugalvotas situacijos, yra visai atitrūkęs nuo realybės“.

Jis buvo konvertuotas į šį sakinį:

„Personažai, suvaidinti neįmanomai inžinerijos būdu aplinkybės, yra visiškai atitrūkęs nuo realybės“.

Šie subtilūs pakeitimai paskatino teksto klasifikatorių klasifikuoti apžvalgą kaip teigiamą, o ne neigiamą. Tyrimo grupė išbandė tą patį metodą (tam tikrus žodžius pakeitus sinonimais) naudodama kelis skirtingus duomenų rinkinius ir teksto klasifikavimo algoritmus. Tyrimo grupė praneša, kad jiems pavyko sumažinti algoritmo klasifikavimo tikslumą iki 10%, palyginti su 90%. Taip yra nepaisant to, kad žmonės, skaitantys šiuos sakinius, juos interpretuotų kaip tą pačią reikšmę.

Šie rezultatai yra susiję su eroje, kai NLP algoritmai ir AI naudojami vis dažniau ir atliekant svarbias užduotis, tokias kaip medicininių teiginių vertinimas ar teisinių dokumentų analizė. Nežinoma, kiek pavojaus šiuo metu naudojamiems algoritmams yra priešingi pavyzdžiai. Mokslininkų grupės visame pasaulyje vis dar bando išsiaiškinti, kokį poveikį jos gali turėti. Neseniai Stanfordo į žmones orientuotos dirbtinio intelekto grupės paskelbtoje ataskaitoje teigiama, kad priešingi pavyzdžiai gali apgauti dirbtinio intelekto algoritmus ir būti naudojami sukčiavimui mokesčių srityje.

Neseniai atliktas tyrimas turi tam tikrų apribojimų. Pavyzdžiui, nors Sameer Singh, UC Irvine kompiuterių mokslo docentas, pažymi, kad naudojamas priešpriešinis metodas buvo veiksmingas, jis remiasi tam tikromis žiniomis apie AI architektūrą. Dirbtinis intelektas turi būti tikrinamas pakartotinai, kol bus rasta veiksminga žodžių grupė, o tokias pasikartojančias atakas gali pastebėti saugos programos. Singhas ir jo kolegos atliko savo tyrimus šia tema ir nustatė, kad pažangios sistemos, tokios kaip OpenAI algoritmai, gali pateikti rasistinį, žalingą tekstą, kai paraginami tam tikros paleidimo frazės.

Priešingi pavyzdžiai taip pat gali būti problema dirbant su vaizdiniais duomenimis, pvz., nuotraukomis ar vaizdo įrašais. Vienas iš žinomų pavyzdžių – tam tikrų subtilių skaitmeninių transformacijų taikymas kačiuko atvaizdui, skatinantis vaizdų klasifikatorių. interpretuoti jį kaip monitorių arba stalinį kompiuterį. Kitame pavyzdyje UC Berekely profesoriaus Dawn Song atliktas tyrimas parodė, kad priešingi pavyzdžiai gali būti naudojami siekiant pakeisti tai, kaip kelio ženklus suvokia kompiuterinės regos sistemos, o tai gali būti pavojinga autonominėms transporto priemonėms.

Tokie tyrimai, kaip Honkongo ir Singapūro komanda, galėtų padėti AI inžinieriams geriau suprasti, kokius pažeidžiamumus turi AI algoritmai, ir galbūt sukurti būdus, kaip apsisaugoti nuo šių pažeidžiamumų. Pavyzdžiui, ansamblio klasifikatoriai gali būti naudojami siekiant sumažinti tikimybę, kad priešingas pavyzdys gali apgauti kompiuterinio matymo sistemą. Taikant šią techniką, naudojami keli klasifikatoriai ir atliekamos nedidelės įvesties vaizdo transformacijos. Dauguma klasifikatorių paprastai atskleidžia tikrojo vaizdo turinio aspektus, kurie vėliau sujungiami. Rezultatas yra toks, kad net jei keli klasifikatoriai bus suklaidinti, dauguma jų nebus ir vaizdas bus tinkamai klasifikuojamas.