Umjetna inteligencija
Napad na sustave za obradu prirodnog jezika kontradiktornim primjerima

Istraživači u Velikoj Britaniji i Kanadi osmislili su niz kontradiktornih napada crne kutije na sustave obrade prirodnog jezika (NLP) koji su učinkoviti protiv širokog spektra popularnih okvira za obradu jezika, uključujući široko raspoređene sustave Googlea, Facebooka, IBM-a i Microsofta.
Napad se potencijalno može upotrijebiti za onesposobljavanje sustava za prevođenje strojnog učenja prisiljavajući ih da proizvode besmislice ili zapravo mijenjaju prirodu prijevoda; obuci uskog grla NLP modela; pogrešno klasificirati otrovni sadržaj; otrovati rezultate tražilice uzrokujući pogrešno indeksiranje; uzrokovati da tražilice ne prepoznaju zlonamjeran ili negativan sadržaj koji je osobi savršeno čitljiv; pa čak i izazvati napade uskraćivanja usluge (DoS) na NLP okvire.
Iako su autori otkrili predložene ranjivosti rada raznim neimenovanim stranama čiji se proizvodi pojavljuju u istraživanju, smatraju da je NLP industrija zaostajala u zaštiti od napada suparnika. U radu se navodi:
„Ovi napadi iskorištavaju značajke jezičnog kodiranja, poput nevidljivih znakova i homoglifa. Iako su se u prošlosti povremeno viđali u neželjenoj pošti i phishing prijevarama, čini se da su ih dizajneri mnogih NLP sustava koji se sada primjenjuju u velikim razmjerima potpuno ignorirali.“
Nekoliko napada izvedeno je u okruženju 'crne kutije' – što je to moguće – putem API poziva prema MLaaS sustavima, a ne lokalno instaliranim FOSS verzijama NLP okvira. O kombiniranoj učinkovitosti sustava, autori pišu:
'Svi eksperimenti izvedeni su u postavci crne kutije u kojoj su dopuštene neograničene evaluacije modela, ali pristup težinama ili stanju procijenjenog modela nije dopušten. Ovo predstavlja jedan od najjačih modela prijetnji za koje su napadi mogući u gotovo svim postavkama, uključujući protiv komercijalnih ponuda strojnog učenja kao usluge (MLaaS). Svaki ispitani model bio je osjetljiv na neprimjetne napade perturbacije.
'Vjerujemo da bi se primjenjivost ovih napada teoretski trebala generalizirati na bilo koji NLP model temeljen na tekstu bez odgovarajuće obrane.'
The papir naslovljen je Loši likovi: neprimjetni NLP napadi, a dolazi od tri istraživača s tri odjela na Sveučilištu u Cambridgeu i Sveučilištu u Edinburghu te istraživača sa Sveučilišta u Torontu.
Naslov rada je primjeran: ispunjen je 'neprimjetnim' Unicode znakovima koji čine osnovu jedne od četiri glavne metode napada koje su istraživači usvojili.

Čak i naslov časopisa krije misterije.
Metoda/e
Rad predlaže tri primarne učinkovite metode napada: nevidljivi likovi; homoglifi, Te preuređivanjaOvo su 'univerzalne' metode za koje su istraživači otkrili da imaju širok doseg u odnosu na NLP okvire u scenarijima crne kutije. Dodatna metoda, koja uključuje korištenje izbrisati karaktera, istraživači su otkrili da je prikladan samo za neobične NLP cjevovode koji koriste međuspremnik operativnog sustava.
1: Nevidljivi likovi
Ovaj napad koristi kodirane znakove u fontu koji se ne preslikavaju na glif u Unicode sustavu. Sustav Unicode dizajniran je za standardizaciju elektroničkog teksta i sada pokriva 143,859 znakova na više jezika i skupina simbola. Mnoga od ovih preslikavanja neće sadržavati nijedan vidljivi znak u fontu (koji, naravno, ne može uključivati znakove za svaki mogući unos u Unicodeu).

Iz članka, hipotetski primjer napada korištenjem nevidljivih znakova, koji dijele ulazne riječi u segmente koji ili ne znače ništa sustavu za obradu prirodnog jezika ili, ako su pažljivo izrađeni, mogu spriječiti točan prijevod. Za običnog čitatelja izvorni je tekst u oba slučaja točan. Izvor: https://arxiv.org/pdf/2106.09898.pdf
Obično ne možete jednostavno upotrijebiti jedan od ovih znakova koji nisu znakovi za stvaranje razmaka nulte širine, budući da će većina sustava prikazati simbol 'privremenog mjesta' (poput kvadrata ili upitnika u kutiji pod kutom) kako bi predstavili neprepoznati znak.
Međutim, kako primjećuje list, samo mali broj fontova dominira trenutnom računalnom scenom i, što nije iznenađujuće, skloni su pridržavati se standarda Unicode.
Stoga su istraživači za svoje eksperimente odabrali GNU-ove Unifont glifove, dijelom zbog njihove 'robusne pokrivenosti' Unicodea, ali i zato što izgledaju kao mnogi drugi 'standardni' fontovi koji će se vjerojatno koristiti u NLP sustavima. Iako se nevidljivi znakovi proizvedeni iz Unifonta ne prikazuju, testirani NLP sustavi ih ipak broje kao vidljive znakove.
Aplikacije
Vraćajući se na sam 'izrađeni' naslov rada, možemo vidjeti da pretraga odabranog teksta na Googleu ne postiže očekivani rezultat:
Ovo je učinak na strani klijenta, ali su posljedice na strani poslužitelja malo ozbiljnije. List primjećuje:
'Iako poremećeni dokument može indeksirati tražilica za indeksiranje, uvjeti korišteni za njegovo indeksiranje bit će pod utjecajem poremećaja, čime je manja vjerojatnost da će se pojaviti iz pretraživanja po neporemećenim pojmovima. Stoga je moguće sakriti dokumente od tražilica "na vidljivom mjestu".
'Kao primjer primjene, nepoštena tvrtka mogla bi prikriti negativne informacije u svojim financijskim izvješćima tako da ih specijalizirane tražilice koje koriste analitičari dionica ne bi otkrile.'
Jedini scenariji u kojima se napad 'nevidljivih znakova' pokazao manje učinkovitim bili su protiv toksičnog sadržaja, prepoznavanja imenovanih entiteta (NER) i modela analize sentimenta. Autori pretpostavljaju da je to ili zato što su modeli obučeni na podacima koji su također sadržavali nevidljive znakove ili je tokenizator modela (koji rastavlja unos sirovog jezika na modularne komponente) već bio konfiguriran da ih ignorira.
2: Homoglifi
Homoglif je znak koji izgleda kao drugi znak – semantička slabost koja je iskorištena 2000. za stvaranje replika prevare PayPal domene za obradu plaćanja.

U ovom hipotetskom primjeru iz rada, napad homoglifa mijenja značenje prijevoda zamjenom uobičajenih latiničnih znakova vizualno nerazlučivim homoglifima (ocrtanim crvenom bojom).
Komentar autora*:
'Otkrili smo da modeli strojnog učenja procesiraju tekst koji dostavlja korisnik, kao što su neuronski sustavi strojnog prevođenja, posebno su ranjivi na ovaj stil napada. Razmotrite, na primjer, uslugu koja je vodeća na tržištu Google Translate. U vrijeme pisanja ovog teksta, unos niza "paypal” na engleskom na ruski model ispravno izlazi "PayPal”, ali zamjenjujući latinični znak a u unosu sa ćiriličnim znakom а netočno ispisuje „папа“ („father“ na engleskom).
Istraživači primjećuju da iako će mnogi NLP cjevovodi zamijeniti znakove koji su izvan njihovog rječnika specifičnog za jezik s ('nepoznati') token, softverski procesi koji pozivaju zatrovani tekst u cjevovod mogu širiti nepoznate riječi za procjenu prije nego što ova sigurnosna mjera može stupiti na snagu. Autori navode da ovo 'otvara iznenađujuće veliku površinu za napad'.
3: Preuređivanje
Unicode dopušta jezike koji se pišu s lijeva na desno, a redoslijed obrađuje Unicodeov dvosmjerni (BIDI) algoritam. Miješanje znakova koji pišu zdesna nalijevo i slijeva nadesno u jednom nizu je stoga zbunjujuće, a Unicode je to dopustio dopuštajući da BIDI bude nadjačan posebnim kontrolnim znakovima. Oni omogućuju gotovo proizvoljno prikazivanje za fiksni redoslijed kodiranja.

U drugom teoretskom primjeru iz rada, mehanizam za prevođenje dovodi sva slova prevedenog teksta u pogrešan redoslijed, jer se pridržava pogrešnog kodiranja zdesna nalijevo/slijeva nadesno, zbog dijela kontradiktornog izvornog teksta (zaokruženog) koji mu naređuje da to učini.
Autori navode da je u vrijeme pisanja rada metoda bila učinkovita protiv Unicode implementacije u web pregledniku Chromium, izvornom kodu za Googleov preglednik Chrome, Microsoftov preglednik Edge i popriličnom broju drugih forkova.
Isto tako: Brisanja
Uključeno ovdje kako bi kasniji grafikoni rezultata bili jasni, brisanja napad uključuje uključivanje znaka koji predstavlja backspace ili drugu kontrolu/naredbu koja utječe na tekst, a koju sustav za čitanje jezika učinkovito implementira u stilu sličnom tekstualnom makrou.
Autori primjećuju:
'Mali broj kontrolnih znakova u Unicodeu može uzrokovati susjedni tekst koji treba ukloniti. Najjednostavniji primjeri su znakovi backspace (BS) i brisanje (DEL). Tu je i povratak na novi red (CR) koji uzrokuje da se algoritam za prikaz teksta vrati na početak retka i prebriše njegov sadržaj.
'Za na primjer, kodirani tekst koji predstavlja "Zdravo CRzbogom Svijet” bit će prikazano kao “Zbogom Svijet".'
Kao što je ranije rečeno, ovaj napad zapravo zahtijeva nevjerojatnu razinu pristupa kako bi funkcionirao, a bio bi potpuno učinkovit samo s kopiranjem i lijepljenjem teksta putem međuspremnika, sustavno ili ne – neuobičajen NLP ingestivni cjevovod.
Istraživači su ga svejedno testirali i ima performanse usporedive sa svojim stabilnim kolegama. Međutim, napadi koji koriste prve tri metode mogu se implementirati jednostavnim učitavanjem dokumenata ili web stranica (u slučaju napada na tražilice i/ili web-scraping NLP cjevovoda).

U napadu brisanja, izrađeni znakovi učinkovito brišu ono što im prethodi, ili pak forsiraju tekst od jednog retka u drugi odlomak, u oba slučaja, a da to ne bude očito običnom čitatelju.
Učinkovitost u odnosu na trenutne NLP sustave
Istraživači su izveli niz neciljanih i ciljanih napada na pet popularnih modela zatvorenog koda od Facebooka, IBM-a, Microsofta, Googlea i HuggingFacea, kao i tri modela otvorenog koda.
Također su testirali napadi 'spužvom' protiv modela. Napad spužvom je zapravo DoS napad za NLP sustave, gdje se ulazni tekst 'ne izračunava' i uzrokuje kritično usporavanje obuke – proces koji bi inače trebao biti onemogućen predobradom podataka.
Pet NLP zadataka koji su ocijenjeni bili su strojno prevođenje, otkrivanje toksičnog sadržaja, klasifikacija tekstualnih sadržaja, prepoznavanje imenovanih entiteta i analiza osjećaja.
Testovi su provedeni na neodređenom broju Tesla P100 GPU-a, od kojih svaki pokreće Intel Xeon Silver 4110 CPU preko Ubuntua. Kako se ne bi prekršili uvjeti usluge u slučaju upućivanja API poziva, eksperimenti su jednoliko ponovljeni s proračunom poremećaja od nula (nepromijenjen izvorni tekst) do pet (maksimalni prekid). Istraživači tvrde da bi rezultati koje su dobili mogli biti nadmašeni kada bi se dopustio veći broj ponavljanja.

Rezultati primjene kontradiktornih primjera protiv Facebooka Fairseq EN-FR model.

Rezultati napada na IBM-ove klasifikator toksičnog sadržaja i Google-ovih API perspektive.

Dva napada na Facebookov Fairseq: 'neciljani' ima za cilj poremetiti, dok 'ciljani' ima za cilj promijeniti značenje prevedenog jezika.
Istraživači su dodatno testirali svoj sustav u odnosu na prethodne okvire koji nisu bili u stanju generirati 'ljudima čitljiv' tekst koji uznemiruje na isti način, te su otkrili da je sustav uglavnom ravan ovim okvirima, a često i znatno bolji, a istovremeno je zadržao ogromnu prednost prikrivenosti.
Prosječna učinkovitost svih metoda, vektora napada i ciljeva kreće se oko 80%, s vrlo malo ponavljanja.
Komentirajući rezultate, istraživači kažu:
'Možda najviše uznemirujući aspekt naših neprimjetnih perturbacijskih napada je njihova široka primjenjivost: svi tekstualni NLP sustavi koje smo testirali su osjetljivi. Doista, bilo koji model strojnog učenja koji unosi tekst koji unose korisnici kao unos teoretski je ranjiv na ovaj napad.
'Implikacije suprotstavljanja mogu varirati od jedne aplikacije do druge i od jednog modela do drugog, ali svi modeli temeljeni na tekstu temelje se na kodiranom tekstu, a sav tekst podliježe suprotstavljanju kodiranja osim ako kodiranje nije prikladno ograničeno.'
Univerzalno optičko prepoznavanje znakova?
Ovi napadi ovise o tome što su zapravo 'ranjivosti' u Unicodeu i uklonili bi se u NLP cjevovodu koji rasterizira sav dolazni tekst i koristi optičko prepoznavanje znakova kao mjeru sanitizacije. U tom slučaju, isto ne-zlonamjerno semantičko značenje vidljivo ljudima koji čitaju ove poremećene napade bilo bi preneseno NLP sustavu.
Međutim, kada su istraživači implementirali OCR cjevovod za testiranje ove teorije, otkrili su da BLEU (Dvojezična evaluacija) rezultati su smanjili osnovnu točnost za 6.2% i sugeriraju da bi poboljšane OCR tehnologije vjerojatno bile potrebne da se to popravi.
Nadalje predlažu da se BIDI kontrolni znakovi prema zadanim postavkama uklone iz ulaza, da se neobični homoglifi mapiraju i indeksiraju (što karakteriziraju kao 'zastrašujući zadatak'), a tokenizatori i drugi mehanizmi unosa budu opremljeni protiv nevidljivih znakova.
Na kraju, istraživačka skupina potiče NLP sektor da postane oprezniji u pogledu mogućnosti kontradiktornog napada, trenutno polja velikog interesa u istraživanju računalnog vida.
'[Preporučujemo] da sve tvrtke koje grade i implementiraju tekstualne NLP sustave implementiraju takve obrane ako žele da njihove aplikacije budu otporne na zlonamjerne aktere.'
* Moja konverzija inline citata u hiperveze
18:08, 14. prosinca 2021. – uklonjeno dvostruko spominjanje IBM-a, premještena automatska interna veza iz citata – MA