стуб Напад на системе за обраду природног језика са супротстављеним примерима - Уните.АИ
Повежите се са нама

Вештачка интелигенција

Напад на системе за обраду природног језика супротстављеним примерима

mm
Ажурирано on

Истраживачи у Великој Британији и Канади осмислили су серију супротстављених напада црне кутије на системе за обраду природног језика (НЛП) који су ефикасни против широког спектра популарних оквира за обраду језика, укључујући широко распрострањене системе Гоогле, Фацебоок, ИБМ и Мицрософт.

Напад се потенцијално може искористити да осакати системе превођења машинског учења тако што ће их натерати да или производе бесмислице, или да стварно промене природу превода; до обучавања уског грла НЛП модела; да погрешно класификују токсични садржај; да затрује резултате претраживача изазивањем погрешног индексирања; проузроковати да претраживачи не успеју да идентификују злонамерни или негативни садржај који је савршено читљив за особу; па чак и да изазове нападе ускраћивања услуге (ДоС) на НЛП оквире.

Иако су аутори открили предложене рањивости у раду разним неименованим странама чији производи се налазе у истраживању, они сматрају да је НЛП индустрија заостајала у заштити од непријатељских напада. У раду се наводи:

„Ови напади искориштавају карактеристике кодирања језика, као што су невидљиви знакови и хомоглифи. Иако су их у прошлости повремено виђали у преварама са нежељеном поштом и пхисхинг-ом, чини се да су их дизајнери многих НЛП система који се сада примењују у великом обиму потпуно игнорисали.'

Неколико напада изведено је у „црној кутији“ окружењу какво је могуће – преко АПИ позива МЛааС системима, уместо локално инсталираних ФОСС верзија НЛП оквира. О комбинованој ефикасности система, аутори пишу:

„Сви експерименти су изведени у поставци црне кутије у којој су дозвољене неограничене евалуације модела, али приступ тежинама или стању процењеног модела није дозвољен. Ово представља један од најјачих модела претњи за које су напади могући у скоро свим окружењима, укључујући и комерцијалне понуде машинског учења као услуге (МЛааС). Сваки испитани модел био је рањив на неприметне нападе пертурбације.

„Верујемо да би примењивост ових напада у теорији требало да се генерализује на било који НЛП модел заснован на тексту без адекватне одбране.“

папир је насловљен Лоши ликови: неприметни НЛП напади, и долази од три истраживача са три одељења на Универзитету у Кембриџу и Универзитету у Единбургу, и истраживача са Универзитета у Торонту.

Наслов рада је примеран: испуњен је 'неприметним' Уницоде знаковима који чине основу једног од четири принципа напада које су усвојили истраживачи.

Чак и наслов листа крије скривене мистерије.

Чак и наслов листа крије скривене мистерије.

Метод/с

У раду се предлажу три примарне ефикасне методе напада: невидљиви ликови; хомоглифи; и преуређења. Ово су 'универзалне' методе за које су истраживачи открили да имају широк домет у односу на НЛП оквире у сценаријима црне кутије. Додатни метод, који укључује употребу а избрисати карактер, истраживачи су открили да је погодан само за необичне НЛП цевоводе који користе клипборд оперативног система.

1: Невидљиви ликови

Овај напад користи кодиране знакове у фонту који се не мапирају у глиф у Уницоде систему. Уницоде систем је дизајниран да стандардизује електронски текст и сада покрива 143,859 знакова на више језика и група симбола. Многа од ових мапирања неће садржати ниједан видљив знак у фонту (који, наравно, не може да садржи знакове за сваки могући унос у Уницоде-у).

Из рада, хипотетички пример напада помоћу невидљивих знакова, који деле речи на сегменте који или не значе ништа за систем за обраду природног језика, или, ако су пажљиво израђени, могу значити нешто другачије од тачног превода. За обичног читаоца, оригинални текст је тачан.

Из рада, хипотетички пример напада помоћу невидљивих знакова, који дели улазне речи на сегменте који или не значе ништа за систем за обраду природног језика, или, ако су пажљиво направљени, могу спречити тачан превод. За случајног читаоца, оригинални текст у оба случаја је тачан. Извор: хттпс://аркив.орг/пдф/2106.09898.пдф

Типично, не можете само да користите један од ових не-знакова да бисте креирали простор нулте ширине, пошто ће већина система приказати симбол „држача места“ (као што је квадрат или знак питања у кутији под углом) да представља непрепознат лик.

Међутим, како се у раду примећује, само мали број фонтова доминира тренутном рачунарском сценом и, што није изненађујуће, имају тенденцију да се придржавају Уницоде стандарда.

Стога су истраживачи изабрали ГНУ-ове Унифонт глифове за своје експерименте, делимично због његове „робустне покривености“ Уницоде-а, али и због тога што изгледа као многи други „стандардни“ фонтови који ће вероватно бити унети у НЛП системе. Док се невидљиви карактери произведени из Унифонта не приказују, они се ипак рачунају као видљиви карактери од стране тестираних НЛП система.

aplikacije
Враћајући се на 'израђени' наслов самог рада, можемо видети да извођење Гоогле претраге по изабраном тексту не даје очекивани резултат:

Ово је ефекат на страни клијента, али последице на страни сервера су мало озбиљније. У раду се примећује:

„Иако претраживач претраживача може да индексира документ који је поремећен, пертурбације ће утицати на термине који се користе за његово индексирање, због чега је мања вероватноћа да ће се појавити из претраге на непоремећеним терминима. Тако је могуће сакрити документе од претраживача „на видном месту“.

„Као пример апликације, непоштена компанија би могла да прикрије негативне информације у својим финансијским документима тако да их специјализовани претраживачи које користе аналитичари акција не успеју да покупе.“

Једини сценарији у којима се напад „невидљивих ликова“ показао мање ефикасним били су против токсичног садржаја, препознавања именованих ентитета (НЕР) и модела анализе сентимента. Аутори постулирају да је то или зато што су модели обучени на подацима који такође садрже невидљиве знакове, или је токенизер модела (који разбија сирови језик у модуларне компоненте) већ конфигурисан да их игнорише.

2: Хомоглифи

Хомоглиф је лик који изгледа као други лик – семантичка слабост која је искоришћена 2000. сцам реплица домена за обраду плаћања ПаиПал-а.

У овом хипотетичком примеру из рада, хомоглифски напад мења значење превода заменом уобичајених латиничних знакова визуелно неразлучивим хомоглифима (оцртаним црвеном бојом).

У овом хипотетичком примеру из рада, хомоглифски напад мења значење превода заменом уобичајених латиничних знакова визуелно неразлучивим хомоглифима (оцртаним црвеном бојом).

Коментари аутора*:

„Открили смо да машинско учење моделира тај процес текст који доставља корисник, као што су системи неуронског машинског превођења, посебно су рањиви на овај стил напада. Размотрите, на пример, услугу која је водећа на тржишту Гоогле Транслате. У време писања, уношење стринга „паипал” на енглеском на руски модел исправно излази “ПаиПал”, али замењујући латинични знак а у уносу са ћириличним знаком а нетачно исписује „папа“ („отац“ на енглеском).'

Истраживачи примећују да ће многи НЛП канали заменити знакове који су изван њиховог речника специфичног за језик са ('непознати') токен, софтверски процеси који позивају затровани текст у цевовод могу да пропагирају непознате речи ради евалуације пре него што ова безбедносна мера може да почне. Аутори наводе да је ово 'отвара изненађујуће велику површину за напад'.

3: Препоруке

Уницоде дозвољава језике који се пишу с лева на десно, са редоследом којим управља Уницоде-ов двосмерни (БИДИ) алгоритам. Мешање знакова здесна налево и слева надесно у једном стрингу је стога збуњујуће, а Уницоде је ово дозволио дозвољавајући да БИДИ буде замењен посебним контролним знаковима. Они омогућавају готово произвољно приказивање за фиксни редослед кодирања.

У другом теоријском примеру из рада, механизам превођења је изазван да сва слова преведеног текста стави у погрешан ред, јер се повинује погрешном кодирању здесна налево/слева надесно, због дела супротстављеног изворног текста (заокружен) који му наређује да то уради.

У другом теоријском примеру из рада, механизам превођења је изазван да сва слова преведеног текста стави у погрешан ред, јер се повинује погрешном кодирању здесна налево/слева надесно, због дела супротстављеног изворног текста (заокружен) који му наређује да то уради.

Аутори наводе да је у време писања рада метода била ефикасна против имплементације Уницоде-а у веб претраживачу Цхромиум, изворном извору за Гоогле Цхроме претраживач, Мицрософт-овом Едге претраживачу и приличном броју других форкова.

Такође: Делетионс

Укључено овде како би наредни графикони резултата били јасни, брисања напад укључује укључивање знака који представља бацкспаце или другу контролу/команду која утиче на текст, а коју ефикасно имплементира систем читања језика у стилу сличном текстуалном макроу.

Аутори примећују:

„Мали број контролних знакова у Уницоде-у може узроковати суседни текст који треба уклонити. Најједноставнији примери су знакови за повратак (БС) и за брисање (ДЕЛ). Ту је и повратак носиоца (ЦР) који узрокује да се алгоритам за приказивање текста врати на почетак реда и препише његов садржај.

'За на пример, кодирани текст који представља „Здраво CRзбогом Свете“ биће преведено као „Збогом Свет”.'

Као што је раније речено, овај напад ефективно захтева невероватан ниво приступа да би функционисао и био би потпуно ефикасан само са текстом који се копира и налепи преко међуспремника, систематски или не – неуобичајен цевовод за унос НЛП-а.

Истраживачи су га ипак тестирали, а перформансе су упоредиве са својим колегама у стаји. Међутим, напади који користе прве три методе могу се спровести једноставним учитавањем докумената или веб страница (у случају напада на претраживаче и/или веб-сцрапинг НЛП цевовода).

У нападу брисања, направљени ликови ефективно бришу оно што им претходи, или у супротном форсирају текст у једном реду у други пасус, у оба случаја, а да то не чине очигледним обичном читаоцу.

У нападу брисања, направљени ликови ефективно бришу оно што им претходи, или у супротном форсирају текст у једном реду у други пасус, у оба случаја, а да то не чине очигледним обичном читаоцу.

Ефикасност против постојећих НЛП система

Истраживачи су извршили низ нециљаних и циљаних напада на пет популарних модела затвореног кода од Фацебоок-а, ИБМ-а, Мицрософт-а, Гоогле-а и ХуггингФаце-а, као и на три модела отвореног кода.

Они су такође тестирали 'спужвасти' напади против модела. Сунђер напад је ефективно ДоС напад за НЛП системе, где се уносни текст „не рачуна“ и узрокује критично успоравање обуке – процес који би иначе требало да буде онемогућен претходном обрадом података.

Пет НЛП задатака који су оцењени били су машинско превођење, откривање токсичног садржаја, класификација текстуалних последица, препознавање именованих ентитета и анализа осећања.

Тестови су обављени на неодређеном броју Тесла П100 ГПУ-ова, од којих сваки покреће Интел Ксеон Силвер 4110 ЦПУ преко Убунту-а. Да се ​​не би прекршили услови услуге у случају упућивања АПИ позива, експерименти су се уједначено понављали са буџетом пертурбације од нула (изворни текст без утицаја) до пет (максимални поремећај). Истраживачи тврде да би резултати које су добили могли бити премашени ако би се дозволио већи број итерација.

Резултати примене супротстављених примера против Фацебоок-овог модела Фаирсек ЕН-ФР.

Резултати примене супротстављених примера против Фејсбука Фаирсек ЕН-ФР модел.

Резултати напада на ИБМ-ов класификатор токсичног садржаја и Гоогле Перспецтиве АПИ.

Резултати напада на ИБМ-ове класификатор токсичног садржаја и Гоогле је АПИ перспективе.

Два напада на Фацебоок-ов Фаирсек: 'нециљани' има за циљ да поремети, док 'циљани' има за циљ да промени значење преведеног језика.

Два напада на Фацебоок-ов Фаирсек: 'нециљани' има за циљ да поремети, док 'циљани' има за циљ да промени значење преведеног језика.

Истраживачи су даље тестирали свој систем у односу на претходне оквире који нису били у стању да генеришу „људски читљив“ узнемирујући текст на исти начин, и открили су да је систем у великој мери једнак са овим, а често и знатно бољи, док је задржао огромну предност прикривености.

Просечна ефикасност у свим методама, векторима напада и циљевима лебди на око 80%, са врло мало изведених итерација.

Коментаришући резултате, истраживачи кажу:

„Можда је највећи узнемирујући аспект наших неприметних напада пертурбације њихова широка примењивост: сви текстуални НЛП системи које смо тестирали су подложни. Заиста, сваки модел машинског учења који уноси текст који је унео корисник као улаз је теоретски рањив на овај напад.

„Супарничке импликације могу варирати од једне апликације до друге и од модела до модела, али сви модели засновани на тексту су засновани на кодираном тексту, а сав текст подлеже контрадикторном кодирању осим ако кодирање није на одговарајући начин ограничено.“

Универзално оптичко препознавање знакова?

Ови напади зависе од тога шта су заправо 'рањивости' у Уницоде-у и били би уклоњени у НЛП цевоводу који је растеровао сав долазни текст и користио оптичко препознавање знакова као меру санације. У том случају, исто не-малигно семантичко значење видљиво људима који читају ове узнемирене нападе би се пренело на НЛП систем.

Међутим, када су истраживачи имплементирали ОЦР канал за тестирање ове теорије, открили су да БЛЕУ (Билингвал Евалуатион Ундерстуди) резултати су смањили основну тачност за 6.2% и сугеришу да би побољшане ОЦР технологије вероватно биле неопходне да би се ово поправило.

Они даље предлажу да БИДИ контролни знакови треба да буду подразумевано уклоњени из уноса, да се необични хомоглифи мапирају и индексирају (што они окарактеришу као 'застрашујући задатак'), а токенизатори и други механизми за унос података буду наоружани против невидљивих знакова.

На крају, истраживачка група апелује на сектор НЛП-а да постане опрезнији у погледу могућности за контрадикторне нападе, што је тренутно поље од великог интересовања у истраживању компјутерског вида.

„[Ми] препоручујемо да све фирме које граде и примењују текстуалне НЛП системе имплементирају такву одбрану ако желе да њихове апликације буду отпорне на злонамерне актере.“

 

 

* Моја конверзија инлине цитата у хипервезе

18:08 14. децембар 2021. – уклоњен дупликат ИБМ-а, аутоматски интерни линк премештен из цитата – МА