քոթուկ Հարձակում բնական լեզվի մշակման համակարգերի վրա հակառակորդ օրինակներով - Unite.AI
Միացեք մեզ

Արհեստական ​​բանականություն

Հակառակ օրինակներով հարձակվել բնական լեզվի մշակման համակարգերի վրա

mm
Թարմացվել է on

Մեծ Բրիտանիայի և Կանադայի հետազոտողները մշակել են մի շարք սև արկղերի հակառակորդ հարձակումներ բնական լեզվի մշակման (NLP) համակարգերի դեմ, որոնք արդյունավետ են լեզուների մշակման լայն շրջանակների դեմ, ներառյալ Google-ի, Facebook-ի, IBM-ի և Microsoft-ի լայնորեն տեղակայված համակարգերը:

Հարձակումը կարող է օգտագործվել մեքենայական ուսուցման թարգմանչական համակարգերը խեղելու համար՝ ստիպելով նրանց կա՛մ անհեթեթություն արտադրել, կա՛մ իրականում փոխել թարգմանության բնույթը. NLP մոդելների նեղ ուսուցում; թունավոր բովանդակության սխալ դասակարգում; թունավորել որոնման արդյունքները` առաջացնելով սխալ ինդեքսավորում; ստիպել որոնողական համակարգերին չբացահայտել վնասակար կամ բացասական բովանդակությունը, որը կատարելապես ընթեռնելի է մարդու համար. և նույնիսկ առաջացնել Denial-of-Service (DoS) հարձակումներ NLP շրջանակների վրա:

Թեև հեղինակները բացահայտել են թերթի առաջարկած խոցելիությունը տարբեր անանուն կողմերին, որոնց արտադրանքը ներառված է հետազոտության մեջ, նրանք կարծում են, որ NLP արդյունաբերությունը հետ է մնացել հակառակորդների հարձակումներից պաշտպանվելու հարցում: Թերթում նշվում է.

«Այս հարձակումները օգտագործում են լեզվի կոդավորման առանձնահատկությունները, ինչպիսիք են անտեսանելի նիշերը և հոմոգլիֆները: Թեև նախկինում դրանք երբեմն նկատվել են սպամի և ֆիշինգի խարդախությունների մեջ, շատ NLP համակարգերի նախագծողները, որոնք այժմ մասշտաբային են տեղակայվում, կարծես ամբողջովին անտեսել են դրանք:

Հարձակումներից մի քանիսն իրականացվել են «սև արկղում» այնպիսի միջավայրում, ինչպիսին կարելի է ունենալ՝ MLaaS համակարգերին API զանգերի միջոցով, այլ ոչ թե NLP շրջանակների տեղական FOSS տարբերակները: Համակարգերի համակցված արդյունավետության մասին հեղինակները գրում են.

«Բոլոր փորձերն իրականացվել են սև արկղի միջավայրում, որտեղ մոդելի անսահմանափակ գնահատումը թույլատրվում է, բայց գնահատված մոդելի կշիռներին կամ վիճակին հասանելիություն չի թույլատրվում։ Սա ներկայացնում է սպառնալիքի ամենաուժեղ մոդելներից մեկը, որի համար հարձակումները հնարավոր են գրեթե բոլոր պարամետրերում, ներառյալ առևտրային Machine-Learning-as-a-Service (MLaaS) առաջարկների դեմ: Հետազոտված յուրաքանչյուր մոդել խոցելի էր աննկատ խախտման հարձակումների նկատմամբ:

«Մենք կարծում ենք, որ այս հարձակումների կիրառելիությունը տեսականորեն պետք է ընդհանրացվի ցանկացած տեքստի վրա հիմնված NLP մոդելի վրա՝ առանց համապատասխան պաշտպանական միջոցների։

The թուղթ վերնագրված է Վատ կերպարներ. Աննկատելի NLP հարձակումներ, և գալիս է Քեմբրիջի և Էդինբուրգի համալսարանի երեք բաժանմունքների երեք հետազոտողներից և Տորոնտոյի համալսարանի հետազոտողից:

Աշխատանքի վերնագիրը օրինակելի է. այն լցված է «աննկատելի» Unicode նիշերով, որոնք հիմք են հանդիսանում հետազոտողների կողմից ընդունված հարձակման չորս սկզբունքային մեթոդներից մեկի համար:

Նույնիսկ թերթի վերնագիրը թաքնված առեղծվածներ ունի:

Նույնիսկ թերթի վերնագիրը թաքնված առեղծվածներ ունի:

Մեթոդ/եր

Թուղթն առաջարկում է հարձակման երեք հիմնական արդյունավետ մեթոդներ. անտեսանելի կերպարներ; հոմոգլիֆներ, Եվ վերապատվերներ. Սրանք այն «ունիվերսալ» մեթոդներն են, որոնք հետազոտողները պարզել են, որ ունեն լայն տարածում NLP շրջանակների դեմ սև արկղի սցենարներում: Լրացուցիչ մեթոդ, որը ներառում է a ջնջել նիշը, հետազոտողները պարզել են, որ հարմար է միայն արտասովոր NLP խողովակաշարերի համար, որոնք օգտագործում են օպերացիոն համակարգի clipboard-ը:

1. Անտեսանելի կերպարներ

Այս հարձակումը օգտագործում է կոդավորված նիշերը տառատեսակով, որոնք չեն քարտեզագրվում Յունիկոդ համակարգի հոլովակի հետ: Unicode համակարգը նախագծվել է էլեկտրոնային տեքստի ստանդարտացման համար և այժմ ներառում է 143,859 նիշ տարբեր լեզուներով և խորհրդանիշների խմբերով: Այս քարտեզագրումներից շատերը չեն պարունակի որևէ տեսանելի նիշ տառատեսակում (որը, բնականաբար, չի կարող ներառել նիշեր Յունիկոդի յուրաքանչյուր հնարավոր մուտքի համար):

Թուղթից անտեսանելի նիշերի օգտագործմամբ հարձակման հիպոթետիկ օրինակ, որոնք բառերը բաժանում են հատվածների, որոնք կամ ոչինչ չեն նշանակում բնական լեզվի մշակման համակարգի համար, կամ, եթե խնամքով մշակված են, կարող են տարբեր լինել ճշգրիտ թարգմանությունից: Պատահական ընթերցողի համար բնօրինակը ճիշտ է:

Թղթից անտեսանելի նիշերի օգտագործմամբ հարձակման հիպոթետիկ օրինակ է, որը մուտքագրված բառերը բաժանում է հատվածների, որոնք կամ ոչինչ չեն նշանակում բնական լեզվի մշակման համակարգի համար, կամ, եթե խնամքով մշակված են, կարող են կանխել ճշգրիտ թարգմանությունը: Պատահական ընթերցողի համար բնօրինակ տեքստը երկու դեպքում էլ ճիշտ է: Աղբյուր՝ https://arxiv.org/pdf/2106.09898.pdf

Սովորաբար, դուք չեք կարող պարզապես օգտագործել այս ոչ նիշերից մեկը՝ զրոյական լայնությամբ տարածություն ստեղծելու համար, քանի որ համակարգերի մեծամասնությունը կարտացոլի «տեղապահ» ​​նշանը (օրինակ՝ քառակուսի կամ հարցական նշան անկյունային վանդակում)՝ ներկայացնելու համար չճանաչված կերպար.

Այնուամենայնիվ, ինչպես նշում է թերթը, միայն մի փոքր բուռ տառատեսակներ են գերիշխում ընթացիկ հաշվողական տեսարանում, և, զարմանալի չէ, որ նրանք հակված են հավատարիմ մնալ Յունիկոդ ստանդարտին:

Հետևաբար, հետազոտողները իրենց փորձերի համար ընտրել են GNU-ի Unifont հոլովակները՝ մասամբ Unicode-ի «առավելագույն ծածկույթի» պատճառով, բայց նաև այն պատճառով, որ այն նման է շատ այլ «ստանդարտ» տառատեսակների, որոնք հավանաբար կսնվեն NLP համակարգերին: Թեև Unifont-ից արտադրված անտեսանելի նիշերը չեն ցուցադրվում, այնուամենայնիվ, փորձարկված NLP համակարգերի կողմից դրանք համարվում են տեսանելի նիշեր:

Ծրագրեր
Վերադառնալով բուն թերթի «մշակված» վերնագրին, մենք կարող ենք տեսնել, որ ընտրված տեքստից Google-ի որոնում կատարելով չի ստացվում ակնկալվող արդյունքը.

Սա հաճախորդի կողմից էֆեկտ է, բայց սերվերի կողմի հետևանքները մի փոքր ավելի լուրջ են: Թերթը նշում է.

«Չնայած որ խաթարված փաստաթուղթը կարող է որոնվել որոնողական համակարգի որոնիչի կողմից, այն ինդեքսավորելու համար օգտագործվող տերմինները կանդրադառնան խանգարումներից, ինչը կդարձնի այն ավելի քիչ հավանական երևալու չխանգարված տերմինների որոնումից: Այսպիսով, հնարավոր է թաքցնել փաստաթղթերը որոնման համակարգերից «պարզ տեսադաշտում»:

«Որպես դիմումի օրինակ, անազնիվ ընկերությունը կարող է թաքցնել բացասական տեղեկատվությունը իր ֆինանսական փաստաթղթերում, որպեսզի ֆոնդային վերլուծաբանների կողմից օգտագործվող մասնագետ որոնողական համակարգերը չկարողանան վերցնել այն»:

Միակ սցենարները, որոնցում «անտեսանելի կերպարների» հարձակումն ավելի քիչ արդյունավետ է եղել, թունավոր բովանդակության, Անվանված էության ճանաչման (NER) և տրամադրությունների վերլուծության մոդելների դեմ են: Հեղինակները ենթադրում են, որ դա կա՛մ այն ​​պատճառով է, որ մոդելները վերապատրաստվել են տվյալների վրա, որոնք պարունակում են նաև անտեսանելի նիշեր, կամ մոդելի նշանաբանը (որը բաժանում է հում լեզվի մուտքագրումը մոդուլային բաղադրիչների) արդեն կազմաձևված է անտեսելու դրանք:

2. Հոմոգլիֆներ

Հոմոգլիֆը կերպար է, որը նման է մեկ այլ կերպարի. իմաստային թուլություն, որն օգտագործվել է 2000 թվականին՝ ստեղծելու համար խարդախության կրկնօրինակը PayPal վճարումների մշակման տիրույթից:

Թղթի այս հիպոթետիկ օրինակում հոմոգլիֆի հարձակումը փոխում է թարգմանության իմաստը՝ փոխարինելով տեսողականորեն չտարբերվող հոմոգլիֆներով (կարմիրով ուրվագծված) սովորական լատիներեն տառերով:

Թղթի այս հիպոթետիկ օրինակում հոմոգլիֆի հարձակումը փոխում է թարգմանության իմաստը՝ փոխարինելով տեսողականորեն չտարբերվող հոմոգլիֆներով (կարմիրով ուրվագծված) սովորական լատիներեն տառերով:

Հեղինակները մեկնաբանում են*.

«Մենք պարզել ենք, որ մեքենայական ուսուցումը մոդելավորում է այդ գործընթացը Օգտագործողի կողմից տրամադրված տեքստերը, ինչպիսիք են նեյրոնային մեքենաների թարգմանության համակարգերը, հատկապես խոցելի են հարձակման այս ոճի նկատմամբ: Դիտարկենք, օրինակ, շուկայի առաջատար ծառայությունը Գուգլ թարգմանիչ. Գրելու պահին մուտքագրելով տողը «paypal» անգլերենում ռուսական մոդելին ճիշտ է դուրս բերում»PayPaլ», բայց փոխարինող լատինատառ a նիշը կիրիլյան գրանշանի հետ մուտքագրման մեջ а սխալ է դուրս բերում «папа» (անգլերեն «հայր»):'

Հետազոտողները նկատում են, որ չնայած NLP խողովակաշարերից շատերը կփոխարինեն նիշերը, որոնք իրենց լեզվին հատուկ բառարանից դուրս են («անհայտ») նշան, ծրագրային գործընթացները, որոնք թունավորված տեքստը կանչում են խողովակաշար, կարող են անհայտ բառեր տարածել գնահատման համար, նախքան այս անվտանգության միջոցը սկսելը: Հեղինակները նշում են, որ սա «բացում է զարմանալիորեն մեծ հարձակման մակերես».

3. Վերադասավորումներ

Յունիկոդը թույլ է տալիս լեզուներ, որոնք գրված են ձախից աջ՝ յունիկոդի Երկուղղորդության կողմից մշակված դասավորությամբ (ԲԻԴԻ) ալգորիթմ. Հետևաբար, մեկ տողի մեջ աջից ձախ և ձախից աջ նիշերը խառնելը շփոթեցնող է, և Unicode-ը թույլ է տվել դա՝ թույլ տալով BIDI-ին փոխարինել հատուկ կառավարման նիշերով: Սրանք հնարավորություն են տալիս գրեթե կամայական մատուցում ֆիքսված կոդավորման կարգի համար:

Թղթի մեկ այլ տեսական օրինակում թարգմանության մեխանիզմ է առաջանում թարգմանված տեքստի բոլոր տառերը սխալ հերթականությամբ դնելու համար, քանի որ այն ենթարկվում է սխալ աջից ձախ/ձախից աջ կոդավորմանը՝ որոշ մասի պատճառով: հակառակորդի սկզբնաղբյուր տեքստի (շրջանաձևով), որը պատվիրում է դա անել:

Թղթի մեկ այլ տեսական օրինակում թարգմանության մեխանիզմ է առաջանում թարգմանված տեքստի բոլոր տառերը սխալ հերթականությամբ դնելու համար, քանի որ այն ենթարկվում է սխալ աջից ձախ/ձախից աջ կոդավորմանը՝ որոշ մասի պատճառով: հակառակորդի սկզբնաղբյուր տեքստի (շրջանաձևով), որը պատվիրում է դա անել:

Հեղինակները նշում են, որ հոդվածը գրելու պահին մեթոդն արդյունավետ է եղել Chromium վեբ բրաուզերում Unicode-ի ներդրման դեմ, Google-ի Chrome բրաուզերի, Microsoft-ի Edge բրաուզերի և մի շարք այլ պատառաքաղների վերին հոսքի աղբյուրի դեմ:

Also: Deնջումներ

Ներառված է այստեղ, որպեսզի հետագա արդյունքների գրաֆիկները պարզ լինեն, ջնջումներ հարձակումը ներառում է նիշ, որը ներկայացնում է backspace կամ տեքստի վրա ազդող այլ հսկողություն/հրաման, որը արդյունավետորեն իրականացվում է լեզվի ընթերցման համակարգի կողմից՝ տեքստային մակրոյի նման ոճով:

Հեղինակները նշում են.

«Յունիկոդում հսկիչ նիշերի փոքր քանակությունը կարող է առաջացնել հարևան տեքստը պետք է հեռացվի: Ամենապարզ օրինակներն են backspace (BS) և delete (DEL) նիշերը: Գոյություն ունի նաև փոխադրման վերադարձ (CR), որը ստիպում է տեքստի վերարտադրման ալգորիթմը վերադառնալ տողի սկզբին և վերագրել դրա բովանդակությունը:

― Համար օրինակ, կոդավորված տեքստ, որը ներկայացնում է «Բարև CRհրաժեշտ Աշխարհ»-ը կարտացոլվի որպես «Ցտեսություն աշխարհ»:

Ինչպես նշվեց ավելի վաղ, այս հարձակումը գործնականում պահանջում է անհավանական հասանելիության մակարդակ՝ աշխատելու համար, և լիովին արդյունավետ կլինի միայն այն դեպքում, երբ տեքստը պատճենված և տեղադրվում է clipboard-ի միջոցով՝ համակարգված, թե ոչ.

Հետազոտողները փորձարկեցին այն ամեն դեպքում, և այն համեմատելի է իր կայուն գործընկերների հետ: Այնուամենայնիվ, հարձակումները, օգտագործելով առաջին երեք մեթոդները, կարող են իրականացվել պարզապես փաստաթղթերի կամ վեբ էջերի վերբեռնման միջոցով (որոնողական համակարգերի և/կամ վեբ-քերծող NLP խողովակաշարերի դեմ հարձակման դեպքում):

Ջնջումների հարձակման ժամանակ մշակված նիշերը արդյունավետորեն ջնջում են այն, ինչ նախորդում է իրենց, կամ հակառակ դեպքում ստիպում են մեկ տողով տեքստը դնել երկրորդ պարբերություն, երկու դեպքում էլ՝ դա ակնհայտ չդարձնելով պատահական ընթերցողին:

Ջնջումների հարձակման ժամանակ մշակված նիշերը արդյունավետորեն ջնջում են այն, ինչ նախորդում է իրենց, կամ հակառակ դեպքում ստիպում են մեկ տողով տեքստը դնել երկրորդ պարբերություն, երկու դեպքում էլ՝ դա ակնհայտ չդարձնելով պատահական ընթերցողին:

Արդյունավետություն ներկայիս NLP համակարգերի դեմ

Հետազոտողները մի շարք աննպատակային և նպատակային հարձակումներ են իրականացրել Facebook-ի, IBM-ի, Microsoft-ի, Google-ի և HuggingFace-ի հինգ հայտնի փակ կոդով մոդելների վրա, ինչպես նաև երեք բաց կոդով մոդելների վրա:

Նրանք նաև փորձարկեցին «սպունգային» հարձակումներ մոդելների դեմ. Սպունգային հարձակումը արդյունավետորեն DoS հարձակում է NLP համակարգերի համար, որտեղ մուտքագրված տեքստը «չի հաշվարկվում» և հանգեցնում է ուսուցման խիստ դանդաղեցմանը. գործընթաց, որը սովորաբար անհնար է դառնում տվյալների նախնական մշակման արդյունքում:

Գնահատված NLP-ի հինգ առաջադրանքներն էին մեքենայական թարգմանությունը, թունավոր բովանդակության հայտնաբերումը, տեքստային բովանդակության դասակարգումը, անվանված միավորի ճանաչումը և տրամադրությունների վերլուծությունը:

Փորձարկումներն իրականացվել են անորոշ թվով Tesla P100 GPU-ների վրա, որոնցից յուրաքանչյուրն աշխատում է Intel Xeon Silver 4110 պրոցեսորով Ubuntu-ի միջոցով: API-ի զանգեր կատարելու դեպքում ծառայության պայմանները չխախտելու համար փորձերը կրկնվել են միատեսակ՝ զրոյական (չազդված աղբյուրի տեքստ) մինչև հինգ (առավելագույն խափանում) խաթարման բյուջեով: Հետազոտողները պնդում են, որ իրենց ստացած արդյունքները կարող են գերազանցվել, եթե թույլատրվեն ավելի մեծ թվով կրկնություններ:

Facebook-ի Fairseq EN-FR մոդելի դեմ հակառակորդ օրինակների կիրառման արդյունքները:

Facebook-ի դեմ հակառակորդ օրինակների կիրառման արդյունքները Fairseq EN-FR մոդել.

IBM-ի թունավոր բովանդակության դասակարգչի և Google-ի Perspective API-ի դեմ հարձակումների արդյունքները:

IBM-ի դեմ հարձակումների արդյունքները թունավոր բովանդակության դասակարգիչ եւ Google-ի Perspective API.

Երկու հարձակում Facebook-ի Fairseq-ի դեմ. «ոչ նպատակային» նպատակն է խանգարել, մինչդեռ «թիրախայինը» նպատակ ունի փոխել թարգմանված լեզվի իմաստը:

Երկու հարձակում Facebook-ի Fairseq-ի դեմ. «ոչ նպատակային» նպատակն է խանգարել, մինչդեռ «թիրախայինը» նպատակ ունի փոխել թարգմանված լեզվի իմաստը:

Հետազոտողները հետագայում փորձարկեցին իրենց համակարգը նախկին շրջանակների վրա, որոնք ի վիճակի չէին նույն ձևով ստեղծել «մարդկանց ընթեռնելի» անհանգստացնող տեքստ, և գտան, որ համակարգը մեծապես համարժեք է դրանց, և հաճախ նկատելիորեն ավելի լավը, մինչդեռ պահպանելով գաղտնիության հսկայական առավելությունը:

Միջին արդյունավետությունը բոլոր մեթոդների, հարձակման վեկտորների և թիրախների համար սավառնում է մոտ 80%, շատ քիչ կրկնություններով:

Մեկնաբանելով արդյունքները՝ հետազոտողները ասում են.

«Մեր աննկատ անհանգստացնող հարձակումների, թերևս, ամենաանհանգստացնող կողմը դրանց լայն կիրառելիությունն է. մեր փորձարկված տեքստի վրա հիմնված NLP համակարգերը ենթակա են: Իրոք, մեքենայական ուսուցման ցանկացած մոդել, որը կլանում է օգտագործողի կողմից տրամադրված տեքստը որպես մուտքագրում, տեսականորեն խոցելի է այս հարձակման համար:

«Հակառակորդային հետևանքները կարող են տարբեր լինել մեկ հավելվածից մյուսը և մի մոդելից մյուսը, սակայն տեքստի վրա հիմնված բոլոր մոդելները հիմնված են կոդավորված տեքստի վրա, և ամբողջ տեքստը ենթակա է հակառակորդի կոդավորման, եթե կոդավորումը պատշաճ կերպով սահմանափակված չէ»:

Համընդհանուր օպտիկական նիշերի ճանաչում:

Այս հարձակումները կախված են նրանից, թե որոնք են արդյունավետորեն «խոցելի» Unicode-ում, և դրանք կկանխվեն NLP խողովակաշարում, որը պատկերացնում է ամբողջ մուտքային տեքստը և օգտագործում է օպտիկական նիշերի ճանաչումը որպես մաքրման միջոց: Այդ դեպքում, նույն ոչ չարամիտ իմաստային իմաստը, որը տեսանելի է այս անհանգիստ հարձակումները կարդացող մարդկանց համար, կփոխանցվի NLP համակարգին:

Այնուամենայնիվ, երբ հետազոտողները իրականացրել են OCR խողովակաշար այս տեսությունը ստուգելու համար, նրանք պարզել են, որ BLEU (Երկլեզու գնահատման Understudy) միավորները նվազեցրին ելակետային ճշգրտությունը 6.2%-ով և ենթադրում են, որ բարելավված OCR տեխնոլոգիաները հավանաբար անհրաժեշտ կլինեն դա շտկելու համար:

Նրանք նաև առաջարկում են, որ BIDI-ի կառավարման նիշերը պետք է լռելյայն կերպով հեռացվեն մուտքագրումից, արտասովոր հոմոգլիֆները քարտեզագրվեն և ինդեքսավորվեն (որը նրանք բնութագրում են որպես «վախեցնող խնդիր»), իսկ ցուցիչները և ներթափանցման այլ մեխանիզմները զինված լինեն անտեսանելի նիշերի դեմ:

Եզրափակելով՝ հետազոտական ​​խումբը հորդորում է NLP հատվածին ավելի զգոն դառնալ հակառակորդի հարձակման հնարավորությունների նկատմամբ, որը ներկայումս մեծ հետաքրքրություն է ներկայացնում համակարգչային տեսողության հետազոտության մեջ:

«[Մենք] խորհուրդ ենք տալիս, որ բոլոր ընկերությունները, որոնք կառուցում և տեղակայում են տեքստի վրա հիմնված NLP համակարգեր, կիրառեն նման պաշտպանություն, եթե նրանք ցանկանում են, որ իրենց ծրագրերն ուժեղ լինեն չարամիտ գործող անձանց դեմ»:

 

 

* Ներքին մեջբերումների իմ փոխակերպումը հիպերհղումների

18:08 14 թվականի դեկտեմբերի 2021 – հեռացվել է IBM-ի կրկնօրինակ հիշատակումը, մեջբերումից տեղափոխվել է ավտոմատ ներքին հղում – MA