Хиймэл оюун

Байгалийн хэл боловсруулах систем рүү сөрөг жишээнүүдээр халдаж байна

шинэчлэгдсэн on Арванхоёрдугаар сар 9, 2022

Их Британи, Канадын судлаачид Google, Facebook, IBM, Microsoft-ын өргөн тархсан системүүд зэрэг өргөн хүрээний хэл боловсруулах хүрээний эсрэг үр дүнтэй байгалийн хэл боловсруулах (NLP) системийн эсрэг хар хайрцагны эсрэг цуврал халдлага зохион бүтээжээ.

Энэхүү халдлагыг машин сургалтын орчуулгын системийг эвдэх, утгагүй зүйл гаргах эсвэл орчуулгын мөн чанарыг өөрчлөхөд хүчээр ашиглах боломжтой; NLP загваруудын сургалтанд саад учруулах; хортой бодисыг буруу ангилах; хайлтын системийн үр дүнг буруу индексжүүлэх замаар хордуулах; хайлтын систем нь хүний уншихад тохиромжтой хорлонтой эсвэл сөрөг агуулгыг илрүүлэхгүй байх; тэр ч байтугай NLP фреймворкууд дээр Үйлчилгээнээс татгалзах (DoS) халдлагад хүргэдэг.

Зохиогчид уг баримт бичигт санал болгож буй сул талуудыг судалгаанд тусгагдсан бүтээгдэхүүнүүд нь тодорхойгүй янз бүрийн талуудад илчилсэн ч NLP салбар нь сөрөг хүчний дайралтаас өөрийгөө хамгаалахад хоцрогдолтой байсан гэж тэд үзэж байна. Уг баримт бичигт:

'Эдгээр халдлага нь үл үзэгдэх тэмдэгтүүд, гомоглиф зэрэг хэлний кодчиллын функцуудыг ашигладаг. Өмнө нь хааяа спам болон фишинг залилан мэхлэхэд өртөж байсан ч одоо өргөн цар хүрээтэй хэрэглэгдэж байгаа олон NLP системийн зохион бүтээгчид үүнийг огт үл тоомсорлосон бололтой.'

Хэд хэдэн халдлага нь NLP фреймворкийн дотоодод суулгасан FOSS хувилбаруудаас илүүтэйгээр MLaaS систем рүү API дуудлага хийх замаар "хар хайрцаг" хэлбэрээр хийгдсэн. Системийн хосолсон үр ашгийн талаар зохиогчид дараахь зүйлийг бичжээ.

"Бүх туршилтыг хязгааргүй загварын үнэлгээ хийх боломжтой хар хайрцагт хийсэн боловч үнэлэгдсэн загварын жин эсвэл төлөвт хандахыг зөвшөөрдөггүй. Энэ нь арилжааны Machine-Learning-a-Service (MLaaS) саналуудыг оролцуулан бараг бүх тохиргоонд халдлага хийх боломжтой хамгийн хүчтэй аюул заналын загваруудын нэг юм. Шалгасан загвар бүр үл үзэгдэх цочролын халдлагад өртөмтгий байсан.

"Эдгээр халдлагыг ашиглах боломжтой байх нь онолын хувьд зохих хамгаалалтгүй аливаа текст дээр суурилсан NLP загварт ерөнхийлсөн байх ёстой гэж бид үзэж байна."

The цаасан гэсэн гарчигтай Муу дүрүүд: Үл мэдэгдэх NLP довтолгоонууд, Кембрижийн их сургууль, Эдинбургийн их сургуулийн гурван тэнхимийн гурван судлаач, Торонтогийн их сургуулийн судлаачаас бүрддэг.

Илтгэлийн гарчиг нь үлгэр жишээ юм: энэ нь судлаачдын баталсан довтолгооны дөрвөн үндсэн аргын аль нэгнийх нь үндэс болсон "үл анзаарагдах" Юникод тэмдэгтүүдээр дүүрэн байдаг.

Сонин гарчиг хүртэл нууцлаг зүйлсийг нуусан байдаг.

Арга/ууд

Уг баримт бичигт гурван үндсэн үр дүнтэй халдлагын аргыг санал болгож байна: үл үзэгдэх дүрүүд; гомоглиф, болон дахин захиалга. Эдгээр нь хар хайрцагны хувилбарт NLP хүрээний эсрэг өргөн хүрээг хамарч байгааг судлаачид олж тогтоосон "бүх нийтийн" аргууд юм. А-г ашиглах нэмэлт арга устгах шинж чанар нь зөвхөн үйлдлийн системийн санах ойг ашигладаг ер бусын NLP дамжуулах хоолойд тохиромжтой болохыг судлаачид тогтоосон.

1: Үл үзэгдэх дүрүүд

Энэ халдлага нь Юникод систем дэх Glyph-тэй тохирохгүй фонт дахь кодлогдсон тэмдэгтүүдийг ашигладаг. Юникод систем нь цахим текстийг стандартчилахад зориулагдсан бөгөөд одоо олон хэл, тэмдгийн бүлгүүдэд 143,859 тэмдэгтийг хамарч байна. Эдгээр зураглалуудын ихэнх нь үсгийн фонтын харагдахуйц тэмдэгтийг агуулаагүй (энэ нь Юникод дахь боломжит бүх оруулгад тэмдэгт оруулах боломжгүй).

Уг цааснаас үл үзэгдэх тэмдэгтүүдийг ашиглан үгсийг хэсэг болгон хувааж, байгалийн хэлний боловсруулалтын системд ямар ч утгагүй, эсвэл сайтар боловсруулсан бол үнэн зөв орчуулгаас өөр утгатай байж болох довтолгооны таамаглалын жишээ. Энгийн уншигчийн хувьд эх бичвэр нь зөв юм.

Энэхүү цаасан дээрээс, үл үзэгдэх тэмдэгтүүдийг ашиглан довтолгооны таамаглалын жишээг үзүүлэв. Энэ нь оруулгын үгсийг хэсэг болгон хувааж, байгалийн хэлний боловсруулалтын системд ямар ч утгагүй, эсвэл анхааралтай боловсруулсан бол үнэн зөв орчуулахаас сэргийлж чадна. Энгийн уншигчийн хувьд хоёр тохиолдолд эх текст нь зөв юм. Эх сурвалж: https://arxiv.org/pdf/2106.09898.pdf

Ихэнх системүүд "орлуулагч" тэмдгийг (өнцөгтэй хайрцагт дөрвөлжин эсвэл асуултын тэмдэг гэх мэт) илэрхийлдэг тул та эдгээр тэмдэгтүүдийн аль нэгийг нь тэг өргөнтэй зай үүсгэхийн тулд зүгээр л ашиглаж болохгүй. танигдаагүй дүр.

Гэсэн хэдий ч, цаасан дээр дурдсанчлан, зөвхөн цөөн тооны фонтууд нь одоогийн тооцоолох үзэгдэлд давамгайлж байгаа бөгөөд тэд Юникод стандартыг дагаж мөрдөх хандлагатай байдаг нь гайхмаар зүйл биш юм.

Тиймээс судлаачид туршилтдаа GNU-ийн Unifont фонтыг сонгосон нь зарим талаараа Юникодын "бат бөх хамрах хүрээ"-тэй холбоотой, гэхдээ NLP системүүдээр тэжээгддэг бусад олон "стандарт" фонтууд шиг харагдаж байгаатай холбоотой. Юнифонтоос бүтээгдсэн үл үзэгдэгч тэмдэгтүүд нь дүрслэгддэггүй ч шалгагдсан NLP системээр тэдгээрийг харагдах тэмдэгт гэж тооцдог.

Програм
Баримт бичгийн "бүтээсэн" гарчиг руу буцаж очиход бид сонгосон текстээс Google хайлт хийх нь хүлээгдэж буй үр дүнд хүрэхгүй байгааг харж болно.

Энэ нь үйлчлүүлэгчийн талын нөлөө боловч сервер талын үр дагавар нь арай илүү ноцтой юм. Уг цаасан дээр дурдсан байдаг:

"Хэдийгээр түгшүүртэй баримт бичгийг хайлтын системийн мөлхөгч мөлхөж болох ч түүнийг индексжүүлэхэд ашигласан нэр томьёо нь түгшүүрт нөлөөлж, хайхрамжгүй үг хэллэгээр хайлт хийх үед гарч ирэх магадлалыг бууруулна. Тиймээс хайлтын системээс баримт бичгийг "нүдэнд нь" нуух боломжтой.

"Жишээ нь, шударга бус компани санхүүгийн тайландаа сөрөг мэдээллийг нуун дарагдуулдаг тул хувьцааны шинжээчдийн ашигладаг тусгай хайлтын системүүд үүнийг авч чадахгүй."

"Үл үзэгдэх баатруудын дайралт"-ын үр дүн багатай байсан цорын ганц хувилбар нь хортой контент, Нэрлэсэн Байгууллага таних (NER) болон мэдрэмжийн шинжилгээний загваруудын эсрэг байсан. Зохиогчид энэ нь загваруудыг үл үзэгдэх тэмдэгтүүдийг агуулсан өгөгдөл дээр сургасан, эсвэл загварын токенизатор (түүхий хэлний оролтыг модульчлагдсан бүрэлдэхүүн хэсгүүдэд задалдаг) аль хэдийн тэдгээрийг үл тоомсорлохоор тохируулагдсан гэж үздэг.

2: Гомоглиф

Гомоглиф гэдэг нь өөр дүртэй төстэй дүр юм - 2000 онд утгын сул тал. луйврын хуулбар PayPal төлбөр боловсруулах домэйны.

Уг цаасан дээрх таамаглалын жишээн дээр гомоглифийн довтолгоо нь нийтлэг латин үсгийн оронд нүдээр ялгагдахгүй гомоглифийг (улаанаар дүрсэлсэн) орлуулах замаар орчуулгын утгыг өөрчилдөг.

Зохиогчид тайлбар*:

"Бид боловсруулдаг машин сургалтын загваруудыг олж мэдсэн Мэдрэлийн машин-орчуулгын систем гэх мэт хэрэглэгчийн нийлүүлсэн текстүүд ийм төрлийн халдлагад онцгой өртөмтгий байдаг. Жишээлбэл, зах зээлд тэргүүлэгч үйлчилгээг авч үзье Google Translate. Бичиж байх үед мөрийг оруулах "төлөхl” англиар Оросын загварт зөв гарна "PayPal”, гэхдээ сольж байна Кирилл үсгээр оролтод латин тэмдэгт a а "папа" (англиар "аав") гэж буруу гаргадаг.'

Судлаачдын ажигласнаар олон NLP шугамууд өөрсдийн хэлний тусгай толь бичгээс гадуур байгаа тэмдэгтүүдийг солих болно. ('үл мэдэгдэх') тэмдэгтэй бол хордуулсан текстийг дамжуулах хоолойд дуудах програм хангамжийн процессууд нь энэхүү аюулгүй байдлын арга хэмжээг эхлүүлэхээс өмнө үнэлгээний зорилгоор үл мэдэгдэх үгсийг түгээж болно. Зохиогчид үүнийг мэдэгдэв. "Гайхалтай том довтолгооны гадаргууг нээж байна".

3: Дахин захиалга

Юникод нь зүүнээс баруун тийш бичигдсэн хэлийг зөвшөөрдөг бөгөөд дарааллыг Юникодын Хоёр чиглэлт (BIDI) алгоритм. Нэг мөрөнд баруунаас зүүн болон зүүнээс баруун тийш тэмдэгтүүдийг холих нь ойлгомжгүй бөгөөд Юникод нь BIDI-г тусгай хяналтын тэмдэгтээр дарж бичихийг зөвшөөрснөөр үүнийг зөвшөөрчээ. Эдгээр нь тогтмол кодчилолын дарааллаар бараг дур зоргоороо дүрслэх боломжийг олгодог.

Баримт бичгийн өөр нэг онолын жишээнд орчуулгын механизм нь орчуулсан текстийн бүх үсгийг буруу дараалалд оруулахад хүргэдэг, учир нь энэ нь баруунаас зүүн тийш/зүүнээс баруун тийш буруу кодчилолд захирагдаж, нэг хэсэг нь эсрэг талын эх бичвэрийн (дугуйлсан) үүнийг хийхийг тушаасан.

Зохиогчид уг нийтлэлийг бичиж байх үед энэ арга нь Chromium вэб хөтөч, Google-ийн Chrome вэб хөтөч, Microsoft-ын Edge хөтөч болон бусад олон тооны сэрээний эх үүсвэрийн юникод үйлдлийн эсрэг үр дүнтэй байсан гэж мэдэгджээ.

Мөн: Устгах

Дараачийн үр дүнгийн графикууд тодорхой байхын тулд энд оруулав устгах довтолгоо нь текстийн макротой төстэй хэв маягаар хэл унших системээр үр дүнтэй хэрэгждэг backspace буюу текстэд нөлөөлөх бусад удирдлага/командыг төлөөлөх тэмдэгтийг багтаана.

Зохиогчид ажиглаж байна:

'Юникодын цөөн тооны хяналтын тэмдэгтүүд үүсгэж болно хөрш текстийг устгах. Хамгийн энгийн жишээ бол буцах (BS) болон устгах (DEL) тэмдэгтүүд юм. Текст дүрслэх алгоритмыг мөрийн эхэнд буцаж, агуулгыг нь дарж бичихэд хүргэдэг тэрэг буцаах (CR) бас байдаг.

'For Жишээ нь, “Сайн уу CRБаяртай Дэлхий” дууг “Баяртай Дэлхий”.'

Өмнө дурьдсанчлан, энэхүү халдлага нь ажиллахын тулд боломжийн түвшний хандалтыг үр дүнтэй шаарддаг бөгөөд зөвхөн NLP залгих дамжуулах шугамаар системтэй ч юм уу, санах ойн санах ойгоор хуулж, буулгахад л бүрэн үр дүнтэй байх болно.

Эрдэмтэд үүнийг ямар ч байсан туршиж үзсэн бөгөөд энэ нь бусад хүмүүстэй харьцуулахад харьцангуй өндөр үзүүлэлттэй байв. Гэсэн хэдий ч, эхний гурван аргыг ашигласан халдлагыг баримт бичиг эсвэл вэб хуудас байршуулах замаар л хийж болно (хайлтын систем болон/эсвэл NLP дамжуулах шугамын эсрэг халдлага гарсан тохиолдолд).

Устгах довтолгооны үед бүтээсэн дүрүүд нь өмнөх зүйлээ үр дүнтэй арилгадаг, эс бөгөөс нэг мөрт текстийг хоёр дахь догол мөрөнд хүчээр оруулдаг бөгөөд энэ нь энгийн уншигчдад ойлгомжтой болгодоггүй.

Одоогийн NLP системүүдийн эсрэг үр дүнтэй байдал

Судлаачид Facebook, IBM, Microsoft, Google, HuggingFace зэрэг алдартай хаалттай эхийн загварууд болон нээлттэй эхийн гурван загварт олон төрлийн зорилтот бус, зорилтот халдлага хийжээ.

Тэд бас туршиж үзсэн "хөвөн" халдлага загваруудын эсрэг. Хөвөн халдлага нь NLP системүүдийн DoS халдлага бөгөөд оролтын текст нь "тооцоодоггүй" бөгөөд сургалтыг ихээхэн удаашруулдаг бөгөөд энэ нь ихэвчлэн өгөгдлийг урьдчилан боловсруулах замаар боломжгүй болгодог.

Үнэлгээнд хамрагдсан NLP-ийн таван даалгавар нь машины орчуулга, хортой агуулгыг илрүүлэх, текстийн нөлөөллийн ангилал, нэр бүхий аж ахуйн нэгжийг таних, мэдрэмжийн дүн шинжилгээ юм.

Туршилтыг тодорхойгүй тооны Tesla P100 GPU дээр хийсэн бөгөөд тус бүр нь Ubuntu дээр Intel Xeon Silver 4110 CPU ажиллуулдаг. API дуудлага хийх тохиолдолд үйлчилгээний нөхцөлийг зөрчихгүйн тулд туршилтыг XNUMX-ээс (нөлөөлөхгүй эх текст) таваас (хамгийн их тасалдал) төөрөгдүүлэх төсвөөр жигд давтан хийсэн. Хэрэв олон тооны давталт хийхийг зөвшөөрвөл тэдний олж авсан үр дүнг давах боломжтой гэж судлаачид үзэж байна.

Facebook-ийн Fairseq EN-FR загварын эсрэг сөрөг жишээг хэрэглэсний үр дүн.

Facebook-ийн эсрэг сөрөг жишээг хэрэглэсний үр дүн Fairseq EN-FR загвар.

IBM-ийн хортой контент ангилагч болон Google-ийн Perspective API-ийн эсрэг халдлагын үр дүн.

IBM-ийн эсрэг халдлагын үр дүн хорт бодисын ангилагч болон Google-ийн Perspective API.

Facebook-ийн Fairseq-ын эсрэг хоёр халдлага: "зорилтотгүй" нь тасалдуулах зорилготой бол "зорилтот" нь орчуулагдсан хэлний утгыг өөрчлөх зорилготой.

Судлаачид өөрсдийн системийг "хүний уншигдахуйц" сэтгэл түгшээсэн текстийг ижил аргаар үүсгэж чадахгүй байсан өмнөх фрэймворкүүдтэй харьцуулан туршиж үзээд уг систем нь эдгээртэй ижил түвшинд байгаа бөгөөд ихэнхдээ үл үзэгдэх давуу талыг хадгалж үлддэг.

Бүх аргууд, довтолгооны векторууд болон зорилтуудын дундаж үр нөлөө нь маш цөөхөн давталттай 80% орчим байдаг.

Үр дүнгийн талаар судлаачид хэлэхдээ:

"Магадгүй бидний үл үзэгдэх цочролын халдлагын хамгийн сэтгэл түгшээсэн тал бол тэдгээрийн өргөн хэрэглээний боломж юм: бидний туршсан бүх текст дээр суурилсан NLP системүүд өртөмтгий байдаг. Үнэн хэрэгтээ, хэрэглэгчийн нийлүүлсэн текстийг оролт болгон ашигладаг машин сургалтын аливаа загвар нь онолын хувьд энэ халдлагад өртөмтгий байдаг.

'Сөргөлдөөний үр дагавар нь нэг хэрэглүүрээс нөгөөд, нэг загвараас нөгөөд өөр байж болох ч бүх текстэд суурилсан загварууд нь кодлогдсон текст дээр суурилдаг бөгөөд кодчилолд зохих хязгаарлалт байхгүй л бол бүх текст сөрөг кодчилолд хамаарна.'

Бүх нийтийн оптик тэмдэгтийг таних уу?

Эдгээр халдлага нь Юникодын үр дүнтэй "эмзэг" байдлаас шалтгаалдаг бөгөөд ирж буй бүх текстийг растержуулж, оптик тэмдэгт таних аргыг ариутгах арга болгон ашигласан NLP дамжуулах шугамаар арилгах болно. Энэ тохиолдолд эдгээр түгшүүртэй халдлагуудыг уншиж буй хүмүүст харагдахуйц муу бус семантик утгыг NLP системд шилжүүлэх болно.

Гэсэн хэдий ч судлаачид энэ онолыг шалгахын тулд OCR дамжуулах хоолойг хэрэгжүүлэхэд BLEU (Хоёр хэлний үнэлгээний туслах) оноо нь үндсэн нарийвчлалыг 6.2%-иар бууруулсан бөгөөд үүнийг засахын тулд сайжруулсан OCR технологийг ашиглах шаардлагатай гэж үзэж байна.

Тэд цаашлаад BIDI хяналтын тэмдэгтүүдийг өгөгдмөл байдлаар оруулахаас хасах, ер бусын гомоглифүүдийг буулгаж, индексжүүлэх (энэ нь "аймшигтай ажил" гэж тодорхойлогддог), токенизаторууд болон бусад залгих механизмуудыг үл үзэгдэх тэмдэгтүүдийн эсрэг зэвсэглэхийг санал болгож байна.

Төгсгөлд нь судалгааны бүлэг NLP салбарыг сөргөлдөөнтэй халдлагад өртөх боломжоос илүү сэрэмжтэй байхыг уриалж байгаа нь одоогоор компьютерийн харааны судалгаанд ихээхэн анхаарал хандуулж байна.

'[Бид] текстэд суурилсан NLP системийг бүтээж, байршуулж буй бүх пүүсүүд програмуудаа хорлонтой этгээдүүдийн эсрэг бат бөх байлгахыг хүсвэл ийм хамгаалалтыг хэрэгжүүлэхийг зөвлөж байна.'

* Миний доторх ишлэлүүдийг гипер холбоос руу хөрвүүлэх

18 оны 08-р сарын 14-ний 2021:XNUMX – IBM-ийн давхардсан дурдлагыг устгаж, үнийн саналаас автомат дотоод холбоосыг зөөв.

Дараа хүртэл

Алгоритм нь процессорын эрчим хүчний зарцуулалтыг гайхалтай хурдан урьдчилан таамаглаж байна

Бүү саад бол

Хиймэл оюун ухааны ирээдүйг шийддэг "Үл үзэгдэх", ихэвчлэн аз жаргалгүй ажиллах хүч

Мартин Андерсон

Машин сургалт, хиймэл оюун ухаан, том өгөгдлийн талаар зохиолч.
Хувийн сайт: martinanderson.ai
Холбоо барих: [имэйлээр хамгаалагдсан]
Twitter: @manders_ai