Yapay Zeka

Doğal Dil İşleme Sistemlerine Düşman Örneklerle Saldırmak

Yayınlanan 14 Aralık 2021

Güncellenmiş 9 Aralık 2022

Martin Anderson

Birleşik Krallık ve Kanada'daki araştırmacılar, Doğal Dil İşleme (NLP) sistemlerine karşı, Google, Facebook, IBM ve Microsoft'un yaygın olarak kullanılan sistemleri de dahil olmak üzere çok çeşitli popüler dil işleme çerçevelerine karşı etkili olan bir dizi kara kutu düşmanca saldırı tasarladılar.

Saldırı, potansiyel olarak makine öğrenimi çeviri sistemlerini saçmalık üretmeye veya çevirinin doğasını değiştirmeye zorlayarak sekteye uğratmak için kullanılabilir; NLP modellerinin eğitiminin darboğazına; toksik içeriğin yanlış sınıflandırılması; hatalı indekslemeye neden olarak arama motoru sonuçlarını zehirlemek; arama motorlarının, bir kişi tarafından mükemmel bir şekilde okunabilen kötü amaçlı veya olumsuz içeriği tespit edememesine neden olmak; ve hatta NLP çerçevelerine Hizmet Reddi (DoS) saldırılarına neden olmak.

Yazarlar, makalenin önerilen güvenlik açıklarını araştırmada yer alan ürünleri adı verilmeyen çeşitli taraflara açıklamış olsalar da, NLP sektörünün kendisini düşmanca saldırılara karşı korumada geride kaldığını düşünüyorlar. Makalede şöyle deniyor:

'Bu saldırılar, görünmez karakterler ve homoglifler gibi dil kodlama özelliklerini istismar ediyor. Geçmişte spam ve kimlik avı dolandırıcılıklarında ara sıra görülseler de, şu anda büyük ölçekte dağıtılan birçok NLP sisteminin tasarımcıları bunları tamamen görmezden gelmiş gibi görünüyor.'

Saldırıların birçoğu, mümkün olan en "kara kutu" ortamında, yani NLP çerçevelerinin yerel olarak kurulu FOSS sürümleri yerine, MLaaS sistemlerine API çağrıları yoluyla gerçekleştirildi. Yazarlar, sistemlerin birleşik etkinliği hakkında şunları yazıyor:

Tüm deneyler, sınırsız model değerlendirmelerine izin verilen, ancak değerlendirilen modelin ağırlıklarına veya durumuna erişime izin verilmeyen bir kara kutu ortamında gerçekleştirildi. Bu, ticari Hizmet Olarak Makine Öğrenimi (MLaaS) teklifleri dahil olmak üzere neredeyse tüm ortamlarda saldırıların mümkün olduğu en güçlü tehdit modellerinden birini temsil eder. İncelenen her model, algılanamayan pertürbasyon saldırılarına karşı savunmasızdı.

'Bu saldırıların uygulanabilirliğinin teoride yeterli savunma mekanizmalarının olmadığı herhangi bir metin tabanlı NLP modeline genelleştirilebileceğine inanıyoruz.'

The kâğıt başlıklı Kötü Karakterler: Algılanamayan NLP Saldırıları, ve Cambridge Üniversitesi ve Edinburgh Üniversitesi'ndeki üç bölümdeki üç araştırmacıdan ve Toronto Üniversitesi'nden bir araştırmacıdan geliyor.

Makalenin başlığı örnek niteliğinde: Araştırmacıların benimsediği dört temel saldırı yönteminden birinin temelini oluşturan 'algılanamayan' Unicode karakterleriyle dolu.

Gazetenin başlığı bile sırları saklıyor.

Makalenin başlığı bile gizli sırlar barındırıyor.

Yöntem/ler

Makale, üç temel etkili saldırı yöntemi önermektedir: görünmez karakterler; homoglifler; Ve yeniden sıralamalarBunlar, araştırmacıların kara kutu senaryolarında NLP çerçevelerine karşı geniş bir etki alanına sahip olduğunu tespit ettikleri 'evrensel' yöntemlerdir. Bir ek yöntem, silmek karakterin, araştırmacılar tarafından yalnızca işletim sistemi panosundan yararlanan olağandışı NLP işlem hatları için uygun olduğu bulundu.

1: Görünmez Karakterler

Bu saldırı, Unicode sisteminde bir Glif ile eşleşmeyen bir yazı tipinde kodlanmış karakterler kullanır. Unicode sistemi, elektronik metni standart hale getirmek için tasarlandı ve şimdi birden çok dilde ve simge grubunda 143,859 karakteri kapsıyor. Bu eşlemelerin çoğu, bir yazı tipinde herhangi bir görünür karakter içermeyecektir (bu, doğal olarak, Unicode'daki her olası giriş için karakter içeremez).

Makaleden, sözcükleri Doğal Dil İşleme sistemi için hiçbir anlam ifade etmeyen veya dikkatlice hazırlanmışsa doğru bir çeviriden farklı bir anlama gelebilecek parçalara ayıran görünmez karakterlerin kullanıldığı varsayımsal bir saldırı örneği. Sıradan okuyucu için orijinal metin doğrudur.

Makaleden, girdi sözcüklerini bir Doğal Dil İşleme sistemi için hiçbir anlam ifade etmeyen veya dikkatlice hazırlanmışsa doğru bir çeviriyi önleyebilecek parçalara bölen görünmez karakterlerin kullanıldığı varsayımsal bir saldırı örneği. Gündelik okuyucu için, orijinal metin her iki durumda da doğrudur. Kaynak: https://arxiv.org/pdf/2106.09898.pdf

Genellikle, sıfır genişlikte bir boşluk oluşturmak için bu karakterlerden yalnızca birini kullanamazsınız, çünkü çoğu sistem tanınmayan karakteri temsil etmek için bir 'yer tutucu' sembol (örneğin açılı bir kutudaki bir kare veya soru işareti) oluşturur.

Bununla birlikte, makalenin gözlemlediği gibi, mevcut bilgi işlem ortamına yalnızca küçük bir avuç yazı tipi hakimdir ve şaşırtıcı olmayan bir şekilde Unicode standardına uyma eğilimindedirler.

Bu nedenle araştırmacılar, deneyleri için GNU'nun Unifont gliflerini seçtiler. Bunun nedeni kısmen Unicode'u "güçlü bir şekilde kapsaması", ancak aynı zamanda NLP sistemlerine aktarılması muhtemel diğer "standart" yazı tiplerinin çoğuna benzemesiydi. Unifont tarafından üretilen görünmez karakterler işlenmese de, test edilen NLP sistemleri tarafından görünür karakterler olarak kabul ediliyorlar.

Uygulamalar
Makalenin 'hazırlanmış' başlığına geri dönersek, seçilen metinden Google araması yapmanın beklenen sonucu vermediğini görebiliriz:

Bu, istemci tarafı bir etkidir, ancak sunucu tarafı sonuçları biraz daha ciddidir. Kağıt şunları gözlemliyor:

"Tehlikeli bir belge bir arama motorunun gezgini tarafından taranabilse bile, onu dizine eklemek için kullanılan terimler, bozulmalardan etkilenecek ve bu da, bozulmamış terimlerle yapılan bir aramada görünme olasılığını azaltacaktır." Böylece belgeleri arama motorlarından "göz önünde" gizlemek mümkündür.

'Örnek bir uygulama olarak, dürüst olmayan bir şirket, finansal dosyalarındaki olumsuz bilgileri gizleyerek, hisse senedi analistlerinin kullandığı özel arama motorlarının bunları tespit etmesini engelleyebilir.'

'Görünmez karakterler' saldırısının daha az etkili olduğu tek senaryolar, toksik içerik, Adlandırılmış Varlık Tanıma (NER) ve duygu analizi modelleriydi. Yazarlar, bunun ya modellerin görünmez karakterler de içeren verilerle eğitilmiş olmasından ya da modelin belirteç ayırıcısının (ham dil girdisini modüler bileşenlere ayıran) bunları yok sayacak şekilde yapılandırılmış olmasından kaynaklandığını öne sürüyor.

2: Homoglifler

Homoglif, başka bir karaktere benzeyen bir karakterdir - 2000 yılında bir anlam oluşturmak için istismar edilen anlamsal bir zayıflık. dolandırıcılık kopyası PayPal ödeme işleme etki alanı.

Makaleden alınan bu varsayımsal örnekte, bir homoglif saldırısı, yaygın Latin karakterleri yerine görsel olarak ayırt edilemeyen homoglifleri (kırmızıyla çevrelenmiş) değiştirerek bir çevirinin anlamını değiştirir.

Yazarların yorumu*:

"İşleyen makine öğrenimi modellerinin sinirsel makine çevirisi sistemleri gibi kullanıcı tarafından sağlanan metinler bu tür saldırılara karşı özellikle savunmasızdır. Örneğin, pazar lideri hizmeti düşünün Google Translate. Yazma sırasında, “ dizesini girmekpaypal” İngilizce Rus modeline göre doğru çıktılar “Paypal”, ancak değiştiriliyor Kiril karakterli girişteki Latin karakteri a а "папа" ("baba" İngilizce'de) kelimesini yanlış bir şekilde çıktı olarak veriyor.'

Araştırmacılar, birçok NLP ardışık düzeninin, dile özgü sözlüklerinin dışındaki karakterleri bir başkasıyla değiştireceğini gözlemliyor. ('bilinmeyen') belirteci, zehirli metni boru hattına çağıran yazılım süreçleri, bu güvenlik önlemi devreye girmeden önce değerlendirme için bilinmeyen kelimeleri yayabilir. Yazarlar, bunun 'şaşırtıcı derecede büyük bir saldırı yüzeyi açar'.

3: Yeniden Sıralamalar

Unicode, dillerin soldan sağa yazılmasına izin verir ve sıralama Unicode'un Çift Yönlü (BIDI) algoritması. Sağdan sola ve soldan sağa karakterleri tek bir dizide karıştırmak bu nedenle kafa karıştırıcıdır ve Unicode, BIDI'nin özel kontrol karakterleri tarafından geçersiz kılınmasına izin vererek buna izin vermiştir. Bunlar, sabit bir kodlama sıralaması için neredeyse keyfi işlemeyi etkinleştirir.

Makaleden başka bir teorik örnekte, bir çeviri mekanizması, bir parçadan dolayı sağdan sola/soldan sağa yanlış kodlamaya uyduğundan, çevrilmiş metnin tüm harflerini yanlış sıraya koymasına neden olmaktadır. bunu yapmasını emreden rakip kaynak metnin (daire içine alınmış).

Yazarlar, makalenin yazıldığı sırada, yöntemin Chromium web tarayıcısındaki Unicode uygulamasına, Google'ın Chrome tarayıcısının kaynak koduna, Microsoft'un Edge tarayıcısına ve diğer birçok forka karşı etkili olduğunu belirtmektedirler.

Ayrıca: Silme işlemleri

Sonraki sonuç grafiklerinin net olması için buraya dahil edilmiştir. silme saldırı, dil okuma sistemi tarafından bir metin makrosuna benzer bir tarzda etkili bir şekilde uygulanan, bir geri almayı veya metni etkileyen başka bir denetimi/komutu temsil eden bir karakter eklemeyi içerir.

Yazarlar şunları gözlemliyor:

'Unicode'da az sayıda kontrol karakteri neden olabilir komşu metin kaldırılacak. En basit örnekler geri silme (BS) ve silme (DEL) karakterleridir. Metin oluşturma algoritmasının satırın başına dönmesine ve içeriğinin üzerine yazmasına neden olan satır başı (CR) da vardır.

'İçin örneğin, "Merhaba"yı temsil eden kodlanmış metin CRElveda World”, “Goodbye” olarak dönüştürülecek Dünya".'

Daha önce belirtildiği gibi, bu saldırı etkili bir şekilde çalışması için olası olmayan bir erişim düzeyi gerektirir ve yalnızca sistematik olarak veya sistematik olarak veya olmayan bir pano aracılığıyla kopyalanıp yapıştırılan metinle tamamen etkili olabilir - alışılmadık bir NLP alım hattı.

Araştırmacılar onu yine de test etti ve istikrarlı arkadaşlarıyla karşılaştırılabilir bir performans sergiliyor. Ancak, ilk üç yöntemi kullanan saldırılar, yalnızca belgeler veya web sayfaları yükleyerek gerçekleştirilebilir (arama motorlarına ve/veya web kazıyıcı NLP ardışık düzenlerine yönelik bir saldırı olması durumunda).

Bir silme saldırısında, hazırlanmış karakterler kendilerinden önce gelenleri etkili bir şekilde siler veya tek satırlık metni ikinci bir paragrafa zorlar, her iki durumda da bunu sıradan okuyucuya açık hale getirmeden.

Mevcut NLP Sistemlerine Karşı Etkililik

Araştırmacılar, Facebook, IBM, Microsoft, Google ve HuggingFace'in beş popüler kapalı kaynak modelinin yanı sıra üç açık kaynak modelinde bir dizi hedefsiz ve hedefli saldırı gerçekleştirdi.

Onlar da test etti 'sünger' saldırıları Modellere karşı. Bir sünger saldırısı, NLP sistemleri için aslında bir DoS saldırısıdır; burada giriş metni 'hesaplanmaz' ve eğitimin kritik derecede yavaşlamasına neden olur; bu süreç normalde veri ön işlemeyle imkansız hale getirilmelidir.

Değerlendirilen beş NLP görevi, makine çevirisi, zehirli içerik tespiti, metinsel gereklilik sınıflandırması, adlandırılmış varlık tanıma ve duyarlılık analizi idi.

Testler, her biri Ubuntu üzerinden Intel Xeon Silver 100 CPU çalıştıran, belirtilmemiş sayıda Tesla P4110 GPU üzerinde gerçekleştirildi. API çağrıları yapılması durumunda hizmet şartlarını ihlal etmemek için deneyler, sıfır (etkilenmeyen kaynak metin) ile beş (maksimum kesinti) arasında bir pertürbasyon bütçesiyle tek tip olarak tekrarlandı. Araştırmacılar, daha fazla sayıda yinelemeye izin verilirse elde ettikleri sonuçların aşılabileceğini iddia ediyorlar.

Facebook'un Fairseq EN-FR modeline karşı rakip örneklerin uygulanmasından elde edilen sonuçlar.

Facebook'a karşı düşmanca örneklerin uygulanmasından elde edilen sonuçlar Fairseq ENFR modeli.

IBM'in zehirli içerik sınıflandırıcısına ve Google'ın Perspective API'sine yönelik saldırılardan kaynaklanır.

IBM'e yönelik saldırıların sonuçları toksik içerik sınıflandırıcı ve Google'ın Perspektif API'si.

Facebook'un Fairseq'ine yönelik iki saldırı: 'hedeflenmemiş', bozmayı amaçlarken, 'hedeflenmiş', çevrilen dilin anlamını değiştirmeyi amaçlar.

Facebook'un Fairseq'ine yönelik iki saldırı: 'hedefsiz' bozmayı hedeflerken, 'hedefli' çevrilen dilin anlamını değiştirmeyi hedefliyor.

Araştırmacılar, sistemlerini aynı şekilde 'insan tarafından okunabilir' rahatsız edici metin üretemeyen önceki çerçevelere karşı test ettiler ve sistemin bunlarla büyük ölçüde aynı seviyede olduğunu, hatta çoğu zaman belirgin şekilde daha iyi olduğunu, buna karşın gizliliğin sağladığı büyük avantajı koruduğunu buldular.

Tüm yöntemler, saldırı vektörleri ve hedefler arasındaki ortalama etkinlik, çok az yinelemeyle %80 civarındadır.

Sonuçlar hakkında yorum yapan araştırmacılar şunları söylüyor:

"Belki de algılanamayan pertürbasyon saldırılarımızın en rahatsız edici yönü, geniş uygulanabilirliğidir: test ettiğimiz tüm metin tabanlı NLP sistemleri duyarlıdır. Aslında, kullanıcı tarafından sağlanan metni girdi olarak alan herhangi bir makine öğrenimi modeli, teorik olarak bu saldırıya karşı savunmasızdır.

'Çatışmalı çıkarımlar bir uygulamadan diğerine ve bir modelden diğerine değişebilir, ancak tüm metin tabanlı modeller kodlanmış metne dayanır ve kodlama uygun şekilde sınırlandırılmadığı sürece tüm metinler çatışmalı kodlamaya tabidir.'

Evrensel Optik Karakter Tanıma?

Bu saldırılar, Unicode'daki fiili "zafiyetlere" dayanır ve gelen tüm metinleri rasterleştiren ve temizleme önlemi olarak Optik Karakter Tanıma'yı kullanan bir NLP hattıyla önlenebilir. Bu durumda, bu rahatsız edici saldırıları okuyan kişilerin görebileceği aynı kötü niyetli olmayan anlam, NLP sistemine aktarılır.

Ancak, araştırmacılar bu teoriyi test etmek için bir OCR ardışık düzeni uyguladığında, BLEU'nun (İki Dilli Değerlendirme Öğrencisi) puanları temel doğruluğu %6.2 oranında düşürdü ve bunu düzeltmek için geliştirilmiş OCR teknolojilerinin muhtemelen gerekli olacağını öne sürdü.

Ayrıca, BIDI kontrol karakterlerinin girdiden varsayılan olarak kaldırılmasını, alışılmadık homogliflerin haritalanıp indekslenmesini (ki bunu 'zorlu bir görev' olarak nitelendiriyorlar) ve simgeleştiriciler ile diğer alım mekanizmalarının görünmez karakterlere karşı silahlandırılmasını öneriyorlar.

Son olarak araştırma grubu, NLP sektörünü, şu anda bilgisayarlı görü araştırmalarında büyük ilgi gören bir alan olan düşmanca saldırı olasılıkları konusunda daha uyanık olmaya çağırıyor.

'[Biz] metin tabanlı NLP sistemleri oluşturan ve dağıtan tüm firmaların, uygulamalarının kötü niyetli aktörlere karşı dayanıklı olmasını istiyorlarsa bu tür savunmaları uygulamalarını öneriyoruz.'

* Satır içi alıntıları köprülere dönüştürmem

18:08 14 Aralık 2021 – IBM'den yinelenen söz kaldırıldı, otomatik dahili bağlantı alıntıdan taşındı – MA

Bir sonraki

Algoritma, İşlemci Güç Tüketimini İnanılmaz Hızlı Tahmin Ediyor

Kaçırmayın

Yapay Zekanın Geleceğine Karar Veren 'Görünmez', Genellikle Mutsuz İş Gücü