Kecerdasan Buatan

Menyerang Sistem Pemrosesan Bahasa Alami Dengan Contoh Adversarial

Updated on Desember 9, 2022

Para peneliti di Inggris dan Kanada telah menyusun serangkaian serangan permusuhan kotak hitam terhadap sistem Pemrosesan Bahasa Alami (NLP) yang efektif terhadap berbagai kerangka kerja pemrosesan bahasa populer, termasuk sistem yang digunakan secara luas dari Google, Facebook, IBM, dan Microsoft.

Serangan ini berpotensi digunakan untuk melumpuhkan sistem terjemahan pembelajaran mesin dengan memaksa mereka menghasilkan hasil yang tidak masuk akal, atau benar-benar mengubah sifat terjemahan; untuk menghambat pelatihan model NLP; salah mengklasifikasikan konten beracun; untuk meracuni hasil mesin pencari dengan menyebabkan kesalahan pengindeksan; menyebabkan mesin pencari gagal mengidentifikasi konten berbahaya atau negatif yang dapat dibaca dengan sempurna oleh seseorang; dan bahkan menyebabkan serangan Denial-of-Service (DoS) pada kerangka NLP.

Meskipun penulis telah mengungkapkan kerentanan yang diusulkan makalah tersebut kepada berbagai pihak yang tidak disebutkan namanya yang produknya ditampilkan dalam penelitian, mereka menganggap bahwa industri NLP lamban dalam melindungi diri dari serangan musuh. Makalah itu menyatakan:

'Serangan ini mengeksploitasi fitur pengkodean bahasa, seperti karakter tak terlihat dan homoglyph. Meskipun mereka kadang-kadang terlihat di masa lalu dalam penipuan spam dan phishing, para perancang dari banyak sistem NLP yang sekarang digunakan dalam skala besar tampaknya telah mengabaikannya sama sekali.'

Beberapa serangan dilakukan sebagai 'kotak hitam' lingkungan yang bisa didapat – melalui panggilan API ke sistem MLaaS, daripada versi FOSS yang dipasang secara lokal dari kerangka kerja NLP. Dari kemanjuran gabungan sistem, penulis menulis:

'Semua percobaan dilakukan dalam pengaturan kotak hitam di mana evaluasi model yang tidak terbatas diizinkan, tetapi mengakses bobot atau status model yang dinilai tidak diizinkan. Ini mewakili salah satu model ancaman terkuat yang memungkinkan serangan di hampir semua pengaturan, termasuk terhadap penawaran Machine-Learning-as-a-Service (MLaaS) komersial. Setiap model yang diperiksa rentan terhadap serangan gangguan yang tidak terlihat.

'Kami percaya bahwa penerapan serangan ini secara teori harus digeneralisasikan ke model NLP berbasis teks apa pun tanpa pertahanan yang memadai.'

Grafik kertas berjudul Karakter Buruk: Serangan NLP yang Tak Terlihat, dan berasal dari tiga peneliti di tiga departemen di University of Cambridge dan University of Edinburgh, dan seorang peneliti dari University of Toronto.

Judul makalah ini patut dicontoh: diisi dengan karakter Unicode 'tak terlihat' yang membentuk dasar dari salah satu dari empat metode serangan prinsip yang diadopsi oleh para peneliti.

Bahkan judul makalah itu menyimpan misteri yang tersembunyi.

Metode/dtk

Makalah ini mengusulkan tiga metode serangan utama yang efektif: karakter yang tidak terlihat; homoglif; Dan pemesanan ulang. Ini adalah metode 'universal' yang ditemukan para peneliti memiliki jangkauan luas terhadap kerangka kerja NLP dalam skenario kotak hitam. Metode tambahan, yang melibatkan penggunaan a hapus karakter, ditemukan oleh para peneliti hanya cocok untuk pipa NLP yang tidak biasa yang menggunakan clipboard sistem operasi.

1: Karakter Tak Terlihat

Serangan ini menggunakan karakter yang disandikan dalam font yang tidak dipetakan ke Glyph di sistem Unicode. Sistem Unicode dirancang untuk membakukan teks elektronik, dan sekarang mencakup 143,859 karakter dalam berbagai bahasa dan grup simbol. Banyak dari pemetaan ini tidak akan berisi karakter apa pun yang terlihat dalam font (yang secara alami tidak dapat menyertakan karakter untuk setiap kemungkinan entri di Unicode).

Dari makalah, contoh hipotetis serangan menggunakan karakter tak terlihat, yang membagi kata-kata menjadi segmen-segmen yang tidak berarti apa-apa bagi sistem Pemrosesan Bahasa Alami, atau, jika dibuat dengan hati-hati, dapat berarti sesuatu yang berbeda dengan terjemahan yang akurat. Untuk pembaca biasa, teks aslinya sudah benar.

Dari makalah tersebut, contoh hipotetis serangan menggunakan karakter tak terlihat, yang membagi kata masukan menjadi segmen yang tidak berarti apa-apa bagi sistem Pemrosesan Bahasa Alami, atau, jika dibuat dengan hati-hati, dapat mencegah terjemahan yang akurat. Untuk pembaca biasa, teks asli dalam kedua kasus tersebut adalah benar. Sumber: https://arxiv.org/pdf/2106.09898.pdf

Biasanya, Anda tidak bisa hanya menggunakan salah satu dari non-karakter ini untuk membuat ruang dengan lebar nol, karena sebagian besar sistem akan merender simbol 'placeholder' (seperti persegi atau tanda tanya dalam kotak bersudut) untuk mewakili karakter yang tidak dikenal.

Namun, seperti yang diamati oleh makalah ini, hanya segelintir font yang mendominasi kancah komputasi saat ini, dan, tidak mengherankan, mereka cenderung mengikuti standar Unicode.

Oleh karena itu para peneliti memilih glif Unifont GNU untuk percobaan mereka, sebagian karena 'cakupan yang kuat' dari Unicode, tetapi juga karena terlihat seperti banyak font 'standar' lain yang kemungkinan dimasukkan ke sistem NLP. Meskipun karakter tak terlihat yang dihasilkan dari Unifont tidak dirender, mereka tetap dihitung sebagai karakter terlihat oleh sistem NLP yang diuji.

Aplikasi
Kembali ke judul 'buatan' dari makalah itu sendiri, kita dapat melihat bahwa melakukan pencarian Google dari teks yang dipilih tidak mencapai hasil yang diharapkan:

Ini adalah efek sisi klien, tetapi konsekuensi sisi server sedikit lebih serius. Makalah ini mengamati:

'Meskipun dokumen yang terganggu dapat dirayapi oleh perayap mesin telusur, istilah yang digunakan untuk mengindeksnya akan terpengaruh oleh gangguan tersebut, membuatnya lebih kecil kemungkinannya untuk muncul dari pencarian pada istilah yang tidak terganggu. Dengan demikian dimungkinkan untuk menyembunyikan dokumen dari mesin pencari "di depan mata".

'Sebagai contoh penerapannya, sebuah perusahaan yang tidak jujur dapat menutupi informasi negatif dalam laporan keuangannya sehingga mesin pencari khusus yang digunakan oleh analis saham gagal mengambilnya.'

Satu-satunya skenario di mana serangan 'karakter tak terlihat' terbukti kurang efektif adalah terhadap konten beracun, Pengenalan Entitas Bernama (NER), dan model analisis sentimen. Penulis mendalilkan bahwa ini karena model dilatih pada data yang juga berisi karakter tak terlihat, atau tokenizer model (yang memecah input bahasa mentah menjadi komponen modular) sudah dikonfigurasi untuk mengabaikannya.

2: Homoglif

Homoglyph adalah karakter yang terlihat seperti karakter lain – kelemahan semantik yang dieksploitasi pada tahun 2000 untuk membuat replika penipuan dari domain pemrosesan pembayaran PayPal.

Dalam contoh hipotetis dari makalah ini, serangan homoglyph mengubah arti terjemahan dengan mengganti homoglyph yang tidak dapat dibedakan secara visual (diuraikan dengan warna merah) untuk karakter Latin yang umum.

Komentar penulis*:

'Kami telah menemukan model pembelajaran mesin yang memproses teks yang disediakan pengguna, seperti sistem terjemahan mesin saraf, sangat rentan terhadap gaya serangan ini. Pertimbangkan, misalnya, layanan yang memimpin pasar penerjemah Google. Pada saat penulisan, masukkan string “pembayaranl” dalam bahasa Inggris ke model Rusia dengan benar menampilkan "Paypal”, tetapi menggantikan karakter latin a di input dengan karakter Cyrillic а salah menampilkan “папа” (“ayah” dalam bahasa Inggris).'

Para peneliti mengamati bahwa sementara banyak saluran pipa NLP akan mengganti karakter yang berada di luar kamus khusus bahasa mereka dengan ('tidak dikenal'), proses perangkat lunak yang memanggil teks beracun ke dalam pipa dapat menyebarkan kata-kata yang tidak dikenal untuk evaluasi sebelum tindakan keamanan ini dapat diterapkan. Penulis menyatakan bahwa ini 'membuka permukaan serangan yang sangat besar'.

3: Penyusunan ulang

Unicode memungkinkan bahasa yang ditulis dari kiri ke kanan, dengan pengurutan ditangani oleh Bidirectional Unicode (BIDI) algoritma. Oleh karena itu, mencampur karakter kanan-ke-kiri dan kiri-ke-kanan dalam satu string membingungkan, dan Unicode telah mengizinkan hal ini dengan mengizinkan BIDI untuk diganti oleh karakter kontrol khusus. Ini memungkinkan rendering yang hampir sewenang-wenang untuk pengurutan pengkodean tetap.

Dalam contoh teoretis lain dari makalah tersebut, mekanisme penerjemahan disebabkan untuk menempatkan semua huruf dari teks terjemahan dalam urutan yang salah, karena mengikuti pengkodean kanan-ke-kiri/kiri-ke-kanan yang salah, karena sebagian dari teks sumber permusuhan (dilingkari) yang memerintahkannya untuk melakukannya.

Para penulis menyatakan bahwa pada saat penulisan makalah, metode ini efektif melawan implementasi Unicode di browser web Chromium, sumber upstream untuk browser Google Chrome, browser Microsoft Edge, dan cukup banyak fork lainnya.

Juga: Penghapusan

Disertakan disini agar grafik hasil selanjutnya jelas, yaitu penghapusan serangan melibatkan termasuk karakter yang mewakili backspace atau kontrol / perintah lain yang mempengaruhi teks, yang secara efektif diterapkan oleh sistem membaca bahasa dalam gaya yang mirip dengan makro teks.

Para penulis mengamati:

'Sejumlah kecil karakter kontrol di Unicode dapat menyebabkan teks tetangga yang akan dihapus. Contoh paling sederhana adalah karakter backspace (BS) dan delete (DEL). Ada juga carriage return (CR) yang menyebabkan algoritma rendering teks kembali ke awal baris dan menimpa isinya.

'Untuk misalnya, teks yang disandikan yang mewakili “Halo CRSelamat tinggal World” akan diterjemahkan sebagai “Selamat tinggal Dunia".'

Seperti yang dinyatakan sebelumnya, serangan ini secara efektif membutuhkan tingkat akses yang tidak mungkin untuk bekerja, dan hanya akan efektif sepenuhnya dengan teks yang disalin dan ditempelkan melalui papan klip, secara sistematis atau tidak – pipa penyerapan NLP yang tidak biasa.

Para peneliti tetap mengujinya, dan kinerjanya sebanding dengan teman sekandangnya. Namun, serangan yang menggunakan tiga metode pertama dapat diimplementasikan hanya dengan mengunggah dokumen atau halaman web (dalam kasus serangan terhadap mesin telusur dan/atau pipa NLP pengikisan web).

Dalam serangan penghapusan, karakter yang dibuat secara efektif menghapus apa yang mendahuluinya, atau memaksa teks satu baris menjadi paragraf kedua, dalam kedua kasus tanpa membuatnya jelas bagi pembaca biasa.

Efektivitas Terhadap Sistem NLP Saat Ini

Para peneliti melakukan serangkaian serangan yang tidak ditargetkan dan ditargetkan pada lima model sumber tertutup populer dari Facebook, IBM, Microsoft, Google, dan HuggingFace, serta tiga model sumber terbuka.

Mereka juga diuji serangan 'spons' terhadap model. Serangan spons secara efektif merupakan serangan DoS untuk sistem NLP, di mana teks input 'tidak menghitung', dan menyebabkan pelatihan menjadi sangat lambat – sebuah proses yang biasanya dibuat tidak mungkin dilakukan oleh pra-pemrosesan data.

Lima tugas NLP yang dievaluasi adalah terjemahan mesin, deteksi konten beracun, klasifikasi keterlibatan tekstual, pengenalan entitas bernama, dan analisis sentimen.

Pengujian dilakukan pada sejumlah GPU Tesla P100 yang tidak ditentukan, masing-masing menjalankan CPU Intel Xeon Silver 4110 melalui Ubuntu. Agar tidak melanggar persyaratan layanan dalam hal membuat panggilan API, percobaan diulangi secara seragam dengan anggaran gangguan dari nol (teks sumber tidak terpengaruh) hingga lima (gangguan maksimum). Para peneliti berpendapat bahwa hasil yang mereka peroleh dapat dilampaui jika jumlah iterasi yang lebih besar diperbolehkan.

Hasil dari penerapan contoh permusuhan terhadap model Fairseq EN-FR Facebook.

Hasil dari menerapkan contoh permusuhan terhadap Facebook Fairseq Model EN-FR.

Hasil dari serangan terhadap pengklasifikasi konten beracun IBM dan API Perspektif Google.

Hasil dari serangan terhadap IBM pengklasifikasi konten beracun dan Google API Perspektif.

Dua serangan terhadap Fairseq Facebook: 'tidak ditargetkan' bertujuan untuk mengganggu, sementara 'ditargetkan' bertujuan untuk mengubah arti bahasa terjemahan.

Para peneliti lebih lanjut menguji sistem mereka terhadap kerangka kerja sebelumnya yang tidak mampu menghasilkan teks mengganggu yang 'dapat dibaca manusia' dengan cara yang sama, dan menemukan sistem sebagian besar setara dengan ini, dan seringkali lebih baik, sambil mempertahankan keuntungan besar dari stealth.

Efektivitas rata-rata di semua metode, vektor serangan, dan target berada di sekitar 80%, dengan iterasi yang sangat sedikit.

Mengomentari hasil, para peneliti mengatakan:

'Mungkin aspek yang paling mengganggu dari serangan gangguan tak terlihat kami adalah penerapannya yang luas: semua sistem NLP berbasis teks yang kami uji rentan. Memang, setiap model pembelajaran mesin yang mencerna teks yang disediakan pengguna sebagai input secara teoritis rentan terhadap serangan ini.

'Implikasi permusuhan dapat bervariasi dari satu aplikasi ke yang lain dan dari satu model ke model lain, tetapi semua model berbasis teks didasarkan pada teks yang dikodekan, dan semua teks tunduk pada pengkodean permusuhan kecuali pengkodean dibatasi dengan sesuai.'

Pengenalan Karakter Optik Universal?

Serangan-serangan ini bergantung pada 'kerentanan' yang efektif di Unicode, dan akan dihindarkan dalam pipa NLP yang meraster semua teks yang masuk dan menggunakan Pengenalan Karakter Optik sebagai tindakan sanitasi. Dalam hal itu, makna semantik non-ganas yang sama yang terlihat oleh orang yang membaca serangan yang terganggu ini akan diteruskan ke sistem NLP.

Namun, ketika para peneliti mengimplementasikan pipa OCR untuk menguji teori ini, mereka menemukan bahwa BLEU (Siswa Evaluasi Bilingual) skor menurunkan akurasi dasar sebesar 6.2%, dan menunjukkan bahwa teknologi OCR yang lebih baik mungkin diperlukan untuk memperbaikinya.

Mereka lebih lanjut menyarankan bahwa karakter kontrol BIDI harus dihapus dari input secara default, homoglyph yang tidak biasa dipetakan dan diindeks (yang mereka anggap sebagai 'tugas yang menakutkan'), dan tokenizer dan mekanisme penyerapan lainnya dipersenjatai melawan karakter yang tidak terlihat.

Sebagai penutup, kelompok peneliti mendesak sektor NLP untuk lebih waspada terhadap kemungkinan serangan permusuhan, yang saat ini merupakan bidang yang sangat diminati dalam penelitian visi komputer.

'[Kami] merekomendasikan bahwa semua perusahaan yang membangun dan menggunakan sistem NLP berbasis teks menerapkan pertahanan seperti itu jika mereka ingin aplikasi mereka kuat terhadap aktor jahat.'

* Konversi kutipan inline saya ke hyperlink

18:08 14 Desember 2021 – menghapus duplikat penyebutan IBM, memindahkan tautan internal otomatis dari kutipan – MA

Berikutnya

Algoritma Memprediksi Konsumsi Daya Prosesor Sangat Cepat

Jangan Miss

Tenaga Kerja yang 'Tak Terlihat', Seringkali Tidak Bahagia Yang Memutuskan Masa Depan AI

Martin Anderson

Penulis tentang pembelajaran mesin, kecerdasan buatan, dan data besar.
Situs pribadi: martinanderson.ai
Kontak: [email dilindungi]
Twitter: @manders_ai