Kecerdasan Buatan

MARKLLM: Perangkat Sumber Terbuka untuk LLM Watermarking

Diterbitkan

1 tahun lalu

Juli 9, 2024

Kunal Kejriwal

MARKLLM: Perangkat Sumber Terbuka untuk LLM Watermarking

Watermarking LLM, yang mengintegrasikan sinyal yang tidak terlihat namun dapat dideteksi dalam keluaran model untuk mengidentifikasi teks yang dihasilkan oleh LLM, sangat penting untuk mencegah penyalahgunaan model bahasa besar. Teknik watermarking ini dibagi menjadi dua kategori: Keluarga KGW dan Keluarga Kristus. Keluarga KGW memodifikasi logit yang dihasilkan oleh LLM untuk membuat keluaran bertanda air dengan mengkategorikan kosakata ke dalam daftar hijau dan daftar merah berdasarkan token sebelumnya. Bias diperkenalkan ke logit token daftar hijau selama pembuatan teks, sehingga mendukung token ini dalam teks yang dihasilkan. Metrik statistik kemudian dihitung dari proporsi kata-kata hijau, dan ambang batas ditetapkan untuk membedakan antara teks yang diberi watermark dan yang tidak diberi watermark. Penyempurnaan pada metode KGW mencakup peningkatan partisi daftar, manipulasi logit yang lebih baik, peningkatan kapasitas informasi watermark, ketahanan terhadap serangan penghapusan watermark, dan kemampuan untuk mendeteksi watermark secara publik.

Sebaliknya, Keluarga Kristus mengubah proses pengambilan sampel selama pembuatan teks LLM, menyematkan tanda air dengan mengubah cara pemilihan token. Kedua kelompok watermarking bertujuan untuk menyeimbangkan pendeteksian watermark dengan kualitas teks, mengatasi tantangan seperti ketahanan dalam berbagai pengaturan entropi, meningkatkan kapasitas informasi watermark, dan menjaga terhadap upaya penghapusan. Penelitian terbaru berfokus pada menyempurnakan partisi daftar dan manipulasi logit), meningkatkan kapasitas informasi watermark, mengembangkan metode untuk menolak penghapusan watermark, dan memungkinkan deteksi publik. Pada akhirnya, watermarking LLM sangat penting untuk penggunaan yang etis dan bertanggung jawab model bahasa besar, menyediakan metode untuk melacak dan memverifikasi teks yang dihasilkan LLM. KGW dan Christ Families menawarkan dua pendekatan berbeda, masing-masing memiliki kekuatan dan penerapan unik, yang terus berkembang melalui penelitian dan inovasi berkelanjutan.

Karena kemampuan kerangka watermarking LLM untuk menyematkan sinyal yang dapat dideteksi secara algoritmik dalam keluaran model untuk mengidentifikasi teks yang dihasilkan oleh kerangka LLM memainkan peran penting dalam mengurangi risiko yang terkait dengan penyalahgunaan model bahasa besar. Namun, terdapat banyak sekali kerangka watermarking LLM di pasaran saat ini, masing-masing dengan perspektif dan prosedur evaluasinya sendiri, sehingga menyulitkan para peneliti untuk bereksperimen dengan kerangka ini dengan mudah. Untuk mengatasi masalah ini, MarkLLM, sebuah toolkit sumber terbuka untuk watermarking, menawarkan kerangka kerja yang dapat diperluas dan terpadu untuk mengimplementasikan algoritma watermarking LLM sambil menyediakan antarmuka yang ramah pengguna untuk memastikan kemudahan penggunaan dan akses. Selain itu, kerangka kerja MarkLLM mendukung visualisasi otomatis dari mekanisme kerangka kerja ini, sehingga meningkatkan pemahaman model-model ini. Kerangka kerja MarkLLM menawarkan rangkaian lengkap 12 alat yang mencakup tiga perspektif serta dua jalur evaluasi otomatis untuk mengevaluasi kinerjanya. Artikel ini bertujuan untuk membahas kerangka MarkLLM secara mendalam, dan kami mengeksplorasi mekanisme, metodologi, arsitektur kerangka kerja beserta perbandingannya dengan kerangka canggih. Jadi mari kita mulai.

MarkLLM: Perangkat Penandaan Air LLM

Munculnya kerangka model bahasa besar seperti LLaMA, GPT-4, ChatGPT, dan lainnya telah meningkatkan kemampuan model AI secara signifikan untuk melakukan tugas-tugas tertentu termasuk penulisan kreatif, pemahaman konten, pengambilan formasi, dan banyak lagi. Namun, seiring dengan manfaat luar biasa yang terkait dengan kemahiran luar biasa dari model bahasa besar saat ini, risiko tertentu telah muncul termasuk penulisan makalah akademis untuk orang lain, LLM menghasilkan berita dan penggambaran palsu, dan peniruan identitas individu. Mengingat risiko yang terkait dengan masalah ini, sangat penting untuk mengembangkan metode yang dapat diandalkan dengan kemampuan membedakan antara konten yang dihasilkan LLM dan konten manusia, yang merupakan persyaratan utama untuk memastikan keaslian komunikasi digital, dan mencegah penyebaran informasi yang salah. Selama beberapa tahun terakhir, watermarking LLM telah direkomendasikan sebagai salah satu solusi menjanjikan untuk membedakan konten yang dihasilkan LLM dari konten manusia, dan dengan menggabungkan fitur-fitur berbeda selama proses pembuatan teks, keluaran LLM dapat diidentifikasi secara unik menggunakan detektor yang dirancang khusus. Namun, karena proliferasi dan algoritma yang relatif kompleks pada kerangka watermarking LLM serta diversifikasi metrik dan perspektif evaluasi telah menjadikan sangat sulit untuk bereksperimen dengan kerangka kerja ini.

Untuk menjembatani kesenjangan yang ada, kerangka kerja MarkLLM berupaya memberikan kontribusi berikut ini. MARKLLM menawarkan antarmuka yang konsisten dan ramah pengguna untuk memuat algoritma, menghasilkan teks yang diberi watermark, melakukan proses deteksi, dan mengumpulkan data untuk visualisasi. Ini memberikan solusi visualisasi khusus untuk kedua kelompok algoritma watermarking utama, memungkinkan pengguna untuk melihat bagaimana algoritma yang berbeda bekerja dalam berbagai konfigurasi dengan contoh dunia nyata. Toolkit ini mencakup modul evaluasi komprehensif dengan 12 alat yang menangani dampak deteksi, ketahanan, dan kualitas teks. Selain itu, ia memiliki dua jenis jalur evaluasi otomatis yang mendukung penyesuaian pengguna terhadap kumpulan data, model, metrik evaluasi, dan serangan, sehingga memfasilitasi penilaian yang fleksibel dan menyeluruh. Didesain dengan arsitektur modular dan digabungkan secara longgar, MARKLLM meningkatkan skalabilitas dan fleksibilitas. Pilihan desain ini mendukung integrasi algoritma baru, teknik visualisasi inovatif, dan perluasan perangkat evaluasi oleh pengembang masa depan.

Banyak algoritma watermarking telah diusulkan, namun pendekatan penerapannya yang unik seringkali memprioritaskan persyaratan tertentu dibandingkan standardisasi, sehingga menyebabkan beberapa masalah

Kurangnya Standardisasi dalam Desain Kelas: Hal ini memerlukan upaya yang signifikan untuk mengoptimalkan atau memperluas metode yang ada karena desain kelas yang tidak terstandarisasi secara memadai.
Kurangnya Keseragaman dalam Antarmuka Panggilan Tingkat Atas: Antarmuka yang tidak konsisten membuat pemrosesan batch dan replikasi algoritma yang berbeda menjadi rumit dan memakan banyak tenaga.
Masalah Standar Kode: Tantangannya mencakup kebutuhan untuk mengubah pengaturan di beberapa segmen kode dan dokumentasi yang tidak konsisten, penyesuaian yang rumit, dan penggunaan yang efektif. Nilai-nilai yang dikodekan secara keras dan penanganan kesalahan yang tidak konsisten semakin menghambat upaya adaptasi dan debugging.

Untuk mengatasi masalah ini, perangkat kami menawarkan kerangka implementasi terpadu yang memungkinkan pemanggilan berbagai algoritme canggih dengan mudah dalam konfigurasi yang fleksibel. Selain itu, struktur kelas kami yang dirancang dengan cermat membuka jalan bagi perluasan di masa depan. Gambar berikut menunjukkan desain kerangka implementasi terpadu ini.

Karena desain distributif kerangka kerja ini, mudah bagi pengembang untuk menambahkan antarmuka tingkat atas tambahan ke kelas algoritma watermarking tertentu tanpa khawatir akan berdampak pada algoritma lain.

MarkLLM: Arsitektur dan Metodologi

Teknik watermarking LLM pada dasarnya dibagi menjadi dua kategori: Keluarga KGW dan Keluarga Kristus. Keluarga KGW memodifikasi logit yang dihasilkan oleh LLM untuk membuat keluaran bertanda air dengan mengkategorikan kosakata ke dalam daftar hijau dan daftar merah berdasarkan token sebelumnya. Bias diperkenalkan ke logit token daftar hijau selama pembuatan teks, sehingga mendukung token ini dalam teks yang dihasilkan. Metrik statistik kemudian dihitung dari proporsi kata-kata hijau, dan ambang batas ditetapkan untuk membedakan antara teks yang diberi watermark dan yang tidak diberi watermark. Penyempurnaan pada metode KGW mencakup peningkatan partisi daftar, manipulasi logit yang lebih baik, peningkatan kapasitas informasi watermark, ketahanan terhadap serangan penghapusan watermark, dan kemampuan untuk mendeteksi watermark secara publik.

Evaluasi Komprehensif Otomatis

Mengevaluasi algoritma watermarking LLM adalah tugas yang kompleks. Pertama, hal ini memerlukan pertimbangan berbagai aspek, termasuk kemampuan mendeteksi watermark, ketahanan terhadap gangguan, dan dampak terhadap kualitas teks. Kedua, evaluasi dari setiap perspektif mungkin memerlukan metrik, skenario serangan, dan tugas yang berbeda. Selain itu, melakukan evaluasi biasanya melibatkan beberapa langkah, seperti pemilihan model dan kumpulan data, pembuatan teks yang diberi tanda air, pasca-pemrosesan, deteksi tanda air, gangguan teks, dan perhitungan metrik. Untuk memfasilitasi evaluasi algoritma watermarking LLM yang nyaman dan menyeluruh, MarkLLM menawarkan dua belas alat yang mudah digunakan, termasuk berbagai kalkulator metrik dan penyerang yang mencakup tiga perspektif evaluasi yang disebutkan di atas. Selain itu, MARKLLM menyediakan dua jenis pipeline demo otomatis, yang modulnya dapat disesuaikan dan dirakit secara fleksibel, sehingga memudahkan konfigurasi dan penggunaan..

Untuk aspek keterdeteksian, sebagian besar algoritma watermarking pada akhirnya memerlukan penentuan ambang batas untuk membedakan antara teks yang diberi watermark dan yang tidak diberi watermark. Kami menyediakan kalkulator tingkat keberhasilan dasar menggunakan ambang batas tetap. Selain itu, untuk meminimalkan dampak pemilihan ambang batas terhadap kemampuan deteksi, kami juga menawarkan kalkulator yang mendukung pemilihan ambang batas dinamis. Alat ini dapat menentukan ambang batas yang menghasilkan skor F1 terbaik atau memilih ambang batas berdasarkan target tingkat positif palsu (FPR) yang ditentukan pengguna.

Untuk aspek ketahanan, MARKLLM menawarkan tiga serangan perusakan teks tingkat kata: penghapusan kata secara acak pada rasio tertentu, substitusi sinonim acak menggunakan WordNet sebagai kumpulan sinonim, dan substitusi sinonim sadar konteks yang menggunakan BERT sebagai model penyematan. Selain itu, dua serangan perusakan teks tingkat dokumen juga disediakan: memparafrasekan konteks melalui OpenAI API atau model Dipper. Untuk aspek kualitas teks, MARKLLM menawarkan dua alat analisis langsung: kalkulator kebingungan untuk mengukur kelancaran dan kalkulator keragaman untuk mengevaluasi variabilitas teks. Untuk menganalisis dampak watermarking pada utilitas teks dalam tugas hilir tertentu, kami menyediakan kalkulator BLEU untuk tugas terjemahan mesin dan penilai lulus atau tidak untuk tugas pembuatan kode. Selain itu, mengingat metode saat ini untuk membandingkan kualitas teks yang diberi watermark dan tidak diberi watermark, termasuk penggunaan LLM yang lebih kuat untuk penilaian, MarkLLM juga menawarkan diskriminator GPT, memanfaatkan GPT-4 untuk membandingkan kualitas teks.

Jalur Evaluasi

Untuk memfasilitasi evaluasi otomatis algoritma watermarking LLM, MARKLLM menyediakan dua jalur evaluasi: satu untuk menilai kemampuan deteksi watermark dengan dan tanpa serangan, dan satu lagi untuk menganalisis dampak algoritma ini terhadap kualitas teks. Setelah proses ini, kami telah menerapkan dua jalur pipa: WMDetect3 dan UWMDetect4. Perbedaan utama di antara keduanya terletak pada fase pembuatan teks. Yang pertama memerlukan penggunaan metode generate_watermarked_text dari algoritme watermarking, sedangkan yang kedua bergantung pada parameter text_source untuk menentukan apakah akan mengambil teks asli secara langsung dari kumpulan data atau memanggil metode generate_unwatermarked_text.

Untuk mengevaluasi dampak watermarking terhadap kualitas teks, dihasilkan pasangan teks yang diberi watermark dan tidak diberi watermark. Teks tersebut, bersama dengan masukan lain yang diperlukan, kemudian diproses dan dimasukkan ke dalam penganalisis kualitas teks yang ditunjuk untuk menghasilkan analisis terperinci dan hasil perbandingan. Setelah proses ini, kami telah menerapkan tiga alur untuk skenario evaluasi yang berbeda:

DirectQual.5: Pipeline ini dirancang khusus untuk menganalisis kualitas teks dengan membandingkan langsung karakteristik teks yang diberi watermark dengan teks yang tidak diberi watermark. Ini mengevaluasi metrik seperti kebingungan (PPL) dan keragaman log, tanpa memerlukan teks referensi eksternal apa pun.
RefQual.6: Saluran ini mengevaluasi kualitas teks dengan membandingkan teks yang diberi watermark dan tidak diberi watermark dengan teks referensi umum. Ini mengukur tingkat kemiripan atau penyimpangan dari teks referensi, sehingga ideal untuk skenario yang memerlukan tugas hilir tertentu untuk menilai kualitas teks, seperti terjemahan mesin dan pembuatan kode.
ExDisQual.7: Pipeline ini menggunakan penilai eksternal, seperti GPT-4 (OpenAI, 2023), untuk menilai kualitas teks yang diberi watermark dan tidak diberi watermark. Diskriminator mengevaluasi teks berdasarkan deskripsi tugas yang diberikan pengguna, mengidentifikasi potensi penurunan atau pelestarian kualitas karena watermarking. Metode ini sangat berguna ketika analisis lanjutan berbasis AI mengenai efek halus dari watermarking diperlukan.

MarkLLM: Eksperimen dan Hasil

Untuk mengevaluasi kinerjanya, kerangka kerja MarkLLM melakukan evaluasi terhadap sembilan algoritme berbeda, dan menilai dampak, ketahanan, dan kemampuan deteksinya terhadap kualitas teks.

Tabel di atas berisi hasil evaluasi penilaian keterdeteksian sembilan algoritma yang didukung di MarkLLM. Penyesuaian ambang batas dinamis digunakan untuk mengevaluasi kemampuan pendeteksian tanda air, dengan tiga pengaturan yang disediakan: di bawah target FPR sebesar 10%, di bawah target FPR sebesar 1%, dan di bawah kondisi untuk performa skor F1 yang optimal. 200 teks yang diberi watermark dihasilkan, sedangkan 200 teks yang tidak diberi watermark berfungsi sebagai contoh negatif. Kami memberikan skor TPR dan F1 di bawah penyesuaian ambang batas dinamis untuk FPR 10% dan 1%, bersama dengan TPR, TNR, FPR, FNR, P, R, F1, ACC pada kinerja optimal. Tabel berikut berisi hasil evaluasi penilaian ketahanan sembilan algoritma yang didukung di MarkLLM. Untuk setiap serangan, 200 teks yang diberi watermark dihasilkan dan kemudian dirusak, dengan tambahan 200 teks yang tidak diberi watermark sebagai contoh negatif. Kami melaporkan skor TPR dan F1 pada performa optimal dalam setiap keadaan.

Final Thoughts

Pada artikel ini, kita telah membahas tentang MarkLLM, perangkat sumber terbuka untuk watermarking yang menawarkan kerangka kerja yang dapat diperluas dan terpadu untuk mengimplementasikan algoritma watermarking LLM sambil menyediakan antarmuka yang ramah pengguna untuk memastikan kemudahan penggunaan dan akses. Selain itu, kerangka kerja MarkLLM mendukung visualisasi otomatis dari mekanisme kerangka kerja ini, sehingga meningkatkan pemahaman model-model ini. Kerangka kerja MarkLLM menawarkan rangkaian lengkap 12 alat yang mencakup tiga perspektif serta dua jalur evaluasi otomatis untuk mengevaluasi kinerjanya.

Berikutnya

Perintis Model Terbuka: Nvidia, Alibaba, dan Stability AI Mengubah Lanskap AI

Jangan Miss

Kompiler LLM Meta: Inovasi Pengoptimalan Kode dengan Desain Kompiler yang Didukung AI

Kunal Kejriwal

"Seorang insinyur berdasarkan profesi, seorang penulis dengan hati". Kunal adalah seorang penulis teknis dengan kecintaan mendalam & pemahaman AI dan ML, berdedikasi untuk menyederhanakan konsep kompleks di bidang ini melalui dokumentasinya yang menarik dan informatif.