Connect with us

Sudut Anderson

Mengidentifikasi Pencurian Model AI Melalui Data Pelacakan Rahasia

mm
George Washington winking and smiling on the one dollar bill. Source: https://en.wikipedia.org/wiki/Marked_bill + Flux Edit and Adobe Firefly V3

Sebuah metode baru dapat menyembunyikan watermark model ChatGPT-like dalam hitungan detik tanpa pelatihan ulang, tanpa meninggalkan jejak dalam output umum dan bertahan dari semua upaya penghapusan yang memungkinkan.

 

Perbedaan halus antara watermarking dan ‘copyright-baiting’ adalah bahwa watermark – baik yang terbuka maupun tersembunyi – biasanya dimaksudkan untuk muncul di seluruh koleksi (seperti dataset gambar) sebagai hambatan untuk penyalinan kasual.

Berbeda dengan itu, sebuah entri fiksi adalah segmen teks kecil, biasanya sebuah kata atau definisi yang ditampilkan dalam koleksi besar dan relatif generik, dirancang untuk membuktikan pencurian. Ide ini adalah bahwa ketika keseluruhan karya disalin secara ilegal, baik secara langsung atau sebagai dasar untuk karya turunan, kehadiran ‘unik’ dan fakta palsu yang ditanam oleh pemilik asli akan dengan mudah mengungkapkan tindakan pencurian.

Dalam hal menambahkan watermark ke Model Bahasa Besar (LLM) dan Model Bahasa Visi (VLM), sejauh mana output dimaksudkan untuk mengandung tanda-tanda ini sering dibagi di antara dua tujuan: untuk memastikan bahwa semua atau sebagian besar output mengandung watermark yang jelas atau tersembunyi; atau untuk memastikan bahwa ‘token rahasia’ dapat dipulihkan yang membuktikan pencurian – tetapi yang tidak muncul dalam output reguler dari model.

Beban Bukti

Pendekatan kedua ini ditangani dalam kolaborasi baru yang menarik antara Cina, Italia, dan Singapura; sebuah karya yang bertujuan untuk menyediakan metode pengungkapan seperti itu untuk model sumber terbuka, sehingga mereka tidak dapat dengan mudah dikomersialisasikan, atau digunakan dengan cara yang tidak diizinkan oleh lisensi aslinya.

Misalnya, lisensi asli model mungkin menginsistensi bahwa siapa pun dapat memperoleh keuntungan dari karya selama mereka membuat perubahan atau amendemen tersedia secara publik di bawah lisensi yang sama, tetapi sebuah perusahaan mungkin ingin mengontrol ‘penyesuaian’ mereka (seperti versi fine-tuned), untuk menghasilkan parit di mana tidak ada yang benar-benar diizinkan.

Sebagian besar penelitian dalam garis ini ditempati oleh rutinitas deteksi yang terkait dengan model sumber tertutup, atau model untuk yang hanya dioptimalkan (berat) yang tersedia; dan yang oleh karena itu lebih sulit untuk diedit dan diubah dengan cara yang diusulkan oleh makalah baru (karena tidak ada akses langsung ke arsitektur model itu sendiri).

Perhatian ini terhadap rilis FOSS mungkin tidak mengejutkan dari sektor penelitian Cina, karena output AI Cina selama setahun terakhir telah ditandai dengan pelepasan penuh model yang setidaknya rivalse dengan ekivalen Barat yang lebih ‘terkunci’.

Pendekatan baru, yang berjudul EditMark, membedakan diri dengan tidak memerlukan bahwa model harus disesuaikan untuk menambahkan data ‘beracun’, atau dilatih dari awal dengan data yang disertakan.

Writer on machine learning, domain specialist in human image synthesis. Former head of research content at Metaphysic.ai.
Personal site: martinanderson.ai
Contact: [email protected]
Twitter: @manders_ai