Connect with us

Sudut Anderson

Mengidentifikasi Pencurian Model AI Melalui Data Pelacakan Rahasia

mm
George Washington winking and smiling on the one dollar bill. Source: https://en.wikipedia.org/wiki/Marked_bill + Flux Edit and Adobe Firefly V3

Metode baru dapat menyematkan tanda air secara diam-diam pada model seperti ChatGPT dalam hitungan detik tanpa pelatihan ulang, tidak meninggalkan jejak pada keluaran umum dan bertahan dari semua upaya penghapusan yang memungkinkan.

 

Perbedaan halus antara tanda air dan ‘umpan hak cipta’ adalah bahwa tanda air – baik yang terang-terangan maupun tersembunyi – biasanya dimaksudkan untuk muncul di seluruh suatu koleksi (seperti kumpulan gambar) sebagai hambatan yang ada di mana-mana untuk penyalinan biasa.

Sebaliknya, entri fiktif adalah segmen kecil teks, biasanya sebuah kata atau definisi yang ditampilkan dalam koleksi besar dan relatif generik, yang dirancang untuk membuktikan pencurian. Gagasannya adalah bahwa ketika keseluruhan karya disalin secara tidak sah, baik itu sendiri atau sebagai dasar untuk karya turunan, kehadiran fakta ‘unik’ dan palsu, yang ditanamkan oleh pemilik aslinya, akan dengan mudah mengungkap tindakan pencurian.

Dalam hal menambahkan tanda air ke Large Language Models (LLM) dan Vision Language Models (VLM), sejauh mana keluaran dimaksudkan untuk mengandung tanda-tanda pengenal ini sering terbagi di antara dua tujuan ini: untuk memastikan bahwa semua atau sebagian besar keluaran mengandung tanda air yang nyata atau laten; atau untuk memastikan bahwa ‘token rahasia’ dapat dipulihkan yang membuktikan pencurian – tetapi yang tidak muncul dalam keluaran reguler dari model tersebut.

Bobot Bukti

Pendekatan terakhir dibahas dalam kolaborasi baru yang menarik antara China, Italia, dan Singapura; sebuah karya yang bertujuan untuk menyediakan metode pengungkapan seperti itu untuk model sumber terbuka, sehingga mereka tidak dapat dengan mudah dikomersialkan, atau digunakan dengan cara lain yang tidak diizinkan oleh lisensi aslinya.

Misalnya, lisensi asli sebuah model mungkin bersikeras bahwa siapa pun dapat mengambil untung dari karya tersebut asalkan mereka membuat perubahan atau amandemen mereka sendiri tersedia untuk umum di bawah ketentuan lisensi yang sama murah hati – tetapi sebuah perusahaan mungkin ingin mengunci ‘penyesuaian’ mereka (seperti versi yang disesuaikan), untuk menghasilkan parit pertahanan di mana sebenarnya tidak ada yang diizinkan.

Sebagian besar penelitian dalam bidang ini berkutat dengan rutinitas deteksi yang terkait dengan model tertutup, hanya-API, atau model yang hanya bobot yang dioptimalkan (terkuantisasi) yang tersedia; dan karenanya lebih sulit untuk diedit dan diubah secara efisien dengan cara yang diusulkan makalah baru ini (karena tidak ada akses langsung ke arsitektur model itu sendiri).

Perhatian pada rilis FOSS ini, mungkin, tidak mengejutkan dari sektor penelitian China, karena keluaran AI China selama setahun terakhir ditandai dengan rilis bobot penuh* yang murah hati dari model yang setidaknya menyaingi padanan Barat yang lebih ‘terkunci’.

Pendekatan baru, berjudul EditMark, membedakan dirinya dengan tidak mengharuskan model untuk disesuaikan untuk menambahkan data ‘beracun’, maupun dilatih dari awal dengan data yang disertakan.

Writer on machine learning, domain specialist in human image synthesis. Former head of research content at Metaphysic.ai.
Personal site: martinanderson.ai
Contact: [email protected]
Twitter: @manders_ai