Kecerdasan Buatan

Membatalkan Pembelajaran Data Hak Cipta Dari LLM Terlatih – Mungkinkah?

Diterbitkan

bulan 4 lalu

Januari 23, 2024

Dalam bidang kecerdasan buatan (AI) dan pembelajaran mesin (ML), model bahasa besar (LLM) menunjukkan pencapaian dan tantangan. Dilatih pada kumpulan data tekstual yang luas, model LLM merangkum bahasa dan pengetahuan manusia.

Namun kemampuan mereka untuk menyerap dan meniru pemahaman manusia menghadirkan tantangan hukum, etika, dan teknologi. Selain itu, kumpulan data besar yang mendukung LLM mungkin menyimpan materi beracun, teks berhak cipta, ketidakakuratan, atau data pribadi.

Membuat LLM melupakan data yang dipilih telah menjadi masalah mendesak untuk memastikan kepatuhan hukum dan tanggung jawab etika.

Mari kita jelajahi konsep membuat LLM melupakan data berhak cipta untuk menjawab pertanyaan mendasar: Apakah mungkin?

Mengapa LLM Unlearning Dibutuhkan?

LLM sering kali berisi data yang disengketakan, termasuk data berhak cipta. Memiliki data seperti itu di LLM menimbulkan tantangan hukum terkait dengan informasi pribadi, informasi yang bias, data hak cipta, dan elemen palsu atau berbahaya.

Oleh karena itu, penghentian pembelajaran sangat penting untuk menjamin bahwa LLM mematuhi peraturan privasi dan mematuhinya hak cipta hukum, mempromosikan LLM yang bertanggung jawab dan beretika.

Namun, mengekstraksi konten berhak cipta dari pengetahuan luas yang diperoleh model-model ini merupakan sebuah tantangan. Berikut adalah beberapa teknik unlearning yang dapat membantu mengatasi masalah ini:

Pemfilteran data: Hal ini melibatkan identifikasi secara sistematis dan penghapusan elemen berhak cipta, data yang bermasalah atau bias, dari data pelatihan model. Namun, pemfilteran dapat mengakibatkan potensi hilangnya informasi berharga yang tidak dilindungi hak cipta selama proses pemfilteran.
Metode gradien: Metode ini menyesuaikan parameter model berdasarkan gradien fungsi kerugian, mengatasi masalah data berhak cipta dalam model ML. Namun, penyesuaian dapat berdampak buruk terhadap kinerja model secara keseluruhan pada data yang tidak memiliki hak cipta.
Penghentian pembelajaran dalam konteks: Teknik ini secara efisien menghilangkan dampak titik pelatihan tertentu pada model dengan memperbarui parameternya tanpa memengaruhi pengetahuan yang tidak terkait. Namun, metode ini menghadapi keterbatasan dalam mencapai ketepatan unlearning, terutama dengan model berukuran besar, dan efektivitasnya memerlukan evaluasi lebih lanjut.

Teknik-teknik ini membutuhkan banyak sumber daya dan memakan waktu, sehingga sulit untuk diterapkan.

Studi Kasus

Untuk memahami pentingnya penghentian pembelajaran LLM, kasus-kasus dunia nyata ini menyoroti bagaimana perusahaan menghadapi tantangan hukum terkait model bahasa besar (LLM) dan data berhak cipta.

Tuntutan Hukum OpenAI: OpenAI, sebuah perusahaan AI terkemuka, telah terkena banyak dampak tuntutan hukum atas data pelatihan LLM. Tindakan hukum ini mempertanyakan pemanfaatan materi berhak cipta dalam pelatihan LLM. Selain itu, mereka juga telah memicu pertanyaan mengenai mekanisme yang digunakan model untuk mendapatkan izin bagi setiap karya berhak cipta yang diintegrasikan ke dalam proses pelatihan mereka.

Gugatan Sarah Silverman: Grafik Kasus Sarah Silverman melibatkan tuduhan bahwa model ChatGPT menghasilkan ringkasan bukunya tanpa izin. Tindakan hukum ini menggarisbawahi isu-isu penting mengenai masa depan AI dan data berhak cipta.

Memperbarui kerangka hukum agar selaras dengan kemajuan teknologi memastikan pemanfaatan model AI secara bertanggung jawab dan legal. Selain itu, komunitas riset harus mengatasi tantangan ini secara komprehensif untuk menjadikan LLM etis dan adil.

Teknik Unlearning LLM Tradisional

Penghapusan LLM seperti memisahkan bahan-bahan tertentu dari resep yang rumit, memastikan bahwa hanya komponen yang diinginkan yang berkontribusi pada hidangan akhir. Tradisional LLM berhenti belajar Teknik-teknik tersebut, seperti penyesuaian data yang telah dikurasi dan pelatihan ulang, tidak memiliki mekanisme yang jelas untuk menghapus data yang dilindungi hak cipta.

Pendekatan luas mereka sering kali terbukti tidak efisien dan menghabiskan banyak sumber daya untuk tugas canggih pelepasan pembelajaran selektif karena memerlukan pelatihan ulang yang ekstensif.

Meskipun metode tradisional ini dapat menyesuaikan parameter model, metode ini kesulitan untuk menargetkan konten berhak cipta secara tepat, sehingga berisiko kehilangan data yang tidak disengaja dan kepatuhan yang kurang optimal.

Akibatnya, keterbatasan teknik tradisional dan solusi yang kuat memerlukan eksperimen dengan teknik pelepasan pembelajaran alternatif.

Teknik Baru: Membatalkan Pembelajaran Subkumpulan Data Pelatihan

Grafik Makalah penelitian Microsoft memperkenalkan teknik inovatif untuk membatalkan pembelajaran data berhak cipta di LLM. Berfokus pada contoh model Llama2-7b dan buku Harry Potter, metode ini melibatkan tiga komponen inti untuk membuat LLM melupakan dunia Harry Potter. Komponen-komponen ini meliputi:

Identifikasi model yang diperkuat: Membuat model yang diperkuat melibatkan penyesuaian data target (misalnya, Harry Potter) untuk memperkuat pengetahuannya tentang konten yang belum dipelajari.
Mengganti ekspresi istimewa: Ekspresi unik Harry Potter dalam data target diganti dengan ekspresi umum, sehingga memfasilitasi pemahaman yang lebih umum.
Menyempurnakan prediksi alternatif: Model dasar mengalami penyesuaian berdasarkan prediksi alternatif ini. Pada dasarnya, ini secara efektif menghapus teks asli dari memorinya ketika dihadapkan dengan konteks yang relevan.

Meskipun teknik Microsoft masih dalam tahap awal dan mungkin memiliki keterbatasan, teknik ini mewakili kemajuan yang menjanjikan menuju LLM yang lebih kuat, etis, dan mudah beradaptasi.

Hasil Teknik Novel

Metode inovatif untuk membuat LLM melupakan data berhak cipta yang disajikan di Makalah penelitian Microsoft adalah langkah menuju model yang bertanggung jawab dan etis.

Teknik baru ini melibatkan penghapusan konten terkait Harry Potter dari model Llama2-7b Meta, yang diketahui telah dilatih pada kumpulan data “books3” yang berisi karya berhak cipta. Khususnya, tanggapan asli model tersebut menunjukkan pemahaman yang rumit tentang alam semesta JK Rowling, bahkan dengan petunjuk umum.

Namun, Microsoft teknik yang diusulkan secara signifikan mengubah tanggapannya. Berikut adalah contoh petunjuk yang menunjukkan perbedaan mencolok antara model Llama2-7b asli dan versi yang telah disempurnakan.

Sumber gambar

Tabel ini mengilustrasikan bahwa model unlearning yang telah disesuaikan mempertahankan performanya di berbagai tolok ukur (seperti Hellaswag, Winogrande, piqa, boolq, dan arc).

Sumber gambar

Metode evaluasi, yang mengandalkan petunjuk model dan analisis respons selanjutnya, terbukti efektif namun mungkin mengabaikan metode ekstraksi informasi yang lebih rumit dan merugikan.

Meskipun teknik ini menjanjikan, penelitian lebih lanjut diperlukan untuk penyempurnaan dan perluasan, khususnya dalam mengatasi tugas-tugas yang tidak dipelajari secara lebih luas dalam LLM.

Tantangan Teknik Unlearning Baru

Meskipun teknik pelepasan pembelajaran Microsoft menunjukkan hasil yang menjanjikan, terdapat beberapa tantangan dan kendala hak cipta AI.

Keterbatasan utama dan area yang perlu ditingkatkan meliputi:

Kebocoran informasi hak cipta: Metode ini mungkin tidak sepenuhnya memitigasi risiko informasi hak cipta kebocoran, karena model mungkin mempertahankan sebagian pengetahuan tentang konten target selama proses penyesuaian.
Evaluasi berbagai kumpulan data: Untuk mengukur efektivitas, teknik ini harus menjalani evaluasi tambahan di berbagai kumpulan data, karena eksperimen awal hanya berfokus pada buku Harry Potter.
Skalabilitas: Pengujian pada kumpulan data yang lebih besar dan model bahasa yang lebih rumit sangat penting untuk menilai penerapan dan kemampuan beradaptasi teknik ini dalam skenario dunia nyata.

Meningkatnya kasus hukum terkait AI, khususnya tuntutan hukum hak cipta yang menargetkan LLM, menyoroti perlunya pedoman yang jelas. Perkembangan yang menjanjikan, seperti metode unlearning yang diusulkan oleh Microsoft, membuka jalan menuju AI yang etis, legal, dan bertanggung jawab.

Jangan lewatkan berita dan analisis terkini tentang AI dan ML – kunjungi bersatu.ai hari ini.