Connect with us

Kecerdasan buatan

Penghapusan Terkontrol: Tantangan Besar Berikutnya dalam Memori AI

mm

Selama bertahun-tahun, bidang AI fokus pada satu tujuan: membuat sistem mengingat lebih baik. Kami melatih model pada dataset besar dan terus memperbaiki kemampuan mereka untuk mengingat dan mengingat informasi. Tapi sekarang kita menyadari kenyataan yang tidak nyaman. Sistem yang sama yang tidak pernah melupakan sekarang terjebak oleh ingatan mereka sendiri. Apa yang dulunya tampak seperti kekuatan sekarang telah menjadi kelemahan serius.

Manusia melupakan secara alami. Kami melepaskan informasi, beradaptasi, dan maju. Sistem AI bekerja secara berbeda. Mereka mengingat semua kecuali jika kita mengajar mereka untuk melupakan. Ini menciptakan masalah nyata. AI bergelut dengan pelanggaran privasi, informasi yang sudah ketinggalan zaman, bias yang tertanam, dan sistem yang rusak ketika belajar tugas baru. Tantangan di depan bukanlah tentang membuat AI mengingat lebih banyak. Kita perlu mengajar AI bagaimana melupakan dengan bijak.

Dua Wajah Penghapusan

Penghapusan dalam AI muncul dalam dua bentuk yang berbeda, masing-masing dengan masalahnya sendiri.

Yang pertama adalah penghapusan bencana. Ini terjadi ketika jaringan saraf kehilangan pengetahuan yang telah dipelajari sebelumnya setelah dilatih pada tugas baru. Misalnya, model yang dilatih untuk mengenali kucing dan anjing mungkin melupakan kemampuan itu setelah belajar mengidentifikasi burung.

Bentuk kedua adalah penghapusan terkontrol. Ini adalah tindakan yang disengaja. Ini melibatkan penghapusan informasi tertentu dari model yang telah dilatih. Hukum privasi seperti GDPR memberikan orang-orang “hak untuk dilupakan”, yang mengharuskan perusahaan untuk menghapus data atas permintaan. Ini bukan tentang memperbaiki sistem yang rusak. Ini tentang menghapus data yang tidak boleh disimpan atau harus dihilangkan atas permintaan.

Kedua masalah ini menarik ke arah yang berlawanan. Satu memerlukan kita untuk menghentikan penghapusan. Yang lainnya menuntut kita untuk membuat penghapusan memungkinkan. Mengelola keduanya secara bersamaan adalah salah satu tantangan terberat AI.

Ketika Memori Menjadi Liabilitas

Penelitian AI telah lama fokus pada perbaikan memori. Model telah tumbuh lebih besar, dataset lebih besar, dan jendela konteks lebih panjang. Sistem seperti GPT-4o sekarang dapat menangani 128.000 token konteks, dan Claude dapat mencapai 200.000. Kemajuan ini telah memperbaiki kinerja tetapi juga memperkenalkan masalah baru.

Ketika model mengingat terlalu banyak, itu dapat mengingat informasi yang sudah ketinggalan zaman atau tidak relevan. Ini membuang komputasi dan dapat membingungkan pengguna. Misalnya, pertimbangkan chatbot dukungan pelanggan yang dilatih pada basis pengetahuan perusahaan Anda. Anda memperbarui kebijakan, tetapi setelah beberapa interaksi, bot kembali ke informasi lama. Ini terjadi karena AI tidak dapat memprioritaskan memori dengan benar. AI tidak dapat membedakan antara apa yang saat ini dan apa yang lama.

Hukum privasi membuatnya lebih sulit. Di bawah GDPR, ketika pengguna meminta penghapusan data, perusahaan harus menghapusnya. Tapi menghapus data dari model AI tidak seperti menghapus file dari komputer. Setelah data pribadi menjadi bagian dari parameter model, itu menyebar ke jutaan koneksi di dalam jaringan. Melatih kembali sistem secara keseluruhan untuk menghapus data tersebut mahal dan seringkali mustahil. Penelitian menunjukkan bahwa model yang lebih besar lebih rentan terhadap serangan siber. Semakin besar model, semakin cenderung mengingat, dan dapat mereproduksi data pribadi ketika diminta melalui prompt yang dirancang dengan hati-hati. Penyerang dapat mengekstrak informasi yang seharusnya tidak mereka capai.

Apa yang Membuat Penghapusan Sulit

Model AI tidak menyimpan contoh pelatihan seperti file di folder. Mereka mengompresi dan mencampur informasi pelatihan ke dalam bobot dan aktivasi mereka. Menghapus satu potong data tanpa mengganggu semua yang lain sangat sulit. Juga, kita tidak dapat dengan mudah melacak bagaimana data pelatihan tertentu mempengaruhi bobot internal model. Setelah model belajar dari data, pengetahuan itu menyebar ke parameter mereka dengan cara yang sulit dilacak.

Melatih kembali model dari awal setelah setiap permintaan penghapusan tidak layak. Ketika seseorang meminta penghapusan data pribadi mereka di bawah GDPR, Anda perlu menghapusnya dari sistem AI. Tapi melatih kembali model dari awal setiap kali terlalu mahal dan lambat dalam sebagian besar pengaturan produksi. Untuk model bahasa besar yang dilatih pada miliaran titik data, pendekatan ini akan sangat mahal dan memakan waktu.

Verifikasi penghapusan menimbulkan tantangan lain. Bagaimana kita membuktikan bahwa data telah benar-benar dihapus? Perusahaan memerlukan audit eksternal untuk menunjukkan bahwa mereka telah menghapus informasi. Tanpa metode verifikasi yang dapat diandalkan, bisnis tidak dapat membuktikan kepatuhan, dan pengguna tidak dapat mempercayai bahwa data mereka benar-benar hilang.

Tantangan ini telah memunculkan bidang baru yang disebut pembelajaran mesin. Ini fokus pada teknik untuk menghapus pengaruh data tertentu dari model yang telah dilatih. Tapi metode ini masih dalam tahap awal. Pembelajaran yang tepat sering memerlukan pelatihan kembali model, sementara metode yang kurang tepat mungkin meninggalkan jejak informasi yang dihapus.

Dilema Stabilitas-Plastisitas

Tantangan utama yang perlu kita tangani adalah mencegah penghapusan bencana sambil memungkinkan penghapusan terkontrol. Ini membawa kita ke tantangan kunci yang dihadapi AI: dilema stabilitas-plastisitas. Model harus cukup fleksibel untuk belajar informasi baru tetapi cukup stabil untuk menjaga pengetahuan lama. Jika kita mendorong model terlalu jauh ke arah stabilitas, itu tidak dapat beradaptasi. Di sisi lain, jika kita mendorongnya terlalu jauh ke arah fleksibilitas, itu dapat melupakan semua yang pernah dipelajari.

Memori manusia memberikan petunjuk yang berguna untuk menangani dilema ini. Ilmu saraf mengatakan kepada kita bahwa penghapusan bukanlah kelemahan. Ini adalah proses aktif. Otak melupakan dengan sengaja untuk membuat pembelajaran bekerja lebih baik. Ini menghapus atau menekan informasi lama atau rendah nilai, sehingga kenangan baru tetap dapat diakses. Ketika orang belajar bahasa baru, mereka tidak menghapus bahasa lama. Tapi jika mereka berhenti menggunakannya, pengingatan menjadi lebih sulit. Informasi masih ada, hanya diprioritaskan. Otak menggunakan penekanan selektif, bukan penghapusan.

Peneliti AI mulai mengadopsi ide serupa. Teknik replay generatif meniru bagaimana otak menyimpan kenangan. Mereka membuat representasi abstrak dari pengetahuan masa lalu bukan menyimpan data mentah. Ini mengurangi penghapusan bencana dan menjaga memori tetap kompak. Ide lain yang menjanjikan adalah kemunduran cerdas. Kenangan yang disimpan diberi skor berdasarkan seberapa baru mereka, seberapa relevan mereka, dan seberapa berguna mereka. Kenangan yang kurang penting secara bertahap kehilangan prioritas dan diambil kurang sering. Ini menjaga informasi tetap tersedia tetapi tersembunyi kecuali diperlukan. Sistem AI dapat mengelola basis pengetahuan besar tanpa membuang informasi yang berpotensi berharga.

Tujuan bukanlah untuk menghapus tetapi untuk menjaga keseimbangan antara mengingat dan melupakan dengan cerdas.

Apa yang Terlihat di Masa Depan

Industri sedang bergerak dalam tiga arah utama.

Pertama, arsitektur memori hibrida muncul. Sistem ini menggabungkan memori episodik (pengalaman spesifik) dengan memori semantik (pengetahuan umum). Mereka menggunakan mekanisme peringkat dan pemangkasan untuk menjaga informasi penting sambil memudarkan apa yang kurang relevan. Basis data vektor seperti Pinecone dan Weaviate membantu mengelola dan mengambil memori secara efisien.

Kedua, teknologi yang meningkatkan privasi sedang berkembang. Teknik seperti federated learning, differential privacy, dan homomorphic encryption mengurangi kebutuhan akan data pribadi yang sensitif. Metode ini memungkinkan model untuk dilatih secara kolaboratif atau aman tanpa mengumpulkan informasi pengguna yang sensitif. Mereka tidak secara langsung menyelesaikan penghapusan, tetapi mereka mengurangi jumlah data pribadi yang perlu dihapus nanti.

Ketiga, pembelajaran mesin terus membaik. Metode baru dapat menyesuaikan parameter model yang terkait dengan data tertentu tanpa pelatihan kembali penuh. Pendekatan ini masih dalam tahap awal, tetapi mereka bergerak menuju kepatuhan dengan persyaratan penghapusan data. Namun, memverifikasi bahwa pembelajaran benar-benar menghapus semua jejak data tetap sulit. Peneliti sedang mengembangkan tes untuk mengukur seberapa baik itu bekerja.

Bagian Bawah

Sistem AI telah menjadi sangat baik dalam mengingat. Tapi mereka masih buruk dalam melupakan. Celah ini semakin sulit diabaikan. Ketika AI tumbuh lebih kuat dan regulasi tumbuh lebih ketat, kemampuan untuk melupakan dengan bijak akan sama pentingnya dengan kemampuan untuk mengingat. Untuk membuat AI lebih aman, lebih adaptif, dan lebih sadar privasi, kita harus mengajar mereka untuk melupakan dengan hati-hati, selektif, dan cerdas. Penghapusan terkontrol tidak hanya akan melindungi privasi data tetapi juga membantu sistem AI berkembang tanpa menjadi tahanan dari ingatan mereka sendiri.

Dr. Tehseen Zia adalah Profesor Asosiasi Tetap di COMSATS University Islamabad, memegang gelar PhD di AI dari Vienna University of Technology, Austria. Mengkhususkan diri dalam Kecerdasan Buatan, Pembelajaran Mesin, Ilmu Data, dan Penglihatan Komputer, ia telah membuat kontribusi signifikan dengan publikasi di jurnal ilmiah terkemuka. Dr. Tehseen juga telah memimpin berbagai proyek industri sebagai Penyelidik Utama dan menjabat sebagai Konsultan AI.