potongan LoReFT: Penyempurnaan Representasi untuk Model Bahasa - Unite.AI
Terhubung dengan kami

Kecerdasan Buatan

LoReFT: Penyempurnaan Representasi untuk Model Bahasa

mm

Diterbitkan

 on

LoReFT: Penyempurnaan Representasi untuk Model Bahasa

Penyempurnaan parameter yang efisien atau metode PeFT berupaya mengadaptasi model bahasa besar melalui pembaruan pada sejumlah kecil bobot. Namun, sebagian besar penelitian interpretabilitas yang ada telah menunjukkan bahwa representasi menyandikan informasi yang kaya semantik, sehingga menunjukkan bahwa mengedit representasi ini mungkin merupakan alternatif yang lebih baik dan lebih kuat. Model besar yang telah dilatih sebelumnya sering kali disesuaikan untuk digunakan pada domain atau tugas baru, dan selama proses penyesuaian, model dasar tunggal dapat disesuaikan dengan beragam tugas bahkan dengan hanya tersedia sedikit data dalam domain. ke model. Namun, proses menyempurnakan keseluruhan model memakan sumber daya dan mahal, terutama untuk model bahasa dengan jumlah ukuran dan parameter yang jauh lebih banyak. 

Penyempurnaan parameter efisien atau metode PeFT mengusulkan untuk mengatasi biaya tinggi yang terkait dengan penyempurnaan keseluruhan model dengan memperbarui hanya sejumlah kecil dari total bobot yang tersedia, sebuah proses yang membantu mengurangi waktu pelatihan seiring dengan penggunaan memori. Yang lebih penting adalah metode penyempurnaan parameter atau PeFT telah menunjukkan kinerja serupa dengan penyempurnaan dalam beberapa pengaturan praktis. Adaptor, yang merupakan rangkaian umum metode penyempurnaan Parameter atau PeFT, mempelajari pengeditan yang dapat ditambahkan ke kumpulan bobot tambahan yang beroperasi bersama model dasar yang dibekukan, dengan adaptor terbaru seperti LoRA mengurangi jumlah parameter yang dapat dilatih dalam pembelajaran pembaruan bobot dengan menggunakan perkiraan peringkat rendah, bukan matriks bobot penuh, saat melatih adaptor. 

Dengan karya sebelumnya yang mendemonstrasikan pengeditan representasi mungkin merupakan alternatif yang lebih baik untuk metode penyempurnaan parameter atau PeFT yang efisien, dalam artikel ini, kita akan membahas tentang metode Penyempurnaan Representasi atau ReFT yang beroperasi pada model beku, dan mempelajari tugas spesifik intervensi pada representasi tersembunyi. Artikel ini bertujuan untuk membahas kerangka ReFt atau Representation Fine-tuning secara mendalam, dan kami mengeksplorasi mekanisme, metodologi, arsitektur kerangka kerja serta perbandingannya dengan kerangka mutakhir. Jadi mari kita mulai. 

ReFT: Penyempurnaan Representasi untuk Model Bahasa

Dalam upaya untuk mengadopsi model bahasa terlatih ke domain dan tugas baru, kerangka kerja saat ini menyempurnakan model bahasa terlatih ini sesering mungkin karena dengan proses penyesuaian yang diterapkan, model dasar tunggal dapat disesuaikan dengan berbagai tugas bahkan saat bekerja dengan sejumlah kecil data dalam domain. Meskipun proses penyempurnaan memang meningkatkan kinerja secara keseluruhan, ini merupakan proses yang mahal terutama jika model bahasa memiliki jumlah parameter yang sangat banyak. Untuk mengatasi masalah ini, dan mengurangi biaya terkait, PeFT atau Parameter-efisien kerangka kerja yang menyempurnakan memperbarui hanya sebagian kecil dari total bobot, sebuah proses yang tidak hanya mengurangi waktu pelatihan, namun juga mengurangi penggunaan memori, sehingga memungkinkan kerangka kerja PeFT mencapai kinerja serupa jika dibandingkan dengan pendekatan penyesuaian penuh dalam skenario praktis. Adaptor, yang merupakan keluarga umum PeFT, bekerja dengan mempelajari pengeditan yang dapat ditambahkan ke kumpulan bobot tambahan bersama dengan subkumpulan bobot yang beroperasi bersamaan dengan model dasar dengan bobot beku. Kerangka kerja adaptor terbaru seperti LoRA dan QLoRA telah menunjukkan bahwa melatih adaptor presisi penuh pada model presisi rendah dapat dilakukan tanpa memengaruhi performa. Adaptor biasanya lebih efisien dan efektif jika dibandingkan dengan metode lain yang memperkenalkan komponen model baru. 

Sorotan utama dari kerangka kerja penyetelan parameter yang efisien saat ini adalah bahwa alih-alih memodifikasi representasi, mereka memodifikasi bobot. Namun, kerangka kerja yang berhubungan dengan interpretabilitas telah menunjukkan bahwa representasi mengkodekan informasi semantik yang kaya, menunjukkan bahwa pengeditan representasi mungkin merupakan pendekatan yang lebih baik dan lebih kuat jika dibandingkan dengan pembaruan bobot. Asumsi bahwa pengeditan representasi adalah pendekatan yang lebih baik inilah yang menjadi dasar dari ReFT atau kerangka kerja Penyempurnaan Representasi yang melatih intervensi alih-alih mengadaptasi bobot model, sehingga memungkinkan model untuk memanipulasi sebagian kecil dari semua representasi dalam upaya mengarahkan perilaku model. untuk menyelesaikan tugas hilir selama inferensi. Metode Penyempurnaan ReFT atau Representasi adalah pengganti langsung untuk kerangka kerja penyempurnaan PeFT atau Parameter yang efisien berdasarkan bobot. Pendekatan ReFT mengambil inspirasi dari model terbaru yang bekerja dengan interpretabilitas model besar yang mengintervensi representasi untuk menemukan mekanisme sebab akibat yang tepat, dan mengarahkan perilaku model selama inferensi, dan oleh karena itu dapat dilihat sebagai generalisasi dari model penyuntingan representasi. Berdasarkan hal yang sama, LoReFT atau ReFT Subruang Tingkat Rendah adalah contoh ReFT yang kuat dan efektif, dan merupakan parameterisasi ReFT yang mengintervensi representasi tersembunyi dalam ruang linier yang direntang oleh matriks proyeksi tingkat rendah, dan dibangun langsung di atas DAS atau kerangka Pencarian Penyelarasan Terdistribusi. 

Berlawanan dengan penyempurnaan penuh, kerangka kerja penyempurnaan PeFT atau Parameter-efisien hanya melatih sebagian kecil parameter model, dan berhasil mengadaptasi model ke tugas-tugas hilir. Kerangka kerja penyesuaian parameter yang efisien dapat diklasifikasikan menjadi tiga kategori utama:

  • Metode berbasis adaptor: Metode berbasis adaptor melatih modul tambahan seperti lapisan yang terhubung sepenuhnya di atas model yang telah dilatih sebelumnya dengan bobot beku. Adaptor seri menyisipkan komponen di antara perceptron multilayer atau MLP dan LM atau lapisan perhatian model besar, sedangkan adaptor paralel menambahkan modul di samping komponen yang sudah ada. Karena adaptor menambahkan komponen baru yang tidak dapat dengan mudah dimasukkan ke dalam bobot model yang sudah ada, adaptor menimbulkan beban tambahan selama inferensi. 
  • LoRA: LoRA beserta varian terbarunya memperkirakan bobot aditif selama pelatihan dengan menggunakan matriks peringkat rendah, dan matriks tersebut tidak memerlukan overhead tambahan selama inferensi karena pembaruan bobot dapat digabungkan ke dalam model, dan itulah alasan mengapa matriks tersebut dianggap sebagai yang terbaru. kerangka PeFT terkuat. 
  • Metode berbasis prompt: Metode berbasis prompt menambahkan token lunak yang diinisialisasi secara acak ke dalam masukan, dan melatih penyematannya sambil menjaga bobot model bahasa tetap beku. Kinerja yang ditawarkan oleh metode-metode ini seringkali tidak memuaskan jika dibandingkan dengan pendekatan PeFT lainnya, dan metode ini juga menimbulkan biaya overhead inferensi yang signifikan. 

Alih-alih memperbarui bobot, kerangka ReFT mempelajari intervensi untuk mengubah sebagian kecil dari total representasi. Selain itu, penelitian terbaru mengenai rekayasa representasi dan pengarah aktivasi telah menunjukkan bahwa menambahkan vektor pengarah tetap ke aliran sisa dapat memfasilitasi tingkat kendali atas generasi model besar yang telah dilatih sebelumnya tanpa memerlukan sumber daya yang intensif. mencari setelan. Kerangka kerja lain telah menunjukkan bahwa representasi pengeditan dengan operasi penskalaan dan penerjemahan yang dipelajari dapat berupaya untuk menyamai tetapi tidak melampaui kinerja yang ditawarkan oleh adaptor LoRA pada beragam tugas dengan lebih sedikit parameter yang dipelajari. Selain itu, keberhasilan kerangka kerja ini dalam berbagai tugas telah menunjukkan bahwa representasi yang diperkenalkan oleh model bahasa terlatih memiliki semantik yang kaya, meskipun kinerja model ini kurang optimal, sehingga PeFT terus berlanjut sebagai pendekatan yang canggih. tanpa beban inferensi tambahan. 

ReFT : Metodologi dan Arsitektur

Untuk menjaga proses pelestarian gaya tetap sederhana, kerangka ReFT mengasumsikan model besar berbasis transformator sebagai model targetnya yang mampu menghasilkan representasi rangkaian token yang dikontekstualisasikan. Untuk urutan tertentu dengan jumlah token masukan sebanyak n, kerangka ReFT pertama-tama menyematkan token masukan ini ke dalam daftar representasi, setelah itu lapisan m menghitung daftar representasi tersembunyi secara berturut-turut sebagai fungsi dari daftar representasi tersembunyi sebelumnya. Setiap representasi tersembunyi adalah vektor, dan model bahasa menggunakan representasi tersembunyi akhir untuk menghasilkan prediksi. Kerangka kerja ReFT mempertimbangkan model bahasa bertopeng dan model bahasa autoregresif. Sekarang, menurut hipotesis representasi linier, dalam jaringan saraf, konsep dikodekan dalam subruang representasi linier. Model terbaru menemukan bahwa klaim ini benar dalam model jaringan saraf yang dilatih dalam bahasa alami bersama dengan distribusi masukan lainnya. 

Lebih jauh lagi, dalam studi interpretabilitas, kerangka abstraksi kasual menggunakan intervensi pertukaran untuk menetapkan peran komponen jaringan saraf secara santai ketika menerapkan perilaku tertentu. Logika di balik intervensi pertukaran adalah jika seseorang memperbaiki representasi terhadap apa yang seharusnya menjadi masukan kontrafaktual, dan intervensi ini mempengaruhi keluaran model secara konsisten seperti klaim yang dibuat oleh kerangka ReFT tentang komponen yang bertanggung jawab untuk memproduksi. representasi tersebut, maka komponen tersebut memainkan peran kausal dalam perilaku. Meskipun ada beberapa metode, intervensi pertukaran terdistribusi adalah pendekatan ideal untuk menguji apakah suatu konsep dikodekan dalam subruang linier dari suatu representasi, seperti yang diklaim oleh hipotesis representasi linier. Lebih lanjut, metode DAS telah digunakan sebelumnya untuk menemukan representasi linier dalam model bahasa atribut entitas, sentimen, fitur linguistik, dan penalaran matematis. Namun, beberapa percobaan telah menunjukkan bahwa metode DAS sangat ekspresif, dan memiliki kemampuan untuk menemukan subruang kausal yang mujarab bahkan ketika model bahasa transformator telah diinisialisasi secara acak, dan oleh karena itu belum mempelajari representasi tugas spesifik apa pun, sehingga menghasilkan memperdebatkan apakah DAS efektif dan cukup bertanggung jawab untuk tugas-tugas interpretabilitas. 

Ekspresivitas yang ditawarkan oleh DAS menunjukkan bahwa pendekatan ini dapat menjadi alat yang ideal untuk mengontrol perilaku model bahasa serta pekerjaannya dalam menghasilkan generasi yang terkendali dan pengeditan yang bertanggung jawab. Oleh karena itu, untuk mengadaptasi model bahasa untuk tugas-tugas hilir, kerangka kerja ReFT menggunakan operasi intervensi pertukaran terdistribusi untuk membuat metode parameter baru menjadi efisien. Lebih jauh lagi, metode ReFT merupakan serangkaian intervensi, dan kerangka kerja tersebut menetapkan bahwa untuk setiap dua intervensi yang beroperasi pada lapisan yang sama, posisi intervensi harus terpisah-pisah, dengan parameter semua fungsi intervensi tetap independen. Hasilnya, ReFT adalah kerangka umum yang mencakup intervensi terhadap representasi tersembunyi selama model forward pass. 

ReFT: Eksperimen dan Hasil

Untuk mengevaluasi kinerjanya terhadap kerangka kerja PEFT yang ada, kerangka kerja ReFT melakukan eksperimen pada empat tolok ukur pemrosesan bahasa alami yang beragam, dan mencakup lebih dari 20 kumpulan data, dengan tujuan utama adalah untuk memberikan gambaran yang kaya tentang kinerja kerangka kerja LoReFT dalam berbagai skenario. Selain itu, ketika kerangka kerja LoReFT diimplementasikan dalam kehidupan nyata, pengembang perlu memutuskan berapa banyak intervensi yang akan dipelajari beserta posisi masukan dan lapisan yang akan diterapkan pada masing-masing intervensi. Untuk menyelesaikan tugas tersebut, kerangka ReFT menyesuaikan empat hyperparameter. 

  1. Jumlah posisi awalan yang akan diintervensi. 
  2. Jumlah posisi sufiks yang akan diintervensi. 
  3. Lapisan apa yang harus diintervensi. 
  4. Apakah akan mengikat parameter intervensi di berbagai posisi berbeda dalam lapisan yang sama atau tidak. 

Dengan melakukan ini, kerangka kerja ReFT menyederhanakan ruang pencarian hyperparameter, dan memastikan hanya biaya inferensi tambahan tetap yang tidak berskala seiring dengan panjang perintah. 

Tabel di atas membandingkan keakuratan kerangka kerja LLaMA-7B dan LLaMA-13B terhadap model PEFT yang ada di 8 kumpulan data penalaran yang masuk akal. Seperti yang dapat diamati, model LoReFT mengungguli pendekatan PEFT yang ada dengan selisih yang lumayan, meskipun memiliki parameter yang jauh lebih sedikit, dengan kinerja rata-rata dari tiga proses dilaporkan dengan parameter awal yang berbeda untuk model LoReFT. Param(%) dihitung dengan membagi jumlah parameter yang dapat dilatih dengan jumlah total parameter model besar dasar. 

Tabel di atas merangkum perbandingan akurasi kerangka kerja LLaMA-7B dan LLaMA-13B terhadap model PEFT yang ada di 4 kumpulan data penalaran aritmatika yang berbeda, dengan kerangka kerja tersebut melaporkan kinerja rata-rata dari tiga proses dengan benih acak yang berbeda. Seperti yang dapat diamati, meskipun memiliki parameter(%) yang jauh lebih sedikit, kerangka kerja LoReFT mengungguli kerangka kerja PEFT yang ada dengan selisih yang cukup besar. 

Tabel di atas merangkum perbandingan akurasi kerangka RoBERTa-base dan RoBERTa-large terhadap model PEFT yang ada di seluruh benchmark GLUE, dengan kerangka tersebut melaporkan kinerja rata-rata dari lima proses dengan seed acak yang berbeda. Seperti yang dapat diamati, meskipun memiliki parameter(%) yang jauh lebih sedikit, kerangka kerja LoReFT mengungguli kerangka kerja PEFT yang ada dengan selisih yang cukup besar. 

Final Thoughts

Dalam artikel ini, kita telah membahas tentang LoReFT, sebuah alternatif yang kuat terhadap kerangka kerja PEFT yang ada yang mencapai kinerja kuat di seluruh tolok ukur dari empat domain berbeda sekaligus menawarkan efisiensi hingga 50 kali lipat yang ditawarkan oleh model PEFT canggih sebelumnya. Model besar yang telah dilatih sebelumnya sering kali disesuaikan untuk digunakan pada domain atau tugas baru, dan selama proses penyesuaian, model dasar tunggal dapat disesuaikan dengan beragam tugas bahkan dengan hanya tersedia sedikit data dalam domain. ke model. Namun, proses menyempurnakan keseluruhan model memakan sumber daya dan mahal, terutama untuk model bahasa dengan jumlah ukuran dan parameter yang jauh lebih banyak. Penyempurnaan parameter efisien atau metode PeFT mengusulkan untuk mengatasi biaya tinggi yang terkait dengan penyempurnaan keseluruhan model dengan memperbarui hanya sejumlah kecil dari total bobot yang tersedia, sebuah proses yang membantu mengurangi waktu pelatihan seiring dengan penggunaan memori. Khususnya, LoReFT menghasilkan kinerja canggih baru dalam penalaran yang masuk akal, mengikuti instruksi, dan pemahaman bahasa alami melawan PEFT terkuat.

"Seorang insinyur berdasarkan profesi, seorang penulis dengan hati". Kunal adalah seorang penulis teknis dengan kecintaan mendalam & pemahaman AI dan ML, berdedikasi untuk menyederhanakan konsep kompleks di bidang ini melalui dokumentasinya yang menarik dan informatif.