Rekayasa Cepat
Memahami Penyempurnaan LLM: Menyesuaikan Model Bahasa Besar dengan Kebutuhan Unik Anda

Saat ini kita memasuki bulan September 2023, lanskap Model Bahasa Besar (LLM) masih menyaksikan munculnya model-model termasuk Alpaca, Falcon, Lama 2, GPT-4, dan banyak lainnya.
Aspek penting dalam memanfaatkan potensi LLM ini terletak pada proses penyesuaian, sebuah strategi yang memungkinkan penyesuaian model yang telah dilatih sebelumnya untuk memenuhi tugas tertentu dengan tepat. Melalui penyempurnaan inilah model-model ini dapat benar-benar selaras dengan kebutuhan individual, menawarkan solusi yang inovatif dan disesuaikan dengan kebutuhan unik.
Namun, penting untuk dicatat bahwa tidak semua jalur penyesuaian diciptakan sama. Misalnya, mengakses kemampuan penyesuaian GPT-4 membutuhkan biaya yang sangat mahal, sehingga memerlukan langganan berbayar yang relatif lebih mahal dibandingkan opsi lain yang tersedia di pasar. Di sisi lain, domain sumber terbuka dipenuhi dengan alternatif yang menawarkan jalur yang lebih mudah diakses untuk memanfaatkan kekuatan model bahasa besar. Opsi sumber terbuka ini mendemokratisasikan akses terhadap teknologi AI yang canggih, mendorong inovasi dan inklusivitas dalam lanskap AI yang berkembang pesat.
Mengapa penyempurnaan LLM penting?
Penyempurnaan LLM lebih dari sekadar peningkatan teknis; ini adalah aspek penting dari pengembangan model LLM yang memungkinkan penerapan yang lebih spesifik dan halus dalam berbagai tugas. Penyempurnaan menyesuaikan model yang telah dilatih sebelumnya agar lebih sesuai dengan kumpulan data tertentu, meningkatkan kinerjanya dalam tugas tertentu, dan memastikan aplikasi yang lebih bertarget. Hal ini menunjukkan kemampuan LLM yang luar biasa untuk beradaptasi dengan data baru, menunjukkan fleksibilitas yang sangat penting dalam minat yang terus meningkat terhadap aplikasi AI.
Menyempurnakan model bahasa besar membuka banyak peluang, memungkinkan mereka unggul dalam tugas-tugas tertentu mulai dari analisis sentimen hingga tinjauan literatur medis. Dengan menyesuaikan model dasar ke kasus penggunaan tertentu, kami membuka kemungkinan-kemungkinan baru, sehingga meningkatkan efisiensi dan akurasi model. Selain itu, hal ini memfasilitasi pemanfaatan sumber daya sistem yang lebih ekonomis, karena penyesuaian memerlukan daya komputasi yang lebih sedikit dibandingkan dengan melatih model dari awal.
Saat kita mempelajari lebih dalam panduan ini, kita akan membahas seluk-beluk penyesuaian LLM, memberi Anda gambaran komprehensif yang didasarkan pada kemajuan terkini dan praktik terbaik di lapangan.
Penyempurnaan Berbasis Instruksi
Fase penyesuaian di AI generatif Siklus hidup, yang diilustrasikan pada gambar di bawah, ditandai dengan integrasi input dan output instruksi, ditambah dengan contoh penalaran langkah demi langkah. Pendekatan ini memfasilitasi model dalam menghasilkan respons yang tidak hanya relevan namun juga selaras dengan instruksi spesifik yang dimasukkan ke dalamnya. Pada fase inilah model yang telah dilatih sebelumnya diadaptasi untuk menyelesaikan berbagai tugas dan kasus penggunaan, memanfaatkan kumpulan data yang dipersonalisasi untuk meningkatkan fungsinya.
Penyempurnaan Tugas Tunggal
Penyempurnaan satu tugas berfokus pada mengasah keahlian model dalam tugas tertentu, seperti peringkasan. Pendekatan ini sangat bermanfaat dalam mengoptimalkan alur kerja yang melibatkan dokumen penting atau rangkaian percakapan, termasuk dokumen hukum dan tiket dukungan pelanggan. Hebatnya, penyesuaian ini dapat mencapai peningkatan kinerja yang signifikan dengan jumlah contoh yang relatif kecil, berkisar antara 500 hingga 1000, berbeda dengan miliaran token yang digunakan dalam fase pra-pelatihan.
Landasan LLM Fine-Tuning LLM: Arsitektur Transformator dan Selebihnya
Perjalanan memahami penyempurnaan LLM dimulai dengan pemahaman elemen dasar yang membentuk LLM. Inti dari model-model ini terletak pada arsitektur transformator, jaringan saraf yang memanfaatkan mekanisme perhatian diri untuk memprioritaskan konteks kata daripada kedekatannya dalam sebuah kalimat. Pendekatan inovatif ini memfasilitasi pemahaman yang lebih dalam tentang hubungan jarak jauh antar token dalam masukan.
Saat kita menelusuri seluk-beluk transformator, kita menghadapi proses multi-langkah yang dimulai dengan pembuat enkode. Fase awal ini melibatkan tokenisasi masukan dan pembuatan vektor penyematan yang mewakili masukan dan posisinya dalam kalimat. Tahapan selanjutnya melibatkan serangkaian perhitungan dengan menggunakan matriks yang disebut Pertanyaan, Nilai, dan kunci, yang berpuncak pada skor perhatian diri yang menentukan fokus pada berbagai bagian kalimat dan berbagai tanda.
Penyempurnaan merupakan fase penting dalam pengembangan LLM, sebuah proses yang memerlukan penyesuaian halus untuk mencapai keluaran yang lebih diinginkan. Tahap ini, meskipun penting, menghadirkan serangkaian tantangan, termasuk tuntutan komputasi dan penyimpanan dalam menangani sejumlah besar parameter. Parameter Efficient Fine-Tuning (PEFT) menawarkan teknik untuk mengurangi jumlah parameter yang harus disesuaikan, sehingga menyederhanakan proses pelatihan.
Pra-Pelatihan LLM: Membangun Basis yang Kuat
Pada tahap awal pengembangan LLM, pra-pelatihan menjadi pusat perhatian, memanfaatkan transformator dengan parameter berlebih sebagai arsitektur dasar. Proses ini melibatkan pemodelan bahasa alami dalam berbagai cara seperti dua arah, autoregresif, atau urutan-ke-urutan pada corpora skala besar tanpa pengawasan. Tujuannya di sini adalah untuk menciptakan landasan yang nantinya dapat disesuaikan untuk tugas-tugas hilir tertentu melalui pengenalan tujuan khusus tugas.
Tren penting dalam bidang ini adalah peningkatan yang tak terelakkan dalam skala LLM pra-terlatih, yang diukur berdasarkan jumlah parameter. Data empiris secara konsisten menunjukkan bahwa model yang lebih besar ditambah dengan lebih banyak data hampir selalu menghasilkan performa yang lebih baik. Misalnya, GPT-3, dengan 175 miliar parameternya, telah menetapkan tolok ukur dalam menghasilkan bahasa alami berkualitas tinggi dan melakukan beragam tugas zero-shot dengan baik.
Penyempurnaan: Jalan Menuju Adaptasi Model
Setelah pra-pelatihan, LLM menjalani penyesuaian untuk beradaptasi dengan tugas-tugas tertentu. Meskipun kinerja menjanjikan yang ditunjukkan oleh pembelajaran dalam konteks di LLM terlatih seperti GPT-3, penyesuaian tetap lebih unggul dalam pengaturan tugas tertentu. Namun, pendekatan penyempurnaan parameter penuh yang umum menimbulkan tantangan, termasuk tuntutan komputasi dan memori yang tinggi, terutama ketika berhadapan dengan model berskala besar.
Untuk model bahasa besar dengan lebih dari satu miliar parameter, pengelolaan RAM GPU yang efisien sangatlah penting. Parameter model tunggal dengan presisi 32-bit penuh memerlukan ruang 4 byte, yang berarti diperlukan RAM GPU sebesar 4 GB hanya untuk memuat model parameter 1 miliar. Proses pelatihan sebenarnya memerlukan lebih banyak memori untuk mengakomodasi berbagai komponen termasuk status pengoptimal dan gradien, yang berpotensi memerlukan RAM GPU hingga 80 GB untuk model skala ini.
Untuk mengatasi keterbatasan RAM GPU, digunakan kuantisasi yang merupakan teknik yang mengurangi ketepatan parameter model, sehingga mengurangi kebutuhan memori. Misalnya, mengubah presisi dari 32-bit ke 16-bit dapat mengurangi separuh memori yang diperlukan untuk memuat dan melatih model. Nanti di artikel ini. kita akan belajar tentang Qlora yang menggunakan konsep kuantisasi untuk tuning.
Menjelajahi Kategori Metode PEFT
Dalam proses menyempurnakan Model Bahasa Besar, penting untuk memiliki pengaturan komputasi yang dapat secara efisien menangani tidak hanya bobot model yang substansial, yang untuk model paling canggih kini mencapai ukuran ratusan gigabyte, namun juga mengelola serangkaian elemen penting lainnya. Ini termasuk alokasi memori untuk status pengoptimal, pengelolaan gradien, aktivasi maju, dan fasilitasi memori sementara selama berbagai tahapan prosedur pelatihan.
Metode Aditif
Jenis penyetelan ini dapat menambah model yang telah dilatih sebelumnya dengan parameter atau lapisan tambahan, dengan fokus pada pelatihan hanya parameter yang baru ditambahkan. Meskipun jumlah parameter meningkat, metode ini meningkatkan efisiensi waktu dan ruang pelatihan. Metode aditif dibagi lagi menjadi beberapa subkategori:
- Adapter: Menggabungkan sub-lapisan pasca transformator jaringan kecil yang terhubung sepenuhnya, dengan contoh penting adalah AdaMix, KronA, dan Pemadat.
- Anjuran Lembut: Menyempurnakan segmen penyematan masukan model melalui penurunan gradien, dengan IPT, penyetelan awalan, dan WARP menjadi contoh yang menonjol.
- Pendekatan Aditif Lainnya: Sertakan teknik seperti LeTS, AttentionFusion, dan Ladder-Side Tuning.
Metode Selektif
PEFT selektif menyempurnakan sejumlah lapisan atas berdasarkan jenis lapisan dan struktur model internal. Kategori ini mencakup metode seperti BitFit dan LN penyetelan, yang berfokus pada penyetelan elemen tertentu seperti bias model atau baris tertentu.
Metode Berbasis Reparametrisasi
Metode ini menggunakan representasi tingkat rendah untuk mengurangi jumlah parameter yang dapat dilatih, yang paling terkenal adalah Adaptasi Tingkat Rendah atau LoRA. Metode ini memanfaatkan dekomposisi matriks peringkat rendah yang sederhana untuk membuat parameter pembaruan bobot, menunjukkan penyesuaian yang efektif pada subruang peringkat rendah.
1) LoRA (Adaptasi Tingkat Rendah)
LoRA muncul sebagai teknik PEFT yang inovatif, diperkenalkan dalam sebuah makalah oleh Edward J.Hu dan lainnya pada tahun 2021. Ini beroperasi dalam kategori reparameterisasi, membekukan bobot asli LLM dan mengintegrasikan matriks peringkat rendah baru yang dapat dilatih ke dalam setiap lapisan arsitektur Transformer. Pendekatan ini tidak hanya membatasi jumlah parameter yang dapat dilatih namun juga mengurangi waktu pelatihan dan sumber daya komputasi yang diperlukan, sehingga menghadirkan alternatif yang lebih efisien dibandingkan penyesuaian penuh.
Untuk memahami mekanisme LoRA, kita harus meninjau kembali arsitektur transformator di mana perintah masukan mengalami tokenisasi dan konversi menjadi vektor penyematan. Vektor-vektor ini melintasi segmen encoder dan/atau decoder transformator, bertemu dengan jaringan self-attention dan feed-forward yang bobotnya telah dilatih sebelumnya.
LoRA menggunakan konsep Dekomposisi Nilai Singular (SVD). Pada dasarnya, SVD membedah matriks menjadi tiga matriks berbeda, salah satunya adalah matriks diagonal yang memuat nilai singular. Nilai singular ini sangat penting karena mengukur signifikansi berbagai dimensi dalam matriks, dengan nilai yang lebih besar menunjukkan tingkat kepentingan yang lebih tinggi dan nilai yang lebih kecil menunjukkan signifikansi yang lebih rendah.
Pendekatan ini memungkinkan LoRA untuk mempertahankan karakteristik penting dari data sekaligus mengurangi dimensinya, sehingga mengoptimalkan proses penyesuaian.
LoRA melakukan intervensi dalam proses ini, membekukan semua parameter model asli dan memperkenalkan sepasang “matriks dekomposisi peringkat” di samping bobot asli. Matriks yang lebih kecil ini, dilambangkan sebagai A dan B, menjalani pelatihan melalui pembelajaran yang diawasi.
Elemen penting dalam strategi ini adalah parameter yang disebut peringkat ('r'), yang menentukan ukuran matriks peringkat rendah. Pemilihan 'r' yang cermat dapat memberikan hasil yang mengesankan, bahkan dengan nilai yang lebih kecil, sehingga menciptakan matriks peringkat rendah dengan lebih sedikit parameter untuk dilatih. Strategi ini telah diterapkan secara efektif menggunakan perpustakaan sumber terbuka seperti HuggingFace Transformers, yang memfasilitasi penyesuaian LoRA untuk berbagai tugas dengan efisiensi luar biasa.
2) QLoRA: Meningkatkan Efisiensi LoRA
Membangun fondasi yang diletakkan oleh LoRA, QLoRA semakin meminimalkan kebutuhan memori. Diperkenalkan oleh Tim Dettmers dan lainnya pada tahun 2023, ini menggabungkan adaptasi tingkat rendah dengan kuantisasi, menggunakan format kuantisasi 4-bit yang disebut Mengambang Normal or nf4. Kuantisasi pada dasarnya adalah proses yang mentransisikan data dari representasi informasi yang lebih tinggi ke representasi informasi yang lebih sedikit. Pendekatan ini mempertahankan keefektifan metode penyempurnaan 16-bit, mendekuantisasi bobot 4-bit menjadi 16-bit sebagaimana diperlukan selama proses komputasi.

Membandingkan metode penyempurnaan: QLORA menyempurnakan LoRA dengan kuantisasi presisi 4-bit dan pengoptimal halaman untuk manajemen lonjakan memori
QLoRA memanfaatkan NumericFloat4 (nf4), menargetkan setiap lapisan dalam arsitektur transformator, dan memperkenalkan konsep kuantisasi ganda untuk semakin memperkecil jejak memori yang diperlukan untuk penyesuaian. Hal ini dicapai dengan melakukan kuantisasi pada konstanta yang sudah terkuantisasi, sebuah strategi yang mencegah lonjakan memori titik pemeriksaan gradien melalui pemanfaatan pengoptimal halaman dan manajemen memori terpadu.
guanaco, yang merupakan ansambel yang disesuaikan dengan QLORA, menetapkan tolok ukur dalam solusi chatbot sumber terbuka. Kinerjanya, yang divalidasi melalui penilaian manusia dan otomatis yang sistematis, menegaskan dominasi dan efisiensinya di lapangan.
Guanaco versi 65B dan 33B, disempurnakan menggunakan versi modifikasi OASST1 kumpulan data, muncul sebagai pesaing tangguh bagi model terkenal seperti ChatGPT dan bahkan GPT-4.
Penyempurnaan menggunakan Pembelajaran Penguatan dari Umpan Balik Manusia
Pembelajaran Penguatan dari Umpan Balik Manusia (RLHF) berperan ketika menyempurnakan model bahasa yang telah dilatih sebelumnya agar lebih selaras dengan nilai-nilai kemanusiaan. Konsep ini diperkenalkan oleh Open AI pada tahun 2017 yang meletakkan dasar untuk peningkatan peringkasan dokumen dan pengembangan InstruksikanGPT.
Inti dari RLHF adalah paradigma pembelajaran penguatan, sejenis teknik pembelajaran mesin di mana sebuah agen belajar bagaimana berperilaku dalam sebuah lingkungan Hidup dengan melakukan tindakan dan menerima penghargaan. Ini adalah putaran yang berkelanjutan tindakan dan umpan balik, dimana agen diberi insentif untuk membuat pilihan yang akan menghasilkan imbalan tertinggi.
Menerjemahkan ini ke ranah model bahasa, the agen adalah model itu sendiri, beroperasi di dalam lingkungan Hidup dari jendela konteks tertentu dan membuat keputusan berdasarkan negara, yang ditentukan oleh token saat ini di jendela konteks. “ruang aksi” mencakup semua token potensial yang dapat dipilih oleh model, dengan tujuan memilih token yang paling sesuai dengan preferensi manusia.
Proses RLHF memanfaatkan umpan balik manusia secara luas, memanfaatkannya untuk melatih model penghargaan. Model ini memainkan peran penting dalam memandu model yang telah dilatih sebelumnya selama proses penyesuaian, mendorongnya untuk menghasilkan keluaran yang lebih selaras dengan nilai-nilai kemanusiaan. Ini adalah proses yang dinamis dan berulang, di mana model belajar melalui serangkaian “peluncuran”, sebuah istilah yang digunakan untuk menggambarkan rangkaian keadaan dan tindakan yang menghasilkan imbalan dalam konteks pembuatan bahasa.
Salah satu potensi luar biasa dari RLHF adalah kemampuannya untuk mendorong personalisasi pada asisten AI, menyesuaikannya agar sesuai dengan preferensi masing-masing pengguna, baik itu selera humor atau rutinitas sehari-hari. Hal ini membuka jalan untuk menciptakan sistem AI yang tidak hanya mahir secara teknis tetapi juga cerdas secara emosional, mampu memahami dan merespons nuansa komunikasi manusia.
Namun, penting untuk dicatat bahwa RLHF bukanlah solusi yang sangat mudah. Model-model tersebut masih rentan menghasilkan keluaran yang tidak diinginkan, yang merupakan cerminan dari luasnya data yang sering kali tidak diatur dan bias dalam model yang dilatih.
Kesimpulan
Proses penyesuaian, sebuah langkah penting dalam memanfaatkan potensi penuh LLM seperti Alpaca, Falcon, dan GPT-4, telah menjadi lebih halus dan fokus, menawarkan solusi yang disesuaikan untuk beragam tugas.
Kami telah melihat penyempurnaan tugas tunggal, yang mengkhususkan diri pada model dengan peran tertentu, dan metode Penyempurnaan Efisien Parameter (PEFT) termasuk LoRA dan QLoRA, yang bertujuan untuk membuat proses pelatihan lebih efisien dan hemat biaya. Perkembangan ini membuka pintu bagi fungsionalitas AI tingkat tinggi untuk khalayak yang lebih luas.
Selain itu, pengenalan Reinforcement Learning from Human Feedback (RLHF) oleh Open AI merupakan langkah menuju penciptaan sistem AI yang memahami dan menyelaraskan lebih dekat dengan nilai-nilai dan preferensi manusia, menyiapkan landasan bagi asisten AI yang tidak hanya cerdas tetapi juga peka terhadap perubahan. kebutuhan masing-masing pengguna. RLHF dan PEFT bekerja secara sinergi untuk meningkatkan fungsionalitas dan efisiensi Model Bahasa Besar.
Ketika dunia usaha, perusahaan, dan individu berupaya mengintegrasikan LLM yang telah disesuaikan ini ke dalam operasi mereka, mereka pada dasarnya menyambut masa depan di mana AI lebih dari sekadar alat; ini adalah mitra yang memahami dan beradaptasi dengan konteks manusia, menawarkan solusi yang inovatif dan personal.