Kecerdasan buatan

Panduan Lengkap untuk Fine-Tuning Model Bahasa Besar

Diterbitkan 25 Maret 2024

Diperbarui 22 Mei 2026

Oleh

Aayush Mittal Mittal

Model bahasa besar (LLM) seperti GPT-4, LaMDA, PaLM, dan lain-lain telah mengambil alih dunia dengan kemampuan luar biasa mereka untuk memahami dan menghasilkan teks seperti manusia pada berbagai topik. Model-model ini telah dilatih sebelumnya pada dataset besar yang terdiri dari miliaran kata dari internet, buku, dan sumber lainnya.

Fase pelatihan sebelumnya ini memberikan model-model dengan pengetahuan umum yang luas tentang bahasa, topik, kemampuan penalaran, dan bahkan beberapa bias yang ada dalam data pelatihan. Namun, meskipun mereka memiliki kemampuan yang luar biasa, model-model LLM yang telah dilatih sebelumnya ini kekurangan keahlian khusus untuk domain atau tugas tertentu.

Inilah di mana fine-tuning masuk – proses penyesuaian model LLM yang telah dilatih sebelumnya untuk unggul dalam aplikasi atau kasus penggunaan tertentu. Dengan melatih model lebih lanjut pada dataset yang lebih kecil dan spesifik tugas, kita dapat menyesuaikan kemampuan model untuk sesuai dengan nuansa dan persyaratan domain tersebut.

Fine-tuning mirip dengan mentransfer pengetahuan luas seorang generalis yang sangat berpendidikan untuk menciptakan seorang ahli mata pelajaran yang berspesialisasi dalam bidang tertentu. Dalam panduan ini, kita akan menjelajahi apa, mengapa, dan bagaimana fine-tuning LLM.

Fine-tuning Model Bahasa Besar

Apa itu Fine-Tuning?

Pada intinya, fine-tuning melibatkan mengambil model besar yang telah dilatih sebelumnya dan memperbarui parameter-parameternya menggunakan fase pelatihan kedua pada dataset yang disesuaikan dengan tugas atau domain target. Ini memungkinkan model untuk belajar dan menginternalisasi nuansa, pola, dan tujuan spesifik dari area yang lebih sempit.

Sementara pelatihan sebelumnya menangkap pemahaman bahasa yang luas dari korpus teks yang besar dan beragam, fine-tuning menyempurnakan kompetensi umum tersebut. Ini mirip dengan mengambil seorang Renaissance dan membentuknya menjadi ahli industri.

Bobot model yang telah dilatih sebelumnya, yang mengkodekan pengetahuan umum, digunakan sebagai titik awal atau inisialisasi untuk proses fine-tuning. Model kemudian dilatih lebih lanjut, tetapi kali ini pada contoh yang secara langsung relevan dengan aplikasi akhir.

Dengan memaparkan model pada distribusi data khusus ini dan menyesuaikan parameter model sesuai dengan itu, kita membuat LLM lebih akurat dan efektif untuk kasus penggunaan target, sambil tetap memanfaatkan kemampuan pra-dilatih yang luas sebagai dasar.

Mengapa Fine-Tune LLM?

Ada beberapa alasan kunci mengapa Anda mungkin ingin fine-tune model bahasa besar:

Kustomisasi Domain: Setiap bidang, dari hukum ke kedokteran ke rekayasa perangkat lunak, memiliki konvensi bahasa, jargon, dan konteks yang unik. Fine-tuning memungkinkan Anda untuk mengkustomisasi model umum untuk memahami dan menghasilkan teks yang disesuaikan dengan domain spesifik.
Spesialisasi Tugas: LLM dapat difine-tune untuk berbagai tugas pemrosesan bahasa alami seperti ringkasan teks, terjemahan mesin, dan jawaban pertanyaan. Spesialisasi ini meningkatkan kinerja pada tugas target.
Kepatuhan Data: Industri yang sangat diatur seperti perawatan kesehatan dan keuangan memiliki persyaratan privasi data yang ketat. Fine-tuning memungkinkan pelatihan LLM pada data organisasi yang diproprietasikan sambil melindungi informasi sensitif.
Data Terlabel yang Terbatas: Mendapatkan dataset besar yang dilabel untuk melatih model dari awal dapat menantang. Fine-tuning memungkinkan pencapaian kinerja tugas yang kuat dari contoh terlabel yang terbatas dengan memanfaatkan kemampuan model pra-dilatih.
Pembaruan Model: Ketika data baru tersedia seiring waktu dalam domain, Anda dapat fine-tune model lebih lanjut untuk mengintegrasikan pengetahuan dan kemampuan terbaru.
Mengurangi Bias: LLM dapat mengambil bias sosial dari data pra-pelatihan yang luas. Fine-tuning pada dataset yang dikurasi dapat membantu mengurangi dan memperbaiki bias yang tidak diinginkan.

Pada intinya, fine-tuning menjembatani kesenjangan antara model yang umum dan luas dengan persyaratan aplikasi yang spesifik. Ini meningkatkan akurasi, keamanan, dan relevansi output model untuk kasus penggunaan yang ditargetkan.

Fine-tuning Model Bahasa Besar

Diagram yang disediakan menguraikan proses implementasi dan pemanfaatan model bahasa besar (LLM) khusus untuk aplikasi perusahaan. Awalnya, model pra-dilatih seperti T5 diberi data perusahaan yang terstruktur dan tidak terstruktur, yang mungkin datang dalam berbagai format seperti CSV atau JSON. Data ini menjalani proses fine-tuning yang diawasi, tidak diawasi, atau transfer, sehingga meningkatkan relevansi model dengan kebutuhan perusahaan yang spesifik.

Saat model telah difine-tune dengan data perusahaan, bobotnya diperbarui sesuai dengan itu. Model yang dilatih kemudian mengulangi siklus pelatihan lebih lanjut, terus memperbaiki responsnya seiring waktu dengan data perusahaan baru. Proses ini iteratif dan dinamis, dengan model yang terus belajar dan melatih kembali untuk beradaptasi dengan pola data yang berkembang.

Output dari model yang dilatih ini – token dan embedding yang mewakili kata – kemudian diterapkan untuk berbagai aplikasi perusahaan. Aplikasi ini dapat berkisar dari chatbot hingga perawatan kesehatan, masing-masing memerlukan model untuk memahami dan merespons pertanyaan industri yang spesifik. Dalam keuangan, aplikasi termasuk deteksi penipuan dan analisis ancaman; dalam perawatan kesehatan, model dapat membantu dengan pertanyaan pasien dan diagnosis.

Kapasitas model yang dilatih untuk memproses dan merespons data perusahaan baru seiring waktu memastikan bahwa utilitasnya dipertahankan dan tumbuh. Sebagai hasilnya, pengguna perusahaan dapat berinteraksi dengan model melalui aplikasi, mengajukan pertanyaan dan menerima respons yang terinformasi yang mencerminkan pelatihan dan fine-tuning model pada data domain yang spesifik.

Infrastruktur ini mendukung berbagai aplikasi perusahaan, menunjukkan fleksibilitas dan adaptabilitas LLM ketika diimplementasikan dan dipelihara dengan benar dalam konteks bisnis.

Pendekatan Fine-Tuning

Ada dua strategi utama ketika datang ke fine-tuning model bahasa besar:

1) Fine-Tuning Model Penuh

Dalam pendekatan fine-tuning penuh, semua parameter (bobot dan bias) model pra-dilatih diperbarui selama fase pelatihan kedua. Model dipaparkan pada dataset yang dilabel khusus tugas, dan proses pelatihan standar mengoptimalkan seluruh model untuk distribusi data tersebut.

Ini memungkinkan model untuk membuat penyesuaian yang lebih komprehensif dan beradaptasi secara holistik dengan tugas atau domain target. Namun, fine-tuning penuh memiliki beberapa kelemahan:

Memerlukan sumber daya komputasi yang signifikan dan waktu untuk melatih, mirip dengan fase pra-pelatihan.
Persyaratan penyimpanan yang tinggi, karena Anda perlu mempertahankan salinan fine-tune model yang terpisah untuk setiap tugas.
Risiko “lupa bencana”, di mana fine-tuning menyebabkan model kehilangan beberapa kemampuan umum yang dipelajari selama pra-pelatihan.

Meskipun keterbatasan ini, fine-tuning penuh tetap menjadi teknik yang kuat dan banyak digunakan ketika sumber daya memungkinkan dan tugas target berbeda secara signifikan dari bahasa umum.

2) Metode Fine-Tuning yang Efisien

Untuk mengatasi tantangan komputasi fine-tuning penuh, peneliti telah mengembangkan strategi yang efisien yang hanya memperbarui subset kecil parameter model selama fine-tuning. Teknik ini menyeimbangkan spesialisasi dan pengurangan kebutuhan sumber daya.

Beberapa metode fine-tuning yang efisien termasuk:

Prefix-Tuning: Di sini, sejumlah vektor atau “awalan” khusus tugas diperkenalkan dan dilatih untuk mengondisikan perhatian model pra-dilatih untuk tugas target. Hanya awalan ini yang diperbarui selama fine-tuning.

LoRA (Low-Rank Adaptation): LoRA menyuntikkan matriks rendah peringkat yang dapat dilatih ke dalam setiap lapisan model pra-dilatih selama fine-tuning. Penyesuaian peringkat rendah ini membantu menyempurnakan model dengan parameter yang jauh lebih sedikit daripada fine-tuning penuh.

Tentu, saya dapat memberikan penjelasan rinci tentang LoRA (Low-Rank Adaptation) bersama dengan formulasi matematika dan contoh kode. LoRA adalah teknik fine-tuning parameter-efisien (PEFT) yang telah mendapatkan perhatian signifikan dalam bidang adaptasi model bahasa besar (LLM).

Apa itu LoRA?

LoRA adalah metode fine-tuning yang memperkenalkan sejumlah kecil parameter yang dapat dilatih ke model LLM pra-dilatih, memungkinkan adaptasi yang efisien ke tugas turunan sambil mempertahankan sebagian besar pengetahuan model asli. Sebagai gantinya melatih semua parameter LLM, LoRA menyuntikkan matriks peringkat rendah khusus tugas ke dalam lapisan model, memungkinkan penghematan komputasi dan memori yang signifikan selama proses fine-tuning.

Formulasi Matematika

LoRA (Low-Rank Adaptation) adalah metode fine-tuning untuk model bahasa besar (LLM) yang memperkenalkan pembaruan peringkat rendah ke matriks bobot. Untuk matriks bobot $W_{0} \in R^{d \times k}, LoRA menambahkan matriks peringkat rendah B A, dengan A \in R^{r \times k} dan B \in R^{d \times r}, di mana r adalah peringkat. Pendekatan ini secara signifikan mengurangi jumlah parameter yang dapat dilatih, memungkinkan adaptasi yang efisien ke tugas turunan dengan sumber daya komputasi minimal. Matriks bobot yang diperbarui diberikan oleh W = W_{0} + B \cdot A .$

Pembaruan peringkat rendah ini dapat diinterpretasikan sebagai memodifikasi matriks bobot asli $W_{0}$ dengan menambahkan matriks peringkat rendah $BA$. Kelebihan utama dari formulasi ini adalah bahwa sebagai gantinya memperbarui semua $d \times k$ parameter dalam $W_{0}$, LoRA hanya perlu mengoptimalkan $r \times (d + k)$ parameter dalam $A$ dan $B$, secara signifikan mengurangi jumlah parameter yang dapat dilatih.

Berikut adalah contoh dalam Python menggunakan perpustakaan peft untuk menerapkan LoRA pada model LLM pra-dilatih untuk klasifikasi teks:

&amp;lt;/div&amp;gt;
&amp;lt;div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;from&amp;lt;/span&amp;gt; transformers &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;import&amp;lt;/span&amp;gt; AutoModelForSequenceClassification
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;from&amp;lt;/span&amp;gt; peft &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;import&amp;lt;/span&amp;gt; get_peft_model&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;,&amp;lt;/span&amp;gt; LoraConfig&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;,&amp;lt;/span&amp;gt; TaskType
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;# Load model pra-dilatih&amp;lt;/span&amp;gt;
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;model &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;=&amp;lt;/span&amp;gt; AutoModelForSequenceClassification&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;.&amp;lt;/span&amp;gt;from_pretrained&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;(&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&quot;bert-base-uncased&quot;&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;,&amp;lt;/span&amp;gt; num_labels&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;=&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;2&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;)&amp;lt;/span&amp;gt;
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;# Definisikan konfigurasi LoRA&amp;lt;/span&amp;gt;
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;peft_config &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;=&amp;lt;/span&amp;gt; LoraConfig&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;(&amp;lt;/span&amp;gt;task_type&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;=&amp;lt;/span&amp;gt;TaskType&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;.&amp;lt;/span&amp;gt;SEQ_CLS&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;, &amp;lt;/span&amp;gt;r&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;=&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;8&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;,&amp;lt;/span&amp;gt; &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;# Peringkat pembaruan peringkat rendah&amp;lt;/span&amp;gt;
lora_alpha&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;=&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;16&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;,&amp;lt;/span&amp;gt;&amp;lt;/code&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;# Faktor penskalaan untuk pembaruan peringkat rendah&amp;lt;/span&amp;gt;
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt; target_modules&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;=&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;[&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&quot;q_lin&quot;&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;,&amp;lt;/span&amp;gt; &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&quot;v_lin&quot;&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;]&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;,&amp;lt;/span&amp;gt; &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;# Terapkan LoRA pada lapisan kueri dan nilai&amp;lt;/span&amp;gt;
&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;)&amp;lt;/span&amp;gt;
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;# Buat model LoRA yang diaktifkan&amp;lt;/span&amp;gt;
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;model &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;=&amp;lt;/span&amp;gt; get_peft_model&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;(&amp;lt;/span&amp;gt;model&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;,&amp;lt;/span&amp;gt; peft_config&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;)&amp;lt;/span&amp;gt;
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;# Fine-tune model dengan LoRA&amp;lt;/span&amp;gt;
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;# ... (kode pelatihan dihilangkan untuk singkat)&amp;lt;/span&amp;gt;&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;/div&amp;gt;
&amp;lt;div data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;

Dalam contoh ini, kita memuat model pra-dilatih BERT untuk klasifikasi urutan dan mendefinisikan konfigurasi LoRA. Parameter r menentukan peringkat pembaruan peringkat rendah, dan lora_alpha adalah faktor penskalaan untuk pembaruan. Parameter target_modules menunjukkan lapisan mana dari model yang harus menerima pembaruan peringkat rendah. Setelah membuat model LoRA yang diaktifkan, kita dapat melanjutkan dengan proses fine-tuning menggunakan prosedur pelatihan standar.

Lapisan Adapter: Mirip dengan LoRA, tetapi sebagai gantinya pembaruan peringkat rendah, lapisan “adapter” yang tipis dimasukkan dalam setiap blok transformer dari model pra-dilatih. Hanya parameter dari beberapa lapisan kompak baru ini yang dilatih.

Prompt Tuning: Pendekatan ini menjaga model pra-dilatih tetap beku sepenuhnya. Sebagai gantinya, “prompt” yang dapat dilatih diperkenalkan sebagai input untuk mengaktifkan pengetahuan pra-dilatih model untuk tugas target.

Metode yang efisien ini dapat memberikan pengurangan komputasi hingga 100x dibandingkan dengan fine-tuning penuh, sambil masih mencapai kinerja kompetitif pada banyak tugas. Mereka juga mengurangi kebutuhan penyimpanan dengan menghindari duplikasi model penuh.

Namun, kinerja mereka mungkin tertinggal dari fine-tuning penuh untuk tugas yang sangat berbeda dari bahasa umum atau memerlukan spesialisasi yang lebih holistik.

Proses Fine-Tuning

Tidak peduli strategi fine-tuning mana yang digunakan, proses umum untuk menyempurnakan LLM mengikuti kerangka umum:

Persiapan Dataset: Anda akan memerlukan dataset yang dilabel yang memetakan input (prompt) ke output yang diinginkan untuk tugas target. Untuk tugas generasi teks seperti ringkasan, ini akan menjadi pasangan input teks ke output ringkasan.
Pemisahan Dataset: Mengikuti praktik terbaik, pisahkan dataset yang dilabel menjadi set pelatihan, validasi, dan pengujian. Ini memisahkan data untuk pelatihan model, penyetelan hiperparameter, dan evaluasi akhir.
Penyetelan Hiperparameter: Parameter seperti laju pembelajaran, ukuran batch, dan jadwal pelatihan perlu disetel untuk fine-tuning yang paling efektif pada data Anda. Ini biasanya melibatkan set validasi kecil.
Pelatihan Model: Menggunakan hiperparameter yang disetel, jalankan proses optimasi fine-tuning pada set pelatihan penuh sampai kinerja model pada set validasi berhenti membaik (penghentian dini).
Evaluasi: Evaluasi kinerja model yang difine-tune pada set pengujian yang dipegang untuk memperkirakan efikasi dunia nyata.
Penggelaran dan Pemantauan: Setelah memuaskan, model yang difine-tune dapat diterapkan untuk inferensi pada input baru. Penting untuk memantau kinerjanya dan akurasi seiring waktu untuk konsep drift.

Sementara ini menguraikan proses umum, banyak nuansa dapat mempengaruhi keberhasilan fine-tuning untuk LLM atau tugas tertentu. Strategi seperti pembelajaran kurikulum, fine-tuning multi-tugas, dan prompting dengan sedikit contoh dapat lebih meningkatkan kinerja.

Selain itu, metode fine-tuning yang efisien melibatkan pertimbangan ekstra. Misalnya, LoRA memerlukan teknik seperti mengondisikan output model pra-dilatih melalui lapisan penggabungan. Prompt tuning memerlukan prompt yang dirancang dengan hati-hati untuk mengaktifkan perilaku yang diinginkan.

Fine-Tuning Lanjutan: Mengintegrasikan Umpan Balik Manusia

Sementara fine-tuning yang diawasi standar menggunakan dataset yang dilabel efektif, frontier yang menarik adalah melatih LLM langsung menggunakan preferensi dan umpan balik manusia. Pendekatan ini menggunakan teknik dari pembelajaran penguatan:

PPO (Proximal Policy Optimization): Di sini, LLM dianggap sebagai agen pembelajaran penguatan, dengan output-nya sebagai “tindakan”. Model hadiah dilatih untuk memprediksi peringkat atau skor kualitas manusia untuk output ini. PPO kemudian mengoptimalkan LLM untuk menghasilkan output yang memaksimalkan skor model hadiah.

RLHF (Reinforcement Learning from Human Feedback): Ini memperluas PPO dengan mengintegrasikan umpan balik manusia langsung ke dalam proses pembelajaran. Sebagai gantinya model hadiah yang tetap, hadiah datang dari evaluasi manusia iteratif pada output LLM selama fine-tuning.

Meskipun komputasi intensif, metode ini memungkinkan membentuk perilaku LLM dengan lebih presisi berdasarkan karakteristik yang diinginkan yang dievaluasi oleh manusia, di luar apa yang dapat ditangkap dalam dataset statis.

Perusahaan seperti Anthropic menggunakan RLHF untuk memberi model bahasa mereka seperti Claude dengan kejujuran, etika, dan kesadaran keamanan yang ditingkatkan di luar kemampuan tugas.

Potensi Risiko dan Keterbatasan

Sementara sangat kuat, fine-tuning LLM tidak tanpa risiko yang harus dikelola dengan hati-hati:

Pengamplifikasian Bias: Jika data fine-tuning mengandung bias sosial sekitar gender, ras, usia, atau atribut lain, model dapat mengamplifikasi bias yang tidak diinginkan. Mengkurasi dataset yang representatif dan bebas bias sangat penting.

Drift Faktual: Bahkan setelah fine-tuning pada data berkualitas tinggi, model bahasa dapat “menghalusikan” fakta yang salah atau output yang tidak konsisten dengan contoh pelatihan selama percakapan atau prompt yang lebih panjang. Metode pengambilan fakta mungkin diperlukan.

Tantangan Skalabilitas: Fine-tuning penuh model besar seperti GPT-3 memerlukan sumber daya komputasi yang besar yang mungkin tidak dapat dijangkau oleh banyak organisasi. Metode fine-tuning yang efisien sebagian memitigasi ini tetapi memiliki trade-off.

Lupa Bencana: Selama fine-tuning penuh, model dapat mengalami lupa bencana, di mana mereka kehilangan beberapa kemampuan umum yang dipelajari selama pra-pelatihan. Pembelajaran multi-tugas mungkin diperlukan.

Risiko IP dan Privasi: Data propietas yang digunakan untuk fine-tuning dapat bocor ke dalam output model bahasa yang dirilis secara publik, menyebabkan risiko. Teknik privasi diferensial dan mitigasi bahaya informasi adalah area penelitian yang aktif.

Secara keseluruhan, sementara sangat berguna, fine-tuning adalah proses yang nuansa yang memerlukan perhatian sekitar kualitas data, pertimbangan identitas, mitigasi risiko, dan keseimbangan trade-off kinerja-efisiensi berdasarkan persyaratan kasus penggunaan.

Masa Depan: Kustomisasi Model Bahasa pada Skala

Menghadap ke depan, kemajuan dalam teknik fine-tuning dan adaptasi model akan menjadi kunci untuk membuka potensi penuh model bahasa besar di berbagai aplikasi dan domain.

Metode yang lebih efisien yang memungkinkan fine-tuning model yang lebih besar seperti PaLM dengan sumber daya yang terbatas dapat mendemokratisasikan akses. Pipa penggunaan dataset otomatis dan teknik prompt dapat menyederhanakan spesialisasi.

Teknik swa-pelatihan untuk fine-tuning dari data mentah tanpa label dapat membuka horizon baru. Dan pendekatan komposisi untuk menggabungkan sub-model yang difine-tune yang dilatih pada tugas atau data yang berbeda dapat memungkinkan konstruksi model yang sangat disesuaikan sesuai permintaan.

Pada akhirnya, ketika LLM menjadi lebih umum, kemampuan untuk mengkustomisasi dan menyempurnakan mereka dengan lancar untuk setiap kasus penggunaan yang dapat dibayangkan akan menjadi kritis. Fine-tuning dan strategi adaptasi model yang terkait adalah langkah-langkah penting dalam mewujudkan visi model bahasa besar sebagai asisten AI yang fleksibel, aman, dan kuat yang meningkatkan kemampuan manusia di setiap domain dan upaya.

Aayush Mittal, Mittal

Saya telah menghabiskan lima tahun terakhir dengan membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menarik. Minat dan keahlian saya telah memimpin saya untuk berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Rasa ingin tahu saya yang terus-menerus juga telah menarik saya ke arah Natural Language Processing, sebuah bidang yang saya ingin jelajahi lebih lanjut.