Kecerdasan buatan

Banyak Wajah Pembelajaran Penguatan: Membentuk Model Bahasa Besar

Published February 13, 2025

Updated April 26, 2026

Dr. Tehseen Zia

Dalam beberapa tahun terakhir, Model Bahasa Besar (LLM) telah secara signifikan meredefinisi bidang kecerdasan buatan (AI), memungkinkan mesin untuk memahami dan menghasilkan teks yang mirip dengan manusia dengan kemampuan yang luar biasa. Kesuksesan ini sebagian besar dikaitkan dengan kemajuan dalam metodologi pembelajaran mesin, termasuk pembelajaran dalam dan pembelajaran penguatan (RL). Sementara pembelajaran terawasi telah memainkan peran penting dalam melatih LLM, pembelajaran penguatan telah muncul sebagai alat yang kuat untuk memperhalus dan meningkatkan kemampuan mereka di luar pengenalan pola sederhana.

Pembelajaran penguatan memungkinkan LLM untuk belajar dari pengalaman, mengoptimalkan perilaku mereka berdasarkan penghargaan atau hukuman. Berbagai varian RL, seperti Pembelajaran Penguatan dari Umpan Balik Manusia (RLHF), Pembelajaran Penguatan dengan Penghargaan yang Diverifikasi (RLVR), Optimasi Kebijakan Relatif Kelompok (GRPO), dan Optimasi Preferensi Langsung (DPO), telah dikembangkan untuk memperhalus LLM, memastikan keselarasan mereka dengan preferensi manusia dan meningkatkan kemampuan penalaran mereka.

Artikel ini menjelajahi berbagai pendekatan pembelajaran penguatan yang membentuk LLM, memeriksa kontribusi dan dampaknya pada pengembangan AI.

Memahami Pembelajaran Penguatan di AI

Pembelajaran Penguatan (RL) adalah paradigma pembelajaran mesin di mana agen belajar membuat keputusan dengan berinteraksi dengan lingkungan. Alih-alih hanya mengandalkan dataset yang dilabeli, agen mengambil tindakan, menerima umpan balik dalam bentuk penghargaan atau hukuman, dan menyesuaikan strateginya sesuai.

Untuk LLM, pembelajaran penguatan memastikan bahwa model menghasilkan respons yang selaras dengan preferensi manusia, pedoman etika, dan penalaran praktis. Tujuannya bukan hanya untuk menghasilkan kalimat yang secara sintaksis benar tetapi juga untuk membuatnya berguna, bermakna, dan selaras dengan norma-norma sosial.

Pembelajaran Penguatan dari Umpan Balik Manusia (RLHF)

Salah satu teknik RL yang paling banyak digunakan dalam pelatihan LLM adalah RLHF. Alih-alih hanya mengandalkan dataset yang telah ditentukan sebelumnya, RLHF memperbaiki LLM dengan mengintegrasikan preferensi manusia ke dalam loop pelatihan. Proses ini biasanya melibatkan:

Mengumpulkan Umpan Balik Manusia: Evaluator manusia menilai respons yang dihasilkan model dan menilai mereka berdasarkan kualitas, kohesi, kegunaan, dan akurasi.
Melatih Model Penghargaan: Peringkat ini kemudian digunakan untuk melatih model penghargaan yang terpisah yang memprediksi output mana yang lebih disukai manusia.
Memperhalus dengan RL: LLM dilatih menggunakan model penghargaan ini untuk memperhalus respons mereka berdasarkan preferensi manusia.

Pendekatan ini telah digunakan dalam memperbaiki model seperti ChatGPT dan Claude. Sementara RLHF telah memainkan peran penting dalam membuat LLM lebih selaras dengan preferensi pengguna, mengurangi bias, dan meningkatkan kemampuan mereka untuk mengikuti instruksi yang kompleks, itu memerlukan sumber daya yang besar, memerlukan sejumlah besar annotator manusia untuk menilai dan memperhalus output AI. Keterbatasan ini menyebabkan peneliti untuk menjelajahi metode alternatif, seperti Pembelajaran Penguatan dari Umpan Balik AI (RLAIF) dan Pembelajaran Penguatan dengan Penghargaan yang Diverifikasi (RLVR).

RLAIF: Pembelajaran Penguatan dari Umpan Balik AI

Tidak seperti RLHF, RLAIF mengandalkan preferensi yang dihasilkan AI untuk melatih LLM, bukan umpan balik manusia. Ini beroperasi dengan menggunakan sistem AI lain, biasanya LLM, untuk menilai dan menilai respons, membuat sistem penghargaan yang otomatis yang dapat memandu proses pembelajaran LLM.

Pendekatan ini mengatasi kekhawatiran skalabilitas yang terkait dengan RLHF, di mana anotasi manusia dapat mahal dan memakan waktu. Dengan menggunakan umpan balik AI, RLAIF meningkatkan konsistensi dan efisiensi, mengurangi variabilitas yang diperkenalkan oleh opini subjektif manusia. Meskipun RLAIF adalah pendekatan yang berharga untuk memperhalus LLM secara besar-besaran, itu kadang-kadang dapat memperkuat bias yang ada dalam sistem AI.

Pembelajaran Penguatan dengan Penghargaan yang Diverifikasi (RLVR)

Sementara RLHF dan RLAIF mengandalkan umpan balik subjektif, RLVR menggunakan penghargaan yang objektif dan dapat diverifikasi secara programatis untuk melatih LLM. Metode ini khususnya efektif untuk tugas yang memiliki kriteria kebenaran yang jelas, seperti:

Pemecahan masalah matematika
Generasi kode
Pengolahan data terstruktur

Dalam RLVR, respons model dinilai menggunakan aturan atau algoritma yang telah ditentukan sebelumnya. Fungsi penghargaan yang dapat diverifikasi menentukan apakah respons memenuhi kriteria yang diharapkan, memberikan skor tinggi untuk jawaban yang benar dan skor rendah untuk jawaban yang salah.

Pendekatan ini mengurangi ketergantungan pada pelabelan manusia dan bias AI, membuat pelatihan lebih scalable dan hemat biaya. Misalnya, dalam tugas penalaran matematika, RLVR telah digunakan untuk memperhalus model seperti DeepSeek’s R1-Zero, memungkinkan mereka untuk self-improve tanpa intervensi manusia.

Mengoptimalkan Pembelajaran Penguatan untuk LLM

Selain teknik yang disebutkan sebelumnya yang memandu bagaimana LLM menerima penghargaan dan belajar dari umpan balik, aspek yang sama pentingnya dari RL adalah bagaimana model mengadopsi (atau mengoptimalkan) perilaku (atau kebijakan) mereka berdasarkan penghargaan ini. Ini adalah tempat teknik optimasi yang maju berperan.

Optimasi dalam RL pada dasarnya adalah proses memperbarui perilaku model untuk memaksimalkan penghargaan. Sementara pendekatan RL tradisional sering mengalami ketidakstabilan dan ketidakefisiensian saat memperhalus LLM, pendekatan baru telah dikembangkan untuk mengoptimalkan LLM. Berikut adalah strategi optimasi utama yang digunakan untuk melatih LLM:

Proximal Policy Optimization (PPO): PPO adalah salah satu teknik RL yang paling banyak digunakan untuk memperhalus LLM. Tantangan besar dalam RL adalah memastikan bahwa pembaruan model meningkatkan kinerja tanpa perubahan besar yang dapat mengurangi kualitas respons. PPO mengatasi ini dengan memperkenalkan pembaruan kebijakan yang terkendali, memperhalus respons model secara bertahap dan aman untuk mempertahankan stabilitas. Ini juga menyeimbangkan eksplorasi dan eksploitasi, membantu model menemukan respons yang lebih baik sambil memperkuat perilaku yang efektif. Selain itu, PPO adalah efisien sampel, menggunakan batch data yang lebih kecil untuk mengurangi waktu pelatihan sambil mempertahankan kinerja yang tinggi. Metode ini secara luas digunakan dalam model seperti ChatGPT, memastikan respons tetap berguna, relevan, dan selaras dengan harapan manusia tanpa overfitting ke sinyal penghargaan tertentu.
Optimasi Preferensi Langsung (DPO): DPO adalah teknik optimasi RL lain yang fokus pada mengoptimalkan output model secara langsung untuk selaras dengan preferensi manusia. Tidak seperti algoritma RL tradisional yang mengandalkan pemodelan penghargaan yang kompleks, DPO secara langsung mengoptimalkan model berdasarkan data preferensi biner—artinya itu hanya menentukan apakah satu output lebih baik dari yang lain. Pendekatan ini mengandalkan evaluator manusia untuk menilai beberapa respons yang dihasilkan model untuk prompt tertentu. Kemudian, model diperhalus untuk meningkatkan kemungkinan menghasilkan respons yang lebih tinggi peringkat di masa depan. DPO khususnya efektif dalam skenario di mana mendapatkan model penghargaan yang terperinci sulit. Dengan menyederhanakan RL, DPO memungkinkan model AI untuk meningkatkan output mereka tanpa beban komputasi yang terkait dengan teknik RL yang lebih kompleks.
Optimasi Kebijakan Relatif Kelompok (GRPO): Salah satu pengembangan terbaru dalam teknik optimasi RL untuk LLM adalah GRPO. Sementara teknik RL biasa, seperti PPO, memerlukan model nilai untuk memperkirakan keuntungan dari respons yang berbeda yang memerlukan daya komputasi yang tinggi dan sumber daya memori yang signifikan, GRPO menghilangkan kebutuhan akan model nilai yang terpisah dengan menggunakan sinyal penghargaan dari generasi yang berbeda pada prompt yang sama. Ini berarti bahwa alih-alih membandingkan output dengan model nilai statis, itu membandingkannya dengan satu sama lain, secara signifikan mengurangi overhead komputasi. Salah satu aplikasi GRPO yang paling terkenal dilihat dalam DeepSeek R1-Zero, model yang dilatih sepenuhnya tanpa pelatihan terawasi dan berhasil mengembangkan keterampilan penalaran yang maju melalui evolusi mandiri.

Garisan Bawah

Pembelajaran penguatan memainkan peran kritis dalam memperhalus Model Bahasa Besar (LLM) dengan meningkatkan keselarasan mereka dengan preferensi manusia dan mengoptimalkan kemampuan penalaran mereka. Teknik seperti RLHF, RLAIF, dan RLVR menyediakan berbagai pendekatan untuk pembelajaran berbasis penghargaan, sementara metode optimasi seperti PPO, DPO, dan GRPO meningkatkan efisiensi pelatihan dan stabilitas. Ketika LLM terus berkembang, peran pembelajaran penguatan menjadi sangat penting dalam membuat model ini lebih cerdas, etis, dan rasional.