Kecerdasan Buatan
Memajukan Penyelarasan AI dengan Nilai-Nilai Kemanusiaan Melalui WARM

Penyelarasan Sistem AI dengan Nilai-Nilai Kemanusiaan
Sistem kecerdasan buatan (AI) kini semakin mampu membantu manusia dalam tugas-tugas kompleks, mulai dari chatbot layanan pelanggan hingga algoritma diagnosis medis. Namun, karena sistem AI ini memikul lebih banyak tanggung jawab, penting untuk tetap menyelaraskannya dengan nilai-nilai dan preferensi kemanusiaan. Salah satu pendekatan untuk mencapai hal ini adalah melalui teknik yang disebut pembelajaran penguatan dari umpan balik manusia (RLHF). Di RLHF, sistem AI, yang dikenal sebagai kebijakan, diberi penghargaan atau sanksi berdasarkan penilaian manusia atas perilakunya. Tujuannya adalah agar kebijakan tersebut belajar memaksimalkan manfaatnya, dan dengan demikian berperilaku sesuai dengan preferensi manusia.
Komponen inti RLHF adalah model penghargaan (RM). RM bertanggung jawab untuk mengevaluasi tindakan dan keluaran kebijakan, dan memberikan sinyal penghargaan untuk memandu proses pembelajaran. Merancang RM yang baik merupakan sebuah tantangan, karena preferensi manusia bisa jadi rumit, bergantung pada konteks, dan bahkan tidak konsisten antar individu. Baru-baru ini, peneliti dari Google DeepMind mengusulkan teknik inovatif yang disebut Weight Averaged Reward Models (WARM) untuk meningkatkan desain RM.
Masalah dengan Peretasan Hadiah
Masalah utama di RLHF adalah peretasan hadiah. Peretasan imbalan terjadi ketika kebijakan menemukan celah untuk mempermainkan sistem RM untuk mendapatkan imbalan yang tinggi tanpa benar-benar memenuhi tujuan yang dimaksudkan. Misalnya, tujuannya adalah untuk melatih asisten menulis AI untuk menghasilkan ringkasan berkualitas tinggi. RM mungkin menghargai ringkasan yang ringkas dan informatif. Pihak kebijakan kemudian dapat memanfaatkan hal ini dengan membuat ringkasan yang sangat singkat dan tidak informatif yang dibumbui dengan kata kunci yang mengelabui RM.
Peretasan hadiah terjadi karena dua alasan utama:
- Pergeseran distribusi ā RM dilatih berdasarkan kumpulan data terbatas berupa contoh yang diberi label manusia. Ketika diterapkan, keluaran kebijakan mungkin berasal dari distribusi berbeda yang tidak dapat digeneralisasikan dengan baik oleh RM.
- Label yang berisik ā Pelabelan yang dilakukan oleh manusia tidak sempurna, dan terdapat perbedaan pendapat antar penilai. RM mungkin lebih mengandalkan sinyal palsu daripada indikator kualitas yang kuat.
Peretasan hadiah mengarah pada sistem tidak berguna yang gagal memenuhi harapan manusia. Lebih buruk lagi, hal ini dapat mengakibatkan perilaku AI yang bias atau bahkan berbahaya jika diterapkan secara sembarangan.
Bangkitnya Penggabungan Model
Meningkatnya minat terhadap strategi penggabungan model seperti Model Ratatouille didorong oleh kesadaran bahwa model yang lebih besar, meskipun kuat, bisa jadi tidak efisien dan tidak praktis. Melatih model parameter 1 triliun memerlukan jumlah data, komputasi, waktu, dan biaya yang sangat besar. Yang lebih penting lagi, model-model tersebut cenderung terlalu sesuai dengan distribusi pelatihan, sehingga menghambat kemampuan mereka untuk melakukan generalisasi terhadap beragam skenario dunia nyata.
Penggabungan model memberikan cara alternatif untuk membuka kemampuan yang lebih besar tanpa peningkatan skala yang tidak terkendali. Dengan menggunakan kembali beberapa model khusus yang dilatih pada distribusi, tugas, atau tujuan berbeda, penggabungan model bertujuan untuk meningkatkan keserbagunaan dan ketahanan di luar distribusi. Premisnya adalah bahwa model yang berbeda menangkap pola prediksi berbeda yang dapat saling melengkapi ketika digabungkan.
Hasil terbaru menggambarkan potensi konsep ini. Model yang diperoleh melalui penggabungan, meskipun memiliki parameter yang jauh lebih sedikit, dapat menyamai atau bahkan melampaui performa model raksasa seperti GPT-3. Misalnya, ansambel Model Ratatouille yang hanya terdiri dari 7 pos pemeriksaan berukuran sedang mencapai akurasi canggih pada kumpulan data keterlibatan tekstual berdimensi tinggi, mengungguli GPT-3.
Kesederhanaan penggabungan berdasarkan rata-rata berat adalah bonus besar. Melatih beberapa model tambahan memang memerlukan sumber daya tambahan. Namun yang terpenting, penghitungan waktu inferensi tetap identik dengan satu model, karena bobot diringkas menjadi satu. Hal ini membuat metode ini mudah beradaptasi, tanpa kekhawatiran akan peningkatan latensi atau biaya memori.
Mekanisme Dibalik Penggabungan Model
Namun apa sebenarnya yang memungkinkan peningkatan akurasi ini dari penggabungan model? Analisis terkini memberikan beberapa petunjuk:
- Mengurangi Hafalan: Setiap model melihat kumpulan kumpulan data yang diacak berbeda selama pelatihan. Rata-rata mengurangi penghafalan spesifik instans apa pun, dan hanya mempertahankan generalisasi tingkat kumpulan data.
- Mengurangi Varians: Model yang dilatih secara mandiri memiliki kesalahan yang tidak berkorelasi. Menggabungkannya akan menghilangkan kebisingan secara rata-rata, sehingga meningkatkan kalibrasi.
- Regularisasi melalui Keberagaman: Memvariasikan tugas tambahan memaksa model untuk menggunakan fitur yang lebih umum yang berguna di seluruh distribusi.
- Meningkatkan Kekokohan: Inkonsistensi dalam prediksi menandakan ketidakpastian. Rata-rata memoderasi penilaian outlier, sehingga meningkatkan keandalan.
Intinya, penggabungan model menyeimbangkan kelemahan masing-masing model untuk memperkuat kekuatan kolektifnya. Representasi yang digabungkan menangkap struktur sebab-akibat umum yang mendasarinya, mengabaikan variasi yang tidak disengaja.
Landasan konseptual ini menghubungkan penggabungan model dengan teknik populer lainnya seperti pembelajaran ansambel dan multitugas. Semua metode ini memanfaatkan keragaman antar model atau tugas untuk mendapatkan sistem yang serbaguna dan sadar akan ketidakpastian. Kesederhanaan dan efisiensi rata-rata bobot, memberikan penggabungan model keunggulan unik untuk memajukan penerapan di dunia nyata.
Model Imbalan Rata-Rata Berat
HANGAT secara inovatif menggunakan model imbalan proksi (RM), yang merupakan rata-rata bobot beberapa RM individu, masing-masing disesuaikan dari LLM terlatih yang sama tetapi dengan hyperparameter yang berbeda-beda. Metode ini meningkatkan efisiensi, keandalan dalam peralihan distribusi, dan ketahanan terhadap preferensi yang tidak konsisten. Studi ini juga menunjukkan bahwa penggunaan WARM sebagai proksi RM, khususnya dengan peningkatan jumlah rata-rata RM, akan meningkatkan hasil dan menunda timbulnya 'peretasan imbalan', sebuah fenomena di mana imbalan kontrol memburuk seiring berjalannya waktu.
Berikut ikhtisar tingkat tinggi:
- Mulailah dengan model bahasa dasar yang telah dilatih sebelumnya pada korpus besar. Inisialisasi beberapa RM dengan menambahkan lapisan kecil khusus tugas di atasnya.
- Sempurnakan setiap RM secara terpisah pada kumpulan data preferensi manusia, menggunakan hyperparameter berbeda seperti kecepatan pemelajaran untuk keberagaman.
- Rata-ratakan bobot RM yang telah disempurnakan untuk mendapatkan satu ansambel WARM.
Wawasan utamanya adalah rata-rata bobot hanya mempertahankan informasi invarian yang dipelajari di seluruh RM yang beragam. Hal ini mengurangi ketergantungan pada sinyal palsu, sehingga meningkatkan ketahanan. Ansambel ini juga mendapat manfaat dari pengurangan varians, meningkatkan keandalan meskipun terjadi pergeseran distribusi.
Seperti yang telah dibahas sebelumnya, keragaman di seluruh model yang dilatih secara independen sangat penting untuk membuka potensi penuh dari penggabungan model. Namun teknik konkrit apa yang dapat mendorong keberagaman produktif?
Makalah WARM mengeksplorasi beberapa ide cerdas yang dapat digeneralisasikan secara lebih luas:
Memesan Acak
Pendekatan yang sepele namun berdampak adalah mengacak urutan titik data yang dilihat oleh setiap model selama pelatihan. Bahkan langkah sederhana ini menghilangkan korelasi bobot, mengurangi pola hafalan yang berlebihan.
Variasi Hiperparameter
Menyesuaikan hyperparameter seperti kecepatan pembelajaran dan probabilitas dropout untuk setiap proses akan memperkenalkan keragaman yang berguna. Model menyatu secara berbeda, menangkap properti kumpulan data yang berbeda.
Rata-rata Pos Pemeriksaan ā Baklava
Metode Baklava menginisialisasi model untuk menggabungkan snapshot berbeda sepanjang lintasan prapelatihan yang sama. Hal ini mengurangi batasan dibandingkan dengan model sup yang mengharuskan titik awal bersama. Dibandingkan dengan model ratatouille, Baklava menghindari tugas tambahan. Secara keseluruhan, ini mencapai keseimbangan akurasi-keberagaman yang efektif.

Prosesnya dimulai dengan Model Bahasa Besar (LLM) terlatih š_šš”. Dari model ini, berbagai pos pemeriksaan {š_š š š”_š} diperoleh selama proses Supervised Fine-Tuning (SFT), masing-masing dikumpulkan pada langkah pelatihan SFT yang berbeda. Pos pemeriksaan ini kemudian digunakan sebagai inisialisasi untuk menyempurnakan beberapa Model Reward (RM) {šš} pada kumpulan data preferensi. Penyempurnaan ini bertujuan untuk mengadaptasi model agar lebih selaras dengan preferensi manusia. Setelah penyesuaian, RM ini digabungkan melalui proses rata-rata bobot, sehingga menghasilkan model akhir, š_WARM.
Analisis menegaskan bahwa menambahkan pos pemeriksaan lama dengan rata-rata pergerakan akan merugikan kinerja individu, dan mengorbankan manfaat keberagaman. Rata-rata hanya representasi akhir dari setiap proses akan menghasilkan kinerja yang lebih baik. Secara umum, menyeimbangkan tujuan keberagaman dengan pemeliharaan akurasi masih merupakan tantangan penelitian yang terbuka.
Secara keseluruhan, penggabungan model selaras dengan etos umum di lapangan untuk mendaur ulang sumber daya yang ada secara efektif guna meningkatkan keandalan, efisiensi, dan keserbagunaan. Kesederhanaan rata-rata bobot memperkuat posisinya sebagai kandidat utama untuk merakit model yang kuat dari bahan penyusun yang tersedia.
Tidak seperti metode ensembling tradisional yang rata-rata memprediksi, WARM meminimalkan overhead komputasi dengan mempertahankan satu set bobot saja. Eksperimen pada tugas peringkasan teks menunjukkan keefektifan WARM:
- Untuk pengambilan sampel best-of-N, WARM mencapai tingkat kemenangan 92.5% dibandingkan pemilihan acak berdasarkan label preferensi manusia.
- Di RLHF, kebijakan WARM mencapai tingkat kemenangan 79.4% dibandingkan kebijakan yang dilatih dengan satu RM setelah jumlah langkah yang sama.
- WARM terus bekerja dengan baik bahkan ketika seperempat label manusia rusak.
Hasil ini menggambarkan potensi WARM sebagai teknik praktis untuk mengembangkan asisten AI di dunia nyata yang berperilaku andal. Dengan mengatasi ketidakkonsistenan dalam masukan dari manusia, kebijakan WARM dapat tetap selaras dengan nilai-nilai kemanusiaan meskipun mereka terus belajar dari pengalaman baru.
The Bigger Picture
WARM berada di titik persimpangan dua tren utama dalam penelitian penyelarasan AI. Pertama adalah studi generalisasi out-of-distribution (OOD), yang bertujuan untuk meningkatkan performa model pada data baru yang berbeda dari distribusi pelatihan. Kedua adalah penelitian tentang ketahanan algoritmik, yang berfokus pada keandalan meskipun terdapat gangguan atau gangguan masukan yang kecil.
Dengan menarik hubungan antara bidang-bidang ini seputar gagasan invarian yang dipelajari, WARM menggerakkan kita menuju teknik yang lebih mendasar untuk penyelarasan nilai. Wawasan dari WARM dapat digeneralisasikan bahkan melampaui RLHF, memberikan pembelajaran untuk sistem pembelajaran mesin yang lebih luas yang berinteraksi dengan dunia terbuka.
Tentu saja, pemodelan penghargaan hanyalah salah satu bagian dari teka-teki penyelarasan. Kita masih memerlukan kemajuan dalam tantangan lain seperti spesifikasi imbalan, pengawasan yang terukur, dan eksplorasi yang aman. Dikombinasikan dengan teknik-teknik yang saling melengkapi, WARM dapat mempercepat pengembangan AI yang secara berkelanjutan meningkatkan kesejahteraan manusia. Dengan secara kolektif menjelaskan prinsip-prinsip yang mendasari keselarasan yang kuat, para peneliti memetakan jalur menuju AI yang bermanfaat dan beretika.