potongan Apa itu Pembelajaran Penguatan? - Bersatu.AI
Terhubung dengan kami

AI 101

Apa itu Pembelajaran Penguatan?

mm
Updated on

Apa itu Pembelajaran Penguatan?

Sederhananya, pembelajaran penguatan adalah teknik pembelajaran mesin yang melibatkan pelatihan agen kecerdasan buatan melalui pengulangan tindakan dan imbalan terkait. Agen pembelajaran penguatan bereksperimen di lingkungan, mengambil tindakan, dan diberi penghargaan ketika tindakan yang benar diambil. Seiring waktu, agen belajar mengambil tindakan yang akan memaksimalkan imbalannya. Itu adalah definisi cepat dari pembelajaran penguatan, tetapi melihat lebih dekat pada konsep di balik pembelajaran penguatan akan membantu Anda mendapatkan pemahaman yang lebih baik dan lebih intuitif tentangnya.

Istilah “reinforcement learning” diadaptasi dari konsep penguatan dalam psikologi. Oleh karena itu, mari luangkan waktu sejenak untuk memahami konsep penguatan psikologis. Dalam pengertian psikologis, istilah penguatan mengacu pada sesuatu yang meningkatkan kemungkinan terjadinya respons/tindakan tertentu. Konsep penguatan ini merupakan gagasan sentral dari teori pengkondisian operan, yang awalnya dikemukakan oleh psikolog BF Skinner. Dalam konteks ini, penguatan adalah segala sesuatu yang menyebabkan frekuensi perilaku tertentu meningkat. Jika kita berpikir tentang penguatan yang mungkin bagi manusia, ini bisa berupa pujian, kenaikan gaji di tempat kerja, permen, dan aktivitas yang menyenangkan.

Dalam pengertian psikologis tradisional, ada dua jenis penguatan. Ada penguatan positif dan penguatan negatif. Penguatan positif adalah penambahan sesuatu untuk meningkatkan perilaku, seperti memberi anjing Anda hadiah saat ia berperilaku baik. Penguatan negatif melibatkan menghilangkan rangsangan untuk menimbulkan perilaku, seperti mematikan suara keras untuk membujuk kucing yang gelisah.

Penguatan Positif & Negatif

Penguatan positif meningkatkan frekuensi suatu perilaku sementara penguatan negatif menurunkan frekuensi. Secara umum, penguatan positif adalah jenis penguatan yang paling umum digunakan dalam pembelajaran penguatan, karena membantu model memaksimalkan kinerja pada tugas yang diberikan. Tidak hanya itu, penguatan positif mengarahkan model untuk melakukan perubahan yang lebih berkelanjutan, perubahan yang dapat menjadi pola yang konsisten dan bertahan dalam jangka waktu yang lama.

Sebaliknya, sementara penguatan negatif juga membuat suatu perilaku lebih mungkin terjadi, itu digunakan untuk mempertahankan standar kinerja minimum daripada mencapai kinerja maksimum model. Penguatan negatif dalam pembelajaran penguatan dapat membantu memastikan bahwa model dijauhkan dari tindakan yang tidak diinginkan, tetapi tidak dapat benar-benar membuat model mengeksplorasi tindakan yang diinginkan.

Melatih Agen Penguatan

Ketika agen pembelajaran penguatan dilatih, ada empat bahan yang berbeda or negara digunakan dalam pelatihan: status awal (Status 0), status baru (Status 1), tindakan, dan penghargaan.

Bayangkan kita sedang melatih agen penguat untuk memainkan video game platform di mana tujuan AI adalah mencapai akhir level dengan bergerak tepat melintasi layar. Keadaan awal permainan diambil dari lingkungan, artinya kerangka pertama permainan dianalisis dan diberikan kepada model. Berdasarkan informasi ini, model harus memutuskan suatu tindakan.

Selama fase awal pelatihan, tindakan ini bersifat acak, tetapi saat model diperkuat, tindakan tertentu akan menjadi lebih umum. Setelah tindakan diambil, lingkungan game diperbarui dan status atau bingkai baru dibuat. Jika tindakan yang dilakukan oleh agen menghasilkan hasil yang diinginkan, katakanlah dalam kasus ini agen masih hidup dan belum terkena musuh, beberapa hadiah diberikan kepada agen dan kemungkinan besar akan melakukan hal yang sama di masa depan.

Sistem dasar ini terus berputar, terjadi berulang kali, dan setiap kali agen mencoba untuk belajar lebih banyak dan memaksimalkan hadiahnya.

Tugas Episodik vs Berkelanjutan

Tugas pembelajaran penguatan biasanya dapat ditempatkan di salah satu dari dua kategori yang berbeda: tugas episodik dan tugas berkelanjutan.

Tugas episodik akan menjalankan putaran pembelajaran/pelatihan dan meningkatkan kinerjanya hingga beberapa kriteria akhir terpenuhi dan pelatihan dihentikan. Dalam sebuah game, ini mungkin mencapai akhir level atau jatuh ke dalam bahaya seperti paku. Sebaliknya, tugas berkelanjutan tidak memiliki kriteria penghentian, pada dasarnya terus melatih selamanya sampai insinyur memilih untuk mengakhiri pelatihan.

Monte Carlo vs Perbedaan Temporal

Ada dua cara utama belajar, atau pelatihan, agen pembelajaran penguatan. Di dalam pendekatan Monte Carlo, hadiah dikirimkan ke agen (skornya diperbarui) hanya di akhir episode pelatihan. Dengan kata lain, hanya ketika kondisi penghentian tercapai barulah model mempelajari seberapa baik kinerjanya. Kemudian dapat menggunakan informasi ini untuk memperbarui dan ketika putaran pelatihan berikutnya dimulai, ia akan merespons sesuai dengan informasi baru.

Grafik metode perbedaan waktu berbeda dari metode Monte Carlo dalam estimasi nilai, atau estimasi skor, diperbarui selama episode pelatihan. Setelah model maju ke langkah waktu berikutnya, nilai diperbarui.

Eksplorasi vs Eksploitasi

Melatih agen pembelajaran penguatan adalah tindakan penyeimbangan, yang melibatkan penyeimbangan dua metrik yang berbeda: eksplorasi dan eksploitasi.

Eksplorasi adalah tindakan mengumpulkan lebih banyak informasi tentang lingkungan sekitar, sedangkan eksplorasi menggunakan informasi yang sudah diketahui tentang lingkungan untuk mendapatkan poin reward. Jika agen hanya mengeksplorasi dan tidak pernah mengeksploitasi lingkungan, tindakan yang diinginkan tidak akan pernah dilakukan. Di sisi lain, jika agen hanya mengeksploitasi dan tidak pernah mengeksplorasi, agen hanya akan belajar melakukan satu tindakan dan tidak akan menemukan kemungkinan strategi lain untuk mendapatkan hadiah. Oleh karena itu, menyeimbangkan eksplorasi dan eksploitasi sangat penting saat membuat agen pembelajaran penguatan.

Gunakan Kasus Untuk Pembelajaran Penguatan

Pembelajaran penguatan dapat digunakan dalam berbagai peran, dan paling cocok untuk aplikasi di mana tugas memerlukan otomatisasi.

Otomatisasi tugas yang harus dilakukan oleh robot industri adalah salah satu area di mana pembelajaran penguatan terbukti bermanfaat. Pembelajaran penguatan juga dapat digunakan untuk masalah seperti penambangan teks, membuat model yang mampu meringkas teks yang panjang. Para peneliti juga bereksperimen dengan menggunakan pembelajaran penguatan di bidang kesehatan, dengan agen penguatan menangani pekerjaan seperti optimalisasi kebijakan pengobatan. Pembelajaran penguatan juga dapat digunakan untuk menyesuaikan materi pendidikan bagi siswa.

Rangkuman Pembelajaran Penguatan

Pembelajaran penguatan adalah metode ampuh untuk membangun agen AI yang dapat menghasilkan hasil yang mengesankan dan terkadang mengejutkan. Melatih agen melalui pembelajaran penguatan bisa jadi rumit dan sulit, karena membutuhkan banyak iterasi pelatihan dan keseimbangan yang halus dari dikotomi eksplorasi/eksploitasi. Namun, jika berhasil, agen yang dibuat dengan pembelajaran penguatan dapat melakukan tugas-tugas kompleks dalam berbagai lingkungan yang berbeda.

Blogger dan programmer dengan spesialisasi di Pembelajaran mesin dan Belajar mendalam topik. Daniel berharap dapat membantu orang lain menggunakan kekuatan AI untuk kebaikan sosial.