AI 101
Apa itu Pembelajaran Penguatan?

Apa itu Pembelajaran Penguatan?
Secara sederhana, pembelajaran penguatan adalah teknik pembelajaran mesin yang melibatkan pelatihan agen kecerdasan buatan melalui pengulangan tindakan dan imbalan yang terkait. Agen pembelajaran penguatan bereksperimen dalam suatu lingkungan, mengambil tindakan dan diberi imbalan ketika tindakan yang benar dilakukan. Seiring waktu, agen belajar untuk mengambil tindakan yang akan memaksimalkan imbalannya. Itulah definisi singkat pembelajaran penguatan, tetapi melihat lebih dekat konsep-konsep di balik pembelajaran penguatan akan membantu Anda mendapatkan pemahaman yang lebih baik dan lebih intuitif. Istilah “pembelajaran penguatan” diadaptasi dari konsep penguatan dalam psikologi. Oleh karena itu, mari kita luangkan waktu sejenak untuk memahami konsep psikologis penguatan. Dalam arti psikologis, istilah penguatan mengacu pada sesuatu yang meningkatkan kemungkinan suatu respons/tindakan tertentu akan terjadi. Konsep penguatan ini adalah ide sentral dari teori pengkondisian operan, yang awalnya diusulkan oleh psikolog B.F. Skinner. Dalam konteks ini, penguatan adalah apa pun yang menyebabkan frekuensi perilaku tertentu meningkat. Jika kita memikirkan kemungkinan penguatan untuk manusia, hal-hal ini bisa berupa pujian, kenaikan gaji di tempat kerja, permen, dan kegiatan yang menyenangkan. Dalam arti psikologis tradisional, ada dua jenis penguatan. Ada penguatan positif dan penguatan negatif. Penguatan positif adalah penambahan sesuatu untuk meningkatkan suatu perilaku, seperti memberi anjing Anda camilan ketika ia berperilaku baik. Penguatan negatif melibatkan penghilangan stimulus untuk memunculkan suatu perilaku, seperti mematikan suara keras untuk membujuk kucing yang penakut keluar.
Penguatan Positif & Negatif
Penguatan positif meningkatkan frekuensi suatu perilaku sementara penguatan negatif mengurangi frekuensinya. Secara umum, penguatan positif adalah jenis penguatan yang paling umum digunakan dalam pembelajaran penguatan, karena membantu model memaksimalkan kinerja pada tugas tertentu. Tidak hanya itu, penguatan positif mengarahkan model untuk membuat perubahan yang lebih berkelanjutan, perubahan yang dapat menjadi pola konsisten dan bertahan untuk waktu yang lama. Sebaliknya, meskipun penguatan negatif juga membuat suatu perilaku lebih mungkin terjadi, penguatan ini digunakan untuk mempertahankan standar kinerja minimum daripada mencapai kinerja maksimum model. Penguatan negatif dalam pembelajaran penguatan dapat membantu memastikan bahwa model dijauhkan dari tindakan yang tidak diinginkan, tetapi tidak benar-benar dapat membuat model menjelajahi tindakan yang diinginkan.
Melatih Agen Pembelajaran Penguatan
Ketika agen pembelajaran penguatan dilatih, ada empat bahan berbeda atau keadaan yang digunakan dalam pelatihan: keadaan awal (State 0), keadaan baru (State 1), tindakan, dan imbalan. Bayangkan kita sedang melatih agen pembelajaran penguatan untuk memainkan video game platform di mana tujuan AI adalah mencapai akhir level dengan bergerak ke kanan melintasi layar. Keadaan awal permainan diambil dari lingkungan, artinya frame pertama permainan dianalisis dan diberikan kepada model. Berdasarkan informasi ini, model harus memutuskan suatu tindakan. Selama fase awal pelatihan, tindakan-tindakan ini acak tetapi seiring model diperkuat, tindakan tertentu akan menjadi lebih umum. Setelah tindakan diambil, lingkungan permainan diperbarui dan keadaan atau frame baru dibuat. Jika tindakan yang diambil oleh agen menghasilkan hasil yang diinginkan, katakanlah dalam kasus ini agen masih hidup dan belum terkena musuh, beberapa imbalan diberikan kepada agen dan menjadi lebih mungkin untuk melakukan hal yang sama di masa depan. Sistem dasar ini terus diulang, terjadi lagi dan lagi, dan setiap kali agen mencoba belajar sedikit lebih banyak dan memaksimalkan imbalannya.












