AI 101
Apa itu Reinforcement Learning?

Apa itu Reinforcement Learning?
Dengan sederhana, reinforcement learning adalah teknik machine learning yang melibatkan pelatihan agen kecerdasan buatan melalui pengulangan tindakan dan imbalan yang terkait. Agen reinforcement learning bereksperimen di lingkungan, mengambil tindakan dan diberi imbalan ketika tindakan yang benar diambil. Dalam waktu, agen belajar untuk mengambil tindakan yang akan memaksimalkan imbalannya. Itu adalah definisi singkat dari reinforcement learning, tetapi dengan melihat lebih dekat konsep di balik reinforcement learning akan membantu Anda memahami lebih baik dan lebih intuitif.
Istilah “reinforcement learning” diadaptasi dari konsep reinforcement dalam psikologi. Karena itu, mari kita ambil waktu untuk memahami konsep psikologis dari reinforcement. Dalam pengertian psikologis, istilah reinforcement merujuk pada sesuatu yang meningkatkan kemungkinan bahwa suatu respons/tindakan akan terjadi. Konsep reinforcement ini adalah ide sentral dari teori kondisi operan, yang awalnya diajukan oleh psikolog B.F. Skinner. Dalam konteks ini, reinforcement adalah apa saja yang menyebabkan frekuensi suatu perilaku meningkat. Jika kita berpikir tentang kemungkinan reinforcement untuk manusia, ini dapat berupa hal-hal seperti pujian, kenaikan gaji di tempat kerja, permen, dan kegiatan yang menyenangkan.
Dalam pengertian psikologis tradisional, ada dua jenis reinforcement. Ada reinforcement positif dan reinforcement negatif. Reinforcement positif adalah penambahan sesuatu untuk meningkatkan suatu perilaku, seperti memberikan hadiah kepada anjing ketika berperilaku baik. Reinforcement negatif melibatkan penghapusan stimulus untuk memicu suatu perilaku, seperti mematikan kebisingan untuk mengeluarkan kucing yang penakut.
Reinforcement Positif & Negatif
Reinforcement positif meningkatkan frekuensi suatu perilaku sedangkan reinforcement negatif menurunkan frekuensi. Secara umum, reinforcement positif adalah jenis reinforcement yang paling umum digunakan dalam reinforcement learning, karena membantu model memaksimalkan kinerja pada tugas tertentu. Tidak hanya itu, tetapi reinforcement positif juga menyebabkan model membuat perubahan yang lebih berkelanjutan, perubahan yang dapat menjadi pola yang konsisten dan bertahan dalam waktu lama.
Sebaliknya, sementara reinforcement negatif juga membuat suatu perilaku lebih mungkin terjadi, itu digunakan untuk mempertahankan standar kinerja minimum daripada mencapai kinerja maksimum model. Reinforcement negatif dalam reinforcement learning dapat membantu memastikan bahwa model dijauhkan dari tindakan yang tidak diinginkan, tetapi tidak dapat membuat model mengeksplorasi tindakan yang diinginkan.
Melatih Agen Reinforcement
Ketika agen reinforcement learning dilatih, ada empat bahan atau keadaan yang digunakan dalam pelatihan: keadaan awal (Keadaan 0), keadaan baru (Keadaan 1), tindakan, dan imbalan.
Bayangkan bahwa kita sedang melatih agen reinforcement untuk bermain game platform di mana tujuan kecerdasan buatan adalah mencapai akhir level dengan bergerak ke kanan di layar. Keadaan awal game diambil dari lingkungan, yang berarti frame pertama game dianalisis dan diberikan kepada model. Berdasarkan informasi ini, model harus memutuskan tindakan.
Selama fase awal pelatihan, tindakan ini acak tetapi ketika model diperkuat, tindakan tertentu akan menjadi lebih umum. Setelah tindakan diambil, lingkungan game diperbarui dan keadaan baru atau frame dibuat. Jika tindakan yang diambil oleh agen menghasilkan hasil yang diinginkan, katakanlah dalam kasus ini bahwa agen masih hidup dan tidak terkena musuh, beberapa imbalan diberikan kepada agen dan menjadi lebih mungkin untuk melakukan hal yang sama di masa depan.
Sistem dasar ini terus-menerus diulang, terjadi lagi dan lagi, dan setiap kali agen mencoba belajar sedikit lebih banyak dan memaksimalkan imbalannya.
Tugas Episodik vs Tugas Kontinu
Tugas reinforcement learning dapat dikelompokkan menjadi dua kategori yang berbeda: tugas episodik dan tugas kontinu.
Tugas episodik akan menjalankan loop pelatihan/pelatihan dan meningkatkan kinerjanya sampai kriteria akhir tertentu dipenuhi dan pelatihan dihentikan. Dalam game, ini mungkin mencapai akhir level atau jatuh ke dalam bahaya seperti paku. Sebaliknya, tugas kontinu tidak memiliki kriteria penghentian, secara efektif terus-menerus dilatih sampai insinyur memilih untuk menghentikan pelatihan.
Monte Carlo vs Temporal Difference
Ada dua cara utama untuk mempelajari, atau melatih, agen reinforcement learning. Dalam pendekatan Monte Carlo, imbalan diberikan kepada agen (skor diperbarui) hanya di akhir episode pelatihan. Dengan kata lain, hanya ketika kondisi penghentian tercapai model belajar seberapa baik kinerjanya. Kemudian model dapat menggunakan informasi ini untuk memperbarui dan ketika putaran pelatihan berikutnya dimulai, model akan merespons sesuai dengan informasi baru.
Metode temporal-difference berbeda dari metode Monte Carlo dalam bahwa estimasi nilai, atau estimasi skor, diperbarui selama episode pelatihan. Setelah model maju ke langkah waktu berikutnya, nilai-nilai diperbarui.
Eksplorasi vs Eksploitasi
Melatih agen reinforcement learning adalah tindakan seimbang, yang melibatkan keseimbangan dua metrik yang berbeda: eksplorasi dan eksploitasi.
Eksplorasi adalah tindakan mengumpulkan lebih banyak informasi tentang lingkungan sekitar, sedangkan eksploitasi adalah menggunakan informasi yang sudah diketahui tentang lingkungan untuk mendapatkan poin imbalan. Jika agen hanya mengeksplorasi dan tidak pernah mengeksploitasi lingkungan, tindakan yang diinginkan tidak pernah akan dilakukan. Di sisi lain, jika agen hanya mengeksploitasi dan tidak pernah mengeksplorasi, agen hanya akan belajar untuk melakukan satu tindakan dan tidak akan menemukan strategi lain untuk mendapatkan imbalan. Oleh karena itu, keseimbangan antara eksplorasi dan eksploitasi sangat penting ketika membuat agen reinforcement learning.
Kasus Penggunaan Reinforcement Learning
Reinforcement learning dapat digunakan dalam berbagai peran, dan paling sesuai untuk aplikasi di mana tugas memerlukan otomatisasi.
Otomatisasi tugas yang harus dilakukan oleh robot industri adalah salah satu area di mana reinforcement learning terbukti berguna. Reinforcement learning juga dapat digunakan untuk masalah seperti penambangan teks, membuat model yang dapat merangkum teks panjang. Peneliti juga bereksperimen dengan menggunakan reinforcement learning dalam bidang kesehatan, dengan agen reinforcement menangani tugas seperti optimasi kebijakan pengobatan. Reinforcement learning juga dapat digunakan untuk menyesuaikan bahan pendidikan untuk siswa.
Ringkasan Reinforcement Learning
Reinforcement learning adalah metode yang kuat untuk membangun agen kecerdasan buatan yang dapat menghasilkan hasil yang mengesankan dan terkadang mengejutkan. Melatih agen melalui reinforcement learning dapat kompleks dan sulit, karena membutuhkan banyak iterasi pelatihan dan keseimbangan yang halus dari dikotomi eksplorasi/eksploitasi. Namun, jika berhasil, agen yang dibuat dengan reinforcement learning dapat melakukan tugas yang kompleks dalam berbagai lingkungan yang berbeda.












