Robotika
Ilmuwan Komputer Menggunakan Penguatan Positif untuk Mengajar Robot

Ilmuwan komputer di Universitas Johns Hopkins telah menerapkan teknik pelatihan yang sudah lama digunakan, yaitu penguatan positif, yang sering digunakan untuk melatih hewan seperti anjing, pada sebuah robot sehingga dapat mengajar dirinya sendiri trik baru. Di antara trik baru tersebut adalah kemampuan untuk menumpuk balok.
Robot tersebut disebut Spot, dan menurut para peneliti, dapat belajar keterampilan dalam beberapa hari yang biasanya membutuhkan sekitar sebulan.
Penguatan Positif
Penguatan positif digunakan oleh tim untuk meningkatkan keterampilan robot. Kecepatan di mana tim dapat melakukannya membuat lebih mudah bagi jenis robot ini untuk diterapkan di dunia nyata.
Penelitian ini diterbitkan di IEEE Robotics and Automation Letters, dengan judul “Good Robot!: Efficient Reinforcement Learning for Multi-Step Visual Tasks with Sim to Real Transfer.”
Andrew Hundt adalah seorang mahasiswa PhD yang bekerja di Universitas Johns Hopkins dan penulis utama penelitian ini.
“Pertanyaan di sini adalah bagaimana kita dapat membuat robot belajar keterampilan?” katanya. “Saya pernah memiliki anjing sehingga saya tahu bahwa penghargaan dapat bekerja dan itu adalah inspirasi untuk merancang algoritma pembelajaran.”
Salah satu alasan penguatan positif bekerja pada komputer adalah karena mereka tidak memiliki otak yang intuitif, yang berarti mereka hampir seperti kanvas kosong di mana apa pun dapat diproyeksikan. Dengan kata lain, mereka harus belajar segala sesuatu dari awal. Salah satu metode pembelajaran paling efektif untuk komputer adalah trial dan error, yang masih dikerjakan oleh ahli robotika hingga saat ini.
Inilah yang dilakukan oleh para peneliti ketika mereka membuat sistem penghargaan untuk robot, serupa dengan proses melatih anjing dengan memberinya makanan. Perbedaannya adalah robot akan menerima poin numerik ketika menyelesaikan tugas dengan benar.
https://www.youtube.com/watch?v=dvxqjJBWFD4
Keterampilan yang Dipelajari
Ketika datang untuk belajar bagaimana menumpuk balok, robot harus belajar untuk fokus pada tindakan konstruktif. Dalam metode ini, Spot robot menerima poin yang lebih tinggi ketika menyelesaikan perilaku yang benar selama penumpukan balok. Di ujung lain, tidak ada poin yang diberikan untuk perilaku yang tidak benar. Ia mendapatkan poin tertinggi dengan menyelesaikan tumpukan empat balok dengan balok terakhir di atas.
Para peneliti melihat kesuksesan besar dalam metode ini, dengan robot belajar dalam beberapa hari apa yang sebelumnya membutuhkan waktu beberapa minggu. Dengan melatih robot simulasi, tim mengurangi waktu latihan sebelum beralih ke robot Spot.
“Robot ingin skor yang lebih tinggi,” kata Hundt. “Ia dengan cepat belajar perilaku yang benar untuk mendapatkan penghargaan terbaik. Bahkan, dulu membutuhkan sebulan latihan untuk robot mencapai akurasi 100%. Kami dapat melakukannya dalam dua hari.”
Selain belajar bagaimana menumpuk balok, robot juga menggunakan penguatan positif untuk belajar tugas lain, seperti bagaimana memainkan permainan navigasi simulasi.
“Di awal robot tidak tahu apa yang sedang dilakukan, tetapi akan menjadi lebih baik dan lebih baik dengan setiap latihan. Ia tidak pernah menyerah dan terus mencoba menumpuk dan dapat menyelesaikan tugas 100% dari waktu ke waktu,” kata Hundt.
Beberapa aplikasi yang mungkin untuk metode ini termasuk melatih robot rumah tangga untuk menyelesaikan tugas tertentu, serta meningkatkan kendaraan otonom.
“Tujuan kami adalah untuk akhirnya mengembangkan robot yang dapat melakukan tugas kompleks di dunia nyata — seperti perakitan produk, merawat orang tua, dan pembedahan,” kata Hager. “Kami tidak tahu bagaimana memprogram tugas seperti itu — dunia terlalu kompleks. Tetapi pekerjaan seperti ini menunjukkan kepada kami bahwa ada janji untuk gagasan bahwa robot dapat belajar bagaimana menyelesaikan tugas dunia nyata dengan cara yang aman dan efisien.












