Kecerdasan buatan
DeepMind Melaporkan Metode Baru Pelatihan Reinforcement Learning AI Dengan Aman

Pembelajaran penguatan adalah salah satu jalur pengembangan AI yang menjanjikan, menghasilkan AI yang dapat menangani tugas yang sangat kompleks. Algoritma pembelajaran penguatan digunakan dalam pembuatan sistem robotika mobile dan mobil self-driving di antara aplikasi lainnya. Namun, karena cara pelatihan pembelajaran penguatan, mereka dapat terkadang menampilkan perilaku aneh dan tidak terduga. Perilaku ini dapat berbahaya, dan peneliti AI menyebut masalah ini sebagai “masalah eksplorasi aman”, yang mana AI menjadi terjebak dalam eksplorasi keadaan yang tidak aman.
Baru-baru ini, laboratorium penelitian AI Google, DeepMind, merilis sebuah makalah yang mengusulkan metode baru untuk menangani masalah eksplorasi aman dan melatih pembelajaran penguatan AI dengan cara yang lebih aman. Metode yang diusulkan oleh DeepMind juga memperbaiki masalah “reward hacking” atau celah dalam kriteria penghargaan.
Metode baru DeepMind memiliki dua sistem yang berbeda yang dimaksudkan untuk memandu perilaku AI dalam situasi di mana perilaku tidak aman dapat muncul. Dua sistem yang digunakan oleh teknik pelatihan DeepMind adalah model generatif dan model dinamika maju. Kedua model ini dilatih pada berbagai data, seperti demonstrasi oleh ahli keamanan dan trajeksi kendaraan yang sepenuhnya acak. Data ini diberi label oleh seorang pengawas dengan nilai penghargaan tertentu, dan agen AI akan memilih pola perilaku yang akan memungkinkan untuk mengumpulkan penghargaan terbesar. Keadaan tidak aman juga telah diberi label, dan setelah model berhasil memprediksi penghargaan dan keadaan tidak aman, maka model tersebut diterapkan untuk melakukan tindakan yang ditargetkan.
Tim peneliti menjelaskan dalam makalah bahwa ide tersebut adalah untuk menciptakan perilaku yang mungkin dari awal, untuk menyarankan perilaku yang diinginkan, dan untuk memiliki skenario hipotetis yang sangat informatif sambil menghindari intervensi langsung dengan lingkungan pembelajaran. Tim DeepMind menyebut pendekatan ini sebagai ReQueST, atau sintesis kueri penghargaan melalui optimasi trajeksi.
ReQueST dapat menyebabkan empat jenis perilaku yang berbeda. Jenis perilaku pertama mencoba memaksimalkan ketidakpastian mengenai model penghargaan ensemble. Sementara itu, perilaku kedua dan ketiga mencoba meminimalkan dan memaksimalkan penghargaan yang diprediksi. Penghargaan yang diprediksi diminimalkan untuk memimpin penemuan perilaku yang mungkin diprediksi secara salah oleh model. Di sisi lain, penghargaan yang diprediksi dimaksimalkan untuk memimpin label perilaku yang memiliki nilai informasi tertinggi. Akhirnya, jenis perilaku keempat mencoba memaksimalkan kebaruan trajeksi, agar model terus mengeksplorasi terlepas dari proyeksi penghargaan.
Setelah model mencapai tingkat pengumpulan penghargaan yang diinginkan, agen perencana digunakan untuk membuat keputusan berdasarkan penghargaan yang dipelajari. Skema kontrol prediktif model ini memungkinkan agen untuk belajar menghindari keadaan tidak aman dengan menggunakan model dinamika dan memprediksi konsekuensi yang mungkin, berbeda dengan perilaku algoritma yang belajar melalui trial dan error murni.
Seperti dilaporkan oleh VentureBeat, peneliti DeepMind percaya bahwa proyek mereka adalah sistem pembelajaran penguatan pertama yang dapat belajar dengan cara yang terkendali dan aman:
“To our knowledge, ReQueST is the first reward modeling algorithm that safely learns about unsafe states and scales to training neural network reward models in environments with high-dimensional, continuous states. So far, we have only demonstrated the effectiveness of ReQueST in simulated domains with relatively simple dynamics. One direction for future work is to test ReQueST in 3D domains with more realistic physics and other agents acting in the environment.”












