Kecerdasan buatan
DeepMind dan Google Brain Berusaha Menciptakan Metode untuk Meningkatkan Efisiensi Pembelajaran Penguatan

Sistem pembelajaran penguatan dapat sangat kuat dan kokoh, mampu melakukan tugas yang sangat kompleks melalui ribuan iterasi pelatihan. Meskipun algoritma pembelajaran penguatan mampu memungkinkan perilaku yang canggih dan terkadang mengejutkan, mereka membutuhkan waktu lama untuk dilatih dan memerlukan sejumlah besar data. Faktor-faktor ini membuat teknik pembelajaran penguatan menjadi kurang efisien, dan baru-baru ini tim peneliti dari Alphabet DeepMind dan Google Brain berusaha untuk menemukan metode yang lebih efisien untuk menciptakan sistem pembelajaran penguatan.
Seperti yang dilaporkan oleh VentureBeat, kelompok penelitian gabungan baru-baru ini mengusulkan metode untuk membuat pelatihan pembelajaran penguatan lebih efisien. Salah satu perbaikan yang diusulkan adalah algoritma yang disebut Adaptive Behavior Policy Sharing (ABPS), sedangkan yang lain adalah kerangka kerja yang disebut Universal Value Function Approximators (UVFA). ABPS memungkinkan kumpulan agen AI untuk berbagi pengalaman yang dipilih secara adaptif, sedangkan UVFA memungkinkan agen AI untuk menyelidiki kebijakan eksplorasi yang diarahkan secara bersamaan.
ABPS dimaksudkan untuk mempercepat penyesuaian hiperparameter saat melatih model. ABPS membuat penemuan hiperparameter optimal lebih cepat dengan memungkinkan beberapa agen yang berbeda dengan hiperparameter yang berbeda untuk berbagi pengalaman kebijakan perilaku. Lebih tepatnya, ABPS memungkinkan agen pembelajaran penguatan untuk memilih tindakan dari tindakan yang dianggap baik oleh kebijakan dan kemudian diberikan hadiah dan pengamatan berdasarkan keadaan berikutnya.
Agen pembelajaran penguatan AI dilatih dengan berbagai kombinasi hiperparameter yang mungkin, seperti laju kemunduran dan laju pembelajaran. Ketika melatih model, tujuannya adalah model tersebut berkumpul pada kombinasi hiperparameter yang memberikan kinerja terbaik, dan dalam hal ini juga meningkatkan efisiensi data. Efisiensi ditingkatkan dengan melatih banyak agen sekaligus dan memilih perilaku hanya satu agen untuk diterapkan pada langkah waktu berikutnya. Kebijakan yang dimiliki agen target digunakan untuk mengambil sampel tindakan. Transisi kemudian dicatat dalam ruang yang dibagikan, dan ruang ini terus dievaluasi sehingga pemilihan kebijakan tidak perlu terjadi terlalu sering. Pada akhir pelatihan, ensemble agen dipilih dan agen dengan kinerja terbaik dipilih untuk diterapkan secara final.
Dalam hal UVFA, ia berusaha untuk menangani salah satu masalah umum pembelajaran penguatan, yaitu agen yang diperkuat lemah sering tidak belajar tugas. UVFA berusaha untuk menyelesaikan masalah ini dengan membuat agen belajar kebijakan eksploitasi dan eksplorasi yang terpisah secara bersamaan. Memisahkan tugas-tugas ini menciptakan kerangka kerja yang memungkinkan kebijakan eksplorasi untuk terus mengeksplorasi lingkungan sementara kebijakan eksploitasi terus berusaha untuk memaksimalkan hadiah untuk tugas saat ini. Kebijakan eksplorasi UVFA berfungsi sebagai arsitektur dasar yang akan terus ditingkatkan bahkan jika tidak ada hadiah alami yang ditemukan. Dalam kondisi seperti itu, fungsi yang sesuai dengan hadiah intrinsik diperkirakan, yang mendorong agen untuk mengeksplorasi semua keadaan dalam lingkungan, bahkan jika mereka sering kembali ke keadaan yang familiar.
Seperti yang dijelaskan oleh VentureBeat, ketika kerangka kerja UVFA digunakan, hadiah intrinsik sistem diberikan langsung kepada agen sebagai input. Agen kemudian melacak representasi semua input (seperti hadiah, tindakan, dan keadaan) selama episode tertentu. Hasilnya adalah hadiah yang dipertahankan sepanjang waktu dan kebijakan agen setidaknya sedikit dipengaruhi olehnya pada semua saat.
Hal ini dicapai dengan menggunakan “kebaruan episodik” dan “kebaruan seumur hidup” modul. Fungsi modul pertama adalah untuk memegang memori episodik saat ini dan memetakan temuan saat ini ke representasi yang disebutkan sebelumnya, memungkinkan agen untuk menentukan hadiah intrinsik episodik untuk setiap langkah pelatihan. Setelah itu, keadaan yang terkait dengan pengamatan saat ini ditambahkan ke memori. Sementara itu, modul kebaruan seumur hidup bertanggung jawab untuk mempengaruhi seberapa sering agen mengeksplorasi selama banyak episode.
Menurut tim Alphabet/Google, teknik pelatihan baru telah menunjukkan potensi untuk perbaikan yang signifikan saat melatih sistem pembelajaran penguatan. UVFA dapat meningkatkan kinerja beberapa agen dasar yang memainkan berbagai permainan Atari. Sementara itu, ABPS dapat meningkatkan kinerja pada beberapa permainan Atari yang sama, mengurangi varians di antara agen dengan kinerja terbaik sekitar 25%. Algoritma yang dilatih UVFA dapat mencapai skor tinggi di Pitfall tanpa adanya fitur yang dirancang oleh demo manusia.












