Connect with us

Kecerdasan buatan

DeepMind dan Google Brain Bertujuan Menciptakan Metode untuk Meningkatkan Efisiensi Pembelajaran Penguatan

mm

Sistem pembelajaran penguatan dapat sangat kuat dan kokoh, mampu melakukan tugas yang sangat kompleks melalui ribuan iterasi pelatihan. Sementara algoritma pembelajaran penguatan mampu memungkinkan perilaku yang canggih dan terkadang mengejutkan, mereka membutuhkan waktu lama untuk dilatih dan memerlukan jumlah data yang sangat besar. Faktor-faktor ini membuat teknik pembelajaran penguatan agak tidak efisien, dan baru-baru ini tim penelitian dari Alphabet DeepMind dan Google Brain berusaha untuk menemukan metode yang lebih efisien untuk menciptakan sistem pembelajaran penguatan.

Seperti yang dilaporkan oleh VentureBeat, kelompok penelitian gabungan baru-baru ini mengusulkan metode untuk membuat pelatihan pembelajaran penguatan lebih efisien. Salah satu perbaikan yang diusulkan adalah algoritma yang disebut Adaptive Behavior Policy Sharing (ABPS), sedangkan yang lain adalah kerangka kerja yang disebut Universal Value Function Approximators (UVFA). ABPS memungkinkan kumpulan agen AI untuk berbagi pengalaman yang dipilih secara adaptif, sedangkan UVFA memungkinkan agen AI tersebut untuk secara bersamaan menyelidiki kebijakan eksplorasi yang diarahkan.

ABPS dimaksudkan untuk mempercepat penyesuaian hiperparameter saat melatih model. ABPS membuat penemuan hiperparameter optimal lebih cepat dengan memungkinkan beberapa agen yang berbeda dengan hiperparameter yang berbeda untuk berbagi pengalaman kebijakan perilaku. Lebih tepatnya, ABPS memungkinkan agen pembelajaran penguatan untuk memilih tindakan dari tindakan yang dianggap baik oleh kebijakan dan kemudian diberi hadiah dan pengamatan berdasarkan keadaan berikutnya.

Agen pembelajaran penguatan AI dilatih dengan berbagai kombinasi hiperparameter yang mungkin, seperti laju kemunduran dan laju pembelajaran. Ketika melatih model, tujuannya adalah model tersebut menyatu dengan kombinasi hiperparameter yang memberikan kinerja terbaik, dan dalam hal ini juga meningkatkan efisiensi data. Efisiensi ditingkatkan dengan melatih banyak agen sekaligus dan memilih perilaku hanya satu agen untuk diterapkan selama langkah waktu berikutnya. Kebijakan yang dimiliki agen target digunakan untuk mengambil contoh tindakan. Transisi kemudian dicatat dalam ruang bersama, dan ruang ini terus dievaluasi sehingga pemilihan kebijakan tidak perlu terjadi terlalu sering. Pada akhir pelatihan, ensemble agen dipilih dan agen dengan kinerja terbaik dipilih untuk dilakukan deployment akhir.

Dalam hal UVFA, ia berusaha untuk menangani salah satu masalah umum pembelajaran penguatan, yaitu agen yang diperkuat lemah sering tidak belajar tugas. UVFA berusaha untuk menyelesaikan masalah ini dengan membuat agen belajar kebijakan eksploitasi dan eksplorasi yang terpisah secara bersamaan. Pemisahan tugas ini menciptakan kerangka kerja yang memungkinkan kebijakan eksplorasi untuk terus menjelajahi lingkungan sementara kebijakan eksploitasi terus berusaha untuk memaksimalkan hadiah untuk tugas saat ini. Kebijakan eksplorasi UVFA berfungsi sebagai arsitektur baseline yang akan terus membaik bahkan jika tidak ada hadiah alami yang ditemukan. Dalam kondisi seperti itu, fungsi yang sesuai dengan hadiah intrinsik diperkirakan, yang mendorong agen untuk menjelajahi semua keadaan dalam lingkungan, bahkan jika mereka sering kembali ke keadaan yang familiar.

Seperti yang dijelaskan oleh VentureBeat, ketika kerangka kerja UVFA digunakan, hadiah intrinsik sistem diberikan langsung kepada agen sebagai input. Agen kemudian menyimpan representasi dari semua input (seperti hadiah, tindakan, dan keadaan) selama episode tertentu. Hasilnya adalah hadiah yang dipertahankan sepanjang waktu dan kebijakan agen setidaknya sedikit dipengaruhi olehnya pada semua waktu.

Hal ini dicapai dengan menggunakan “novelty episodik” dan “novelty seumur hidup” modul. Fungsi modul pertama adalah untuk menyimpan memori episodik saat ini dan memetakan temuan saat ini ke representasi yang disebutkan sebelumnya, memungkinkan agen untuk menentukan hadiah intrinsik episodik untuk setiap langkah pelatihan. Setelah itu, keadaan yang terkait dengan pengamatan saat ini ditambahkan ke memori. Sementara itu, modul novelty seumur hidup bertanggung jawab untuk mempengaruhi seberapa sering agen menjelajahi selama beberapa episode.

Menurut tim Alphabet/Google, teknik pelatihan baru telah menunjukkan potensi untuk perbaikan yang signifikan saat melatih sistem pembelajaran penguatan. UVFA dapat meningkatkan kinerja beberapa agen dasar yang memainkan berbagai permainan Atari. Sementara itu, ABPS dapat meningkatkan kinerja pada beberapa permainan Atari yang sama, mengurangi varians di antara agen dengan kinerja terbaik sekitar 25%. Algoritma yang dilatih UVFA dapat mencapai skor tinggi di Pitfall tanpa fitur yang dirancang oleh manusia.

Blogger dan programmer dengan spesialisasi di Machine Learning dan Deep Learning topik. Daniel berharap untuk membantu orang lain menggunakan kekuatan AI untuk kebaikan sosial.