Kecerdasan buatan

Peneliti AI Membuat Model Bermain Video Game yang Dapat Mengingat Peristiwa Masa Lalu

Published February 27, 2021

Updated April 28, 2026

Daniel Nelson

Tim peneliti di laboratorium AI Uber baru-baru ini mengembangkan sistem algoritma AI yang mengungguli pemain manusia dan sistem AI lainnya di permainan video Atari klasik. Sistem AI yang dikembangkan oleh peneliti ini mampu mengingat strategi yang berhasil sebelumnya, menciptakan strategi baru berdasarkan apa yang berhasil di masa lalu. Tim peneliti studi ini percaya bahwa algoritma yang mereka kembangkan memiliki potensi aplikasi di bidang teknis lain seperti pemrosesan bahasa dan robotika.

Metode yang biasa digunakan untuk membuat sistem AI yang mampu bermain video game adalah dengan menggunakan algoritma pembelajaran penguatan. Algoritma pembelajaran penguatan belajar bagaimana melakukan tugas dengan menjelajahi berbagai tindakan yang mungkin, dan setelah setiap tindakan, mereka diberikan jenis penguatan (hadiah atau hukuman). Dengan waktu, model AI belajar tindakan mana yang menghasilkan hadiah yang lebih besar, dan menjadi lebih mungkin untuk melakukan tindakan tersebut. Sayangnya, model pembelajaran penguatan mengalami kesulitan ketika mereka menemukan data yang tidak sesuai dengan data lain di dataset.

Menurut tim peneliti, alasan mengapa pendekatan mereka belum dipertimbangkan oleh peneliti AI lain adalah karena strategi ini berbeda dari pendekatan “motivasi intrinsik” yang biasa digunakan dalam pembelajaran penguatan. Masalah dengan pendekatan motivasi intrinsik adalah bahwa model dapat rentan “melupakan” tentang area yang berpotensi menghasilkan hadiah yang masih layak untuk dijelajahi. Fenomena ini disebut “pemutusan”. Sebagai konsekuensi, ketika model menemukan data yang tidak terduga, model mungkin melupakan tentang area yang seharusnya masih dijelajahi.

Menurut TechXplore, tim peneliti berusaha untuk membuat model pembelajaran yang lebih fleksibel dan dapat merespons data yang tidak terduga. Peneliti mengatasi masalah ini dengan memperkenalkan algoritma yang dapat mengingat semua tindakan yang diambil oleh versi sebelumnya dari model ketika mencoba memecahkan masalah. Ketika model AI menemukan data yang tidak konsisten dengan apa yang telah dipelajari sejauh ini, model memeriksa peta memori. Model kemudian mengidentifikasi strategi mana yang berhasil dan gagal dan memilih strategi yang tepat.

Ketika bermain video game, model mengumpulkan screenshot permainan saat bermain, membuat log tindakan. Gambar-gambar dikelompokkan bersama berdasarkan kesamaan, membentuk titik-titik waktu yang jelas yang dapat model referensikan kembali. Algoritma dapat menggunakan gambar yang dicatat untuk kembali ke titik waktu yang menarik dan melanjutkan menjelajahi dari sana. Ketika model menemukan bahwa ia kalah, model akan merujuk kembali ke screenshot yang diambil dan mencoba strategi yang berbeda.

Seperti yang dijelaskan oleh BBC, ada juga masalah penanganan skenario berbahaya bagi agen AI yang bermain game. Jika agen menemukan bahaya yang dapat membunuhnya, itu akan mencegahnya untuk kembali ke area yang layak untuk dijelajahi, masalah yang disebut “pemutusan”. Model AI menangani masalah pemutusan melalui proses yang terpisah dari yang digunakan untuk mendorong eksplorasi area lama.

Tim peneliti memiliki mode bermain melalui 55 permainan Atari. Permainan ini biasa digunakan untuk membandingkan kinerja model AI, tetapi peneliti menambahkan twist untuk model mereka. Peneliti memperkenalkan aturan tambahan ke permainan, menginstruksikan model untuk tidak hanya mencapai skor tertinggi yang mungkin tetapi untuk mencoba mencapai skor yang lebih tinggi setiap kali. Ketika hasil kinerja model dianalisis, peneliti menemukan bahwa sistem AI mereka mengungguli AI lain di permainan sekitar 85% dari waktu. AI berperforma sangat baik di permainan Montezuma’s Revenge, permainan platform di mana pemain menghindari bahaya dan mengumpulkan harta karun. Permainan ini mengalahkan rekor untuk pemain manusia dan juga mencetak skor lebih tinggi daripada AI lainnya.

Menurut peneliti AI Uber, strategi yang digunakan oleh tim peneliti memiliki aplikasi untuk industri seperti robotika. Robot mendapat manfaat dari kemampuan untuk mengingat tindakan mana yang berhasil, mana yang tidak berhasil, dan mana yang belum dicoba.

Daniel Nelson

Blogger dan programmer dengan spesialisasi di Machine Learning dan Deep Learning topik. Daniel berharap untuk membantu orang lain menggunakan kekuatan AI untuk kebaikan sosial.

Unite.AI

Peneliti AI Membuat Model Bermain Video Game yang Dapat Mengingat Peristiwa Masa Lalu

You may like