Kecerdasan buatan
AI Mengalami Kesusahan untuk Menguasai Minecraft Melalui Pembelajaran Imitasi

Selama beberapa bulan terakhir, Microsoft dan perusahaan lain yang melakukan penelitian tentang pembelajaran mesin telah menantang tim pengembang AI untuk membuat sistem AI yang dapat memainkan Minecraft dan menemukan berlian dalam permainan. Seperti yang dilaporkan oleh BBC, sementara platform AI telah berhasil mendominasi catur dan go, tetapi mereka telah mengalami kesusahan untuk menguasai tugas dalam Minecraft.
Tantangan AI berbasis Minecraft yang diluncurkan oleh Microsoft disebut MineRL, dan hasil kompetisi secara resmi diumumkan pada konferensi NeurIPS baru-baru ini. Tujuan kompetisi ini adalah untuk melatih AI melalui pendekatan “pembelajaran imitasi”. Pembelajaran imitasi adalah metode di mana AI dilatih dengan menggunakan observasi. Pembelajaran imitasi bertujuan untuk membiarkan sistem AI belajar tindakan dengan mengamati manusia melakukan tindakan tersebut, belajar melalui tindakan observasi. Pembelajaran imitasi, dibandingkan dengan pembelajaran penguatan, adalah cara yang jauh lebih efisien dan kurang mahal untuk melatih AI.
Pembelajaran penguatan sering memerlukan banyak komputer yang kuat dan terhubung bersama serta ratusan atau ribuan jam pelatihan untuk menjadi efektif dalam melakukan tugas. Sebaliknya, AI yang dilatih dengan metode pembelajaran imitasi dapat dilatih jauh lebih cepat, karena AI sudah memiliki pengetahuan dasar untuk bekerja berkat operator manusia yang telah mendahuluinya.
Pembelajaran imitasi memiliki aplikasi praktis dalam melatih AI di mana AI tidak dapat menjelajahi dengan aman sampai ia menemukan tindakan yang tepat. Skenario seperti itu termasuk pelatihan kendaraan otonom, karena mobil tidak dapat dibiarkan menjelajahi jalan sampai ia mempelajari perilaku yang diinginkan. Menggunakan data demonstrator manusia untuk melatih kendaraan dapat membuat proses lebih cepat dan lebih aman.
Tindakan menemukan berlian dalam Minecraft memerlukan melakukan banyak langkah berurutan, seperti menebangi pohon untuk membuat alat, menjelajahi gua yang mengandung berlian, dan sebenarnya menemukan berlian dalam gua. Meskipun kompleksitas tugas, pemain manusia yang familiar dengan permainan seharusnya dapat mendapatkan berlian dalam waktu sekitar 20 menit.
Lebih dari 660 agen AI yang berbeda telah dikirimkan ke kompetisi, tetapi tidak satu pun dari AI tersebut dapat menemukan berlian. Data yang disediakan untuk melatih AI adalah dataset yang berisi lebih dari 60 juta frame gameplay yang dikumpulkan dari banyak pemain manusia. Lokasi berlian dipilih secara acak ketika instance permainan dimulai, sehingga berarti bahwa AI tidak dapat hanya melihat di mana pemain manusia menemukan berlian. Dengan kata lain, AI perlu membentuk pemahaman tentang bagaimana konsep, seperti membuat alat, menggunakan alat, menjelajahi, dan menemukan sumber daya, saling terkait.
Meskipun tidak satu pun dari agen AI yang berhasil menemukan berlian, tim penyelenggara masih puas dengan hasil kompetisi, dan banyak hal yang dipelajari dari eksperimen tersebut. Penelitian yang dilakukan oleh tim AI dapat membantu memajukan bidang AI, menemukan alternatif strategi pembelajaran penguatan.
Pembelajaran penguatan sering memberikan kinerja yang unggul daripada pembelajaran imitasi, dengan satu keberhasilan pembelajaran penguatan yang terkenal adalah AlphaGo dari DeepMind. Namun, seperti yang telah disebutkan sebelumnya, pembelajaran penguatan memerlukan sumber daya komputasi yang besar, sehingga membatasi penggunaannya oleh organisasi yang tidak dapat membeli prosesor komputer dalam skala besar.
William Guss, mahasiswa PhD di Carnegie Mellon University dan kepala penyelenggara kompetisi, menjelaskan kepada BBC bahwa kompetisi MineRL dimaksudkan untuk menyelidiki alternatif untuk AI yang berat komputasi. Kata Guss:
“…Menggunakan komputasi besar untuk memecahkan masalah tidak selalu cara yang tepat bagi kita untuk mendorong kemajuan bidang ini… Ini bekerja langsung melawan demokratisasi akses ke sistem pembelajaran penguatan, dan meninggalkan kemampuan untuk melatih agen dalam lingkungan yang kompleks kepada perusahaan dengan sumber daya komputasi yang besar.”


