Kecerdasan buatan

DeepMind’s New AI Dapat Belajar Aturan Permainan Saat Bermain

Published December 27, 2020

Updated April 28, 2026

Daniel Nelson

Anak perusahaan Alphabet, DeepMind, baru-baru ini mengembangkan sistem AI yang dapat belajar aturan permainan saat bermain. Sementara DeepMind telah menciptakan model AI yang impresif yang dapat menguasai permainan seperti Catur, Shogi, Go, dan permainan video sebelumnya, model-model ini harus diberikan aturan permainan sebelumnya. Sebagai hasilnya, AI baru DeepMind ini merupakan perbaikan yang signifikan atas algoritma AI sebelumnya yang belajar bermain permainan melalui pembelajaran penguatan.

Sistem AI – MuZero

Dalam sebuah makalah yang baru-baru ini diterbitkan di jurnal Nature, DeepMind menjelaskan bagaimana sistem AI baru mereka bekerja. AI baru, yang disebut MuZero, dapat belajar aturan permainan saat bermain berkat prinsip yang disebut “pencarian look-ahead”. Seperti dilaporkan oleh Engadget, MuZero menggunakan pencarian look-ahead untuk menentukan gerakan mana yang harus dilakukan berdasarkan respons lawan yang paling mungkin.
Ketika mempertimbangkan semua gerakan yang mungkin dilakukan dalam permainan seperti catur, MuZero dapat memprioritaskan, menyempitkan gerakan menjadi hanya gerakan yang paling mungkin dan relevan. MuZero kemudian akan belajar dari manuver yang sukses dan tidak sukses. Daripada memodelkan semua faktor yang mungkin, itu hanya mempertimbangkan faktor yang paling relevan dengan keputusan yang dihadapi. MuZero pada dasarnya mengambil banyak variabel potensial yang dapat dipertimbangkan dan menyaringnya menjadi hanya fitur yang paling penting dan berdampak. Fitur-fitur ini direpresentasikan dalam algoritma pencarian berbasis pohon. Kemungkinan dalam pohon kemudian digabungkan dengan model yang dipelajari berdasarkan fitur lingkungan pengujian. Pencarian look-ahead dilakukan setelah aspek yang paling relevan dari lingkungan telah diidentifikasi.
Untuk mengambil keputusan akhir, tiga faktor dipertimbangkan.
MuZero mempertimbangkan hasil dari pilihan sebelumnya, posisi saat ini yang dihuni, dan tindakan potensial yang dapat diambil selanjutnya. Pendekatan ini mengalahkan pendekatan yang sebelumnya digunakan oleh DeepMind, termasuk pencarian look-ahead dasar dan model berbasis pohon. MuZero terbukti setidaknya sama baiknya dengan AlphaZero dalam catur, shogi, dan Go, dan ketika bermain permainan Ms. Pac-Man, MuZero hanya dapat mempertimbangkan sekitar enam atau tujuh gerakan pada satu waktu. Meskipun keterbatasan ini, AI masih dapat berperforma dengan baik. DeepMind juga bereksperimen dengan kemampuan MuZero dengan membatasi jumlah simulasi yang dapat diselesaikan sebelum harus berkomitmen pada gerakan. Secara umum, semakin banyak waktu yang diberikan kepada program untuk mempertimbangkan gerakan yang mungkin, semakin baik performanya.
Ilmuwan peneliti utama di DeepMind, David Silver, menjelaskan melalui TechXplore bahwa MuZero adalah model AI pertama yang dapat menghasilkan representasi sendiri dari aturan lingkungan, menggunakan representasi tersebut untuk merencanakan tindakan.
“Untuk pertama kalinya, kami sebenarnya memiliki sistem yang dapat membangun pemahaman sendiri tentang bagaimana dunia bekerja dan menggunakan pemahaman tersebut untuk melakukan perencanaan look-ahead yang canggih seperti yang telah Anda lihat sebelumnya untuk permainan seperti catur,” kata Silver. “(MuZero) dapat memulai dari awal, dan hanya melalui trial dan error, baik menemukan aturan dunia dan menggunakan aturan tersebut untuk mencapai kinerja superhuman.”

Aplikasi yang Mungkin

AI yang benar-benar dapat belajar keterbatasan tugas dan beroperasi dalam keterbatasan tersebut memiliki berbagai aplikasi yang mungkin. MuZero dapat digunakan untuk tugas seperti kompresi video, yang secara historis sulit untuk diotomatisasi menggunakan AI, karena banyak format video dan mode kompresi yang mungkin. MuZero dapat mencapai peningkatan kompresi sekitar 5%. Ini dapat memiliki implikasi untuk jumlah besar video yang dihost oleh Google dan YouTube. Di luar video, DeepMind juga sedang mempertimbangkan untuk menggunakan teknik MuZero yang sama untuk desain arsitektur protein dan pemrograman robotik.
Menurut Wendy Hall, profesor Ilmu Komputer di Universitas Southampton, MuZero merupakan “langkah maju yang signifikan” untuk algoritma pembelajaran penguatan. Namun, Hall khawatir bahwa algoritma tersebut dapat disalahgunakan. Misalnya, Angkatan Udara AS telah merujuk pada makalah penelitian awal yang mencakup MuZero untuk membuat sistem AI yang dapat meluncurkan rudal dari pesawat mata-mata U-2. Ini meskipun peneliti DeepMind mengekspresikan oposisi mereka terhadap menggunakan algoritma mereka untuk senjata mematikan, menandatangani Lethal Autonomous Weapons Pledge untuk berargumen bahwa teknologi mematikan apa pun harus tetap di bawah kendali manusia.
Silver menjelaskan bahwa DeepMind melihat ke masa depan, bertujuan untuk mengembangkan algoritma yang sama kuat dan serbaguna dengan otak. Langkah pertama dalam menciptakan algoritma yang serbaguna dan fleksibel adalah memahami apa yang dimaksud dengan sistem yang cerdas, dan kecerdasan terkait dengan kemampuan untuk memahami pola dan aturan lingkungan yang kompleks.

Daniel Nelson

Blogger dan programmer dengan spesialisasi di Machine Learning dan Deep Learning topik. Daniel berharap untuk membantu orang lain menggunakan kekuatan AI untuk kebaikan sosial.

Unite.AI

DeepMind’s New AI Dapat Belajar Aturan Permainan Saat Bermain

Sistem AI – MuZero

Aplikasi yang Mungkin

You may like