Inteligencia artificial

El nuevo AI de DeepMind es capaz de aprender las reglas de un juego mientras juega

Published December 27, 2020

Updated April 28, 2026

Daniel Nelson

La subsidiaria de Alphabet, DeepMind, ha desarrollado recientemente un sistema de inteligencia artificial capaz de aprender las reglas de un juego mientras juega. Aunque DeepMind ha creado modelos de inteligencia artificial impresionantes que pueden dominar juegos como el ajedrez, el shogi, el Go y los videojuegos antes, estos modelos deben ser proporcionados con las reglas del juego de antemano. Como tal, el nuevo AI de DeepMind representa una mejora notable sobre los algoritmos de inteligencia artificial anteriores que aprenden a jugar juegos a través del aprendizaje por refuerzo.

Sistema de inteligencia artificial – MuZero

En un artículo publicado recientemente en la revista Nature, DeepMind detalló cómo opera su nuevo sistema de inteligencia artificial. El nuevo AI, llamado MuZero, es capaz de aprender las reglas de un juego mientras juega gracias a un principio llamado “búsqueda de anticipación”. Según Engadget, MuZero utiliza la búsqueda de anticipación para determinar qué movimientos deben ser ejecutados en función de las respuestas más probables de los oponentes.

Cuando se consideran todos los movimientos posibles que podrían hacerse en juegos como el ajedrez, MuZero es capaz de priorizar, reduciendo los movimientos a solo los más probables y relevantes. MuZero aprenderá de tanto maniobras exitosas como fallidas. En lugar de modelar todos los factores posibles, solo considera los factores que son más relevantes para la decisión en cuestión. MuZero básicamente toma la multitud de variables potenciales que pueden ser consideradas y las destila a solo las características más destacadas e impactantes. Estas características están representadas en un algoritmo de búsqueda basado en árboles. Las posibilidades dentro del árbol se combinan con un modelo aprendido basado en las características del entorno de prueba. La búsqueda de anticipación se lleva a cabo después de que se han identificado los aspectos más relevantes de un entorno.

Para llegar a una decisión final, se consideran tres factores.

MuZero considera el resultado de la elección anterior, la posición actual que ocupa y las acciones potenciales que puede tomar a continuación. Este enfoque supera a los enfoques utilizados anteriormente por DeepMind, incluida la búsqueda de anticipación básica y los modelos basados en árboles. MuZero demostró ser al menos tan bueno en ajedrez, shogi y Go como AlphaZero, y cuando jugó el juego Ms. Pac-Man, MuZero solo pudo considerar alrededor de seis o siete movimientos a la vez. A pesar de esta limitación, el AI aún pudo realizar un rendimiento bastante bien. DeepMind también experimentó con las capacidades de MuZero limitando el número de simulaciones que podía completar antes de tener que comprometerse con un movimiento. En general, cuanto más tiempo se le dio al programa para considerar movimientos posibles, mejor se desempeñó.

El científico investigador principal de DeepMind, David Silver, explicó a través de TechXplore que MuZero es el primer modelo de inteligencia artificial capaz de generar su propia representación de las reglas de un entorno, utilizando esa representación para planificar acciones.

“Por primera vez, tenemos un sistema que es capaz de construir su propia comprensión de cómo funciona el mundo y utilizar esa comprensión para hacer este tipo de planificación de anticipación sofisticada que se ha visto anteriormente para juegos como el ajedrez”, dijo Silver. “(MuZero) puede empezar desde cero, y solo a través de prueba y error, descubrir las reglas del mundo y utilizar esas reglas para lograr un rendimiento superhumano”.

Aplicaciones posibles

Un AI que es genuinamente capaz de aprender las restricciones de una tarea y operar dentro de esas restricciones tiene una amplia variedad de aplicaciones posibles. MuZero podría ser utilizado para tareas como la compresión de video, que históricamente ha sido difícil de automatizar utilizando inteligencia artificial, debido a los muchos formatos de video y modos de compresión posibles. MuZero logró una mejora de compresión de aproximadamente el 5%. Esto podría tener implicaciones para la gran cantidad de videos alojados por Google y YouTube. Más allá de los videos, DeepMind también está explorando el uso de las mismas técnicas de MuZero para el diseño de arquitectura de proteínas y la programación de robótica.

Según Wendy Hall, profesora de Ciencias de la Computación en la Universidad de Southampton, MuZero representa “un paso importante hacia adelante” para los algoritmos de aprendizaje por refuerzo. Sin embargo, Hall está preocupada por que los algoritmos puedan ser mal utilizados. Por ejemplo, la Fuerza Aérea de los Estados Unidos ya ha hecho referencia a artículos de investigación tempranos que cubren MuZero para crear un sistema de inteligencia artificial que podría lanzar misiles desde aviones espía U-2. Esto es a pesar de que los investigadores de DeepMind expresaron su oposición a utilizar sus algoritmos para cualquier arma letal, firmando el Compromiso de Armas Autónomas Letales para argumentar que cualquier tecnología letal debe permanecer bajo control humano.

Silver explicó que DeepMind está mirando hacia el futuro, con el objetivo de desarrollar algoritmos tan poderosos y versátiles como el cerebro. El primer paso para crear algoritmos versátiles y flexibles es entender qué significa que un sistema sea inteligente, y la inteligencia está vinculada con la capacidad de discernir los patrones y reglas de un entorno complejo.

Daniel Nelson

Bloguero y programador con especialidades en Machine Learning y Deep Learning temas. Daniel espera ayudar a otros a utilizar el poder de la IA para el bien social.

Unite.AI

El nuevo AI de DeepMind es capaz de aprender las reglas de un juego mientras juega

Sistema de inteligencia artificial – MuZero

Aplicaciones posibles

You may like