Inteligencia artificial

La nueva IA de DeepMind es capaz de aprender las reglas de un juego mientras juega

Actualizado on 9 de diciembre de 2022

La subsidiaria de Alphabet, DeepMind, ha desarrollado recientemente un sistema de inteligencia artificial capaz de aprender las reglas de un juego mientras se juega. Si bien DeepMind ha creado impresionantes modelos de IA que pueden dominar juegos como Chess, Shogi, Go y videojuegos antes, estos modelos deben contar con las reglas del juego de antemano. Como tal, la nueva IA de DeepMind representa una mejora notable con respecto a los algoritmos de IA anteriores que aprenden a jugar a través del aprendizaje por refuerzo.

Sistema de IA – MuZero

En un papel Recientemente publicado en la revista. Naturaleza, DeepMind detalló cómo funciona su nuevo sistema de IA. La nueva IA, denominada MuZero, puede aprender las reglas de un juego mientras juega gracias a un principio llamado "búsqueda anticipada". Según lo informado por Engadget, MuZero utiliza la búsqueda anticipada para determinar qué movimientos deben ejecutarse en función de las respuestas más probables de los oponentes.

Al considerar todos los movimientos posibles que se pueden realizar en juegos como el ajedrez, MuZero puede priorizar y reducir los movimientos a los movimientos más probables y relevantes. MuZero luego aprenderá de las maniobras exitosas y fallidas. En lugar de modelar todos los factores posibles, solo considera los factores que son más relevantes para la decisión en cuestión. MuZero básicamente toma la gran cantidad de variables potenciales que se pueden considerar y las reduce a las características más destacadas e impactantes. Estas características se representan en un algoritmo de búsqueda basado en árboles. Las posibilidades dentro del árbol se combinan luego con un modelo aprendido basado en las características del entorno de prueba. La búsqueda anticipada se lleva a cabo después de que se hayan identificado los aspectos más relevantes de un entorno.

Para llegar a una decisión final, se consideran tres factores.

MuZero considera el resultado de la elección anterior, la posición actual que ocupa y las acciones potenciales que puede tomar a continuación. Este enfoque supera los enfoques utilizados anteriormente por DeepMind, incluida la búsqueda anticipada básica y los modelos basados en árboles. MuZero demostró ser al menos tan bueno en ajedrez, shogi y Go como AlphaZero, y cuando jugó el juego Ms. Pac-Man, MuZero solo pudo considerar alrededor de seis o siete movimientos a la vez. A pesar de este límite, la IA aún podía funcionar bastante bien. DeepMind también experimentó con las capacidades de MuZero al limitar la cantidad de simulaciones que podía completar antes de comprometerse con un movimiento. En general, cuanto más tiempo se le dio al programa para considerar posibles movimientos, mejor se desempeñó.

El científico investigador principal de DeepMind, David Silver, explicado a través de TechXplore que MuZero es el primer modelo de IA capaz de generar su propia representación de las reglas de un entorno, utilizando esa representación para planificar acciones.

“Por primera vez, tenemos un sistema que es capaz de construir su propia comprensión de cómo funciona el mundo y usar esa comprensión para hacer este tipo de planificación anticipada sofisticada que ha visto anteriormente para juegos como el ajedrez”. dijo plata. “(MuZero) puede comenzar de la nada, y solo a través de prueba y error, ambos descubren las reglas del mundo y usan esas reglas para lograr una especie de desempeño sobrehumano”.

Posibles aplicaciones

Una IA que realmente puede aprender las limitaciones de una tarea y operar dentro de esas limitaciones tiene una amplia variedad de posibles aplicaciones. MuZero podría usarse para tareas como la compresión de video, que históricamente ha sido difícil de automatizar usando IA, debido a los diferentes formatos de video y modos de compresión posibles. MuZero pudo lograr una mejora de la compresión de aproximadamente un 5 %. Esto podría tener implicaciones para la gran cantidad de videos alojados por Google y YouTube. Más allá de los videos, DeepMind también está considerando usar las mismas técnicas de MuZero para el diseño de arquitectura de proteínas y la programación robótica.

Según Wendy Hall, profesora de Ciencias de la Computación en la Universidad de Southampton, MuZero representa "un importante paso adelante" para los algoritmos de aprendizaje por refuerzo. Sin embargo, a Hall le preocupa que los algoritmos puedan ser mal utilizados. Por ejemplo, la Fuerza Aérea de EE. UU. ya ha hecho referencia a los primeros trabajos de investigación que cubren MuZero para crear un sistema de inteligencia artificial que podría lanzar misiles desde aviones espías U-2. Esto es a pesar de que los investigadores de DeepMind expresaron su oposición a usar sus algoritmos para cualquier arma mortal, firmando el Compromiso de Armas Autónomas Letales para argumentar que cualquier tecnología mortal debe permanecer bajo control humano.

Silver explicó que DeepMind mira hacia el futuro, con el objetivo de desarrollar algoritmos tan poderosos y versátiles como el cerebro. El primer paso para crear algoritmos versátiles y flexibles es comprender lo que significa que un sistema sea inteligente, y la inteligencia está relacionada con la capacidad de discernir los patrones y las reglas de un entorno complejo.

Temas relacionados:Mente profunda muzero aprendizaje reforzado

Hasta la próxima

Regresión lineal simple en el campo de la ciencia de datos

No Te Lo

Nuevo estudio de investigadores de IA resuelve la ecuación de Schrödinger

daniel nelson

Blogger y programador con especialidades en Aprendizaje automático (Machine learning & LLM) y Aprendizaje profundo temas Daniel espera ayudar a otros a usar el poder de la IA para el bien social.