Inteligencia Artificial
Investigadores de IA crean un modelo de juego de video que puede recordar eventos pasados

Recientemente, un equipo de investigadores del laboratorio de inteligencia artificial de Uber desarrolló un sistema de algoritmos de IA que superaron tanto a los jugadores humanos como a otros sistemas de IA en los videojuegos clásicos de Atari. El sistema de IA desarrollado por los investigadores es capaz de recordar estrategias previamente exitosas, creando nuevas estrategias basadas en lo que funcionó en el pasado. El del estudio El equipo de investigación cree que los algoritmos que desarrollaron tienen aplicaciones potenciales en otros campos técnicos como el procesamiento del lenguaje y la robótica.
El método típico utilizado para crear sistemas de IA capaces de jugar videojuegos es utilizar un algoritmo de aprendizaje por refuerzo. Los algoritmos de aprendizaje por refuerzo aprenden cómo llevar a cabo una tarea explorando un rango de acciones posibles y, después de cada acción, reciben un tipo de refuerzo (una recompensa o un castigo). Con el tiempo, el modelo de IA aprende qué acciones conducen a mayores recompensas y es más probable que lleve a cabo estas acciones. Desafortunadamente, los modelos de aprendizaje por refuerzo tienen problemas cuando encuentran puntos de datos incongruentes con otros en el conjunto de datos.
Según el equipo de investigación, la razón por la que su enfoque no había sido considerado por otros investigadores de IA es que la estrategia difiere del enfoque de "motivación intrínseca" que se usa típicamente en el aprendizaje por refuerzo. El problema con un enfoque de motivación intrínseca es que el modelo puede ser propenso a "olvidarse" de áreas potencialmente gratificantes que aún merecen exploración. Este fenómeno se conoce como “desprendimiento”. Como consecuencia, cuando el modelo encuentra datos inesperados, puede olvidarse de las áreas que aún deben explorarse.
Según TechXplore, el equipo de investigación se propuso crear un modelo de aprendizaje que fuera más flexible y capaz de responder a datos inesperados. Los investigadores superaron este problema introduciendo un algoritmo capaz de recordar todas las acciones realizadas por una versión anterior del modelo cuando intentaba resolver un problema. Cuando el modelo de IA encuentra un punto de datos que no es consistente con lo que ha aprendido hasta el momento, el modelo verifica su mapa de memoria. Luego, el modelo identificará qué estrategias tuvieron éxito y cuáles fallaron y elegirá las estrategias apropiadas.
Cuando juega un videojuego, el modelo recopila capturas de pantalla del juego mientras juega, haciendo un registro de sus acciones. Las imágenes se agrupan en función de la similitud, formando puntos claros en el tiempo a los que el modelo puede referirse. El algoritmo puede usar las imágenes registradas para regresar a un punto interesante en el tiempo y continuar explorando desde allí. Cuando el modelo descubre que está perdiendo, volverá a consultar las capturas de pantalla tomadas y probará una estrategia diferente.
Según explicó la BBC, también existe el problema de manejar escenarios peligrosos para el agente de IA que juega el juego. Si el agente se encuentra con un peligro que puede matarlo, eso le impediría regresar a áreas que merecen más exploración, un problema llamado "descarrilamiento". El modelo de IA maneja los problemas de descarrilamiento a través de un proceso separado del que se usa para alentar la exploración de áreas antiguas.
El equipo de investigación tenía el modo de jugar a través de 55 juegos de Atari. Estos juegos se usan comúnmente para comparar el rendimiento de los modelos de IA, pero los investigadores agregaron un giro a su modelo. Los investigadores introdujeron reglas adicionales a los juegos, instruyendo al modelo no solo para lograr el puntaje más alto posible, sino también para tratar de lograr un puntaje aún más alto cada vez. Cuando se analizaron los resultados del rendimiento del modelo, los investigadores descubrieron que su sistema de IA superó a otras IA en los juegos alrededor del 85 % de las veces. La IA se desempeñó especialmente bien en el juego Montezuma's Revenge, un juego de plataformas en el que el jugador esquiva peligros y recolecta tesoros. El juego batió el récord para un jugador humano y también obtuvo una puntuación más alta que cualquier otro sistema de IA.
Según los investigadores de Uber AI, las estrategias utilizadas por el equipo de investigación tienen aplicaciones para industrias como la robótica. Los robots se benefician de la capacidad de recordar qué acciones tuvieron éxito, cuáles no funcionaron y cuáles aún no se han intentado.

