Inteligencia artificial
Investigadores de IA crean un modelo de juego de video que puede recordar eventos pasados

Un equipo de investigadores en el laboratorio de IA de Uber han desarrollado recientemente un sistema de algoritmos de IA que superaron a los jugadores humanos y a otros sistemas de IA en juegos de video clásicos de Atari. El sistema de IA desarrollado por los investigadores es capaz de recordar estrategias previamente exitosas, creando nuevas estrategias basadas en lo que funcionó en el pasado. El equipo de investigación del estudio cree que los algoritmos que desarrollaron tienen aplicaciones potenciales en otros campos técnicos como el procesamiento de lenguaje y la robótica.
El método típico utilizado para crear sistemas de IA capaces de jugar juegos de video es utilizar un algoritmo de aprendizaje por refuerzo. Los algoritmos de aprendizaje por refuerzo aprenden a realizar una tarea explorando una serie de acciones posibles, y después de cada acción, se les proporciona un tipo de refuerzo (una recompensa o castigo). Con el tiempo, el modelo de IA aprende qué acciones conducen a recompensas más grandes, y es más probable que realice estas acciones. Desafortunadamente, los modelos de aprendizaje por refuerzo tienen problemas cuando se encuentran con puntos de datos incongruentes con otros en el conjunto de datos.
Según el equipo de investigación, la razón por la que su enfoque no había sido considerado por otros investigadores de IA es que la estrategia difiere del enfoque de “motivación intrínseca” típicamente utilizado en el aprendizaje por refuerzo. El problema con el enfoque de motivación intrínseca es que el modelo puede ser propenso a “olvidar” áreas potencialmente gratificantes que aún merecen exploración. Este fenómeno se conoce como “desconexión”. Como consecuencia, cuando el modelo se encuentra con datos inesperados, puede olvidar áreas que deberían seguir explorándose.
Según TechXplore, el equipo de investigación se propuso crear un modelo de aprendizaje más flexible y capaz de responder a datos inesperados. Los investigadores superaron este problema introduciendo un algoritmo capaz de recordar todas las acciones tomadas por una versión anterior del modelo cuando intentó resolver un problema. Cuando el modelo de IA se encuentra con un punto de datos que no es coherente con lo que ha aprendido hasta ahora, el modelo consulta su mapa de memoria. El modelo identificará entonces qué estrategias tuvieron éxito y fracasaron, y elegirá estrategias adecuadamente.
Cuando se juega un juego de video, el modelo recopila capturas de pantalla del juego a medida que juega, haciendo un registro de sus acciones. Las imágenes se agrupan juntas en función de la similitud, formando puntos claros en el tiempo a los que el modelo puede referirse. El algoritmo puede utilizar las imágenes registradas para regresar a un punto interesante en el tiempo y seguir explorando desde allí. Cuando el modelo encuentra que está perdiendo, se refiere a las capturas de pantalla tomadas e intenta una estrategia diferente.
Como explica la BBC, también hay el problema de manejar escenarios peligrosos para el agente de IA que juega el juego. Si el agente se encuentra con un peligro que puede matarlo, eso evitaría que regrese a áreas que merecen más exploración, un problema llamado “descarrilamiento”. El modelo de IA maneja los problemas de descarrilamiento a través de un proceso separado del utilizado para fomentar la exploración de áreas antiguas.
El equipo de investigación hizo que el modelo jugara 55 juegos de Atari. Estos juegos se utilizan comúnmente para medir el rendimiento de los modelos de IA, pero los investigadores agregaron un giro a su modelo. Los investigadores introdujeron reglas adicionales en los juegos, instruyendo al modelo para que no solo lograra la puntuación más alta posible, sino que también intentara lograr una puntuación aún más alta cada vez. Cuando se analizaron los resultados del rendimiento del modelo, los investigadores encontraron que su sistema de IA superó a otros sistemas de IA en los juegos alrededor del 85% del tiempo. El modelo se desempeñó especialmente bien en el juego Montezuma’s Revenge, un juego de plataformas en el que el jugador esquiva peligros y recoge tesoros. El juego superó el récord de un jugador humano y también obtuvo una puntuación más alta que cualquier otro sistema de IA.
Según los investigadores de IA de Uber, las estrategias utilizadas por el equipo de investigación tienen aplicaciones para industrias como la robótica. Los robots se benefician de la capacidad de recordar qué acciones son exitosas, qué no funcionaron y qué no se han intentado aún.












