Modelos y plataformas de IA

Los agentes de inteligencia artificial demuestran propiedades de inteligencia emergente en un juego virtual de escondite

mm

Uno de los hechos interesantes sobre la investigación de la inteligencia artificial es que a menudo puede ejecutar acciones y seguir estrategias que sorprenden a los propios investigadores que las diseñan. Esto sucedió durante un reciente juego virtual de escondite donde se enfrentaron múltiples agentes de inteligencia artificial. Los investigadores de OpenAI, una empresa de inteligencia artificial con sede en San Francisco, se sorprendieron al descubrir que sus agentes de inteligencia artificial comenzaron a explotar estrategias en el mundo del juego que los investigadores no sabían que existían.

OpenAI ha entrenado a un grupo de agentes de inteligencia artificial para jugar un juego de escondite entre sí. Los programas de inteligencia artificial están entrenados con aprendizaje por refuerzo, una técnica en la que se elicia el comportamiento deseado de los algoritmos de inteligencia artificial proporcionándoles retroalimentación. La inteligencia artificial comienza tomando acciones aleatorias, y cada vez que toma una acción que la acerca a su objetivo, el agente es recompensado. La inteligencia artificial desea obtener la mayor cantidad de recompensa posible, por lo que experimenta para ver qué acciones le brindan más recompensa. A través de ensayo y error, la inteligencia artificial es capaz de distinguir estrategias que la llevarán a la victoria, aquellas que le darán la mayor recompensa.

El aprendizaje por refuerzo ya ha demostrado un éxito impresionante al aprender las reglas de los juegos. OpenAI recientemente entrenó a un equipo de inteligencia artificial para jugar el juego de rol en línea multijugador DOTA 2, y la inteligencia artificial derrotó a un equipo de jugadores humanos campeones del mundo el año pasado. Algo similar sucedió con el juego StarCraft cuando una inteligencia artificial fue entrenada en el juego por DeepMind. El aprendizaje por refuerzo también se ha utilizado para enseñar a los programas de inteligencia artificial a jugar Pictionary con humanos, aprendiendo a interpretar imágenes y utilizar razonamiento común básico.

En el juego de escondite virtual creado por los investigadores, múltiples agentes de inteligencia artificial se enfrentaron entre sí. El resultado fue una especie de carrera armamentista, donde cada agente quiere superar al otro y obtener la mayor cantidad de puntos de recompensa. Una nueva estrategia adoptada por un agente hará que su oponente busque una nueva estrategia para contrarrestarla, y viceversa. Igor Mordatch, un investigador de OpenAI, explicó a IEEE Spectrum que el experimento demuestra que este proceso de ensayo y error entre agentes “es suficiente para que los agentes aprendan comportamientos sorprendentes por sí mismos, es como niños jugando entre sí”.

¿Cuáles fueron exactamente los comportamientos sorprendentes? Los investigadores tenían cuatro estrategias básicas que esperaban que los agentes de inteligencia artificial aprendieran, y las aprendieron bastante rápido, volviéndose competentes en ellas después de solo 25 millones de juegos simulados. El juego tuvo lugar en un entorno 3D lleno de rampas, bloques y paredes. Los agentes de inteligencia artificial aprendieron a perseguirse entre sí, mover bloques para construir fuertes en los que esconderse, y mover rampas. Los agentes que buscaban aprendieron a arrastrar rampas para entrar en los fuertes de los que se escondían, mientras que los que se escondían aprendieron a intentar llevar las rampas a sus fuertes para que los que buscaban no las pudieran utilizar.

Sin embargo, alrededor del hito de 380 millones de juegos, sucedió algo inesperado. Los agentes de inteligencia artificial aprendieron a utilizar dos estrategias que los investigadores no esperaban. Los agentes que buscaban aprendieron que saltando sobre una caja y inclinándola/haciéndola rodar hacia un fuerte cercano, podían saltar dentro del fuerte y encontrar al que se escondía. Los investigadores no habían siquiera realizado que esto era posible dentro de la física del entorno del juego. Los que se escondían aprendieron a lidiar con este problema arrastrando las cajas a su lugar dentro de sus fuertes.

Mientras que el comportamiento inesperado de los agentes entrenados con algoritmos de aprendizaje por refuerzo es inofensivo en este caso, plantea algunas preocupaciones potenciales sobre cómo se aplica el aprendizaje por refuerzo a otras situaciones. Un miembro del equipo de investigación de OpenAI, Bowen Baker, explicó a IEEE Spectrum que estos comportamientos inesperados podrían ser potencialmente peligrosos. Después de todo, ¿qué pasa si los robots comenzaran a comportarse de manera inesperada?

“Construir estos entornos es difícil”, explicó Baker. “Los agentes se les ocurrirán estos comportamientos inesperados, lo que será un problema de seguridad en el futuro cuando se les coloque en entornos más complejos”.

Sin embargo, Baker también explicó que las estrategias de refuerzo podrían conducir a soluciones innovadoras para problemas actuales. Los sistemas entrenados con aprendizaje por refuerzo podrían resolver una amplia variedad de problemas con soluciones que quizás no podamos ni imaginar.

Bloguero y programador con especialidades en Machine Learning y Deep Learning temas. Daniel espera ayudar a otros a utilizar el poder de la IA para el bien social.