Inteligencia artificial
Técnica permite que la IA piense muy lejos en el futuro

Un equipo de investigadores del MIT, el MIT-IBM Watson AI Lab y otras instituciones ha desarrollado un nuevo enfoque que permite a los agentes de inteligencia artificial (IA) lograr una perspectiva de largo alcance. En otras palabras, la IA puede pensar muy lejos en el futuro al considerar cómo sus comportamientos pueden incluir los comportamientos de otros agentes de IA al completar una tarea.
La investigación se presentará en la Conferencia sobre Procesamiento de Información Neural.
IA que considera las acciones futuras de otros agentes
El marco de aprendizaje automático creado por el equipo permite que los agentes de IA cooperativos o competitivos consideren qué harán otros agentes. Esto no es solo sobre los siguientes pasos, sino más bien a medida que el tiempo se acerca al infinito. Los agentes adaptan sus comportamientos en consecuencia para influir en los comportamientos futuros de otros agentes, lo que les ayuda a llegar a soluciones óptimas y a largo plazo.
Según el equipo, el marco podría ser utilizado, por ejemplo, por un grupo de drones autónomos que trabajan juntos para encontrar a un excursionista perdido. También podría ser utilizado por vehículos autónomos para anticipar los movimientos futuros de otros vehículos y mejorar la seguridad de los pasajeros.
Dong-Ki Kim es un estudiante de posgrado en el Laboratorio de Información y Sistemas de Decisión del MIT (LIDS) y es el autor principal del artículo de investigación.
“Cuando los agentes de IA cooperan o compiten, lo que más importa es cuándo sus comportamientos convergen en algún punto en el futuro”, dice Kim. “Hay muchos comportamientos transitorios en el camino que no importan mucho a largo plazo. Alcanzar este comportamiento convergente es lo que realmente nos importa, y ahora tenemos una forma matemática de permitirlo”.
El problema abordado por los investigadores se llama aprendizaje de refuerzo multiagente, siendo el aprendizaje de refuerzo una forma de aprendizaje automático en la que los agentes de IA aprenden por prueba y error.
Cuando hay múltiples agentes cooperativos o competitivos que aprenden simultáneamente, el proceso se vuelve mucho más complejo. A medida que los agentes consideran más pasos futuros de otros agentes, así como su propio comportamiento y cómo influye en otros, el problema requiere demasiada potencia computacional.
https://www.youtube.com/watch?v=-J3zYh3XuX4
IA que piensa en el infinito
“La IA realmente quiere pensar en el final del juego, pero no sabe cuándo terminará el juego”, dice Kim. “Necesitan pensar en cómo seguir adaptando su comportamiento al infinito para que puedan ganar en algún momento lejano en el futuro. Nuestro artículo propone esencialmente un nuevo objetivo que permite a la IA pensar en el infinito”.
Es imposible integrar el infinito en un algoritmo, así que el equipo diseñó el sistema de manera que los agentes se centren en un punto futuro donde su comportamiento convergerá con el de otros agentes. Esto se conoce como equilibrio, y un punto de equilibrio determina el rendimiento a largo plazo de los agentes.
Es posible que existan múltiples equilibrios en un escenario multiagente, y cuando un agente eficaz influye activamente en los comportamientos futuros de otros agentes, pueden alcanzar un equilibrio deseable desde la perspectiva del agente. Cuando todos los agentes se influyen mutuamente, convergen a un concepto general llamado “equilibrio activo”.
Marco FURTHER
El marco de aprendizaje automático del equipo se llama FURTHER, y permite a los agentes aprender a ajustar sus comportamientos en función de sus interacciones con otros agentes para alcanzar el equilibrio activo.
El marco se basa en dos módulos de aprendizaje automático. El primero es un módulo de inferencia que permite a un agente adivinar los comportamientos futuros de otros agentes y los algoritmos de aprendizaje que utilizan en función de acciones anteriores. La información se alimenta luego en el módulo de aprendizaje de refuerzo, en el que el agente confía para adaptar su comportamiento e influir en otros agentes.
“El desafío fue pensar en el infinito. Teníamos que utilizar muchas herramientas matemáticas diferentes para permitirlo y hacer algunas suposiciones para que funcionara en la práctica”, dice Kim.
El equipo probó su método contra otros marcos de aprendizaje de refuerzo multiagente en diferentes escenarios, y los agentes de IA que utilizaban FURTHER salieron adelante.
El enfoque es descentralizado, por lo que los agentes aprenden a ganar de forma independiente. Además, está mejor diseñado para escalar en comparación con otros métodos que requieren una computadora central para controlar a los agentes.
Según el equipo, FURTHER podría ser utilizado en una amplia gama de problemas multiagentes. Kim tiene especial esperanza en sus aplicaciones en economía, donde podría ser utilizado para desarrollar una política sólida en situaciones que involucran a muchas entidades interactuantes con comportamientos e intereses que cambian con el tiempo.












