talón POKELLMON: un agente de paridad humana para batallas Pokémon con LLM - Unite.AI
Contáctanos

Inteligencia artificial

POKELLMON: un agente de paridad humana para batallas Pokémon con LLM

mm

Publicado

 on

POKELLMON: un agente de paridad humana para batallas Pokémon con LLM

Los modelos de lenguaje grandes y la IA generativa han demostrado un éxito sin precedentes en una amplia gama de tareas de procesamiento del lenguaje natural. Después de conquistar el campo de la PNL, el próximo desafío para los investigadores de GenAI y LLM es explorar cómo los grandes modelos de lenguaje pueden actuar de forma autónoma en el mundo real con una brecha generacional extendida entre el texto y la acción, representando así un paradigma significativo en la búsqueda de la Inteligencia Artificial General. . Los juegos en línea se consideran una base de prueba adecuada para desarrollar agentes incorporados en modelos de lenguaje de gran tamaño que interactúan con el entorno visual de la misma manera que lo haría un humano. 

Por ejemplo, en el popular juego de simulación en línea Minecraft, se pueden emplear agentes de toma de decisiones para ayudar a los jugadores a explorar el mundo y desarrollar habilidades para fabricar herramientas y resolver tareas. Otro ejemplo de agentes de LLM que interactúan con el entorno visual se puede experimentar en otro juego en línea, Los Sims, donde los agentes han demostrado un éxito notable en las interacciones sociales y exhiben un comportamiento que se asemeja al de los humanos. Sin embargo, en comparación con los juegos existentes, los juegos de batalla táctica podrían resultar una mejor opción para comparar la capacidad de los modelos de lenguaje grandes para jugar juegos virtuales. La razón principal por la que los juegos tácticos son un mejor punto de referencia es porque la tasa de victorias se puede medir directamente y siempre hay oponentes consistentes, incluidos jugadores humanos y IA. 

Sobre la base de lo mismo, POKELLMON aspira a ser el primer agente encarnado del mundo que logre un rendimiento a nivel humano en juegos tácticos, similar al observado en las batallas de Pokémon. En esencia, el marco POKELLMON incorpora tres estrategias principales.

  1. Aprendizaje por refuerzo en contexto que consume retroalimentación basada en texto derivada de las batallas de manera instantánea para refinar la política de manera iterativa. 
  2. Generación de conocimiento aumentado que recupera conocimiento externo para contrarrestar las alucinaciones, permitiendo al agente actuar correctamente y cuando sea necesario. 
  3. Generación de acciones consistentes para minimizar la situación de cambio de pánico cuando el agente se encuentra con un jugador fuerte y quiere evitar enfrentarlo. 

Este artículo tiene como objetivo cubrir el marco POKELLMON en profundidad y exploramos el mecanismo, la metodología, la arquitectura del marco junto con su comparación con los marcos más avanzados. También hablaremos sobre cómo el marco POKELLMON demuestra notables estrategias de batalla similares a las humanas y capacidades de toma de decisiones a tiempo, logrando una respetable tasa de victorias de casi el 50%. Entonces empecemos.

POKELLMON: un agente de paridad humana con LLM para batallas Pokémon

El crecimiento de las capacidades y la eficiencia de los modelos de lenguajes grandes y los marcos de IA generativa en los últimos años no ha sido más que maravilloso, especialmente en las tareas de PNL. Recientemente, los desarrolladores e investigadores de IA han estado trabajando en formas de hacer que la IA generativa y los LLM sean más prominentes en escenarios del mundo real con la capacidad de actuar de forma autónoma en el mundo físico. Para lograr este desempeño autónomo en situaciones del mundo físico y real, los investigadores y desarrolladores consideran que los juegos son un banco de pruebas adecuado para desarrollar agentes incorporados en LLM con la capacidad de interactuar con el entorno virtual de una manera que se asemeje al comportamiento humano. 

Anteriormente, los desarrolladores han intentado desarrollar agentes incorporados en LLM en juegos de simulación virtual como Minecraft y Sims, aunque se cree que los juegos tácticos como Pokémon podrían ser una mejor opción para desarrollar estos agentes. Las batallas de Pokémon permiten a los desarrolladores evaluar la capacidad de un entrenador para luchar en juegos de Pokémon conocidos y ofrecen varias ventajas sobre otros juegos tácticos. Dado que los espacios de acción y estado son discretos, se pueden traducir a texto sin ninguna pérdida. La siguiente figura ilustra una batalla típica de Pokémon en la que se le pide al jugador que genere una acción para realizar en cada turno, dado el estado actual de los Pokémon de cada lado. Los usuarios tienen la opción de elegir entre cinco Pokémon diferentes y hay un total de cuatro movimientos en el espacio de acción. Además, el juego ayuda a aliviar el estrés sobre el tiempo de inferencia y los costos de inferencia para los LLM, ya que el formato por turnos elimina la necesidad de un juego intensivo. Como resultado, el desempeño depende principalmente de la capacidad de razonamiento del modelo de lenguaje grande. Finalmente, aunque los juegos de batalla de Pokémon parecen simples, en realidad las cosas son un poco más complejas y altamente estratégicas. Un jugador experimentado no selecciona aleatoriamente un Pokémon para la batalla, sino que toma en consideración varios factores, incluidos el tipo, las estadísticas, las habilidades, las especies, los elementos y los movimientos de los Pokémon, tanto dentro como fuera del campo de batalla. Además, en una batalla aleatoria, los Pokémon se seleccionan al azar de un grupo de más de mil personajes, cada uno con su propio conjunto de personajes distintos con capacidad de razonamiento y conocimiento de Pokémon. 

POKELLMON: Metodología y Arquitectura

El marco general y la arquitectura del marco POKELLMON se ilustran en la siguiente imagen. 

Durante cada turno, el marco POKELLMON utiliza acciones previas y su correspondiente retroalimentación basada en texto para refinar la política de manera iterativa junto con aumentar la información del estado actual con conocimiento externo como efectos de habilidad/movimiento o relación ventaja/debilidad. Para la información proporcionada como entrada, el marco POKELLMON genera múltiples acciones de forma independiente y luego selecciona las más consistentes como resultado final. 

Aprendizaje por refuerzo en contexto

Los jugadores y atletas humanos a menudo toman decisiones no sólo en función del estado actual, sino que también reflexionan sobre la retroalimentación de acciones anteriores y las experiencias de otros jugadores. Sería seguro decir que la retroalimentación positiva es lo que ayuda a un jugador a aprender de sus errores y le impide cometer el mismo error una y otra vez. Sin la información adecuada, los agentes POKELLMON podrían seguir cometiendo el mismo error, como se muestra en la siguiente figura. 

Como se puede observar, el agente del juego utiliza un movimiento a base de agua contra un personaje Pokémon que tiene la habilidad “Piel Seca”, lo que le permite anular el daño contra ataques a base de agua. El juego intenta alertar al usuario mostrando el mensaje "Inmune" en la pantalla, lo que podría incitar a un jugador humano a reconsiderar sus acciones y cambiarlas, incluso sin saber acerca de "Piel Seca". Sin embargo, no está incluido en la descripción del estado del agente, lo que hace que el agente vuelva a cometer el mismo error. 

Para garantizar que el agente POKELLMON aprenda de sus errores anteriores, el marco implementa el enfoque de aprendizaje por refuerzo en contexto. El aprendizaje por refuerzo es un enfoque popular en el aprendizaje automático y ayuda a los desarrolladores con la política de refinamiento, ya que requiere recompensas numéricas para evaluar las acciones. Desde grandes modelos de lenguaje tienen la capacidad de interpretar y comprender el lenguaje, las descripciones basadas en texto han surgido como una nueva forma de recompensa para los LLM. Al incluir comentarios basados ​​en texto de las acciones anteriores, el agente POKELLMON puede refinar de forma iterativa e instantánea su política, es decir, el aprendizaje por refuerzo en contexto. El marco POKELLMON desarrolla cuatro tipos de retroalimentación,

  1. El daño real causado por un movimiento de ataque se basa en la diferencia de HP durante dos turnos consecutivos. 
  2. La efectividad de los movimientos de ataque. La retroalimentación indica la efectividad del ataque en términos de no tener efecto o ser inmune, ineficaz o súper efectivo debido a efectos de habilidad/movimiento o ventaja de tipo. 
  3. El orden de prioridad para ejecutar un movimiento. Dado que las estadísticas precisas del personaje Pokémon contrario no están disponibles, la retroalimentación del orden de prioridad proporciona una estimación aproximada de la velocidad. 
  4. El efecto real de los movimientos ejecutados sobre el oponente. Tanto los movimientos de ataque como el estado pueden dar como resultado resultados como recuperar HP, aumentar las estadísticas o desventajas, infligir condiciones como congelación, quemaduras o veneno. 

Además, el uso del enfoque de aprendizaje por refuerzo en contexto da como resultado un aumento significativo en el rendimiento, como se demuestra en la siguiente figura. 

En comparación con el rendimiento original en GPT-4, la tasa de victorias se dispara casi un 10% junto con un aumento de casi un 13% en la puntuación de batalla. Además, como se muestra en la siguiente figura, el agente comienza a analizar y cambiar su acción si los movimientos ejecutados en los movimientos anteriores no pudieron cumplir con las expectativas. 

Generación Aumentada del Conocimiento o KAG

Aunque implementar el aprendizaje por refuerzo en contexto ayuda hasta cierto punto con las alucinaciones, aún puede tener consecuencias fatales antes de que el agente reciba la retroalimentación. Por ejemplo, si el agente decide luchar contra un Pokémon de tipo fuego con un Pokémon de tipo hierba, es probable que el primero gane probablemente en un solo turno. Para reducir aún más las alucinaciones y mejorar la capacidad de toma de decisiones del agente, el marco POKELLMON implementa la Generación de Conocimiento Aumentado o el enfoque KAG, una técnica que emplea conocimiento externo para generación de aumento

Ahora, cuando el modelo genera los 4 tipos de retroalimentación discutidos anteriormente, anota los movimientos de Pokémon y la información que permite al agente inferir la relación de ventaja de tipo por sí solo. En un intento de reducir aún más la alucinación contenida en el razonamiento, el marco POKELLMON anota explícitamente la ventaja de tipo y la debilidad del Pokémon contrario y el Pokémon del agente con descripciones adecuadas. Además, es un desafío memorizar los movimientos y habilidades con distintos efectos de los Pokémon, especialmente porque hay muchos de ellos. La siguiente tabla demuestra los resultados de la generación aumentada de conocimiento. Vale la pena señalar que al implementar el enfoque de Generación Aumentada de Conocimiento, el marco POKELLMON puede aumentar la tasa de ganancias en aproximadamente un 20 % del 36 % existente al 55 %. 

Además, los desarrolladores observaron que cuando el agente recibió conocimiento externo de Pokémon, comenzó a usar movimientos especiales en el momento adecuado, como se demuestra en la siguiente imagen. 

Generación de acción consistente

Los modelos existentes demuestran que la implementación de enfoques de motivación y razonamiento puede mejorar la capacidad de los LLM para resolver tareas complejas. En lugar de generar una acción única, el marco POKELLMON evalúa las estrategias de estímulo existentes, incluidas CoT o Cadena de Pensamiento, ToT o Árbol de Pensamiento y Autoconsistencia. Para Chain of Thought, el agente genera inicialmente un pensamiento que analiza el escenario de batalla actual y genera una acción condicionada al pensamiento. Para la autoconsistencia, el agente genera tres veces las acciones y selecciona la salida que ha recibido el número máximo de votos. Finalmente, para el enfoque del Árbol del Pensamiento, el marco genera tres acciones al igual que en el enfoque de autoconsistencia, pero elige la que considera mejor después de evaluarlas todas por sí mismo. La siguiente tabla resume el rendimiento de los enfoques de estimulación. 

Solo hay una acción por cada turno, lo que implica que incluso si el agente decide cambiar y el oponente decide atacar, el Pokémon que cambia recibiría el daño. Normalmente, el agente decide cambiar porque quiere cambiar con ventaja de tipo a un Pokémon fuera de la batalla y, por lo tanto, el Pokémon que cambia puede soportar el daño, ya que era resistente a los movimientos del Pokémon contrario. Sin embargo, como se indicó anteriormente, para el agente con razonamiento CoT, incluso si el poderoso Pokémon contrario fuerza varios giros, actúa de manera inconsistente con la misión, porque es posible que no quiera cambiar al Pokémon sino a varios Pokémon y viceversa, lo que llamamos cambio de pánico. El cambio de pánico elimina las posibilidades de realizar movimientos y, por tanto, de derrotas. 

POKELLMON: Resultados y Experimentos

Antes de discutir los resultados, es esencial que comprendamos el entorno de batalla. Al comienzo de un turno, el entorno recibe un mensaje de solicitud de acción del servidor y responderá a este mensaje al final, que también contiene el resultado de la ejecución del último turno. 

  1. Primero analiza el mensaje y actualiza las variables de estado locales, 2. luego traduce las variables de estado a texto. La descripción del texto tiene principalmente cuatro partes: 1. Información del propio equipo, que contiene los atributos de los Pokémon dentro y fuera del campo (no utilizados).
  2. Información del equipo oponente, que contiene los atributos de los Pokémon oponentes dentro y fuera del campo (alguna información se desconoce).
  3. Información del campo de batalla, que incluye el clima, los peligros de entrada y el terreno.
  4. Información histórica del registro de turnos, que contiene acciones anteriores de ambos Pokémon y se almacena en una cola de registros. Los LLM toman el estado traducido como acciones de entrada y salida para el siguiente paso. Luego, la acción se envía al servidor y se ejecuta al mismo tiempo que la acción realizada por el humano.

Batalla contra jugadores humanos

La siguiente tabla ilustra el desempeño del agente POKELLMON contra jugadores humanos. 

Como se puede observar, el agente POKELLMON ofrece un rendimiento comparable al de los jugadores de la jerarquía que tienen una mayor tasa de victorias en comparación con un jugador invitado, además de tener una amplia experiencia en batalla. 

Análisis de habilidades de batalla

El sistema POKELLMON rara vez comete errores al elegir el movimiento efectivo y cambia a otro Pokémon adecuado gracias a la estrategia de Generación Aumentada de Conocimiento. 

Como se muestra en el ejemplo anterior, el agente usa solo un Pokémon para derrotar a todo el equipo oponente, ya que puede elegir diferentes movimientos de ataque, los que son más efectivos para el oponente en esa situación. Además, el marco POKELLMON también exhibe una estrategia de desgaste similar a la humana. Algunos Pokémon tienen un movimiento "Tóxico" que puede infligir daño adicional en cada turno, mientras que el movimiento "Recuperar" les permite recuperar su HP. Aprovechando lo mismo, el agente primero envenena al Pokémon contrario y usa el movimiento Recuperar para evitar desmayarse. 

Consideraciones Finales:

En este artículo, hemos hablado de POKELLMON, un enfoque que permite que modelos de lenguaje grandes jueguen batallas de Pokémon contra humanos de forma autónoma. POKELLMON aspira a ser el primer agente encarnado del mundo que logre un desempeño a nivel humano en juegos tácticos, similar al observado en las batallas de Pokémon. El marco POKELLMON introduce tres estrategias clave: aprendizaje por refuerzo en contexto, que consume la retroalimentación basada en texto como "recompensa" para refinar iterativamente la política de generación de acciones sin capacitación, generación de conocimiento aumentada que recupera conocimiento externo para combatir las alucinaciones y garantiza que el agente actúe. oportuna y adecuadamente, y Generación de Acción Consistente que previene el problema del cambio de pánico cuando se encuentra con oponentes poderosos. 

"Ingeniero de profesión, escritor de corazón". Kunal es un escritor técnico con un profundo amor y comprensión de AI y ML, dedicado a simplificar conceptos complejos en estos campos a través de su atractiva e informativa documentación.