Inteligência artificial

POKELLMON: Um Agente de Paridade Humana para Batalhas de Pokémon com LLMs

Published April 11, 2024

Updated April 27, 2026

Kunal Kejriwal

POKELLMON: A Human-Parity Agent for Pokemon Battles with LLMs

Os Grandes Modelos de Linguagem e a Inteligência Artificial Gerativa demonstraram um sucesso sem precedentes em uma ampla gama de tarefas de Processamento de Linguagem Natural. Após conquistar o campo da PNL, o próximo desafio para os pesquisadores de GenAI e LLM é explorar como os grandes modelos de linguagem podem agir autonomamente no mundo real com uma lacuna de geração estendida de texto para ação, representando assim um paradigma significativo na busca por Inteligência Artificial Geral. Os jogos online são considerados uma base de teste adequada para desenvolver agentes incorporados de grandes modelos de linguagem que interagem com o ambiente visual de uma maneira que um humano faria.

Por exemplo, em um popular jogo de simulação online Minecraft, agentes de tomada de decisão podem ser empregados para ajudar os jogadores a explorar o mundo, além de desenvolver habilidades para fazer ferramentas e resolver tarefas. Outro exemplo de agentes LLM interagindo com o ambiente visual pode ser experimentado em outro jogo online, The Sims, onde os agentes demonstraram um sucesso notável em interações sociais e exibem comportamento que se assemelha ao humano. No entanto, em comparação com jogos existentes, jogos de batalha tática podem provar ser uma melhor escolha para benchmarkar a capacidade dos grandes modelos de linguagem de jogar jogos virtuais. A razão principal pela qual os jogos táticos são uma melhor referência é que a taxa de vitória pode ser medida diretamente, e oponentes consistentes, incluindo jogadores humanos e IA, estão sempre disponíveis.

Com base nisso, o POKELLMON visa ser o primeiro agente incorporado do mundo a alcançar um desempenho de nível humano em jogos táticos, semelhante ao observado nas batalhas de Pokémon. Em seu núcleo, o framework POKELLMON incorpora três estratégias principais.

Aprendizado de reforço em contexto que consome feedback baseado em texto derivado de batalhas instantaneamente para refinar a política iterativamente.
Geração aumentada de conhecimento que recupera conhecimento externo para contrariar alucinações, permitindo que o agente aja corretamente e quando necessário.
Geração de ação consistente para minimizar a situação de commutação de pânico quando o agente encontra um jogador forte e deseja evitar enfrentá-lo.

Este artigo visa cobrir o framework POKELLMON em profundidade, e exploramos o mecanismo, a metodologia, a arquitetura do framework, juntamente com sua comparação com frameworks de estado da arte. Também discutiremos como o framework POKELLMON demonstra estratégias de batalha semelhantes às humanas e capacidades de tomada de decisão em tempo real, alcançando uma taxa de vitória respeitável de quase 50%. Vamos começar.

POKELLMON: Um Agente de Paridade Humana com LLM para Batalhas de Pokémon

O crescimento nas capacidades e eficiência dos Grandes Modelos de Linguagem e frameworks de Inteligência Artificial Gerativa nos últimos anos tem sido nada menos que maravilhoso, especialmente em tarefas de PNL. Recentemente, desenvolvedores e pesquisadores de IA têm trabalhado em maneiras de tornar a IA Gerativa e os LLM mais proeminentes em cenários do mundo real, com a capacidade de agir autonomamente no mundo físico. Para alcançar esse desempenho autônomo em situações físicas e do mundo real, os pesquisadores e desenvolvedores consideram os jogos como uma base de teste adequada para desenvolver agentes incorporados de LLM que interagem com o ambiente virtual de uma maneira que se assemelha ao comportamento humano.

Anteriormente, os desenvolvedores tentaram desenvolver agentes incorporados de LLM em jogos de simulação virtuais como Minecraft e Sims, embora se acredite que jogos táticos como Pokémon possam ser uma melhor escolha para desenvolver esses agentes. As batalhas de Pokémon permitem que os desenvolvedores avaliem a capacidade de um treinador de batalhar em jogos de Pokémon conhecidos, e oferecem várias vantagens sobre outros jogos táticos. Como os espaços de ação e estado são discretos, eles podem ser traduzidos em texto sem perda. A figura a seguir ilustra uma batalha de Pokémon típica, onde o jogador é solicitado a gerar uma ação para realizar a cada turno, dado o estado atual do Pokémon de cada lado.

POKELLMON: Metodologia e Arquitetura

A arquitetura geral do framework POKELLMON é ilustrada na seguinte imagem.

Durante cada turno, o framework POKELLMON usa ações anteriores e o feedback baseado em texto correspondente para refinar a política iterativamente, juntamente com a informação de estado atual aumentada com conhecimento externo, como efeitos de habilidade/movimento ou relação de vantagem/fraqueza. Para as informações dadas como entrada, o framework POKELLMON gera múltiplas ações independentemente e, em seguida, seleciona as mais consistentes como saída final.

Aprendizado de Reforço em Contexto

Jogadores humanos e atletas frequentemente tomam decisões não apenas com base no estado atual, mas também refletem sobre o feedback das ações anteriores, bem como as experiências de outros jogadores. Seria seguro dizer que o feedback positivo é o que ajuda um jogador a aprender com seus erros e evita que ele cometa o mesmo erro repetidamente. Sem feedback adequado, os agentes POKELLMON podem ficar presos ao mesmo erro de ação, como demonstrado na figura a seguir.

Para garantir que o agente POKELLMON aprenda com seus erros anteriores, o framework implementa a abordagem de Aprendizado de Reforço em Contexto. O aprendizado de reforço é uma abordagem popular em aprendizado de máquina, e ajuda os desenvolvedores a refinar a política, pois requer recompensas numéricas para avaliar ações. Como os grandes modelos de linguagem têm a capacidade de interpretar e entender a linguagem, as descrições baseadas em texto emergiram como uma nova forma de recompensa para os LLM. Ao incluir feedback baseado em texto das ações anteriores, o agente POKELLMON é capaz de refinar iterativamente e instantaneamente sua política, nomeadamente o Aprendizado de Reforço em Contexto.

O dano real causado por uma ação de ataque com base na diferença de HP entre dois turnos consecutivos.
A eficácia das ações de ataque. O feedback indica a eficácia do ataque em termos de não ter efeito ou ser imune, ineficaz ou super-eficaz devido a efeitos de habilidade/movimento ou vantagem de tipo.
A ordem de prioridade para a execução de uma ação. Como os estatutos precisos do oponente não estão disponíveis, o feedback de prioridade fornece uma estimativa aproximada de velocidade.
O efeito real das ações executadas no oponente. Ambas as ações de ataque e status podem resultar em resultados como recuperação de HP, aumento de estatutos ou debuffs, infligir condições como congelamento, queimaduras ou envenenamento.

Além disso, o uso da abordagem de Aprendizado de Reforço em Contexto resulta em um aumento significativo no desempenho, como demonstrado na figura a seguir.

Quando comparado ao desempenho original no GPT-4, a taxa de vitória aumenta em quase 10%, juntamente com um aumento de quase 13% na pontuação de batalha. Além disso, como demonstrado na figura a seguir, o agente começa a analisar e alterar sua ação se as ações executadas nas ações anteriores não atenderam às expectativas.

Geração Aumentada de Conhecimento ou KAG

Embora a implementação do Aprendizado de Reforço em Contexto ajude com alucinações até certo ponto, ainda pode resultar em consequências fatais antes que o agente receba o feedback. Por exemplo, se o agente decidir lutar contra um Pokémon do tipo fogo com um Pokémon do tipo grama, o primeiro provavelmente vencerá em um único turno. Para reduzir as alucinações ainda mais e melhorar a capacidade de tomada de decisão do agente, o framework POKELLMON implementa a abordagem de Geração Aumentada de Conhecimento ou KAG, uma técnica que emprega conhecimento externo para aumentar a geração.

Agora, quando o modelo gera os quatro tipos de feedback discutidos acima, ele anota as ações e informações do Pokémon, permitindo que o agente infira a relação de vantagem de tipo por conta própria. Em uma tentativa de reduzir ainda mais as alucinações contidas no raciocínio, o framework POKELLMON anota explicitamente a vantagem de tipo e a fraqueza do Pokémon oponente e do Pokémon do agente com descrições adequadas. Além disso, é desafiador memorizar as ações e habilidades com efeitos distintos dos Pokémon, especialmente porque há muitos deles. A tabela a seguir demonstra os resultados da geração aumentada de conhecimento. É importante notar que, implementando a abordagem de Geração Aumentada de Conhecimento, o framework POKELLMON é capaz de aumentar a taxa de vitória em cerca de 20% do existente 36% para 55%.

Além disso, os desenvolvedores observaram que, quando o agente foi fornecido com conhecimento externo de Pokémon, ele começou a usar ações especiais no momento certo, como demonstrado na imagem a seguir.

Geração de Ação Consistente

Modelos existentes demonstram que a implementação de abordagens de prompting e raciocínio pode melhorar a capacidade dos LLM em resolver tarefas complexas. Em vez de gerar uma ação de um só disparo, o framework POKELLMON avalia estratégias de prompting existentes, incluindo CoT ou Cadeia de Pensamento, ToT ou Árvore de Pensamento, e Autoconsistência. Para a Cadeia de Pensamento, o agente inicialmente gera um pensamento que analisa o cenário de batalha atual e produz uma ação condicionada ao pensamento. Para a Autoconsistência, o agente gera três vezes as ações e seleciona a saída que recebeu o maior número de votos. Finalmente, para a abordagem da Árvore de Pensamento, o framework gera três ações, assim como na autoconsistência, mas escolhe a que considera a melhor após avaliá-las todas por si mesmo. A tabela a seguir resume o desempenho das abordagens de prompting.

Há apenas uma ação para cada turno, o que implica que, mesmo que o agente decida mudar e o oponente decida atacar, o Pokémon que entra em cena receberá o dano. Normalmente, o agente decide mudar porque deseja mudar para um Pokémon que tenha vantagem de tipo em relação ao oponente, e, portanto, o Pokémon que entra em cena pode sustentar o dano, pois é resistente ao tipo de ataque do oponente. No entanto, como acima, para o agente com raciocínio CoT, mesmo que o oponente forte force várias rotações, ele age de forma inconsistente com a missão, pois pode não querer mudar para o Pokémon, mas para vários Pokémon e de volta, o que chamamos de commutação de pânico. A commutação de pânico elimina as chances de realizar ações e, portanto, resulta em derrotas.

POKELLMON: Resultados e Experimentos

Antes de discutirmos os resultados, é essencial entender o ambiente de batalha. No início de um turno, o ambiente recebe uma mensagem de solicitação de ação do servidor e responderá a essa mensagem no final, que também contém o resultado de execução do último turno.

Primeiro, analisa a mensagem e atualiza as variáveis de estado locais, 2. em seguida, traduz as variáveis de estado em texto. A descrição de texto tem quatro partes principais: 1. Informações da equipe própria, que contém os atributos do Pokémon em campo e fora de campo (não utilizado).
Informações da equipe oponente, que contém os atributos do Pokémon oponente em campo e fora de campo (algumas informações são desconhecidas).
Informações do campo de batalha, que inclui o clima, perigos de entrada e terreno.
Informações do registro de turnos anteriores, que contém ações anteriores de ambos os Pokémon e é armazenado em uma fila de registro. Os LLMs tomam o estado traduzido como entrada e produzem ações para o próximo passo. A ação é enviada ao servidor e executada ao mesmo tempo que a ação feita pelo humano.

Batalha Contra Jogadores Humanos

A tabela a seguir ilustra o desempenho do agente POKELLMON contra jogadores humanos.

Como pode ser observado, o agente POKELLMON entrega um desempenho comparável ao de jogadores de ladder que têm uma taxa de vitória mais alta quando comparados a um jogador convidado, juntamente com experiência de batalha extensa.

Análise de Habilidades de Batalha

O framework POKELLMON raramente comete erros ao escolher a ação eficaz e muda para outro Pokémon adequado devido à estratégia de Geração Aumentada de Conhecimento.

Como mostrado no exemplo acima, o agente usa apenas um Pokémon para derrotar toda a equipe oponente, pois é capaz de escolher diferentes ações de ataque, as mais eficazes para o oponente naquela situação. Além disso, o framework POKELLMON também exibe uma estratégia de atrito semelhante à humana. Alguns Pokémon têm uma ação “Tóxica” que pode infligir dano adicional a cada turno, enquanto a ação “Recuperar” permite que ele recupere seu HP. Aproveitando disso, o agente primeiro envenena o Pokémon oponente e usa a ação Recuperar para evitar que ele desmaie.

Pensamentos Finais

Neste artigo, discutimos o POKELLMON, uma abordagem que permite que os grandes modelos de linguagem joguem batalhas de Pokémon contra humanos de forma autônoma. O POKELLMON visa ser o primeiro agente incorporado do mundo a alcançar um desempenho de nível humano em jogos táticos, semelhante ao observado nas batalhas de Pokémon. O framework POKELLMON introduz três estratégias principais: Aprendizado de Reforço em Contexto, que consome o feedback baseado em texto como “recompensa” para refinar a política de geração de ação iterativamente sem treinamento, Geração Aumentada de Conhecimento, que recupera conhecimento externo para combater alucinações e garantir que o agente aja no momento certo e corretamente, e Geração de Ação Consistente, que evita a situação de commutação de pânico quando o agente encontra oponentes poderosos.

Kunal Kejriwal

Um engenheiro por profissão, um escritor por coração. Kunal é um escritor técnico com um amor e compreensão profundos de AI e ML, dedicado a simplificar conceitos complexos nestes campos por meio de sua documentação envolvente e informativa.