Connect with us

POKELLMON: Un Agente di Parità Umana per le Battaglie di Pokemon con LLM

Intelligenza artificiale

POKELLMON: Un Agente di Parità Umana per le Battaglie di Pokemon con LLM

mm
POKELLMON: A Human-Parity Agent for Pokemon Battles with LLMs

I Large Language Model e l’Intelligenza Artificiale Generativa hanno dimostrato un successo senza precedenti in un’ampia gamma di compiti di Elaborazione del Linguaggio Naturale. Dopo aver conquistato il campo dell’NLP, la prossima sfida per i ricercatori di GenAI e LLM è esplorare come i modelli linguistici di grandi dimensioni possano agire autonomamente nel mondo reale con un’estensione della lacuna di generazione dal testo all’azione, rappresentando così un paradigma significativo nella ricerca dell’Intelligenza Artificiale Generale. I giochi online sono considerati una base di test appropriata per sviluppare agenti incarnati di modelli linguistici di grandi dimensioni che interagiscono con l’ambiente visivo in un modo che un essere umano farebbe.

Ad esempio, in un popolare gioco di simulazione online come Minecraft, gli agenti di decisione possono essere impiegati per assistere i giocatori nell’esplorazione del mondo e nello sviluppo di abilità per la creazione di strumenti e la risoluzione di compiti. Un altro esempio di agenti LLM che interagiscono con l’ambiente visivo può essere sperimentato in un altro gioco online, The Sims, dove gli agenti hanno dimostrato un successo notevole nelle interazioni sociali e esibiscono un comportamento che somiglia a quello umano. Tuttavia, rispetto ai giochi esistenti, i giochi di battaglia tattici potrebbero rivelarsi una scelta migliore per valutare la capacità dei modelli linguistici di grandi dimensioni di giocare giochi virtuali. Il motivo principale per cui i giochi tattici sono una scelta migliore è che il tasso di vittoria può essere misurato direttamente e gli avversari consistenti, compresi i giocatori umani e l’IA, sono sempre disponibili.

Sulla base di ciò, POKELLMON mira a essere il primo agente incarnato al mondo che raggiunge le prestazioni umane nei giochi tattici, simili a quelle osservate nelle battaglie di Pokemon. Al suo nucleo, il framework POKELLMON incorpora tre strategie principali.

  1. L’apprendimento di rinforzo in contesto che consuma il feedback testuale derivato dalle battaglie istantaneamente per raffinare la politica in modo iterativo.
  2. La generazione aumentata della conoscenza che recupera la conoscenza esterna per contrastare le allucinazioni, consentendo all’agente di agire in modo appropriato e quando necessario.
  3. La generazione di azioni coerenti per minimizzare la situazione di commutazione panica quando l’agente si trova di fronte a un giocatore forte e vuole evitare di affrontarlo.

Questo articolo mira a coprire il framework POKELLMON in profondità e esploriamo il meccanismo, la metodologia, l’architettura del framework insieme al suo confronto con i framework attuali. Discuteremo anche di come il framework POKELLMON dimostra strategie di battaglia simili a quelle umane e capacità di decisione in tempo reale, raggiungendo un rispettabile tasso di vittoria del 50%. Quindi, iniziamo.

POKELLMON: Un Agente di Parità Umana con LLM per le Battaglie di Pokemon

La crescita delle capacità e dell’efficienza dei Large Language Model e dei framework di Intelligenza Artificiale Generativa negli ultimi anni è stata nulla di meno che meravigliosa, specialmente nei compiti di NLP. Di recente, gli sviluppatori e i ricercatori di IA hanno lavorato per rendere l’IA Generativa e i LLM più prominenti in scenari del mondo reale con la capacità di agire autonomamente nel mondo fisico. Per raggiungere questo rendimento autonomo in situazioni fisiche e del mondo reale, i ricercatori e gli sviluppatori considerano i giochi come una base di test appropriata per sviluppare agenti incarnati di LLM con la capacità di interagire con l’ambiente visivo in un modo che somiglia al comportamento umano.

In precedenza, gli sviluppatori hanno cercato di sviluppare agenti incarnati di LLM in giochi di simulazione virtuali come Minecraft e The Sims, sebbene si creda che i giochi tattici come Pokemon potrebbero essere una scelta migliore per sviluppare questi agenti. Le battaglie di Pokemon consentono agli sviluppatori di valutare la capacità di un allenatore di combattere in giochi di Pokemon ben noti e offrono diversi vantaggi rispetto ad altri giochi tattici. Poiché gli spazi di azione e di stato sono discreti, possono essere tradotti in testo senza alcuna perdita. La figura seguente illustra una tipica battaglia di Pokemon in cui il giocatore è chiamato a generare un’azione da eseguire ad ogni turno dato lo stato corrente dei Pokemon di entrambi i lati.

POKELLMON: Metodologia e Architettura

La struttura e l’architettura complessive del framework POKELLMON sono illustrate nell’immagine seguente.

Durante ogni turno, il framework POKELLMON utilizza le azioni precedenti e il feedback testuale corrispondente per raffinare la politica in modo iterativo, oltre ad arricchire le informazioni sullo stato attuale con conoscenza esterna come effetti di abilità/mossa o relazioni di vantaggio/debolezza. Per le informazioni fornite come input, il framework POKELLMON genera più azioni in modo indipendente e seleziona le più coerenti come output finale.

Apprendimento di Rinforzo in Contesto

I giocatori umani e gli atleti spesso prendono decisioni non solo sulla base dello stato attuale, ma riflettono anche sul feedback delle azioni precedenti e sulle esperienze di altri giocatori. Sarebbe sicuro dire che il feedback positivo aiuta un giocatore a imparare dai propri errori e a evitare di ripeterli. Senza un feedback appropriato, gli agenti POKELLMON potrebbero rimanere bloccati sulla stessa azione errata, come dimostrato nella figura seguente.

Come si può osservare, l’agente nel gioco utilizza una mossa basata sull’acqua contro un personaggio Pokemon che ha l’abilità “Dry Skin”, che gli consente di annullare il danno contro le mosse basate sull’acqua. Il gioco tenta di avvertire l’utente lampeggiando il messaggio “Immune” sullo schermo, che potrebbe indurre un giocatore umano a riconsiderare le proprie azioni e cambiarle, anche senza conoscere l’abilità “Dry Skin”. Tuttavia, poiché non è inclusa nella descrizione dello stato per l’agente, l’agente ripete lo stesso errore.

Per assicurarsi che l’agente POKELLMON impari dai propri errori precedenti, il framework implementa l’approccio di apprendimento di rinforzo in contesto. L’apprendimento di rinforzo è un approccio popolare nell’apprendimento automatico e aiuta gli sviluppatori a raffinare la politica, poiché richiede ricompense numeriche per valutare le azioni. Poiché i modelli linguistici di grandi dimensioni hanno la capacità di interpretare e comprendere il linguaggio, le descrizioni testuali sono emerse come una nuova forma di ricompensa per i LLM. Includendo il feedback testuale dalle azioni precedenti, l’agente POKELLMON è in grado di raffinare la propria politica in modo iterativo e istantaneo, vale a dire l’apprendimento di rinforzo in contesto.

Inoltre, l’utilizzo dell’approccio di apprendimento di rinforzo in contesto risulta in un aumento significativo delle prestazioni, come dimostrato nella figura seguente.

Quando confrontato con le prestazioni originali su GPT-4, il tasso di vittoria aumenta di quasi il 10% e il punteggio di battaglia aumenta di quasi il 13%. Inoltre, come dimostrato nella figura seguente, l’agente inizia ad analizzare e cambiare la propria azione se le mosse eseguite nelle mosse precedenti non sono state in grado di soddisfare le aspettative.

Generazione Aumentata della Conoscenza o KAG

Sebbene l’implementazione dell’apprendimento di rinforzo in contesto aiuti a ridurre le allucinazioni in una certa misura, può ancora risultare in conseguenze fatali prima che l’agente riceva il feedback. Ad esempio, se l’agente decide di combattere contro un Pokemon di tipo fuoco con un Pokemon di tipo erba, il primo è probabile che vinca in un solo turno. Per ridurre ulteriormente le allucinazioni e migliorare la capacità di decisione dell’agente, il framework POKELLMON implementa l’approccio di generazione aumentata della conoscenza o KAG, una tecnica che impiega la conoscenza esterna per aumentare la generazione.

Ora, quando il modello genera i quattro tipi di feedback discussi sopra, annota le mosse e le informazioni dei Pokemon, consentendo all’agente di inferire la relazione di vantaggio di tipo in modo autonomo. Nel tentativo di ridurre ulteriormente le allucinazioni contenute nel ragionamento, il framework POKELLMON annota esplicitamente il vantaggio di tipo e la debolezza del Pokemon avversario e del Pokemon dell’agente con descrizioni adeguate. Inoltre, è difficile memorizzare le mosse e le abilità con effetti distinti dei Pokemon, specialmente poiché ce ne sono molti. La tabella seguente dimostra i risultati della generazione aumentata della conoscenza.

Inoltre, gli sviluppatori hanno osservato che quando l’agente è stato fornito di conoscenza esterna sui Pokemon, ha iniziato a utilizzare mosse speciali al momento giusto, come dimostrato nell’immagine seguente.

Generazione di Azioni Coerenti

I modelli esistenti dimostrano che l’implementazione di approcci di prompting e ragionamento può migliorare la capacità dei LLM di risolvere compiti complessi. Invece di generare un’azione in un solo colpo, il framework POKELLMON valuta le strategie di prompting esistenti, tra cui CoT o Catena di Pensiero, ToT o Albero del Pensiero e Coerenza con se stessi. Per la Catena di Pensiero, l’agente genera inizialmente un pensiero che analizza la situazione di battaglia corrente e produce un’azione condizionata sul pensiero. Per la Coerenza con se stessi, l’agente genera tre volte le azioni e seleziona l’output che ha ricevuto il massimo numero di voti. Infine, per l’approccio dell’Albero del Pensiero, il framework genera tre azioni come nel caso della coerenza con se stessi, ma seleziona quella che ritiene la migliore dopo averle valutate tutte da solo.

C’è solo un’azione per ogni turno, il che significa che anche se l’agente decide di cambiare e l’avversario decide di attaccare, il Pokemon che subentra subirà il danno. Normalmente l’agente decide di cambiare perché vuole cambiare con un Pokemon che abbia un vantaggio di tipo rispetto al Pokemon avversario e quindi il Pokemon che subentra può sostenere il danno, poiché è resistente al tipo del Pokemon avversario. Tuttavia, come sopra, per l’agente con il ragionamento CoT, anche se il Pokemon avversario potente costringe diverse rotazioni, agisce in modo incoerente con la missione, poiché potrebbe non voler cambiare con il Pokemon ma con diversi Pokemon e tornare indietro, cosa che chiamiamo commutazione panica. La commutazione panica elimina le possibilità di eseguire mosse e quindi porta alla sconfitta.

POKELLMON: Risultati e Esperimenti

Prima di discutere i risultati, è essenziale per noi comprendere l’ambiente di battaglia. All’inizio di un turno, l’ambiente riceve un messaggio di richiesta di azione dal server e risponderà a questo messaggio alla fine, che contiene anche il risultato dell’esecuzione dell’ultimo turno.

  1. Innanzitutto, analizza il messaggio e aggiorna le variabili di stato locali, 2. quindi traduce le variabili di stato in testo. La descrizione testuale ha principalmente quattro parti: 1. informazioni sulla squadra di casa, che contiene gli attributi dei Pokemon in campo e fuori campo (inutilizzati).
  2. Informazioni sulla squadra avversaria, che contiene gli attributi dei Pokemon avversari in campo e fuori campo (alcune informazioni sono sconosciute).
  3. Informazioni sul campo di battaglia, che includono il meteo, gli ostacoli di ingresso e il terreno.
  4. Informazioni sul log storico dei turni, che contiene le azioni precedenti di entrambi i Pokemon e viene memorizzato in una coda di log. I LLM prendono lo stato tradotto come input e producono azioni per il passo successivo. L’azione viene quindi inviata al server e eseguita allo stesso tempo dell’azione eseguita dall’umano.

Battaglia Contro Giocatori Umani

La tabella seguente illustra le prestazioni dell’agente POKELLMON contro i giocatori umani.

Come si può osservare, l’agente POKELLMON consegna prestazioni paragonabili a quelle dei giocatori della classifica che hanno un tasso di vittoria più alto rispetto a un giocatore invitato e hanno una vasta esperienza di battaglia.

Analisi delle Abilità di Battaglia

Il framework POKELLMON raramente commette errori nella scelta della mossa efficace e passa a un altro Pokemon adatto grazie alla strategia di generazione aumentata della conoscenza.

Come mostrato nell’esempio sopra, l’agente utilizza solo un Pokemon per sconfiggere l’intera squadra avversaria, poiché è in grado di scegliere diverse mosse di attacco, quelle più efficaci per l’avversario in quella situazione. Inoltre, il framework POKELLMON esibisce anche una strategia di logoramento simile a quella umana. Alcuni Pokemon hanno una mossa “Toxic” che può infliggere danni aggiuntivi ad ogni turno, mentre la mossa “Recover” consente loro di recuperare i propri HP. Sfruttando ciò, l’agente prima avvelena il Pokemon avversario e utilizza la mossa “Recover” per evitare di svenire.

Pensieri Finali

In questo articolo, abbiamo parlato di POKELLMON, un approccio che consente ai modelli linguistici di grandi dimensioni di giocare battaglie di Pokemon contro gli umani in modo autonomo. POKELLMON mira a essere il primo agente incarnato al mondo che raggiunge le prestazioni umane nei giochi tattici, simili a quelle osservate nelle battaglie di Pokemon. Il framework POKELLMON introduce tre strategie chiave: l’apprendimento di rinforzo in contesto, la generazione aumentata della conoscenza e la generazione di azioni coerenti. Il framework POKELLMON dimostra strategie di battaglia simili a quelle umane e capacità di decisione in tempo reale, raggiungendo un rispettabile tasso di vittoria del 50%.

Un ingegnere per professione, uno scrittore per passione. Kunal è uno scrittore tecnico con un profondo amore e comprensione di AI e ML, dedicato a semplificare concetti complessi in questi campi attraverso la sua documentazione coinvolgente e informativa.