Künstliche Intelligenz

POKELLMON: Ein Human-Parity-Agent für Pokémon-Kämpfe mit LLMs

Veröffentlicht

4 Wochen her

11. April 2024

POKELLMON: Ein Human-Parity-Agent für Pokémon-Kämpfe mit LLMs

Große Sprachmodelle und generative KI haben bei einer Vielzahl von Aufgaben der Verarbeitung natürlicher Sprache beispiellose Erfolge gezeigt. Nach der Eroberung des NLP-Bereichs besteht die nächste Herausforderung für GenAI- und LLM-Forscher darin, zu erforschen, wie große Sprachmodelle in der realen Welt mit einer größeren Generationslücke vom Text zur Aktion autonom agieren können und somit ein bedeutendes Paradigma im Streben nach künstlicher allgemeiner Intelligenz darstellen . Online-Spiele gelten als geeignete Testgrundlage, um verkörperte Agenten in großen Sprachmodellen zu entwickeln, die mit der visuellen Umgebung auf eine Weise interagieren, wie es ein Mensch tun würde.

Beispielsweise können in dem beliebten Online-Simulationsspiel Minecraft Entscheidungsagenten eingesetzt werden, die den Spielern dabei helfen, die Welt zu erkunden und Fähigkeiten zur Herstellung von Werkzeugen und zur Lösung von Aufgaben zu entwickeln. Ein weiteres Beispiel für die Interaktion von LLM-Agenten mit der visuellen Umgebung ist in einem anderen Online-Spiel, Die Sims, zu erleben, in dem Agenten bemerkenswerte Erfolge bei sozialen Interaktionen gezeigt haben und ein Verhalten an den Tag legen, das dem von Menschen ähnelt. Im Vergleich zu bestehenden Spielen könnten sich taktische Kampfspiele jedoch als bessere Wahl erweisen, um die Fähigkeit großer Sprachmodelle zum Spielen virtueller Spiele zu messen. Der Hauptgrund dafür, dass taktische Spiele einen besseren Maßstab darstellen, liegt darin, dass die Gewinnrate direkt gemessen werden kann und konstante Gegner, einschließlich menschlicher Spieler und KI, immer verfügbar sind.

Darauf aufbauend zielt POKELLMON darauf ab, der weltweit erste verkörperte Agent zu sein, der in taktischen Spielen Leistungen auf menschlichem Niveau erzielt, ähnlich denen, die man in Pokémon-Kämpfen beobachten kann. Im Kern umfasst das POKELLMON-Framework drei Hauptstrategien.

Kontextbezogenes Verstärkungslernen, das textbasiertes Feedback aus Schlachten sofort nutzt, um die Richtlinie iterativ zu verfeinern.
Wissenserweiterte Generierung, die externes Wissen abruft, um Halluzinationen entgegenzuwirken, sodass der Agent richtig und dann handeln kann, wenn es nötig ist.
Konsequente Aktionsgenerierung zur Minimierung der Panik-Wechselsituation, wenn der Agent auf einen starken Spieler trifft und vermeiden möchte, ihm gegenüberzutreten.

Dieser Artikel zielt darauf ab, das POKELLMON-Framework ausführlich zu behandeln, und wir untersuchen den Mechanismus, die Methodik, die Architektur des Frameworks sowie seinen Vergleich mit modernen Frameworks. Wir werden auch darüber sprechen, wie das POKELLMON-Framework bemerkenswerte menschenähnliche Kampfstrategien und die Fähigkeit zur rechtzeitigen Entscheidungsfindung demonstriert und eine respektable Siegquote von fast 50 % erreicht. Also lasst uns anfangen.

POKELLMON: Ein Human Parity Agent mit LLM für Pokemon Battles

Das Wachstum der Fähigkeiten und der Effizienz großer Sprachmodelle und generativer KI-Frameworks in den letzten Jahren war geradezu erstaunlich, insbesondere bei NLP-Aufgaben. In jüngster Zeit haben Entwickler und KI-Forscher daran gearbeitet, generative KI und LLMs in realen Szenarien stärker hervorzuheben und ihnen die Möglichkeit zu geben, in der physischen Welt autonom zu agieren. Um diese autonome Leistung in physischen und realen Situationen zu erreichen, betrachten Forscher und Entwickler Spiele als geeignete Testumgebung für die Entwicklung von LLM-verkörperten Agenten mit der Fähigkeit, mit der virtuellen Umgebung auf eine Weise zu interagieren, die menschlichem Verhalten ähnelt.

Zuvor haben Entwickler versucht, LLM-verkörperte Agenten für virtuelle Simulationsspiele wie Minecraft und Sims zu entwickeln, obwohl angenommen wird, dass Taktikspiele wie Pokemon eine bessere Wahl für die Entwicklung dieser Agenten sein könnten. Pokémon-Kämpfe ermöglichen es den Entwicklern, die Kampffähigkeit eines Trainers in bekannten Pokémon-Spielen zu bewerten, und bieten mehrere Vorteile gegenüber anderen Taktikspielen. Da Aktions- und Zustandsraum diskret sind, kann er verlustfrei in Text übersetzt werden. Die folgende Abbildung zeigt einen typischen Pokémon-Kampf, bei dem der Spieler aufgefordert wird, eine Aktion zu generieren, die er in jeder Runde ausführen soll, vorausgesetzt, der aktuelle Zustand des Pokémon auf jeder Seite ist gegeben. Die Benutzer haben die Möglichkeit, aus fünf verschiedenen Pokémon zu wählen und es gibt insgesamt vier Züge im Aktionsraum. Darüber hinaus trägt das Spiel dazu bei, den Druck auf die Inferenzzeit und die Inferenzkosten für LLMs zu verringern, da durch das rundenbasierte Format kein intensives Gameplay erforderlich ist. Daher hängt die Leistung in erster Linie von der Denkfähigkeit des Einzelnen ab großes Sprachmodell. Obwohl die Pokémon-Kampfspiele einfach zu sein scheinen, sind die Dinge in Wirklichkeit etwas komplexer und äußerst strategisch. Ein erfahrener Spieler wählt ein Pokémon für den Kampf nicht zufällig aus, sondern berücksichtigt verschiedene Faktoren, darunter Typ, Statistiken, Fähigkeiten, Arten, Gegenstände und Bewegungen der Pokémon, sowohl auf dem Schlachtfeld als auch außerhalb. Darüber hinaus werden die Pokémon in einem Zufallskampf zufällig aus einem Pool von über tausend Charakteren ausgewählt, von denen jeder über einen eigenen Satz unterschiedlicher Charaktere mit Denkfähigkeit und Pokémon-Kenntnissen verfügt.

POKELLMON: Methodik und Architektur

Das Gesamtgerüst und die Architektur des POKELLMON-Frameworks werden in der folgenden Abbildung dargestellt.

Während jeder Runde verwendet das POKELLMON-Framework frühere Aktionen und das entsprechende textbasierte Feedback, um die Richtlinie iterativ zu verfeinern und die aktuellen Statusinformationen mit externem Wissen wie Fähigkeits-/Bewegungseffekten oder Vorteils-/Schwächenbeziehungen zu ergänzen. Für als Eingabe bereitgestellte Informationen generiert das POKELLMON-Framework mehrere Aktionen unabhängig voneinander und wählt dann die konsistentesten als endgültige Ausgabe aus.

Lernen zur Verstärkung im Kontext

Menschliche Spieler und Sportler treffen ihre Entscheidungen häufig nicht nur auf der Grundlage des Ist-Zustands, sondern reflektieren auch das Feedback aus früheren Aktionen sowie die Erfahrungen anderer Spieler. Man kann mit Sicherheit sagen, dass positives Feedback einem Spieler hilft, aus seinen Fehlern zu lernen und ihn davon abhält, immer wieder denselben Fehler zu machen. Ohne entsprechendes Feedback bleiben die POKELLMON-Agenten möglicherweise bei derselben Fehleraktion, wie in der folgenden Abbildung dargestellt.

Wie man beobachten kann, wendet der In-Game-Agent eine wasserbasierte Bewegung gegen einen Pokémon-Charakter an, der über die Fähigkeit „Trockene Haut“ verfügt, wodurch er den Schaden gegen wasserbasierte Angriffe aufheben kann. Das Spiel versucht, den Benutzer zu warnen, indem es die Meldung „Immun“ auf dem Bildschirm blinkt, was einen menschlichen Spieler dazu veranlassen könnte, seine Aktionen zu überdenken und zu ändern, auch ohne Kenntnis von „Trockene Haut“. Es ist jedoch nicht in der Zustandsbeschreibung des Agenten enthalten, was dazu führt, dass der Agent denselben Fehler erneut begeht.

Um sicherzustellen, dass der POKELLMON-Agent aus seinen früheren Fehlern lernt, implementiert das Framework den Ansatz des In-Context Reinforcement Learning. Reinforcement Learning ist ein beliebter Ansatz beim maschinellen Lernen und hilft Entwicklern bei der Verfeinerung von Richtlinien, da zur Bewertung von Aktionen numerische Belohnungen erforderlich sind. Seit große Sprachmodelle Da sie über die Fähigkeit verfügen, Sprache zu interpretieren und zu verstehen, haben sich textbasierte Beschreibungen als neue Form der Belohnung für LLMs herauskristallisiert. Durch die Einbeziehung von textbasiertem Feedback aus den vorherigen Aktionen ist der POKELLMON-Agent in der Lage, seine Richtlinie, nämlich das In-Context Reinforcement Learning, iterativ und sofort zu verfeinern. Das POKELLMON-Framework entwickelt vier Arten von Feedback:

Der tatsächliche Schaden, der durch eine Angriffsbewegung verursacht wird, basierend auf der HP-Differenz in zwei aufeinanderfolgenden Runden.
Die Wirksamkeit von Angriffsbewegungen. Das Feedback zeigt die Wirksamkeit des Angriffs in Bezug darauf an, ob er keine Wirkung hat oder immun ist, ineffektiv oder aufgrund von Fähigkeits-/Bewegungseffekten oder Typenvorteilen sehr effektiv ist.
Die Prioritätsreihenfolge für die Ausführung einer Bewegung. Da die genauen Statistiken für den gegnerischen Pokémon-Charakter nicht verfügbar sind, liefert das Feedback zur Prioritätsreihenfolge eine grobe Schätzung der Geschwindigkeit.
Die tatsächliche Wirkung der ausgeführten Bewegungen auf den Gegner. Sowohl Angriffsbewegungen als auch der Status können zu Ergebnissen wie der Wiederherstellung von HP, Statussteigerungen oder Schwächungen führen und Zustände wie Einfrieren, Verbrennungen oder Gift verursachen.

Darüber hinaus führt der Einsatz des In-Context Reinforcement Learning-Ansatzes zu einer deutlichen Leistungssteigerung, wie in der folgenden Abbildung dargestellt.

Im Vergleich zur ursprünglichen Leistung auf GPT-4 steigt die Siegesrate um fast 10 % und die Gefechtspunktzahl um fast 13 %. Darüber hinaus beginnt der Agent, wie in der folgenden Abbildung dargestellt, mit der Analyse und Änderung seiner Aktion, wenn die in den vorherigen Schritten ausgeführten Schritte nicht den Erwartungen entsprechen konnten.

Knowledge-Augmented Generation oder KAG

Obwohl die Implementierung von In-Context Reinforcement Learning in gewissem Maße bei Halluzinationen hilft, kann sie dennoch fatale Folgen haben, bevor der Agent das Feedback erhält. Wenn der Agent beispielsweise beschließt, gegen ein Feuer-Pokémon mit einem Gras-Pokémon zu kämpfen, wird Ersteres wahrscheinlich in einer einzigen Runde gewinnen. Um Halluzinationen weiter zu reduzieren und die Entscheidungsfähigkeit des Agenten zu verbessern, implementiert das POKELLMON-Framework den Knowledge-Augmented Generation- oder KAG-Ansatz, eine Technik, die externes Wissen nutzt Generation erweitern.

Wenn das Modell nun die vier oben besprochenen Arten von Feedback generiert, kommentiert es die Pokémon-Bewegungen und Informationen, sodass der Agent die Beziehung zwischen den Typvorteilen selbst ableiten kann. Um die in der Argumentation enthaltene Halluzination weiter zu reduzieren, kommentiert das POKELLMON-Framework explizit den Typvorteil und die Schwäche des gegnerischen Pokémon sowie des Pokémon des Agenten mit angemessenen Beschreibungen. Darüber hinaus ist es schwierig, sich die Bewegungen und Fähigkeiten mit unterschiedlichen Effekten von Pokémon zu merken, zumal es viele davon gibt. Die folgende Tabelle zeigt die Ergebnisse der wissenserweiterten Generierung. Es ist erwähnenswert, dass das POKELLMON-Framework durch die Implementierung des Knowledge Augmented Generation-Ansatzes in der Lage ist, die Gewinnrate von derzeit 4 % um etwa 20 % auf 36 % zu steigern.

Darüber hinaus stellten die Entwickler fest, dass der Agent, wenn ihm externes Wissen über Pokémons zur Verfügung gestellt wurde, zum richtigen Zeitpunkt begann, Spezialbewegungen einzusetzen, wie im folgenden Bild gezeigt.

Konsistente Aktionsgenerierung

Bestehende Modelle zeigen, dass die Implementierung von Prompting- und Reasoning-Ansätzen die Fähigkeit von LLMs zur Lösung komplexer Aufgaben verbessern kann. Anstatt eine einmalige Aktion zu generieren, bewertet das POKELLMON-Framework bestehende Aufforderungsstrategien, einschließlich CoT oder Chain of Thought, ToT oder Tree of Thought und Selbstkonsistenz. Bei Chain of Thought generiert der Agent zunächst einen Gedanken, der das aktuelle Kampfszenario analysiert und eine von dem Gedanken abhängige Aktion ausgibt. Für die Selbstkonsistenz generiert der Agent dreimal so viele Aktionen und wählt die Ausgabe aus, die die maximale Anzahl an Stimmen erhalten hat. Schließlich generiert das Framework für den Tree of Thought-Ansatz drei Aktionen, genau wie beim Selbstkonsistenz-Ansatz, wählt jedoch diejenige aus, die es für die beste hält, nachdem es sie alle selbst bewertet hat. Die folgende Tabelle fasst die Leistung der Aufforderungsansätze zusammen.

Es gibt nur eine einzige Aktion für jede Runde, was bedeutet, dass das eingewechselte Pokémon den Schaden erleiden würde, selbst wenn der Agent sich für einen Wechsel entscheidet und der Gegner sich für einen Angriff entscheidet. Normalerweise entscheidet sich der Agent für einen Wechsel, weil er ein Pokémon, das nicht im Kampf ist, mit einem Typenvorteil auswechseln möchte und das einwechselnde Pokémon somit den Schaden ertragen kann, da es gegenüber den Bewegungen des gegnerischen Pokémon typresistent war. Wie oben jedoch gilt für den Agenten mit CoT-Argumentation: Selbst wenn das mächtige gegnerische Pokémon verschiedene Drehungen erzwingt, verhält er sich nicht im Einklang mit der Mission, da er möglicherweise nicht zum Pokémon wechseln möchte, sondern zu mehreren Pokémon und zurück, was wir als solche bezeichnen Panikschaltung. Panikwechsel eliminieren die Chance auf Züge und damit auf Niederlagen.

POKELLMON: Ergebnisse und Experimente

Bevor wir die Ergebnisse diskutieren, ist es wichtig, dass wir das Kampfumfeld verstehen. Zu Beginn einer Runde erhält die Umgebung eine Aktionsanforderungsnachricht vom Server und antwortet am Ende auf diese Nachricht, die auch das Ausführungsergebnis der letzten Runde enthält.

Analysiert zunächst die Nachricht und aktualisiert lokale Statusvariablen. 2. Übersetzt dann die Statusvariablen in Text. Die Textbeschreibung besteht im Wesentlichen aus vier Teilen: 1. Eigene Teaminformationen, die die Attribute von Pokémon im Spielfeld und außerhalb des Spielfelds (nicht verwendet) enthalten.
Informationen zum gegnerischen Team, die die Attribute der gegnerischen Pokémon auf dem Spielfeld und außerhalb des Spielfelds enthalten (einige Informationen sind unbekannt).
Informationen zum Schlachtfeld, einschließlich Wetter, Eintrittsrisiken und Gelände.
Historische Zugprotokollinformationen, die frühere Aktionen beider Pokémon enthalten und in einer Protokollwarteschlange gespeichert werden. LLMs verwenden den übersetzten Zustand als Eingabe- und Ausgabeaktionen für den nächsten Schritt. Die Aktion wird dann an den Server gesendet und gleichzeitig mit der Aktion des Menschen ausgeführt.

Kampf gegen menschliche Spieler

Die folgende Tabelle veranschaulicht die Leistung des POKELLMON-Agenten gegenüber menschlichen Spielern.

Wie man beobachten kann, liefert der POKELLMON-Agent eine Leistung, die mit der von Ladder-Spielern vergleichbar ist, die im Vergleich zu einem eingeladenen Spieler eine höhere Siegrate haben und über umfassende Kampferfahrung verfügen.

Kampffähigkeitsanalyse

Das POKELLMON-Framework macht selten einen Fehler bei der Wahl des effektiven Zuges und wechselt aufgrund der Knowledge Augmented Generation-Strategie zu einem anderen geeigneten Pokémon.

Wie im obigen Beispiel gezeigt, verwendet der Agent nur ein Pokémon, um das gesamte gegnerische Team zu besiegen, da er in der Lage ist, verschiedene Angriffsbewegungen auszuwählen, die für den Gegner in dieser Situation am effektivsten sind. Darüber hinaus weist das POKELLMON-Framework auch eine menschenähnliche Abnutzungsstrategie auf. Einige Pokémon verfügen über eine „Gift“-Attacke, die in jeder Runde zusätzlichen Schaden anrichten kann, während die „Wiederherstellungs“-Attacke es ihnen ermöglicht, ihre HP wiederherzustellen. Der Agent macht sich das zunutze, indem er zunächst das gegnerische Pokémon vergiftet und mit der Erholungsbewegung verhindert, dass es ohnmächtig wird.

Abschließende Überlegungen

In diesem Artikel haben wir über POKELLMON gesprochen, einen Ansatz, der es großen Sprachmodellen ermöglicht, autonom Pokémon-Kämpfe gegen Menschen zu spielen. POKELLMON zielt darauf ab, der weltweit erste verkörperte Agent zu sein, der in taktischen Spielen eine Leistung auf menschlichem Niveau erreicht, ähnlich wie in Pokémon-Kämpfen. Das POKELLMON-Framework führt drei Schlüsselstrategien ein: In-Context Reinforcement Learning, das das textbasierte Feedback als „Belohnung“ nutzt, um die Aktionsgenerierungsrichtlinie ohne Schulung iterativ zu verfeinern, und Knowledge-Augmented Generation, das externes Wissen abruft, um Halluzinationen zu bekämpfen und sicherzustellen, dass der Agent handelt rechtzeitig und richtig, und konsistente Aktionsgenerierung, die das Problem des Panikwechsels verhindert, wenn man auf mächtige Gegner trifft.

Als nächstes

Revolutionierung der KI mit Apples ReALM: Die Zukunft intelligenter Assistenten

Verpassen Sie nicht

Meta stellt KI-Trainingschip der nächsten Generation vor, der eine schnellere Leistung verspricht

Kunal Kejriwal

„Von Beruf Ingenieur, von Herzen Schriftsteller“. Kunal ist ein technischer Autor mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Vereinfachung komplexer Konzepte in diesen Bereichen durch seine ansprechende und informative Dokumentation widmet.