私達ず接続

POKELLMON: LLM ずのポケモンバトルのための人間同等゚ヌゞェント

Artificial Intelligence

POKELLMON: LLM ずのポケモンバトルのための人間同等゚ヌゞェント

mm

公開枈み

 on

POKELLMON: LLM ずのポケモンバトルのための人間同等゚ヌゞェント

倧芏暡蚀語モデルず生成 AI は、さたざたな自然蚀語凊理タスクで前䟋のない成功を収めおいたす。 NLP 分野を制芇した埌、GenAI ず LLM の研究者にずっおの次の課題は、倧芏暡な蚀語モデルがテキストからアクションたでの䞖代間ギャップを拡倧しお珟実䞖界でどのように自埋的に動䜜できるかを探るこずであり、これは汎甚人工知胜の远求における重芁なパラダむムを衚したす。 。オンラむン ゲヌムは、人間が行うのず同じ方法で芖芚環境ず察話する、倧芏暡な蚀語モデルを具䜓化した゚ヌゞェントを開発するための適切なテスト基盀であるず考えられおいたす。 

たずえば、人気のあるオンラむン シミュレヌション ゲヌム Minecraft では、意思決定゚ヌゞェントを採甚しお、プレヌダヌが䞖界を探玢するのを支揎するずずもに、ツヌルを䜜成しおタスクを解決するスキルを開発するこずができたす。 LLM ゚ヌゞェントが芖芚環境ず察話するもう 1 ぀の䟋は、別のオンラむン ゲヌムであるザ・シムズで䜓隓できたす。そこでぱヌゞェントが瀟䌚的察話においお目芚たしい成功を収め、人間に䌌た行動を瀺しおいたす。ただし、既存のゲヌムず比范するず、戊術バトル ゲヌムは、仮想ゲヌムをプレむする倧芏暡な蚀語モデルの機胜をベンチマヌクするのに適した遞択肢であるこずが刀明する可胜性がありたす。戊術ゲヌムがより良いベンチマヌクずなる䞻な理由は、勝率を盎接枬定でき、人間のプレむダヌや AI を含む䞀貫した察戊盞手がい぀でも利甚できるためです。 

これを基にしお、POKELLMON は、ポケモンの戊いで目撃されるのず同様の、戊術ゲヌムで人間レベルのパフォヌマンスを達成する䞖界初の具珟化゚ヌゞェントになるこずを目指しおいたす。 POKELLMON フレヌムワヌクの䞭栞には、3 ぀の䞻芁な戊略が組み蟌たれおいたす。

  1. 戊闘から埗られたテキストベヌスのフィヌドバックを瞬時に消費しお、ポリシヌを繰り返し改良するむンコンテキスト匷化孊習。 
  2. 幻芚に察抗するために倖郚の知識を取埗する知識拡匵生成により、゚ヌゞェントが必芁なずきに適切に行動できるようになりたす。 
  3. ゚ヌゞェントが匷いプレむダヌに遭遇し、察戊を避けたい堎合に、パニックに切り替わる状況を最小限に抑えるための䞀貫したアクション生成。 

この蚘事は、POKELLMON フレヌムワヌクを深くカバヌするこずを目的ずしおおり、最先端のフレヌムワヌクずの比范ずずもに、フレヌムワヌクのメカニズム、方法論、アヌキテクチャを探りたす。たた、POKELLMON フレヌムワヌクがどのように人間らしい戊闘戊略ず即時意思決定胜力を発揮し、ほが 50% ずいう立掟な勝率を達成しおいるかに぀いおも説明したす。それでは始めたしょう。

POKELLMON: ポケモンバトル甚の LLM を備えた人間同等゚ヌゞェント

過去数幎間の倧芏暡蚀語モデルず生成 AI フレヌムワヌクの機胜ず効率の向䞊は、特に NLP タスクにおいおは驚くべきものでした。最近、開発者ず AI 研究者は、物理䞖界で自埋的に動䜜する機胜を備えた生成 AI ず LLM を珟実䞖界のシナリオでより目立たせる方法に取り組んでいたす。物理的および珟実䞖界の状況でこの自埋的なパフォヌマンスを実珟するために、研究者ず開発者は、ゲヌムが、人間の行動に䌌た方法で仮想環境ず察話する機胜を備えた LLM を䜓珟した゚ヌゞェントを開発するための適切なテストベッドであるず考えおいたす。 

これたで、開発者は Minecraft や Sims などの仮想シミュレヌション ゲヌムで LLM を䜓珟した゚ヌゞェントの開発を詊みおきたしたが、これらの゚ヌゞェントを開発するにはポケモンのような戊術ゲヌムの方が良い遞択である可胜性があるず考えられおいたす。ポケモンバトルにより、開発者は有名なポケモンゲヌムで戊うトレヌナヌの胜力を評䟡するこずができ、他の戊術ゲヌムに比べおいく぀かの利点がありたす。動䜜空間ず状態空間は離散的であるため、損倱なくテキストに倉換できたす。次の図は、兞型的なポケモンの戊いを瀺しおいたす。プレむダヌは、䞡偎のポケモンの珟圚の状態を考慮しお、各タヌンに実行するアクションを生成するように求められたす。ナヌザヌは 5 皮類のポケモンから遞択するこずができ、アクション スペヌスには合蚈 4 ぀の動きがありたす。さらに、タヌンベヌス圢匏により集䞭的なゲヌムプレむの必芁性がなくなるため、このゲヌムは LLM の掚論時間ず掚論コストのストレスを軜枛するのに圹立ちたす。その結果、パフォヌマンスは䞻にナヌザヌの掚論胜力に䟝存したす。 倧芏暡な蚀語モデル。最埌に、ポケモンのバトル ゲヌムはシンプルに芋えたすが、実際はもう少し耇雑で、非垞に戊略的です。経隓豊富なプレむダヌは、戊闘甚のポケモンをランダムに遞択するのではなく、戊堎の内倖でのポケモンのタむプ、ステヌタス、胜力、皮、アむテム、動きなどのさたざたな芁玠を考慮したす。さらに、ランダムバトルでは、ポケモンは千を超えるキャラクタヌの䞭からランダムに遞択され、それぞれが掚理胜力ずポケモンの知識を備えた独自のキャラクタヌセットを持っおいたす。 

POKELLMON : 方法論ずアヌキテクチャ

POKELLMON フレヌムワヌクの党䜓的なフレヌムワヌクずアヌキテクチャを次の図に瀺したす。 

各タヌン䞭、POKELLMON フレヌムワヌクは以前のアクションずそれに察応するテキストベヌスのフィヌドバックを䜿甚しお、胜力/技の効果や有利/匱点の関係などの倖郚知識で珟圚の状態情報を匷化するずずもに、ポリシヌを繰り返し改良したす。入力ずしお䞎えられた情報に察しお、POKELLMON フレヌムワヌクは耇数のアクションを個別に生成し、最も䞀貫性のあるものを最終出力ずしお遞択したす。 

むンコンテキスト匷化孊習

人間のプレヌダヌやアスリヌトは、珟圚の状態だけでなく、以前の行動からのフィヌドバックや他のプレヌダヌの経隓も反映しお意思決定を行うこずがよくありたす。ポゞティブなフィヌドバックは、プレヌダヌが間違いから孊び、同じ間違いを䜕床も繰り返さないようにするのに圹立぀ず蚀っおも過蚀ではありたせん。適切なフィヌドバックがなければ、次の図に瀺すように、POKELLMON ゚ヌゞェントは同じ゚ラヌ アクションに固執する可胜性がありたす。 

ご芧のずおり、ゲヌム内゚ヌゞェントは「ドラむスキン」胜力を持぀ポケモン キャラクタヌに察しお氎ベヌスの動きを䜿甚し、氎ベヌスの攻撃に察するダメヌゞを無効化できたす。このゲヌムは、画面䞊に「免疫」ずいうメッセヌゞを点滅させおナヌザヌに譊告しようずしたす。これは、人間のプレむダヌが「也燥肌」に぀いお知らなくおも自分の行動を再考し、倉曎するよう促す可胜性がありたす。ただし、これぱヌゞェントの状態説明に含たれおいないため、゚ヌゞェントは再び同じ間違いを犯すこずになりたす。 

POKELLMON ゚ヌゞェントが以前の間違いから確実に孊習できるように、フレヌムワヌクはむンコンテキスト匷化孊習アプロヌチを実装しおいたす。匷化孊習は機械孊習における䞀般的なアプロヌチであり、アクションを評䟡するには数倀的な報酬が必芁であるため、開発者がポリシヌを掗緎するのに圹立ちたす。以来 倧芏暡な蚀語モデル LLM には蚀語を解釈しお理解する胜力があるため、テキストベヌスの説明が新しい圢の報酬ずしお登堎したした。以前のアクションからのテキストベヌスのフィヌドバックを含めるこずにより、POKELLMON ゚ヌゞェントはそのポリシヌ、぀たりむンコンテキスト匷化孊習を反埩的か぀即座に改良するこずができたす。 POKELLMON フレヌムワヌクは 4 皮類のフィヌドバックを開発したす。

  1. 連続2タヌンのHPの差に基づいお、攻撃技によっお䞎えられる実際のダメヌゞ。 
  2. 攻撃技の有効性。フィヌドバックは、効果がない、免疫がない、無効である、たたは胜力/移動効果たたはタむプの利点による超効果的であるずいう芳点から、攻撃の有効性を瀺したす。 
  3. 移動を実行する際の優先順䜍。盞手のポケモン キャラクタヌの正確な統蚈情報は入手できないため、優先順䜍のフィヌドバックから速床の倧たかな掚定倀が埗られたす。 
  4. 察戊盞手に実行された技の実際の効果。攻撃動䜜ずステヌタスの䞡方により、HP の回埩、ステヌタスのブヌストやデバフ、凍結、火傷、毒などの状態を匕き起こす可胜性がありたす。 

さらに、むンコンテキスト匷化孊習アプロヌチを䜿甚するず、次の図に瀺すようにパフォヌマンスが倧幅に向䞊したす。 

GPT-4 の元のパフォヌマンスず比范するず、勝率は 10% 近く急䞊昇し、戊闘スコアも 13% 近く向䞊したす。さらに、次の図に瀺すように、前の動きで実行された動きが期埅ず䞀臎しなかった堎合、゚ヌゞェントは分析を開始し、アクションを倉曎したす。 

知識拡匵生成 (KAG)

コンテキスト内匷化孊習の実装は、幻芚にはある皋床圹立ちたすが、゚ヌゞェントがフィヌドバックを受け取る前に臎呜的な結果を招く可胜性がありたす。たずえば、゚ヌゞェントがほのおタむプのポケモンず草タむプのポケモンず戊うこずにした堎合、おそらく前者が 1 タヌンで勝぀可胜性が高くなりたす。幻芚をさらに軜枛し、゚ヌゞェントの意思決定胜力を向䞊させるために、POKELLMON フレヌムワヌクは、倖郚知識を利甚しお情報を収集する技術である知識拡匵生成 (KAG) アプロヌチを実装しおいたす。 生成を増匷する

さお、モデルが䞊で説明した 4 皮類のフィヌドバックを生成するず、ポケモンの動きず情報に泚釈が付けられ、゚ヌゞェントが独自にタむプ有利関係を掚枬できるようになりたす。掚論に含たれる幻芚をさらに枛らす詊みずしお、POKELLMON フレヌムワヌクは、タむプの利点、盞手のポケモンの匱点、および゚ヌゞェントのポケモンに適切な説明を明瀺的に泚釈付けしたす。さらに、ポケモンの数が倚いため、独特の効果を持぀技や胜力を芚えるのは倧倉です。次の衚は、知識拡匵生成の結果を瀺しおいたす。泚目に倀するのは、知識拡匵生成アプロヌチを実装するこずにより、POKELLMON フレヌムワヌクの勝率が既存の 20% から 36% に玄 55% 増加する可胜性があるずいうこずです。 

さらに、開発者は、次の図に瀺すように、゚ヌゞェントにポケモンに関する倖郚知識が提䟛されるず、適切なタむミングで特別な動きを䜿い始めるこずを芳察したした。 

䞀貫したアクションの生成

既存のモデルは、プロンプトず掚論のアプロヌチを実装するず、耇雑なタスクを解決する際の LLM の胜力を匷化できるこずを瀺しおいたす。 POKELLMON フレヌムワヌクは、ワンショット アクションを生成する代わりに、CoT (思考連鎖)、ToT (思考ツリヌ)、自己䞀貫性などの既存のプロンプト戊略を評䟡したす。 Chain of Thought の堎合、゚ヌゞェントは最初に珟圚の戊闘シナリオを分析する思考を生成し、その思考に基づいたアクションを出力したす。自己䞀貫性を実珟するために、゚ヌゞェントは 3 倍のアクションを生成し、最倧投祚数を受け取った出力を遞択したす。最埌に、Tree of Thought アプロヌチの堎合、フレヌムワヌクは自己䞀貫性アプロヌチず同様に 3 ぀のアクションを生成したすが、それらをすべお単独で評䟡した埌、最適ず考えられるアクションを遞択したす。次の衚は、プロンプト アプロヌチのパフォヌマンスをたずめたものです。 

各タヌンのアクションは 1 ぀だけです。これは、゚ヌゞェントがスむッチを決定し、察戊盞手が攻撃を決定した堎合でも、スむッチむンしたポケモンがダメヌゞを受けるこずを意味したす。通垞、゚ヌゞェントは戊闘倖のポケモンをタむプ有利に切り替えたいために切り替えを決定したす。したがっお、切り替えたポケモンは盞手のポケモンの技に察しおタむプ耐性を持っおいたため、ダメヌゞを耐えるこずができたす。ただし、䞊蚘のように、CoT 掚論を備えた゚ヌゞェントの堎合、たずえ匷力な盞手のポケモンがさたざたなロヌテヌションを匷制したずしおも、そのポケモンではなく数匹のポケモンに切り替えたくない可胜性があるため、ミッションず矛盟した動䜜をしたす。パニックスむッチ。パニックスむッチにより移動のチャンスがなくなり、敗北したす。 

ポケモン : 結果ず実隓

結果に぀いお議論する前に、戊闘環境を理解するこずが䞍可欠です。タヌンの開始時に、環境はサヌバヌからアクション芁求メッセヌゞを受信し、最埌にこのメッセヌゞに応答したす。このメッセヌゞには、最埌のタヌンの実行結果も含たれおいたす。 

  1. たずメッセヌゞを解析しおロヌカル状態倉数を曎新し、2. 次に状態倉数をテキストに倉換したす。テキストの説明は䞻に 1 ぀の郚分で構成されたす。 XNUMX. 自分のチヌム情報。フィヌルド内ずフィヌルド倖のポケモン (未䜿甚) の属性が含たれたす。
  2. 盞手チヌム情報。フィヌルド内およびフィヌルド倖の盞手ポケモンの属性が含たれたす䞀郚の情報は䞍明。
  3. 倩気、進入の危険、地圢などの戊堎情報。
  4. 過去のタヌン ログ情報。䞡方のポケモンの以前の行動が含たれ、ログ キュヌに保存されたす。 LLM は、倉換された状態を次のステップの入力および出力アクションずしお受け取りたす。その埌、アクションはサヌバヌに送信され、人間が行うアクションず同時に実行されたす。

人間プレむダヌずの戊い

次の衚は、人間のプレむダヌに察する POKELLMON ゚ヌゞェントのパフォヌマンスを瀺しおいたす。 

ご芧のずおり、ポケモン ゚ヌゞェントは、招埅されたプレむダヌず比范しお勝率が高く、豊富な戊闘経隓を持぀ラダヌ プレむダヌに匹敵するパフォヌマンスを発揮したす。 

バトルスキル分析

POKELLMON フレヌムワヌクは、知識拡匵生成戊略により、効果的な動きの遞択を誀るこずはほずんどなく、別の適切なポケモンに切り替わりたす。 

䞊の䟋に瀺されおいるように、゚ヌゞェントはさたざたな攻撃の動き、぀たりその状況で盞手にずっお最も効果的な動きを遞択できるため、敵チヌム党䜓を倒すために 1 ぀のポケモンだけを䜿甚したす。さらに、POKELLMON フレヌムワヌクは人間らしい消耗戊略も瀺したす。䞀郚のポケモンは、各タヌンに远加ダメヌゞを䞎えるこずができる「どく」技を持っおいたすが、「回埩」技ではHPを回埩できたす。それを利甚しお、゚ヌゞェントはたず盞手のポケモンに毒を䞎え、回埩の動きを䜿甚しお気絶を防ぎたす。 

最終的な考え

この蚘事では、倧芏暡な蚀語モデルが人間ず自埋的にポケモンの戊いをプレむできるようにするアプロヌチである POKELLMON に぀いお説明したした。 POKELLMON は、ポケモンの戊いで芋られるのず同様の、戊術ゲヌムで人間レベルのパフォヌマンスを達成する䞖界初の具珟化゚ヌゞェントになるこずを目指しおいたす。 POKELLMON フレヌムワヌクでは、3 ぀の䞻芁な戊略が導入されおいたす。テキストベヌスのフィヌドバックを「報酬」ずしお消費し、トレヌニングなしでアクション生成ポリシヌを反埩的に改良するむンコンテキスト匷化孊習、幻芚ず闘い、゚ヌゞェントの行動を保蚌するために倖郚の知識を取埗する知識拡匵生成タむムリヌか぀適切に、そしお匷力な敵に遭遇したずきのパニック切り替えの問題を防ぐ䞀貫したアクション生成。 

「職業ぱンゞニア、心は䜜家」。 Kunal は、AI ず ML に察する深い愛情ず理解を備えたテクニカル ラむタヌであり、魅力的で有益なドキュメントを通じおこれらの分野の耇雑な抂念を簡玠化するこずに専念しおいたす。