인공 지능

POKELLMON: LLM을 사용한 포켓몬 전투를 위한 인간 패리티 에이전트

게재

4 주 전

2024 년 4 월 11 일

POKELLMON: LLM을 사용한 포켓몬 전투를 위한 인간 패리티 에이전트

대규모 언어 모델과 생성 AI는 다양한 자연어 처리 작업에서 전례 없는 성공을 보여주었습니다. NLP 분야를 정복한 후 GenAI 및 LLM 연구원의 다음 과제는 텍스트에서 동작까지 세대 차이가 확대되면서 실제 세계에서 대규모 언어 모델이 어떻게 자율적으로 작동할 수 있는지 탐구하여 인공 일반 지능을 추구하는 데 중요한 패러다임을 나타내는 것입니다. . 온라인 게임은 인간과 마찬가지로 시각적 환경과 상호 작용하는 대규모 언어 모델 구현 에이전트를 개발하는 데 적합한 테스트 기반으로 간주됩니다.

예를 들어, 인기 있는 온라인 시뮬레이션 게임인 Minecraft에서는 의사 결정 에이전트를 사용하여 플레이어가 도구를 만들고 작업을 해결하는 기술을 개발하는 동시에 세계를 탐험하는 데 도움을 줄 수 있습니다. 시각적 환경과 상호 작용하는 LLM 에이전트의 또 다른 예는 에이전트가 사회적 상호 작용에서 놀라운 성공을 거두고 인간과 유사한 행동을 보이는 또 다른 온라인 게임인 The Sims에서 경험할 수 있습니다. 그러나 기존 게임에 비해 전술적 전투 게임은 가상 게임을 플레이하기 위한 대규모 언어 모델의 능력을 벤치마킹하는 데 더 나은 선택이 될 수 있습니다. 전술 게임이 더 나은 벤치마크를 만드는 주된 이유는 승률을 직접 측정할 수 있고, 인간 플레이어와 AI를 포함한 일관된 상대가 항상 가능하기 때문입니다.

이를 바탕으로 POKELLMON은 포켓몬 전투에서 목격된 것과 유사한 전술 게임에서 인간 수준의 성능을 달성하는 세계 최초의 구체화된 에이전트를 목표로 합니다. POKELLMON 프레임워크의 핵심에는 세 가지 주요 전략이 통합되어 있습니다.

전투에서 파생된 텍스트 기반 피드백을 즉시 사용하여 정책을 반복적으로 개선하는 상황 내 강화 학습입니다.
환각에 대응하기 위해 외부 지식을 검색하여 에이전트가 필요할 때 적절하게 행동할 수 있도록 하는 지식 증강 생성입니다.
에이전트가 강력한 플레이어를 만나 이를 피하고 싶을 때 패닉 전환 상황을 최소화하기 위한 일관된 작업 생성입니다.

이 글은 POKELLMON 프레임워크를 심층적으로 다루는 것을 목표로 하며, 프레임워크의 메커니즘, 방법론, 아키텍처를 살펴보고 최신 프레임워크와 비교합니다. 또한 POKELLMON 프레임워크가 어떻게 인간과 유사한 놀라운 전투 전략과 적시 의사 결정 능력을 보여 거의 50%에 달하는 상당한 승률을 달성하는지에 대해서도 이야기하겠습니다. 그럼 시작해 보겠습니다.

POKELLMON: 포켓몬 전투를 위한 LLM을 갖춘 인간 패리티 에이전트

지난 몇 년 동안 대규모 언어 모델 및 생성적 AI 프레임워크의 기능과 효율성의 성장은 특히 NLP 작업에서 놀라운 일이었습니다. 최근 개발자와 AI 연구자들은 실제 세계에서 자율적으로 행동할 수 있는 능력을 통해 실제 시나리오에서 생성적 AI와 LLM을 더욱 두드러지게 만드는 방법을 연구해 왔습니다. 물리적 상황과 실제 상황에서 이러한 자율적 성능을 달성하기 위해 연구원과 개발자는 인간 행동과 유사한 방식으로 가상 환경과 상호 작용할 수 있는 능력을 갖춘 LLM 구현 에이전트를 개발하기 위한 적합한 테스트 베드로 게임을 고려합니다.

이전에 개발자들은 Minecraft 및 Sims와 같은 가상 시뮬레이션 게임에서 LLM 구현 에이전트를 개발하려고 시도했지만 Pokemon과 같은 전술 게임이 이러한 에이전트를 개발하는 데 더 나은 선택이 될 수 있다고 믿어집니다. 포켓몬 전투를 통해 개발자는 잘 알려진 포켓몬 게임에서 트레이너의 전투 능력을 평가할 수 있으며 다른 전술 게임에 비해 몇 가지 이점을 제공합니다. 동작 공간과 상태 공간이 분리되어 있으므로 손실 없이 텍스트로 변환할 수 있습니다. 다음 그림은 플레이어가 각 측면의 포켓몬의 현재 상태를 고려하여 각 턴에서 수행할 작업을 생성하도록 요청받는 일반적인 포켓몬 전투를 보여줍니다. 사용자는 다섯 가지 다른 포켓몬 중에서 선택할 수 있으며 행동 공간에는 총 네 가지 동작이 있습니다. 또한 이 게임은 턴 기반 형식을 통해 집중적인 게임 플레이에 대한 요구 사항을 제거하므로 LLM의 추론 시간 및 추론 비용에 대한 스트레스를 완화하는 데 도움이 됩니다. 결과적으로 성능은 주로 사용자의 추론 능력에 따라 달라집니다. 대형 언어 모델. 마지막으로, 포켓몬 배틀 게임은 단순해 보이지만 현실은 좀 더 복잡하고 전략성이 높습니다. 숙련된 플레이어는 전투를 위해 포켓몬을 무작위로 선택하는 것이 아니라 전장 안팎에서 포켓몬의 유형, 능력치, 능력, 종, 아이템, 움직임 등 다양한 요소를 고려합니다. 또한, 무작위 전투에서 포켓몬은 천 개가 넘는 캐릭터 풀에서 무작위로 선택되며, 각 캐릭터는 추론 능력과 포켓몬 지식을 갖춘 고유한 캐릭터 세트를 가지고 있습니다.

포켈몬(POKELLMON) : 방법론 및 아키텍처

POKELLMON 프레임워크의 전체 프레임워크와 아키텍처는 다음 이미지에 설명되어 있습니다.

각 턴 동안 POKELLMON 프레임워크는 이전 작업과 해당 텍스트 기반 피드백을 사용하여 능력/이동 효과 또는 이점/약점 관계와 같은 외부 지식으로 현재 상태 정보를 보강하는 동시에 정책을 반복적으로 개선합니다. 입력으로 제공된 정보에 대해 POKELLMON 프레임워크는 여러 작업을 독립적으로 생성한 다음 가장 일관된 작업을 최종 출력으로 선택합니다.

상황 내 강화 학습

인간 플레이어와 운동선수는 종종 현재 상태를 바탕으로 결정을 내릴 뿐만 아니라 이전 행동의 피드백과 다른 플레이어의 경험을 반영하기도 합니다. 긍정적인 피드백은 플레이어가 자신의 실수로부터 배우는 데 도움이 되고, 같은 실수를 반복적으로 저지르지 않도록 도와준다고 해도 무방할 것입니다. 적절한 피드백이 없으면 POKELLMON 에이전트는 다음 그림에 표시된 것처럼 동일한 오류 작업을 계속할 수 있습니다.

관찰할 수 있듯이 게임 내 에이전트는 "드라이 스킨" 능력을 가진 포켓몬 캐릭터에 대해 물 기반 공격을 사용하여 물 기반 공격에 대한 피해를 무효화할 수 있습니다. 게임은 화면에 "면역"이라는 메시지를 깜박임으로써 인간 플레이어가 "건성 피부"에 대해 알지 못하더라도 자신의 행동을 재고하고 변경하도록 유도하여 사용자에게 경고하려고 합니다. 하지만 상담원에 대한 상태 설명에는 포함되지 않아 상담원이 같은 실수를 반복하게 됩니다.

POKELLMON 에이전트가 이전 실수로부터 학습할 수 있도록 프레임워크는 상황 내 강화 학습 접근 방식을 구현합니다. 강화 학습은 기계 학습에서 널리 사용되는 접근 방식이며, 행동을 평가하기 위해 수치적 보상이 필요하기 때문에 개발자가 정책을 개선하는 데 도움이 됩니다. 부터 큰 언어 모델 언어를 해석하고 이해할 수 있는 능력이 있기 때문에 텍스트 기반 설명이 LLM에 대한 새로운 형태의 보상으로 등장했습니다. POKELLMON 에이전트는 이전 작업의 텍스트 기반 피드백을 포함함으로써 정책, 즉 상황 내 강화 학습을 반복적으로 즉시 개선할 수 있습니다. POKELLMON 프레임워크는 네 가지 유형의 피드백을 개발합니다.

공격으로 인한 실제 피해는 연속 2턴 동안의 HP 차이를 기준으로 이동합니다.
공격 이동의 효율성. 피드백은 효과가 없거나 면역성이 있거나 능력/이동 효과로 인해 효과가 없거나 매우 효과적이라는 측면에서 공격의 효율성을 나타냅니다.
이동 실행의 우선순위입니다. 상대 포켓몬 캐릭터에 대한 정확한 통계를 사용할 수 없으므로 우선순위 피드백을 통해 대략적인 속도 추정치를 제공합니다.
상대에게 실행된 동작의 실제 효과입니다. 공격 이동과 상태 모두 HP 회복, 능력치 부스트 또는 디버프와 같은 결과를 초래할 수 있으며 동결, 화상 또는 독과 같은 상태를 초래할 수 있습니다.

또한 상황 내 강화 학습 접근 방식을 사용하면 다음 그림에서 볼 수 있듯이 성능이 크게 향상됩니다.

GPT-4의 원래 성능과 비교하면 승률은 거의 10% 증가하고 전투 점수는 거의 13% 증가합니다. 또한 다음 그림에서 볼 수 있듯이 에이전트는 이전 동작에서 실행된 동작이 기대와 일치하지 않는 경우 동작을 분석하고 변경하기 시작합니다.

지식증강세대(KAG)

상황 내 강화 학습을 구현하면 환각에 어느 정도 도움이 되지만 에이전트가 피드백을 받기 전에는 여전히 치명적인 결과를 초래할 수 있습니다. 예를 들어, 에이전트가 풀 유형 포켓몬으로 불꽃 유형 포켓몬과 전투를 하기로 결정한 경우 전자는 아마도 한 턴에 승리할 가능성이 높습니다. 환각을 더욱 줄이고 에이전트의 의사 결정 능력을 향상시키기 위해 POKELLMON 프레임워크는 외부 지식을 사용하는 기술인 KAG 접근 방식인 Knowledge-Augmented Generation을 구현합니다. 증강 세대.

이제 모델이 위에서 논의한 4가지 유형의 피드백을 생성할 때 에이전트가 스스로 유형 우위 관계를 추론할 수 있도록 포켓몬의 움직임과 정보에 주석을 추가합니다. 추론에 포함된 환각을 더욱 줄이기 위해 POKELLMON 프레임워크는 상대 포켓몬의 유형 장점과 약점, 그리고 에이전트의 포켓몬에 적절한 설명을 명시적으로 주석으로 표시합니다. 더욱이 포켓몬의 독특한 효과가 있는 동작과 능력은 특히나 포켓몬이 많기 때문에 기억하기가 어렵습니다. 다음 표는 지식증강생성 결과를 보여준다. POKELLMON 프레임워크는 Knowledge Augmented Generation 접근 방식을 구현함으로써 승률을 기존 20%에서 36%로 약 55% 높일 수 있다는 점에 주목할 필요가 있습니다.

또한 개발자들은 에이전트가 포켓몬에 대한 외부 지식을 제공받았을 때 다음 이미지에서 볼 수 있듯이 적시에 특수 동작을 사용하기 시작하는 것을 관찰했습니다.

일관된 액션 생성

기존 모델은 프롬프트 및 추론 접근 방식을 구현하면 복잡한 작업을 해결하는 LLM의 능력을 향상시킬 수 있음을 보여줍니다. 일회성 작업을 생성하는 대신 POKELLMON 프레임워크는 CoT 또는 Chain of Thought, ToT 또는 Tree of Thought 및 Self Consistency를 포함한 기존 프롬프트 전략을 평가합니다. Chain of Thought의 경우 에이전트는 초기에 현재 전투 시나리오를 분석하는 생각을 생성하고, 해당 생각에 따라 행동을 출력합니다. Self Consistency의 경우 에이전트는 3배의 Action을 생성하고 최대 투표 수를 받은 출력을 선택합니다. 마지막으로, 생각의 나무 접근 방식의 경우 프레임워크는 자체 일관성 접근 방식과 마찬가지로 세 가지 작업을 생성하지만 자체적으로 평가한 후 가장 좋다고 생각되는 작업을 선택합니다. 다음 표에는 프롬프트 접근 방식의 성능이 요약되어 있습니다.

각 턴에는 단 하나의 행동만 있습니다. 이는 에이전트가 전환을 결정하고 상대가 공격을 결정하더라도 전환 포켓몬이 피해를 입는다는 것을 의미합니다. 일반적으로 에이전트는 전투 중이 아닌 포켓몬의 유형 이점을 전환하기를 원하기 때문에 전환하기로 결정합니다. 따라서 전환하는 포켓몬은 상대 포켓몬의 움직임에 대해 유형 저항력이 있기 때문에 피해를 견딜 수 있습니다. 그러나 위와 같이 CoT 추론을 사용하는 에이전트의 경우 강력한 상대 포켓몬이 다양한 회전을 강요하더라도 포켓몬으로 전환하는 것이 아니라 여러 포켓몬으로 전환하고 싶어할 수 있기 때문에 임무와 일치하지 않게 행동합니다. 패닉 전환. 패닉 전환은 움직일 기회를 제거하여 패배합니다.

포켈몬 : 결과 및 실험

결과를 논의하기 전에 전투 환경을 이해하는 것이 필수적입니다. 턴이 시작될 때 환경은 서버로부터 작업 요청 메시지를 수신하고 마지막 턴의 실행 결과도 포함하는 이 메시지에 응답합니다.

먼저 메시지를 구문 분석하고 로컬 상태 변수를 업데이트합니다. 2. 그런 다음 상태 변수를 텍스트로 변환합니다. 텍스트 설명은 크게 네 부분으로 구성됩니다. 1. 필드 내 포켓몬과 필드 밖(미사용)의 속성이 포함된 소속 팀 정보.
필드 안팎의 상대 포켓몬의 속성을 포함한 상대 팀 정보(일부 정보는 불명).
날씨, 진입 위험, 지형을 포함한 전장 정보.
두 포켓몬의 이전 행동을 포함하고 로그 대기열에 저장되는 과거 턴 로그 정보입니다. LLM은 번역된 상태를 다음 단계의 입력 및 출력 작업으로 사용합니다. 그런 다음 작업은 서버로 전송되어 사람이 수행한 작업과 동시에 실행됩니다.

인간 플레이어와의 전투

다음 표는 인간 플레이어에 대한 POKELLMON 에이전트의 성능을 보여줍니다.

보시다시피, POKELLMON 에이전트는 풍부한 전투 경험과 함께 초대된 플레이어에 비해 승률이 더 높은 래더 플레이어와 유사한 성능을 제공합니다.

전투 스킬 분석

POKELLMON 프레임워크는 효과적인 수를 선택하는 데 거의 실수를 하지 않으며 지식 증강 세대 전략 덕분에 다른 적절한 포켓몬으로 전환합니다.

위의 예에서 볼 수 있듯이 에이전트는 해당 상황에서 상대방에게 가장 효과적인 다양한 공격 동작을 선택할 수 있기 때문에 전체 상대 팀을 물리치기 위해 단 하나의 포켓몬만 사용합니다. 게다가 POKELLMON 프레임워크는 인간과 유사한 소모 전략도 보여줍니다. 일부 포켓몬에는 매 턴마다 추가 피해를 입힐 수 있는 "독성" 동작이 있는 반면, "복원" 동작을 사용하면 HP를 회복할 수 있습니다. 이를 이용하여 에이전트는 먼저 상대 포켓몬을 독살하고 회복 기술을 사용하여 기절하는 것을 방지합니다.

최종 생각

이 기사에서는 대규모 언어 모델이 인간과 자율적으로 포켓몬 전투를 할 수 있도록 하는 접근 방식인 POKELLMON에 대해 설명했습니다. POKELLMON은 포켓몬 전투에서 볼 수 있는 것과 유사한 전술 게임에서 인간 수준의 성능을 달성하는 세계 최초의 구체화 에이전트를 목표로 합니다. POKELLMON 프레임워크는 세 가지 주요 전략을 소개합니다. 텍스트 기반 피드백을 "보상"으로 사용하여 훈련 없이 행동 생성 정책을 반복적으로 개선하는 상황 내 강화 학습(In-Context Reinforcement Learning), 환각에 맞서기 위해 외부 지식을 검색하고 에이전트의 행동을 보장하는 지식 증강 생성(Knowledge-Augmented Generation) 시의적절하고 적절하며, 강력한 상대를 만날 때 패닉 전환 문제를 방지하는 일관된 액션 생성이 포함됩니다.