关注我们.

人工智能

POKELLMON:与法学硕士进行 Pokemon 战斗的人类平价代理

mm

发布时间

 on

POKELLMON:与法学硕士进行 Pokemon 战斗的人类平价代理

大型语言模型和生成人工智能在广泛的自然语言处理任务中取得了前所未有的成功。在征服了 NLP 领域之后,GenAI 和 LLM 研究人员的下一个挑战是探索大型语言模型如何在现实世界中自主行动,从文本到行动的代沟不断扩大,从而代表了追求通用人工智能的重要范例。在线游戏被认为是开发大型语言模型体现代理的合适测试基础,这些代理以人类的方式与视觉环境进行交互。 

例如,在流行的在线模拟游戏《我的世界》中,决策代理可以帮助玩家探索世界,同时培养制作工具和解决任务的技能。 LLM 智能体与视觉环境交互的另一个例子可以在另一款在线游戏《模拟人生》中体验到,其中智能体在社交互动方面表现出了显着的成功,并表现出类似于人类的行为。然而,与现有游戏相比,战术战斗游戏可能被证明是衡量大型语言模型玩虚拟游戏能力的更好选择。战术游戏之所以能够成为更好的标杆,主要原因是胜率可以直接衡量,并且始终存在包括人类玩家和人工智能在内的一致对手。 

在此基础上,POKELLMON 的目标是成为世界上第一个在战术游戏中实现人类水平表现的实体代理,类似于 Pokemon 战斗中所见证的表现。 POKELLMON 框架的核心包含三个主要策略。

  1. 上下文强化学习,即时消耗从战斗中获得的基于文本的反馈,以迭代地完善策略。 
  2. 知识增强生成,检索外部知识以对抗幻觉,使代理能够在需要时正确行事。 
  3. 一致的动作生成,以最大限度地减少代理遇到强大玩家并希望避免面对他们时的恐慌切换情况。 

本文旨在深入介绍 POKELLMON 框架,我们探讨了该框架的机制、方法、架构,以及它与最先进框架的比较。我们还将讨论 POKELLMON 框架如何展现出卓越的类人战斗策略和及时决策能力,实现近 50% 的可观胜率。那么让我们开始吧。

POKELLMON:具有法学硕士学位的人类平价代理,用于 Pokemon 对战

过去几年,大型语言模型和生成式人工智能框架的功能和效率的增长非常惊人,尤其是在 NLP 任务上。最近,开发人员和人工智能研究人员一直在研究如何使生成式人工智能和法学硕士在现实场景中更加突出,并具有在物理世界中自主行动的能力。为了在物理和现实世界中实现这种自主性能,研究人员和开发人员认为游戏是开发 LLM 体现的代理的合适测试平台,该代理能够以类似于人类行为的方式与虚拟环境进行交互。 

此前,开发人员曾尝试在《我的世界》和《模拟人生》等虚拟模拟游戏上开发体现LLM的代理,尽管人们相信像《口袋妖怪》这样的战术游戏可能是开发这些代理的更好选择。口袋妖怪战斗使开发者能够评估训练师在著名口袋妖怪游戏中的战斗能力,并与其他战术游戏相比具有多种优势。由于动作和状态空间是离散的,因此可以毫无损失地翻译成文本。下图说明了典型的口袋妖怪战斗,其中要求玩家根据双方口袋妖怪的当前状态生成一个在每个回合执行的动作。用户可以从五种不同的神奇宝贝中进行选择,动作空间中总共有四种动作。此外,该游戏有助于减轻法学硕士的推理时间和推理成本的压力,因为回合制格式消除了对密集游戏的要求。因此,性能主要取决于人的推理能力。 大语言模型。最后,虽然口袋妖怪对战游戏看起来很简单,但实际上事情要复杂一些,并且具有高度的策略性。经验丰富的玩家不会随机选择神奇宝贝进行战斗,而是会考虑各种因素,包括战场内外神奇宝贝的类型、属性、能力、种类、物品、动作。此外,在随机战斗中,神奇宝贝是从一千多个角色中随机选择的,每个角色都有自己的一套独特的角色,具有推理能力和神奇宝贝知识。 

POKELLMON:方法论和架构

POKELLMON框架的整体框架和架构如下图所示。 

在每个回合中,POKELLMON 框架都会使用之前的操作及其相应的基于文本的反馈来迭代地完善策略,同时使用能力/移动效果或优势/劣势关系等外部知识来增强当前状态信息。对于作为输入给出的信息,POKELLMON 框架独立生成多个动作,然后选择最一致的动作作为最终输出。 

情境强化学习

人类玩家和运动员经常不仅根据当前状态做出决定,而且还会反思之前行为的反馈以及其他玩家的经验。可以肯定地说,积极的反馈可以帮助玩家从错误中吸取教训,并避免他们一遍又一遍地犯同样的错误。如果没有正确的反馈,POKELLMON 代理可能会坚持相同的错误操作,如下图所示。 

可以看出,游戏中的代理对具有“干皮”能力的神奇宝贝角色使用了水基招式,使其能够抵消水基攻击的伤害。该游戏试图通过在屏幕上闪烁“免疫”消息来提醒用户,这可能会提示人类玩家重新考虑他们的行为并改变它们,即使不知道“皮肤干燥”。然而,它没有包含在智能体的状态描述中,导致智能体再次犯同样的错误。 

为了确保 POKELLMON 代理从之前的错误中吸取教训,该框架实施了上下文强化学习方法。强化学习是机器学习中的一种流行方法,它可以帮助开发人员完善策略,因为它需要数字奖励来评估操作。自从 大型语言模型 由于具有解释和理解语言的能力,基于文本的描述已成为法学硕士的一种新奖励形式。通过包含之前操作的基于文本的反馈,POKELLMON 代理能够迭代并立即完善其策略,即上下文强化学习。 POKELLMON 框架开发了四种类型的反馈,

  1. 根据连续两回合的生命值差异,攻击动作造成的实际伤害。 
  2. 攻击动作的有效性。反馈表明攻击的有效性,即由于能力/移动效果或类型优势而没有效果或免疫、无效或超级有效。 
  3. 执行移动的优先顺序。由于无法获得对方神奇宝贝角色的精确统计数据,因此优先顺序反馈提供了速度的粗略估计。 
  4. 动作对对手的实际效果。攻击动作和状态都可能导致恢复生命值、属性提升或减益等结果,造成冰冻、烧伤或中毒等情况。 

此外,使用情境强化学习方法可以显着提高性能,如下图所示。 

与 GPT-4 上的原始表现相比,胜率提升了近 10%,战斗分数提升了近 13%。此外,如下图所示,如果之前执行的动作无法符合预期,智能体就会开始分析并更改其动作。 

知识增强一代或 KAG

尽管实施情境强化学习确实在一定程度上有助于消除幻觉,但在智能体收到反馈之前,它仍然可能导致致命的后果。例如,如果智能体决定用草型神奇宝贝对抗火型神奇宝贝,则前者很可能在一个回合内获胜。为了进一步减少幻觉并提高智能体的决策能力,POKELLMON 框架实现了知识增强生成或 KAG 方法,这是一种利用外部知识来 增加一代

现在,当模型生成上述 4 种类型的反馈时,它会注释 Pokemon 动作和信息,从而允许代理自行推断类型优势关系。为了进一步减少推理中包含的幻觉,POKELLMON 框架明确地注释了对手 Pokemon 的类型优势和弱点,以及代理的 Pokemon 并进行了充分的描述。此外,记住神奇宝贝具有独特效果的动作和能力是一项挑战,特别是因为它们的数量很多。下表展示了知识增强生成的结果。值得注意的是,通过实施知识增强生成方法,POKELLMON 框架能够将胜率从现有的 20% 提高到 36% 约 55%。 

此外,开发人员观察到,当向智能体提供有关神奇宝贝的外部知识时,它开始在正确的时间使用特殊动作,如下图所示。 

一致的动作生成

现有模型表明,实施提示和推理方法可以增强法学硕士解决复杂任务的能力。 POKELLMON 框架不是生成一次性操作,而是评估现有的提示策略,包括 CoT 或思想链、ToT 或思想树以及自我一致性。对于思想链,代理最初会产生一个分析当前战斗场景的思想,并根据该思想输出一个行动。对于自一致性,代理生成三倍的操作,并选择获得最多票数的输出。最后,对于思想树方法,框架会像自我一致性方法一样生成三个操作,但在自行评估所有操作后选择它认为最好的一个。下表总结了提示方法的性能。 

每回合只有一个动作,这意味着即使代理决定切换并且对手决定攻击,切换的神奇宝贝也会受到伤害。通常情况下,代理决定切换是因为它想要以类型优势切换非战斗神奇宝贝,因此切换的神奇宝贝可以承受伤害,因为它对对方神奇宝贝的动作有类型抵抗。然而,如上所述,对于具有 CoT 推理的智能体,即使强大的对手神奇宝贝强制进行各种轮换,它的行为也与任务不一致,因为它可能不想切换到神奇宝贝,而是切换到几个神奇宝贝,我们称之为恐慌切换。恐慌切换会消除采取行动的机会,从而导致失败。 

POKELLMON:结果和实验

在讨论结果之前,我们有必要了解一下战斗环境。在一轮开始时,环境会从服务器接收一条动作请求消息,并在结束时响应该消息,其中还包含上一轮的执行结果。 

  1. 首先解析消息并更新本地状态变量,2.然后将状态变量转换为文本。文字描述主要有四个部分: 1、本队信息,包含神奇宝贝在场内和场外(未使用)的属性。
  2. 对手队伍信息,包含对手神奇宝贝在场内和场外的属性(部分信息未知)。
  3. 战场信息,包括天气、进入危险和地形。
  4. 历史回合日志信息,包含两个神奇宝贝之前的动作,并存储在日志队列中。 LLM 将转换后的状态作为下一步的输入和输出操作。然后,该操作被发送到服务器并与人类执行的操作同时执行。

与人类玩家对战

下表说明了 POKELLMON 代理与人类玩家的表现。 

可以看出,POKELLMON 代理的表现与天梯玩家相当,与受邀玩家相比,胜率更高,并且拥有丰富的战斗经验。 

战斗技巧分析

由于知识增强生成策略,POKELLMON 框架很少在选择有效招式时出错,并切换到另一个合适的 Pokemon。 

如上例所示,代理仅使用一个神奇宝贝来击败整个对手团队,因为它能够选择不同的攻击动作,即在这种情况下对对手最有效的攻击动作。此外,POKELLMON框架还展示了类似人类的消耗策略。有些神奇宝贝有“有毒”招式,每回合都会造成额外伤害,而“恢复”招式则可以恢复生命值。利用同样的优势,特工首先毒害对方的神奇宝贝,并使用恢复动作来防止自己晕倒。 

总结

在本文中,我们讨论了 POKELLMON,这是一种使大型语言模型能够自主地与人类进行 Pokemon 战斗的方法。 POKELLMON 的目标是成为世界上第一个在战术游戏中达到人类水平表现的实体代理,类似于 Pokemon 战斗中所见证的表现。 POKELLMON 框架引入了三个关键策略:上下文强化学习,将基于文本的反馈作为“奖励”,无需训练即可迭代地完善动作生成策略;知识增强生成,检索外部知识以对抗幻觉并确保代理行动及时、正确、一致的动作生成,防止遇到强大对手时出现恐慌切换问题。 

“职业工程师,心灵作家”。 Kunal 是一位技术作家,对人工智能和机器学习有着深厚的热爱和理解,致力于通过他引人入胜且信息丰富的文档来简化这些领域的复杂概念。