人工智能

人工智能研究人员创建了可以记住过去事件的视频游戏模型

更新 on 2022 年 12 月 9 日

Uber 人工智能实验室的一组研究人员最近开发了一个系统在经典雅达利视频游戏中，人工智能算法的表现优于人类玩家和其他人工智能系统。研究人员开发的人工智能系统能够记住以前成功的策略，并根据过去有效的策略创建新策略。这研究的研究团队认为，他们开发的算法在语言处理和机器人等其他技术领域具有潜在的应用前景。

创建能够玩视频游戏的人工智能系统的典型方法是使用强化学习算法。强化学习算法通过探索一系列可能的动作来学习如何执行任务，并且在每个动作之后，它们都会获得一种强化（奖励或惩罚）。随着时间的推移，人工智能模型会了解哪些行为会带来更大的奖励，并且更有可能执行这些行为。不幸的是，当强化学习模型遇到与数据集中其他数据点不一致的数据点时，就会遇到麻烦。

研究团队表示，他们的方法之所以没有被其他人工智能研究人员考虑，是因为该策略不同于强化学习中通常使用的“内在动机”方法。内在动机方法的问题在于，该模型可能容易“忘记”仍然值得探索的潜在回报领域。这种现象被称为“脱离”。因此，当模型遇到意外数据时，它可能会忘记仍应探索的区域。

据 TechXplore 报道之后，研究团队着手创建一种更灵活、能够响应意外数据的学习模型。研究人员通过引入一种算法来克服这个问题，该算法能够记住模型先前版本在尝试解决问题时采取的所有操作。当人工智能模型遇到与迄今为止学到的数据不一致的数据点时，模型会检查其内存映射。然后，该模型将识别哪些策略成功和失败，并适当地选择策略。

玩视频游戏时，模型会收集游戏的屏幕截图，记录其操作。这些图像根据相似性分组在一起，形成模型可以参考的清晰时间点。该算法可以使用记录的图像返回到有趣的时间点并从那里继续探索。当模型发现自己失败时，它会参考所拍摄的屏幕截图并尝试不同的策略。

正如 BBC 所解释的，还有玩游戏的AI代理处理危险场景的问题。如果特工遇到可以杀死它的危险，这将阻止它返回值得更多探索的区域，这个问题称为“脱轨”。人工智能模型通过与鼓励探索旧地区的流程不同的流程来处理脱轨问题。

研究团队在该模式下玩了 55 款 Atari 游戏。这些游戏通常用于对人工智能模型的性能进行基准测试，但研究人员为他们的模型添加了一些变化。研究人员在游戏中引入了额外的规则，指示模型不仅要获得尽可能高的分数，而且每次都要尝试获得更高的分数。当分析模型的性能结果时，研究人员发现他们的 AI 系统在比赛中大约 85% 的时间里表现优于其他 AI。人工智能在蒙特祖玛的复仇游戏中表现尤其出色，这是一款平台游戏，玩家可以在游戏中躲避危险并收集宝藏。该游戏打破了人类玩家的记录，并且得分也高于任何其他人工智能系统。

据 Uber AI 研究人员称，研究团队使用的策略可应用于机器人等行业。机器人能够记住哪些操作是成功的、哪些操作无效以及哪些操作尚未尝试过，从而受益匪浅。