Connect with us

人工智能

AI 研究人员创建可以记住过去事件的视频游戏玩家模型

mm

一组研究人员在 Uber 的 AI 实验室最近 开发了一个系统 的 AI 算法,这些算法在经典的 Atari 电子游戏中比人类玩家和其他 AI 系统表现更好。 研究人员开发的 AI 系统能够记住以前成功的策略,并根据过去的经验创建新的策略。 研究 的研究团队相信,他们开发的算法在语言处理和机器人等其他技术领域具有潜在的应用。

通常,创建能够玩视频游戏的 AI 系统的方法是使用强化学习算法。 强化学习算法通过探索一系列可能的操作来学习如何执行任务,并在每个操作之后,会提供一种强化(奖励或惩罚)。 随着时间的推移,AI 模型学习哪些操作会带来更大的奖励,并且更有可能执行这些操作。 不幸的是,强化学习模型在遇到与数据集中的其他数据点不一致的数据点时会遇到麻烦。

根据研究团队的说法,他们的方法之所以没有被其他 AI 研究人员考虑,是因为该策略与强化学习中通常使用的“内在动机”方法不同。 内在动机方法的问题是模型可能会“忘记”关于可能带来奖励的区域,这些区域仍然值得探索。 这种现象被称为“脱离”。 因此,当模型遇到意外的数据时,它可能会忘记应该继续探索的区域。

根据 TechXplore,研究团队旨在创建一个更灵活的学习模型,可以响应意外的数据。 研究人员通过引入一种算法来解决这个问题,该算法可以记住模型以前版本在尝试解决问题时采取的所有操作。 当 AI 模型遇到与其学习内容不一致的数据点时,模型会检查其内存映射。 然后,模型会确定哪些策略成功或失败,并相应地选择策略。

当玩视频游戏时,模型会收集游戏的截图,并记录其操作。 图片根据相似性分组,形成清晰的时间点,模型可以参考。 算法可以使用记录的图像返回到时间轴中的一个有趣点,并从那里继续探索。 当模型发现自己正在输掉时,它会参考截图并尝试不同的策略。

如 BBC 所解释的,还有处理 AI 代理玩游戏时的危险场景的问题。 如果代理遇到可以杀死它的危险,那将阻止它返回值得进一步探索的区域,这是一个称为“脱轨”的问题。 AI 模型通过一个与鼓励探索旧区域的过程分开的过程来处理脱轨问题。

研究团队让模型玩了 55 款 Atari 游戏。 这些游戏通常用于衡量 AI 模型的性能,但研究人员为他们的模型添加了一个转折。 研究人员向游戏添加了额外的规则,指示模型不仅要达到最高分,还要尝试每次达到更高的分数。 当分析模型的性能结果时,研究人员发现他们的 AI 系统在大约 85% 的时间内在游戏中比其他 AI 系统表现更好。 AI 模型在 Montezuma 的复仇游戏中表现尤其出色,这是一款平台游戏,玩家需要躲避危险并收集宝藏。 游戏打破了人类玩家的记录,并且比其他任何 AI 系统都高分。

根据 Uber AI 研究人员的说法,研究团队使用的策略对机器人等行业具有应用价值。 机器人可以从记住哪些操作成功、哪些操作不成功以及哪些操作尚未尝试中受益。

博客作者和程序员,专攻 Machine Learning Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。