Connect with us

人工智能

在干净环境中训练 AI 代理可以使其在混乱中表现出色

mm

大多数 AI 训练遵循一个简单的原则:将训练条件与现实世界相匹配。但是,麻省理工学院的新研究正在挑战 AI 开发中的这个基本假设。

他们的发现?AI 系统在不可预测的情况下往往表现更好,当它们在干净、简单的环境中训练时,而不是在它们将面临的复杂条件下训练。这一发现不仅令人惊讶 – 它可能会改变我们对构建更强大的 AI 系统的思考方式。

研究团队在使用经典游戏如吃豆人和乒乓球时发现了这一模式。当他们在游戏的可预测版本中训练一个 AI,然后在不可预测的版本中测试它时,它始终优于直接在不可预测条件下训练的 AI。

除了这些游戏场景之外,这一发现对 AI 开发的未来 有影响,从机器人到复杂的决策系统的实际应用。

传统方法

到目前为止,AI 训练的标准方法遵循明确的逻辑:如果你希望 AI 在复杂条件下工作,请在这些条件下训练它。

这导致了:

  • 设计用于匹配现实世界复杂性的训练环境
  • 在多个具有挑战性的场景中进行测试
  • 大量投资于创建现实的训练条件

但是,这种方法存在一个根本问题: 当你从一开始就将 AI 系统训练在嘈杂、不可预测的条件下时,它们难以学习核心模式。环境的复杂性干扰了它们掌握基本原理的能力。

这产生了几个关键挑战:

  • 训练变得效率大大降低
  • 系统难以识别基本模式
  • 性能往往达不到预期
  • 资源需求大幅增加

研究团队的发现表明,一个更好的方法是从简化的环境开始,让 AI 系统掌握核心概念,然后再引入复杂性。这与有效的教学方法类似,在这种方法中,基础技能为处理更复杂的情况提供了基础。

室内训练效应:一个违反直觉的发现

让我们分析一下麻省理工学院研究人员实际发现了什么。

该团队为他们的实验设计了两种类型的 AI 代理:

  1. 可学习性代理: 它们在同一个嘈杂的环境中训练和测试
  2. 泛化代理: 它们在干净的环境中训练,然后在嘈杂的环境中测试

为了了解这些代理如何学习,该团队使用了一种称为 马尔可夫决策过程(MDP) 的框架。可以将 MDP 想象为一个地图,显示 AI 可以采取的所有可能的情况和操作,以及这些操作的可能结果。

他们然后开发了一种称为“噪声注入”的技术,以仔细控制这些环境变得多么不可预测。这使他们能够创建具有不同随机性级别的相同环境的不同版本。

在这些实验中,什么算作“噪声”?它是指任何使结果不那么可预测的元素:

  • 操作不总是产生相同的结果
  • 事物移动的随机变化
  • 意外的状态变化

当他们运行测试时,发生了一件意外的事情。泛化代理 – 在干净、可预测的环境中训练的代理 – 经常比专门为这些条件训练的代理更好地处理嘈杂的情况。

这种效果如此令人惊讶,以至于研究人员将其命名为“室内训练效应”,挑战了多年来关于如何训练 AI 系统的传统智慧。

通过游戏来更好地理解

研究团队转向经典游戏来证明他们的观点。为什么游戏?因为它们提供了受控的环境,你可以在其中精确地测量 AI 的性能如何。

在吃豆人中,他们测试了两种不同的方法:

  1. 传统方法: 在鬼魂移动不可预测的版本中训练 AI
  2. 新方法: 先在简单版本中训练,然后在不可预测的版本中测试

他们对乒乓球进行了类似的测试,改变了拍子对控制的响应。什么算作这些游戏中的“噪声”?例子包括:

  • 在吃豆人中,鬼魂会偶尔传送
  • 在乒乓球中,拍子不总是响应一致
  • 游戏元素移动的随机变化

结果很明确: 在干净环境中训练的 AI 学习了更强大的策略。当面临不可预测的情况时,它们比在嘈杂条件下训练的对应代理更好地适应了。

数字支持这一点。对于两个游戏,研究人员发现:

  • 更高的平均分数
  • 更一致的性能
  • 更好的适应新情况的能力

该团队测量了所谓的“探索模式” – AI 在训练期间尝试了多少不同的策略。训练在干净环境中的 AI 开发了更系统的解决问题方法,这被证明对于处理不可预测的情况至关重要。

理解成功背后的科学

室内训练效应背后的机制很有趣。关键不仅仅是干净与嘈杂的环境 – 而是 AI 系统如何构建其理解。

当代理在干净的环境中探索时,它们会发展出一些至关重要的东西:清晰的探索模式。可以把它想象成构建一张思维地图。在没有噪声遮蔽视线的情况下,这些代理创建了更好的什么有效什么无效的地图。

研究揭示了三个核心原则:

  • 模式识别: 干净环境中的代理更快地识别出真正的模式,而不会被随机变化分散注意力
  • 策略开发: 他们建立了更强大的策略,这些策略可以应用于复杂的情况
  • 探索效率: 他们在训练期间发现了更多有用的状态-操作对

数据显示了关于探索模式的令人惊讶的东西。当研究人员测量代理如何探索其环境时,他们发现了一个明确的相关性:具有相似探索模式的代理无论在哪里训练,都表现得更好。

现实世界的影响

这种策略的影响远远超出了游戏环境。

考虑一下训练 用于制造业的机器人:与其立即将它们投入复杂的工厂模拟中,我们可能会从简化的任务版本开始。研究表明,它们实际上会更好地处理现实世界的复杂性。

当前应用可能包括:

  • 机器人开发
  • 自动驾驶车辆训练
  • AI 决策系统
  • 游戏 AI 开发

这一原则还可以改善我们对 AI 训练 的方法。公司可能会:

  • 减少训练资源
  • 构建更适应性强的系统
  • 创建更可靠的 AI 解决方案

该领域的下一步可能会探索:

  • 从简单到复杂环境的最佳进展
  • 新的测量和控制环境复杂性的方法
  • 新兴 AI 领域的应用

结论

最初在吃豆人和乒乓球中令人惊讶的发现已经演变成一个原则,这可能会改变 AI 开发。室内训练效应向我们展示了构建更好的 AI 系统的道路可能比我们想象的更简单 – 先从基础开始,掌握基础知识,然后再处理复杂性。如果公司采用这种方法,我们可能会看到开发周期更快、各个行业的 AI 系统更强大。

对于那些构建和使用 AI 系统的人来说,信息很明确:有时,前进的最佳方式不是在训练中重现现实世界的每一种复杂性。相反,首先专注于在受控环境中构建坚实的基础。数据表明,强大的核心技能通常会导致在复杂情况下更好的适应性。请继续关注这个领域 – 我们才刚刚开始了解这一原则如何改善 AI 开发。

Alex McFarland 是一名人工智能记者和作家,探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。