人工智能

在干净环境中训练 AI 代理可以使其在混乱中表现出色

Published February 4, 2025

Updated April 26, 2026

Alex McFarland

大多数 AI 训练遵循一个简单的原则：将训练条件与现实世界相匹配。但是，麻省理工学院的新研究正在挑战 AI 开发中的这个基本假设。

他们的发现？AI 系统在不可预测的情况下往往表现更好，当它们在干净、简单的环境中训练时，而不是在它们将面临的复杂条件下训练。这一发现不仅令人惊讶 – 它可能会改变我们对构建更强大的 AI 系统的思考方式。

研究团队在使用经典游戏如吃豆人和乒乓球时发现了这一模式。当他们在游戏的可预测版本中训练一个 AI，然后在不可预测的版本中测试它时，它始终优于直接在不可预测条件下训练的 AI。

除了这些游戏场景之外，这一发现对 AI 开发的未来有影响，从机器人到复杂的决策系统的实际应用。

传统方法

到目前为止，AI 训练的标准方法遵循明确的逻辑：如果你希望 AI 在复杂条件下工作，请在这些条件下训练它。

这导致了：

设计用于匹配现实世界复杂性的训练环境
在多个具有挑战性的场景中进行测试
大量投资于创建现实的训练条件

但是，这种方法存在一个根本问题： 当你从一开始就将 AI 系统训练在嘈杂、不可预测的条件下时，它们难以学习核心模式。环境的复杂性干扰了它们掌握基本原理的能力。

这产生了几个关键挑战：

训练变得效率大大降低
系统难以识别基本模式
性能往往达不到预期
资源需求大幅增加

研究团队的发现表明，一个更好的方法是从简化的环境开始，让 AI 系统掌握核心概念，然后再引入复杂性。这与有效的教学方法类似，在这种方法中，基础技能为处理更复杂的情况提供了基础。

室内训练效应：一个违反直觉的发现

让我们分析一下麻省理工学院研究人员实际发现了什么。

该团队为他们的实验设计了两种类型的 AI 代理：

可学习性代理： 它们在同一个嘈杂的环境中训练和测试
泛化代理： 它们在干净的环境中训练，然后在嘈杂的环境中测试

为了了解这些代理如何学习，该团队使用了一种称为马尔可夫决策过程（MDP）的框架。可以将 MDP 想象为一个地图，显示 AI 可以采取的所有可能的情况和操作，以及这些操作的可能结果。

他们然后开发了一种称为“噪声注入”的技术，以仔细控制这些环境变得多么不可预测。这使他们能够创建具有不同随机性级别的相同环境的不同版本。

在这些实验中，什么算作“噪声”？它是指任何使结果不那么可预测的元素：

操作不总是产生相同的结果
事物移动的随机变化
意外的状态变化

当他们运行测试时，发生了一件意外的事情。泛化代理 – 在干净、可预测的环境中训练的代理 – 经常比专门为这些条件训练的代理更好地处理嘈杂的情况。

这种效果如此令人惊讶，以至于研究人员将其命名为“室内训练效应”，挑战了多年来关于如何训练 AI 系统的传统智慧。

通过游戏来更好地理解

研究团队转向经典游戏来证明他们的观点。为什么游戏？因为它们提供了受控的环境，你可以在其中精确地测量 AI 的性能如何。

在吃豆人中，他们测试了两种不同的方法：

传统方法： 在鬼魂移动不可预测的版本中训练 AI
新方法： 先在简单版本中训练，然后在不可预测的版本中测试

他们对乒乓球进行了类似的测试，改变了拍子对控制的响应。什么算作这些游戏中的“噪声”？例子包括：

在吃豆人中，鬼魂会偶尔传送
在乒乓球中，拍子不总是响应一致
游戏元素移动的随机变化

结果很明确： 在干净环境中训练的 AI 学习了更强大的策略。当面临不可预测的情况时，它们比在嘈杂条件下训练的对应代理更好地适应了。

数字支持这一点。对于两个游戏，研究人员发现：

更高的平均分数
更一致的性能
更好的适应新情况的能力

该团队测量了所谓的“探索模式” – AI 在训练期间尝试了多少不同的策略。训练在干净环境中的 AI 开发了更系统的解决问题方法，这被证明对于处理不可预测的情况至关重要。

理解成功背后的科学

室内训练效应背后的机制很有趣。关键不仅仅是干净与嘈杂的环境 – 而是 AI 系统如何构建其理解。

当代理在干净的环境中探索时，它们会发展出一些至关重要的东西：清晰的探索模式。可以把它想象成构建一张思维地图。在没有噪声遮蔽视线的情况下，这些代理创建了更好的什么有效什么无效的地图。

研究揭示了三个核心原则：

模式识别： 干净环境中的代理更快地识别出真正的模式，而不会被随机变化分散注意力
策略开发： 他们建立了更强大的策略，这些策略可以应用于复杂的情况
探索效率： 他们在训练期间发现了更多有用的状态-操作对

数据显示了关于探索模式的令人惊讶的东西。当研究人员测量代理如何探索其环境时，他们发现了一个明确的相关性：具有相似探索模式的代理无论在哪里训练，都表现得更好。

现实世界的影响

这种策略的影响远远超出了游戏环境。

考虑一下训练用于制造业的机器人：与其立即将它们投入复杂的工厂模拟中，我们可能会从简化的任务版本开始。研究表明，它们实际上会更好地处理现实世界的复杂性。

当前应用可能包括：

机器人开发
自动驾驶车辆训练
AI 决策系统
游戏 AI 开发

这一原则还可以改善我们对 AI 训练的方法。公司可能会：

减少训练资源
构建更适应性强的系统
创建更可靠的 AI 解决方案

该领域的下一步可能会探索：

从简单到复杂环境的最佳进展
新的测量和控制环境复杂性的方法
新兴 AI 领域的应用

结论

最初在吃豆人和乒乓球中令人惊讶的发现已经演变成一个原则，这可能会改变 AI 开发。室内训练效应向我们展示了构建更好的 AI 系统的道路可能比我们想象的更简单 – 先从基础开始，掌握基础知识，然后再处理复杂性。如果公司采用这种方法，我们可能会看到开发周期更快、各个行业的 AI 系统更强大。

对于那些构建和使用 AI 系统的人来说，信息很明确：有时，前进的最佳方式不是在训练中重现现实世界的每一种复杂性。相反，首先专注于在受控环境中构建坚实的基础。数据表明，强大的核心技能通常会导致在复杂情况下更好的适应性。请继续关注这个领域 – 我们才刚刚开始了解这一原则如何改善 AI 开发。