实现远见的技术：让AI能够深思远虑

发布于 2022年12月2日

更新于 2026年5月23日

作者

Alex McFarland

麻省理工学院、MIT-IBM沃森人工智能实验室和其他机构的研究人员团队开发了一种新方法，使人工智能（AI）代理能够实现深远的视角。换句话说，AI可以在考虑其行为如何包括其他AI代理的行为时，深思远虑地思考未来。

该研究将在神经信息处理系统会议上发表。

AI考虑其他代理的未来行动

团队创建的机器学习框架使得合作或竞争的AI代理能够考虑其他代理将要做什么。这不仅仅是在接下来的步骤中，还包括随着时间的推移，代理会根据与其他代理的交互调整其行为，以影响其他代理的未来行为，从而帮助它们达到最佳的长期解决方案。

根据团队的说法，该框架可以被用于例如，一组自主无人机共同工作来找到一名失踪的徒步旅行者。它还可以被用于自动驾驶汽车来预测其他车辆的未来动作，以提高乘客的安全性。

Dong-Ki Kim是麻省理工学院信息和决策系统实验室（LIDS）的研究生，也是研究论文的首席作者。

“当AI代理在合作或竞争时，什么最重要的是它们的行为在某个时候会收敛，”Kim说。“在这条路上，有很多暂时的行为并不重要。到达这种收敛行为是我们真正关心的，我们现在有了一种数学方法来实现这一点。”

研究人员解决的问题被称为多代理强化学习，强化学习是一种机器学习，其中AI代理通过试错学习。

当有多个合作或竞争的代理同时学习时，过程会变得更加复杂。随着代理考虑更多其他代理的未来步骤，以及他们自己的行为和如何影响他人，问题需要太多的计算能力。

“AI真正想要思考的是游戏的结尾，但他们不知道游戏什么时候会结束，”Kim说。“他们需要思考如何不断调整自己的行为，以便在某个遥远的未来赢得游戏。我们的论文基本上提出了一个新的目标，使AI能够思考无限。”

将无限集成到算法中是不可行的，因此团队以一种方式设计了系统，使代理关注于一个未来点，其中他们的行为将与其他代理收敛。这种点被称为平衡点，平衡点决定了代理的长期性能。

在多代理场景中，可能存在多个平衡点，当一个有效的代理积极影响其他代理的未来行为时，他们可以从代理的角度达到一个理想的平衡点。当所有代理相互影响时，他们会收敛到一个被称为“主动平衡”的一般概念。

团队的机器学习框架被称为FURTHER，它使代理能够学习如何根据与其他代理的交互调整其行为，以达到主动平衡。

该框架依赖于两个机器学习模块。第一个是推理模块，它使代理能够根据先前的行为猜测其他代理的未来行为和它们使用的学习算法。然后将这些信息输入到强化学习模块中，代理依赖于它来调整其行为并影响其他代理。

“挑战是思考无限，我们不得不使用很多不同的数学工具来实现这一点，并做出一些假设来使其在实践中起作用，”Kim说。

团队将他们的方法与其他多代理强化学习框架进行了比较，在不同的场景中，使用FURTHER的AI代理表现更好。

这种方法是去中心化的，因此代理独立学习。此外，它比其他需要中央计算机来控制代理的方法更适合扩展。

根据团队的说法，FURTHER可以被用于广泛的多代理问题。Kim特别希望它能够在经济学中得到应用，在那里它可以被用于开发涉及许多相互作用的实体的行为和利益随时间变化的情况下的合理政策。

Alex McFarland

Alex McFarland 是一名人工智能记者和作家，探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。