人工智能

研究人员从动物中寻找灵感，以赋予强化学习系统常识

Published October 26, 2020

Updated April 28, 2026

Daniel Nelson

来自帝国理工学院、剑桥大学和Google DeepMind等机构的AI研究人员正在寻找动物的灵感，以提高强化学习系统的性能。在CellPress Reviews上发表的一篇联合论文中，题为“人工智能和动物的常识”，研究人员认为动物的认知提供了有用的基准和评估强化学习代理的方法，并且还可以告知任务和环境的工程设计。

AI研究人员和工程师长期以来一直从生物神经网络中寻找灵感来设计算法，使用行为科学和神经科学的原理来告知算法的结构。然而，大多数AI研究人员从神经科学/行为科学领域获得的提示是基于人类的，婴儿和幼儿的认知是焦点。AI研究人员尚未从动物模型中获得太多灵感，但动物认知是一个未被开发的资源，它有可能在强化学习领域带来重要的突破。

深度强化学习系统是通过试错过程训练的，每当强化学习代理接近完成期望目标时都会获得奖励。这与使用食物作为奖励来教动物执行期望任务非常相似。生物学家和动物认知专家已经进行了许多实验来评估不同动物的认知能力，包括狗、熊、松鼠、猪、乌鸦、海豚、猫、老鼠、大象和章鱼。许多动物表现出令人印象深刻的智慧，一些动物，如大象和海豚，甚至可能具有心智理论。

查看有关动物认知的研究成果可能会激发AI研究人员从不同的角度考虑问题。随着深度强化学习变得更加强大和复杂，专门从事该领域的AI研究人员正在寻找新的方法来测试强化学习代理的认知能力。在研究论文中，研究团队提到了对灵长类和鸟类进行的实验类型，提到他们旨在设计能够完成类似任务的系统，给AI一种“常识”。根据论文作者的说法，他们“提倡一种方法，即RL代理（可能具有尚未开发的架构）通过与丰富的虚拟环境的扩展交互来获取所需的东西。”

正如VentureBeat报道的那样，AI研究人员认为，常识并不是人类所独有的，它依赖于对物理世界的基本属性的理解，例如对象占据一个点和空间，对象运动的约束以及对因果关系的欣赏。动物在实验室研究中表现出这些特征。例如，乌鸦了解到对象是永久的东西，因为它们能够在种子被隐藏时检索种子，即使种子被其他对象覆盖。

为了赋予强化学习系统这些属性，研究人员认为他们需要创建任务，这些任务与正确的架构配对，将创建能够将学习的原则转移到其他任务的代理。研究人员认为，训练此类模型应采用需要代理在仅接触到几个示例后就能理解概念的技术，称为少次训练。这与传统的强化学习代理的试错训练形成对比，后者通常需要数百或数千次试验。

研究团队继续解释说，虽然一些现代RL代理可以学习解决多个任务，其中一些需要转移学习的原则，但尚不清楚RL代理是否能够学习像“常识”这样抽象的概念。如果有一个代理可能能够学习这样的概念，他们需要能够确定RL代理是否理解容器概念的测试。

DeepMind特别渴望参与开发和测试强化学习代理的新方法和新方式。最近，在十月份举行的斯坦福HAI会议上，DeepMind的神经科学研究负责人Matthew Botvinick敦促机器学习研究人员和工程师与其他科学领域进行更多的合作。Botvinick在题为“Triangulating Intelligence: Melding Neuroscience, Psychology, and AI”的演讲中强调了与心理学和神经科学领域进行跨学科工作的重要性。

Daniel Nelson

博客作者和程序员，专攻 Machine Learning 和 Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。

Unite.AI

研究人员从动物中寻找灵感，以赋予强化学习系统常识

You may like