人工智能

研究人员希望动物能够为强化学习系统提供常识

更新 on 2022 年 12 月 9 日

来自伦敦帝国学院、剑桥大学和 Google DeepMind 等机构的人工智能研究人员正在从动物身上寻找如何提高强化学习系统性能的灵感。在一个联合论文发表于 CellPress Reviews在题为“人工智能和动物常识”的论文中，研究人员认为动物认知为强化学习代理提供了有用的基准和评估方法，并且还可以为任务和环境的工程提供信息。

长期以来，人工智能研究人员和工程师在设计算法时一直从生物神经网络中寻找灵感，利用行为科学和神经科学的原理来了解算法的结构。然而，人工智能研究人员从神经科学/行为科学领域获得的大多数线索都是基于人类，而幼儿和婴儿的认知是焦点。人工智能研究人员尚未从动物模型中获得太多灵感，但动物认知是一种尚未开发的资源，有可能在强化学习领域带来重大突破。

深度强化学习系统通过反复试验的过程进行训练，每当强化学习智能体接近完成预期目标时，就会通过奖励进行强化。这与通过使用食物作为奖励来教动物执行所需的任务非常相似。生物学家和动物认知专家进行了许多实验评估认知能力各种不同的动物，包括狗、熊、松鼠、猪、乌鸦、海豚、猫、老鼠、大象和章鱼。许多动物都表现出令人印象深刻的智力，有些动物如大象和海豚甚至可能有一个心理理论。

查看有关动物认知的研究主体可能会激发人工智能研究人员从不同角度考虑问题。随着深度强化学习变得更加强大和复杂，该领域的人工智能研究人员正在寻找测试强化学习代理认知能力的新方法。在研究论文中，研究团队参考了对灵长类动物和鸟类进行的实验类型，并提到他们的目标是设计能够完成类似类型任务的系统，赋予人工智能一种“常识”。根据该论文的作者的说法，他们“提倡一种方法，其中 RL 代理（可能具有尚未开发的架构）通过与丰富的虚拟环境进行扩展交互来获取所需的内容。”

据 VentureBeat 报道人工智能研究人员认为，常识并不是人类独有的特征，它依赖于对物理世界基本属性的理解，例如物体如何占据一个点和空间，该物体的存在受到什么限制。运动，以及对因果关系的认识。动物在实验室研究中表现出这些特征。例如，乌鸦知道物体是永恒的东西，因为即使种子被其他物体隐藏起来，它们也能够取回种子。

为了赋予强化学习系统这些特性，研究人员认为，他们需要创建一些任务，当与正确的架构相结合时，将创建能够将学到的原理转移到其他任务的代理。研究人员认为，这种模型的训练应该涉及一些技术，要求智能体在仅接触几个例子后就能够理解一个概念，称为“少样本训练”。这与传统的强化学习代理的试错训练中通常需要进行数百或数千次试验形成鲜明对比。

研究团队接着解释说，虽然一些现代 RL 智能体可以学习解决多项任务，其中一些任务需要学习原则的基本迁移，但目前尚不清楚 RL 智能体是否可以学习“常识”中抽象的概念。。如果有一个代理有可能能够学习这样的概念，他们将需要能够确定 RL 代理是否理解容器概念的测试。

DeepMind 尤其高兴能够采用新的、不同的方式来开发和测试强化学习代理。最近，在 10 月初举行的斯坦福 HAI 会议上，DeepMind 神经科学研究负责人 Matthew Botvinick 敦促机器学习研究人员和工程师在其他科学领域进行更多合作。 Botvinick 在一次名为“AI 领域”的演讲中强调了心理学家和神经科学跨学科合作的重要性 “三角智能：融合神经科学、心理学和人工智能”。