人工智能

Agent Laboratory: AMD 和 Johns Hopkins 的虚拟研究团队

Published January 13, 2025

Updated April 26, 2026

Alex McFarland

在大家都在讨论 AI 代理和自动化的同时，AMD 和 Johns Hopkins University 一直致力于改进人类和 AI 在研究中的合作。他们的新开源框架 Agent Laboratory ，是对科学研究如何通过人类和 AI 的合作加速进行了彻底的重新思考。

在查看了许多 AI 研究框架之后，Agent Laboratory 以其实用的方法脱颖而出。与其尝试取代人类研究人员（如许多现有解决方案），它专注于通过处理研究中耗时的方面来增强人类的能力，同时让人类保持在驾驶座位上。

这里的核心创新是简单但强大的： 与其追求完全自治的研究（这往往会导致可疑的结果），Agent Laboratory 创建了一个虚拟实验室，其中多个专门的 AI 代理共同工作，每个代理处理研究过程的不同方面，同时保持与人类指导的锚定。

虚拟实验室的细分

可以把 Agent Laboratory 想象成一个井然有序的研究团队，但 AI 代理扮演着专门的角色。就像一个真正的研究实验室一样，每个代理都有特定的职责和专业知识：

博士代理处理文献综述和研究规划
博士后代理帮助完善实验方法
机器学习工程师代理处理技术实现
教授代理评估和评分研究输出

使得这个系统特别有趣的是其工作流程。与传统的 AI 工具不同，Agent Laboratory 创建了一个协作环境，其中这些代理相互交互并建立在彼此的工作之上。

该过程遵循自然的研究进展：

文献综述： 博士代理使用 arXiv API 搜索学术论文，收集和组织相关研究
计划制定： 博士和博士后代理合作创建详细的研究计划
实施： 机器学习工程师代理编写和测试代码
分析和文档： 团队共同努力解释结果并生成综合报告

但这里是它变得真正实用的地方： 该框架是计算灵活的，这意味着研究人员可以根据他们对计算能力和预算约束的访问来分配资源。这使得它成为为真实世界研究环境设计的工具。

Schmidgall et al.

人类因素：AI 与专长的交汇点

虽然 Agent Laboratory 拥有令人印象深刻的自动化能力，但真正的魔力发生在所谓的“副驾驶模式”。在这种设置中，研究人员可以在每个阶段提供反馈，从而在人类专长和 AI 协助之间创造真正的合作。

副驾驶反馈数据揭示了一些令人着迷的见解。在自主模式下，Agent Laboratory 生成的论文在人类评估中平均得分为 3.8/10。但是，当研究人员参与副驾驶模式时，这些分数跳跃到 4.38/10。特别有趣的是，这些改进出现在哪里——论文在清晰度 (+0.23) 和呈现 (+0.33) 方面得分明显更高。

但这里是现实检查： 即使有人类参与，这些论文仍然比平均接受的 NeurIPS 论文（得分为 5.85）低约 1.45 分。这不是失败，而是关于如何补充人类专长和 AI 能力的重要学习。

评估揭示了另一件令人着迷的事情： AI 审稿人一致将论文评分高出 2.3 分，而人类审稿人评分较低。这凸显了为什么人类监督在研究评估中仍然至关重要。