Connect with us

人工智能

Agent Laboratory: AMD 和 Johns Hopkins 的虚拟研究团队

mm

在大家都在讨论 AI 代理 和自动化的同时,AMD 和 Johns Hopkins University 一直致力于改进人类和 AI 在研究中的合作。他们的新开源框架 Agent Laboratory ,是对科学研究如何通过人类和 AI 的合作加速进行了彻底的重新思考。

在查看了许多 AI 研究框架之后,Agent Laboratory 以其实用的方法脱颖而出。与其尝试取代人类研究人员(如许多现有解决方案),它专注于通过处理研究中耗时的方面来增强人类的能力,同时让人类保持在驾驶座位上。

这里的核心创新是简单但强大的: 与其追求完全自治的研究(这往往会导致可疑的结果),Agent Laboratory 创建了一个虚拟实验室,其中多个专门的 AI 代理共同工作,每个代理处理研究过程的不同方面,同时保持与人类指导的锚定。

虚拟实验室的细分

可以把 Agent Laboratory 想象成一个井然有序的研究团队,但 AI 代理扮演着专门的角色。就像一个真正的研究实验室一样,每个代理都有特定的职责和专业知识:

  • 博士代理处理文献综述和研究规划
  • 博士后代理帮助完善实验方法
  • 机器学习工程师代理处理技术实现
  • 教授代理评估和评分研究输出

使得这个系统特别有趣的是其工作流程。与传统的 AI 工具不同,Agent Laboratory 创建了一个协作环境,其中这些代理相互交互并建立在彼此的工作之上。

该过程遵循自然的研究进展:

  1. 文献综述: 博士代理使用 arXiv API 搜索学术论文,收集和组织相关研究
  2. 计划制定: 博士和博士后代理合作创建详细的研究计划
  3. 实施: 机器学习工程师代理编写和测试代码
  4. 分析和文档: 团队共同努力解释结果并生成综合报告

但这里是它变得真正实用的地方: 该框架是计算灵活的,这意味着研究人员可以根据他们对计算能力和预算约束的访问来分配资源。这使得它成为为真实世界研究环境设计的工具。

Schmidgall et al.

人类因素:AI 与专长的交汇点

虽然 Agent Laboratory 拥有令人印象深刻的自动化能力,但真正的魔力发生在所谓的“副驾驶模式”。在这种设置中,研究人员可以在每个阶段提供反馈,从而在人类专长和 AI 协助之间创造真正的合作。

副驾驶反馈数据揭示了一些令人着迷的见解。在自主模式下,Agent Laboratory 生成的论文在人类评估中平均得分为 3.8/10。但是,当研究人员参与副驾驶模式时,这些分数跳跃到 4.38/10。特别有趣的是,这些改进出现在哪里——论文在清晰度 (+0.23) 和呈现 (+0.33) 方面得分明显更高。

但这里是现实检查: 即使有人类参与,这些论文仍然比平均接受的 NeurIPS 论文(得分为 5.85)低约 1.45 分。这不是失败,而是关于如何补充人类专长和 AI 能力的重要学习。

评估揭示了另一件令人着迷的事情: AI 审稿人一致将论文评分高出 2.3 分,而人类审稿人评分较低。这凸显了为什么人类监督在研究评估中仍然至关重要。

Schmidgall et al.

细分数字

在研究环境中,真正重要的是什么?成本和性能。Agent Laboratory 的模型比较方法揭示了一些令人惊讶的效率增益。

GPT-4o 出现为速度冠军,只需 1,165.4 秒即可完成整个工作流程——比 o1-mini 快 3.2 倍,比 o1-preview 快 5.3 倍。但更重要的是,它每篇论文只需花费 2.33 美元。相比之前的自主研究方法,每篇论文花费约 15 美元,我们正在谈论 84% 的成本降低。

查看模型性能:

  • o1-preview 在有用性和清晰度方面得分最高
  • o1-mini 实验质量得分最佳
  • GPT-4o 在指标方面落后,但在成本效率方面领先

这里的现实影响是重大的。

研究人员现在可以根据他们的具体需求选择他们的方法:

  • 需要快速原型设计?GPT-4o 提供速度和成本效率
  • 优先考虑实验质量?o1-mini 可能是您的最佳选择
  • 寻找最精致的输出?o1-preview 显示出希望

这种灵活性意味着研究团队可以根据他们的资源和要求适应该框架,而不是被锁定在一个通用解决方案中。

研究的新篇章

在研究了 Agent Laboratory 的功能和结果之后,我相信我们正在看到研究将如何进行的重大转变。但这不是通常主导头条的替代叙事,而是更细致入微和强大的东西。

虽然 Agent Laboratory 的论文尚未达到顶级会议标准,但它们正在为研究加速创造新的范式。可以把它想象成一个永不眠的 AI 研究助手团队,每个助手都专门从事科学过程的不同方面。

对于研究人员的影响是深远的:

  • 花在文献综述和基本编码上的时间可以转移到创造性构思
  • 由于资源约束而搁置的研究想法变得可行
  • 快速原型设计和测试假设的能力可能会导致更快的突破

当前的限制,例如 AI 和人类评分之间的差距,是机会。每次迭代都使我们更接近人类和 AI 之间更复杂的研究合作。

展望未来,我看到三个关键的发展可能会重塑科学发现:

  1. 更复杂的人类和 AI 协作模式将出现,因为研究人员将学会有效地利用这些工具
  2. 成本和时间节省可能会使研究民主化,使较小的实验室和机构能够开展更雄心勃勃的项目
  3. 快速原型设计的能力可能会导致研究中更多的实验方法

最大化这一潜力的关键是什么?理解 Agent Laboratory 和类似的框架是增强工具,而不是自动化工具。研究的未来不是人类专长和 AI 能力的选择,而是找到创新方法将它们结合起来。

Alex McFarland 是一名人工智能记者和作家,探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。