关注我们.

人工智能

人工智能作为研究人员:首篇非人工撰写的同行评审研究论文

mm

人工智能又迈出了重要的一步,挑战了我们对机器独立能力的理解。在科学史上,人工智能系统首次在没有任何人工协助的情况下,撰写了一篇完整的研究论文,并在学术会议上通过了同行评审。这一突破可能彻底改变未来科学研究的开展方式。

历史性成就

AI 科学家-v2 在一次顶级国际人工智能会议的研讨会上通过了同行评审。该研究提交给了 ICLR 2025 研讨会,这是机器学习领域最负盛名的会议之一。这篇论文是由原始论文的改进版本生成的 人工智能科学家,称为AI Scientist-v2。

被接受的论文题为“组合正则化:增强神经网络泛化能力的意外障碍”获得了人类评审员的出色评价。在提交评审的三篇论文中,有一篇的评分超过了接受门槛。这一突破是一项重大进步,因为人工智能现在可以参与几个世纪以来一直由人类主导的科学发现的基本过程。

Sakana AI 的研究团队与不列颠哥伦比亚大学和牛津大学的研究人员合作开展了这项实验。他们获得了机构审查委员会的批准,并与 ICLR 会议组织者直接合作,以确保实验遵循了正确的科学规程。

AI Scientist-v2 的工作原理

AI Scientist-v2 之所以取得这一成功,得益于其 前任与其前身不同的是,AI Scientist-v2 不再需要人工编写的代码模板,可以跨不同的机器学习领域工作,并采用树状搜索方法同时探索多条研究路径。

该系统通过端到端流程运行,模拟人类研究人员的工作方式。首先,它会根据被分配的研究领域提出科学假设。然后,AI会设计实验来检验这些假设,编写必要的代码进行实验,并自动执行这些实验。

该系统的先进之处在于其采用了代理树搜索方法。这种方法允许人工智能同时探索多个研究方向,就像人类研究人员考虑解决问题的各种方法一样。这包括通过代理树搜索进行实验、分析结果并生成论文草稿。专门的实验管理代理负责协调整个过程,以确保研究的专注性和高效性。

该系统还包括一个增强型人工智能审阅器组件,使用 视觉语言模型 为研究成果的内容和视觉呈现提供反馈。这创造了一个迭代改进的过程,AI可以根据反馈改进自身的工作,类似于人类研究人员根据同事的意见改进稿件的方式。

这篇研究论文的特别之处

这篇被接受的论文重点研究了机器学习中的一个具有挑战性的问题,即 组合概括这指的是神经网络能够理解并运用其从未见过的新组合中学习到的概念。AI Scientist-v2 研究了可能提升这一能力的新型正则化方法。

有趣的是,这篇论文也报告了负面结果。人工智能发现,它假设的某些方法可以提高神经网络的性能,但实际上却带来了意想不到的障碍。在科学领域,负面结果很有价值,因为它们可以阻止其他研究人员走上没有成果的道路,并有助于我们理解哪些方法行不通。

整个研究过程遵循严格的科学标准。AI Scientist-v2 进行了多次实验,以确保统计有效性,创建了清晰的可视化结果,并正确引用了相关的前期研究。它根据学术标准对整篇论文进行了格式化,并对其方法论和研究结果进行了全面的讨论。

负责该项目的人类研究人员对三篇生成的论文进行了全面的审查。他们发现,虽然被接受的论文达到了研讨会的质量,但其中存在一些技术问题,可能会阻碍论文在主会议轨道上的接受。这一诚实的评估既揭示了目前的局限性,也承认了所取得的重大进展。

技术能力和改进

AI Scientist-v2 展示了多项卓越的技术能力,使其区别于以往的自动化研究系统。该系统无需预先编写的代码模板,即可跨多个机器学习领域运行。这种灵活性意味着它可以适应新的研究领域,并生成原创的实验方法,而非遵循预设的模式。

树形搜索方法是人工智能研究自动化领域的一项重大创新。该系统并非只专注于单一的研究方向,而是可以同时维护多个假设,并根据每个方向的潜力分配计算资源。这种方法借鉴了经验丰富的人类研究人员通常的做法,他们通常会同时维护多个研究线索,同时将大部分精力集中在最有前景的途径上。

另一项关键改进是整合视觉语言模型,用于审查和完善研究论文的视觉元素。科学图表和可视化对于有效传达研究成果至关重要。人工智能现在可以迭代评估和改进自身的数据可视化。

该系统还展现了对科学写作惯例的理解。它能够合理地组织论文结构,并设置合适的章节,在整篇稿件中保持一致的术语,并在研究叙述的不同部分之间建立逻辑流畅的衔接。此外,AI 还展现了其对如何呈现方法论、讨论局限性以及如何将研究结果与现有文献联系起来的认知。

当前的局限性和挑战

尽管取得了这一历史性成就,但一些重要的局限性限制了人工智能生成研究的当前能力。该公司表示,其所有人工智能生成的研究均未通过其内部的ICLR会议轨道出版标准。这表明,尽管人工智能可以生成研讨会质量的研究,但要达到科学出版的最高水平仍然具有挑战性。

论文的录取率是评估这一成就的重要依据。这篇论文被研讨会轨道(workshop track)接收,该轨道的标准通常比主会议宽松(workshop track 的录取率为 60-70%,而主会议轨道的录取率通常为 20-30%)。虽然这并没有削弱这一成就的重要性,但它表明,真正具有突破性的研究成果仍然超出了当前人工智能的能力范围。

AI Scientist-v2 也暴露出了一些人类研究人员在审阅过程中发现的弱点。该系统偶尔会犯引用错误,将研究结果归因于错误的作者或出版物。此外,它还难以处理一些实验设计方面的问题,而这些方面人类专家可能会采取不同的处理方式。

或许最重要的是,人工智能生成的研究专注于渐进式改进,而非范式颠覆性的发现。该系统似乎更擅长在既定的研究框架内进行彻底的调查,而非提出全新的科学问题思维方式。

前方的路

人工智能研究的成功同行评审标志着科学研究新时代的开始。随着基础模型的不断改进,我们可以期待“人工智能科学家”和类似的系统能够产生越来越复杂的研究成果,在许多领域接近甚至超越人类的能力。

研究团队预计,未来的版本将能够生成足以在顶级会议和期刊上发表的论文。这一逻辑发展表明,人工智能系统最终可能为医学、物理学和化学等领域的突破性发现做出贡献。

这一发展也引发​​了关于研究伦理和出版标准的重要问题。科学界必须制定处理人工智能研究的新规范,包括何时以及如何披露人工智能的参与,以及如何将此类研究与人类研究进行同等评估。

研究团队在本次实验中展现出的透明度,为未来人工智能研究评估提供了一个宝贵的模型。通过与会议组织者公开合作,并使其人工智能生成的研究成果遵循与人类研究相同的标准,他们为负责任地开发自动化研究能力树立了重要的先例。

底线

一篇由人工智能撰写的论文被领先的机器学习研讨会接受,是人工智能能力的重大进步。虽然这项研究尚未达到顶级会议的水平,但它清晰地展现了人工智能系统成为科学发现重要贡献者的发展轨迹。如今的挑战不仅在于技术进步,还在于塑造规范这一新研究前沿的伦理和学术框架。

Tehseen Zia 博士是伊斯兰堡 COMSATS 大学的终身副教授,拥有奥地利维也纳科技大学的人工智能博士学位。 他专注于人工智能、机器学习、数据科学和计算机视觉,在著名科学期刊上发表论文,做出了重大贡献。 Tehseen 博士还作为首席研究员领导了多个工业项目,并担任人工智能顾问。