关注我们.

人工智能

AI 代理在实际研究中表现如何?深入研究基准报告

mm

As 大型语言模型 (LLM) 随着人工智能的快速发展,它们作为强大研究助手的潜力也日益显现。如今,它们不再仅仅回答简单的事实问题,而是能够处理“深度研究”任务,这些任务涉及多步骤推理、评估相互矛盾的信息、从网络获取数据,并将其整合成连贯的输出。

目前,各大实验室都在以不同的品牌名称推广这项新兴技术——OpenAI 称之为“深度研究”,Anthropic 称之为“扩展思维”,谷歌的 Gemini 提供“搜索 + 专业”功能,而 Perplexity 则将其产品称为“专业搜索”或“深度研究”。但这些产品在实践中究竟效果如何?一份由 未来搜索名为 深度研究平台 (DRB):评估网络研究代理,提供了迄今为止最严格的评估——结果既揭示了令人印象深刻的能力,也揭示了严重的缺陷。

什么是深度研究平台?

Deep Research Bench 由 FutureSearch 团队精心打造,是一个精心构建的基准测试,旨在评估 AI 代理在基于网络的多步骤研究任务中的表现。这些问题并非简单,答案也并非直截了当——它们反映了分析师、政策制定者和研究人员在现实环境中面临的复杂且开放式的挑战。

该基准测试涵盖 89 个类别的 8 个不同任务,例如:

  • 查找号码:例如“发生了多少起 FDA II 类医疗器械召回事件?”
  • 验证索赔:例如“ChatGPT 的能耗比 Google 搜索高 10 倍吗?”
  • 编译数据集例如“2019 年至 2023 年美国软件开发人员的就业趋势”

每种任务类型都经过精心构建,包含人工验证的答案,并使用名为 RetroSearch 的抓取网页冻结数据集进行评估。这确保了模型评估的一致性,避免了实时网络状态的波动。

代理架构:ReAct 和 RetroSearch

Deep Research Bench 的核心是 ReAct 架构,即“Reason + Act”的缩写。这种方法模仿了人类研究人员解决问题的方式——思考任务,采取行动(例如进行网络搜索),观察结果,然后决定是否进行迭代或得出结论。

虽然早期模型明确遵循这一循环,但较新的“思考”模型通常会简化这一过程,将推理更流畅地嵌入到其行为中。为了确保评估的一致性,DRB 引入了 RetroSearch——一个定制的静态网络版本。代理人不再依赖不断变化的实时互联网,而是利用诸如 毒蛇, 剧作家爬虫API其规模令人印象深刻:对于“收集证据”等高复杂性任务,RetroSearch 可以访问超过 189,000 个页面,所有页面均及时冻结,确保公平且可复制的测试环境。

哪些人工智能代理表现最佳?

在所有竞争者中,OpenAI 的 o3 脱颖而出,在深度研究基准测试中获得了 0.51 分(满分 1.0 分)。虽然这个分数听起来可能不高,但我们必须了解该基准测试的难度:由于任务定义和评分的模糊性,即使是完美无缺的智能体,其得分也可能最高在 0.8 分左右——研究人员称之为“噪音天花板”。换句话说,即使是当今最好的模型,仍然比不上知识渊博、条理清晰的人类研究人员。

尽管如此,排行榜仍然提供了一些有启发性的见解。o3 不仅领先群雄,而且速度和稳定性都很高,在几乎所有任务类型中都表现出色。Anthropic 的 Claude 3.7 Sonnet 紧随其后,展示了其在“思考”和“非思考”模式下的多功能性。谷歌的旗舰型号 Gemini 2.5 Pro 因其处理需要结构化规划和逐步推理的任务的能力而脱颖而出。与此同时,开放式 DeepSeek-R1 带来了惊喜——与 GPT-4 Turbo 并驾齐驱,并缩小了开放式和封闭式模型之间的性能差距。

总体而言,出现了一个清晰的模式:较新的“支持思考”的模型始终优于早期的模型,而封闭源模型则比开放源模型保持着明显的优势。

代理商面临哪些困难?

读着《深度研究基准》报告中强调的失败模式,我感觉出奇地熟悉。我个人遇到的最令人沮丧的情况之一——尤其是在长时间的研究或内容创作过程中——是人工智能代理会完全忘记我们之前在做什么。随着上下文窗口的拉长,模型常常开始失去线索:关键细节逐渐模糊,目标变得模糊,突然间,响应变得支离破碎或毫无目的。在某种程度上,我意识到,止损并从头开始往往是更好的选择,即使这意味着要放弃迄今为止产生的所有成果。

这种健忘并非坊间传闻,而是深度研究平台评估中最重要的失败预测因素。但这并非唯一反复出现的问题。报告还强调,一些模型陷入了重复使用工具的困境,一遍又一遍地运行相同的搜索,仿佛陷入了循环。另一些模型则表现出糟糕的查询设计,懒惰地进行关键词匹配,而不是批判性地思考如何有效地进行搜索。而且,很多时候,客服人员会过早下结论——给出一个半成品答案,虽然技术上符合要求,但缺乏真正的洞察力。

即使在顶级模型中,差异也很明显。例如,GPT-4 Turbo 表现出明显的忘记先前步骤的倾向,而 DeepSeek-R1 则更有可能 幻觉的 或者编造看似合理但实际上并不正确的信息。总体而言,模型在最终确定输出结果之前,经常未能交叉核对信息来源或验证研究结果。对于任何依赖人工智能进行严肃工作的人来说,这些问题都再熟悉不过了——它们凸显了我们在构建能够真正像人类一样思考和研究的智能体方面还有很长的路要走。

基于内存的性能如何?

有趣的是,Deep Research Bench 还评估了所谓的“无工具”代理——无需任何外部工具(例如网络搜索或文档检索)即可运行的语言模型。这些代理完全依赖于其内部训练数据和记忆,仅根据先前在训练中学习到的内容生成答案。实际上,这意味着它们无法查找任何内容或验证信息——它们只能根据“记忆”的内容进行猜测。

令人惊讶的是,这些无需工具的智能体在某些任务上的表现几乎与完全研究型智能体不相上下。例如,在“验证声明”任务(其目标是评估陈述的合理性)中,它们的得分为 0.61,几乎与启用工具的智能体 0.62 的平均得分持平。这表明,像 o3 和 Claude 这样的模型拥有强大的内部先验知识,通常无需搜索网络即可识别常见声明的真实性。

但在执行要求更高的任务时——例如“导出数值”(需要从各种来源拼凑多个数值)或“收集证据”(需要在特定情境中查找和评估各种事实)——这些缺乏工具的模型就完全失效了。缺乏新鲜信息或实时查找功能,它们根本无法提供准确或全面的答案。

这种对比凸显了一个重要的细微差别:虽然当今的法学硕士 (LLM) 可以模拟很多“了解”,但深入研究不仅依赖于回忆,还依赖于使用最新的可验证信息进行推理——只有工具增强代理才能真正提供这种能力。

总结

DRB 报告明确指出了一点:虽然当今最好的人工智能代理可以在狭义的任务上超越普通人类,但它们仍然落后于熟练的通才研究人员——尤其是在战略规划、中期调整和细微推理方面。

这种差距在长时间或复杂的会议中变得尤为明显——这是我亲身经历过的,代理逐渐忘记了任务的目的,导致连贯性和实用性的令人沮丧的崩溃。

是什么让 深度研究平台 它的价值在于它不仅仅测试表面层次的知识——它还探究工具使用、记忆、推理和适应的交集,比 MMLU 或 GS​​M8k 等基准更接近现实世界的研究。

随着法学硕士课程不断融入严肃的知识工作, 未来搜索 像 DRB 这样的工具对于评估这些系统的知识以及它们的实际运行情况至关重要。

Antoine 是一位富有远见的领导者,也是 Unite.AI 的创始合伙人,他对塑造和推动人工智能和机器人技术的未来有着坚定不移的热情。作为一名连续创业者,他相信人工智能将像电力一样颠覆社会,并经常对颠覆性技术和 AGI 的潜力赞不绝口。

作为一个 未来学家他致力于探索这些创新将如何塑造我们的世界。此外,他还是 证券一个专注于投资重新定义未来和重塑整个行业的尖端技术的平台。