人工智能

AI代理在真实研究中的表现如何？深度研究工作台报告内部

发布于 2025年6月2日

更新于 2026年5月18日

作者

Antoine Tardif, Unite.AI 首席执行官兼创始人

随着大型语言模型（LLM）的快速演变，它们作为强大的研究助手的承诺也在增长。越来越多地，它们不仅仅是回答简单的事实问题——它们正在处理“深度研究”任务，这些任务涉及多步骤的推理，评估相互冲突的信息，获取来自网络的数据，并将其合成为连贯的输出。

这种新兴的能力现在被不同品牌名称的主要实验室所推销——OpenAI称之为“深度研究”，Anthropic称之为“扩展思考”，Google的Gemini提供“搜索+专业”功能，Perplexity将其标记为“专业搜索”或“深度研究”。但是，这些产品在实践中有多有效？FutureSearch发布的一份名为深度研究工作台（DRB）：评估网络研究代理的报告提供了迄今为止最严格的评估——结果揭示了令人印象深刻的能力和关键的缺陷。

什么是深度研究工作台？

由FutureSearch团队创建的深度研究工作台是一项精心设计的基准，旨在评估AI代理在多步骤、基于网络的研究任务中的性能。这些任务不是简单的问题，它们反映了分析师、政策制定者和研究人员在现实世界环境中面临的复杂、开放式挑战。

基准包括89个不同的任务，分为8个类别，例如：

查找数字：例如“FDA II类医疗设备召回有多少次？”
验证声明：例如“ChatGPT是否比Google搜索消耗10倍的能量？”
编译数据集：例如“2019-2023年美国软件开发人员的就业趋势”

每种任务类型都经过精心设计，具有人工验证的答案，并使用称为RetroSearch的静态网页集合进行评估。这确保了在模型评估中的一致性，避免了实时网络状态的波动。

代理架构：ReAct和RetroSearch

深度研究工作台的核心是ReAct架构，简称“推理+行动”。这种方法模仿了人类研究人员可能处理问题的方式——思考任务，执行网络搜索，观察结果，然后决定是否迭代或结束。

虽然早期模型显式地遵循这个循环，但新的“思考”模型通常将推理更流畅地嵌入到它们的行为中。为了确保评估的一致性，DRB引入了RetroSearch——一个自定义的、静态的网络版本。代理不再依赖实时的互联网，而是使用工具如Serper、Playwright和ScraperAPI，来获取网络页面的静态存档。规模令人印象深刻——对于高复杂度任务，如“收集证据”，RetroSearch可以提供超过189,000个页面的访问权限，这些页面都被冻结在时间中，确保了一个公平和可复制的测试环境。

哪些AI代理表现最好？

在所有竞争者中，OpenAI的o3脱颖而出，成为表现最好的模型，在深度研究工作台上获得了0.51的分数（满分1.0）。虽然这可能听起来有些谦逊，但要理解基准的难度——由于任务定义和评分的模糊性，即使是完美的代理也可能达到0.8的上限，这被研究人员称为“噪声上限”。换句话说，即使是今天最好的模型仍然没有达到像人类研究人员那样完美的表现。

然而，排行榜提供了有趣的见解。o3不仅领先，而且在速度和一致性方面表现出色，在几乎所有任务类型中都表现出色。Anthropic的Claude 3.7 Sonnet紧随其后，展示了其在“思考”和“非思考”模式中的多才多艺。Google的旗舰模型Gemini 2.5 Pro以其处理需要结构化规划和步骤推理的任务的能力而突出。同时，开源的DeepSeek-R1带来了一个令人愉快的惊喜——与GPT-4 Turbo保持一致，并缩小了开源和闭源模型之间的性能差距。

在整个板块中，一个明显的模式出现了——新型的“思考启用”模型一致地超越了它们的早期对应模型，闭源模型保持了对开源替代品的显著优势。

代理在哪里挣扎？

阅读深度研究工作台报告中突出的失败模式感觉令人惊讶地熟悉。其中一个我个人遇到的最令人沮丧的方面——尤其是在长时间的研究或内容创作会话中——是当AI代理简单地忘记了我们正在做什么。随着上下文窗口的扩大，模型经常开始失去线索：关键细节逐渐消失，目标变得模糊，最终，响应感觉脱节或毫无目的。到某个时候，我已经学会了最好是放弃损失并从头开始，即使这意味着放弃到目前为止生成的所有内容。

这种健忘症并不仅仅是轶事——这是深度研究工作台评估中失败的最重要预测因素。但这并不是唯一的反复出现的问题。报告还强调了一些模型陷入重复工具使用的循环，反复运行相同的搜索，好像陷入了循环。其他模型显示出糟糕的查询构建，懒惰地匹配关键词而不是批判性地思考如何有效地搜索。同时，代理经常过早地得出结论——提供一个半成品的答案，技术上来说是正确的，但缺乏真正的洞察力。

即使在顶级模型中，差异也很明显。例如，GPT-4 Turbo显示出忘记前一步的明显倾向，而DeepSeek-R1更可能产生幻觉或编造听起来合理但不正确的信息。在整个板块中，模型经常未能交叉检查来源或验证发现之前就确定了输出。对于任何依赖AI进行严肃工作的人来说，这些问题将感觉过于熟悉——它们凸显了我们在构建能够真正像人类一样思考和研究的代理方面还有多远要走。

关于基于内存的性能怎么办？

有趣的是，深度研究工作台还评估了所谓的“无工具”代理——没有访问外部工具（如网络搜索或文档检索）的语言模型。这些代理仅依赖其内部训练数据和内存，根据之前的训练数据生成答案。实际上，这意味着它们无法查找任何信息或验证信息——它们只是根据已知的内容进行猜测。

令人惊讶的是，这些无工具代理在某些任务上几乎与全功能研究代理表现一样好。例如，在“验证声明”任务中——目标是评估陈述的可信度——它们的得分为0.61，几乎与工具启用代理的平均得分0.62相匹配。这表明像o3和Claude这样的模型具有强大的内部先验知识，并且通常可以在不需要搜索网络的情况下识别常见声明的真实性。

但是，对于更具挑战性的任务——例如“推导数字”，需要从多个来源组合值，或者“收集证据”，需要在上下文中找到和评估多样的事实——这些无工具模型完全瓦解了。没有新鲜信息或实时查找功能，它们根本无法产生准确或全面的答案。

这种对比凸显了一个重要的细微差别——虽然今天的LLM可以模拟“知道”很多东西，但深度研究不仅仅依赖于回忆，还依赖于使用最新、可验证的信息——这只有工具增强的代理才能真正提供。

最终想法

DRB报告使一件事变得明确：虽然今天最好的AI代理可以在狭义的任务上超越普通人类，但它们仍然落后于熟练的通才研究人员——尤其是在规划、适应和推理方面。

这种差距在长时间或复杂的会话中变得尤为明显——我亲身经历过，代理逐渐失去任务的目的，导致输出的连贯性和实用性逐渐恶化。

使得深度研究工作台如此有价值的是，它不仅仅是在测试表面知识——它探索了工具使用、内存、推理和适应性的交叉点，提供了一个比MMLU或GSM8k等基准更接近现实世界研究的类似物。

随着LLM继续整合到严肃的知识工作中，FutureSearch工具，如DRB，将是评估这些系统不仅仅是知道什么，还有实际工作如何的必备工具。

随着LLM继续整合到严肃的知识工作中，FutureSearch工具，如DRB，将是评估这些系统不仅知道什么，而且实际工作如何的必备工具。作为工具使用、内存、推理和适应性的交叉点，提供了一个比MMLU或GSM8k等基准更接近现实世界研究的类似物。随着LLM继续整合到严肃的知识工作中，FutureSearch工具，如DRB，将是评估这些系统不仅知道什么，而且实际工作如何的必备工具。因此，深度研究工作台提供了一个比传统基准更接近真实研究的类似物，凸显了工具使用、内存、推理和适应性在深度研究中的重要性。