人工知能

AIエージェントの実際の研究能力はどうか？ Deep Research Bench Reportの内部

Published June 2, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

大規模言語モデル（LLM）が急速に進化するにつれ、その研究アシスタントとしての可能性も高まっています。彼らは単純な事実の質問に答えるだけでなく、「ディープリサーチ」タスクに取り組んでいます。これには、マルチステップの推論、矛盾する情報の評価、ウェブ全体からのデータの取得、およびそれをまとめて出力することが含まれます。

この新しい機能は、現在、主要な研究所によってさまざまなブランド名で販売されています。OpenAIは「ディープリサーチ」と呼んでいます。Anthropicは「拡張思考」と呼んでいます。GoogleのGeminiは「検索 + Pro」機能を提供しています。Perplexityはそれを「Pro Search」または「ディープリサーチ」と呼んでいます。しかし、これらの提供は実践ではどのくらい効果的ですか？ FutureSearchによる新しいレポート「Deep Research Bench (DRB): Web Research Agentsの評価」は、最も徹底的な評価を提供しています。結果は、印象的な機能と重要な短所の両方を示しています。

Deep Research Benchとは何か？

FutureSearchチームによって作成されたDeep Research Benchは、ウェブベースの研究タスクのパフォーマンスを評価するために慎重に構築されたベンチマークです。これらは、簡単な質問とその答えではありません。実際の分析家、政策立案者、研究者が現実の状況で直面する、汚く、オープンエンドの課題を反映しています。

ベンチマークには、8つのカテゴリにわたる89の異なるタスクが含まれています。たとえば、

番号を探す: 例: 「FDAクラスII医療機器のリコールは何回ありましたか？」
主張を検証する: 例: 「ChatGPTはGoogle検索よりも10倍エネルギー消費が多いですか？」
データセットをコンパイルする: 例: 「2019年から2023年までの米国のソフトウェア開発者の雇用動向」

各タスクの種類は、人間によって検証された答えとともに慎重に構造化されており、凍結されたWebページのデータセットであるRetroSearchを使用して評価されます。これにより、モデル評価全体で一貫性が保たれ、ライブWebの変化する状態が回避されます。

エージェントアーキテクチャ：ReActとRetroSearch

Deep Research Benchの中心には、ReActアーキテクチャがあります。ReActは、「Reason + Act」の略です。この方法は、人間の研究者が問題に対処する方法を模倣しています。問題を考える、Web検索などのアクションを実行する、結果を観察し、続行するか終了するかを決定するというプロセスです。

以前のモデルはこのループを明示的に実行しますが、新しい「思考」モデルはプロセスをより流暢にします。評価の一貫性を確保するために、DRBはRetroSearchを導入しました。RetroSearchは、カスタムビルドの静的Webバージョンです。エージェントは、ライブインターネットではなく、Serper、Playwright、ScraperAPIなどのツールを使用してスクラップされたWebページのアーカイブにアクセスします。規模は印象的です。高複雑度タスクの場合、「証拠を収集する」には、RetroSearchは189,000ページ以上のアクセスを提供できます。すべてが時間の経過とともに凍結されており、公正で再現可能なテスト環境が保証されます。

どのAIエージェントが最も優れていますか？

すべての候補者の中で、OpenAIのo3がトップパフォーマーとして登場しました。Deep Research Benchで0.51のスコアを獲得しました。0.8の「ノイズ上限」と呼ばれるベンチマークの難しさを考えると、これは謙虚なスコアのように思えるかもしれません。0.8は、完璧なエージェントであっても、タスクの定義とスコアの曖昧さのために、上限となります。言い換えれば、現在のベストモデルでも、まだ人間の研究者に匹敵するものではありません。

まだ、リーダーボードは洞察を提供しています。o3はパックをリードし、スピードと一貫性を示しました。ほぼすべてのタスクで強いパフォーマンスを示しました。AnthropicのClaude 3.7 Sonnetは、近くに続き、「思考」と「非思考」モードの両方で多才性を示しました。GoogleのGemini 2.5 Proは、構造化された計画とステップバイステップの推論を必要とするタスクを処理する能力で際立っていました。一方、オープンウェイトのDeepSeek-R1は、GPT-4 Turboとパフォーマンスの差を縮め、オープンモデルとクローズドモデルの間のギャップを縮めるという驚くべき結果をもたらしました。

全体的に、明確なパターンが浮かび上がりました。新しい「思考可能」モデルは、一貫して古いモデルを上回り、クローズドソースモデルはオープンウェイトの代替品よりも著しい優位性を維持しました。

エージェントはどこで苦労していますか？

Deep Research Benchレポートで強調された失敗パターンを読むと、驚くほど身に染みたものがあります。私が個人的に直面した最も苛立たしい側面の1つは、AIエージェントが何をしていたかを単純に忘れるときです。コンテキストウィンドウが伸びると、モデルはしばしばスレッドを失います。重要な詳細が消え、目標が曖昧になり、回答は断片的または無意味なものになります。ある時点で、すべてを捨てて最初からやり直す方がよいことがあります。そうすれば、すでに生成されたすべてのものを捨てることになりますが。

そのような忘れっぽさは、単なる逸話ではありません。忘れっぽさは、Deep Research Bench評価で失敗の最も重要な予測因子です。しかし、それ以外にも繰り返される問題があります。レポートでは、モデルが繰り返しツールを使用する方法、同じ検索を繰り返し実行する方法、批判的に検索する方法ではなく、キーワードを単純に一致させる方法、そして早期に結論付けられる方法を強調しています。エージェントは、ボックスをチェックする技術的な答えを提供するのではなく、洞察に欠ける半分の答えを提供することによって、早期に結論付けられることがよくあります。

トップモデルでも、違いは明らかです。GPT-4 Turboは、前のステップを忘れる傾向がありましたが、DeepSeek-R1は、妄想または、ありそうだが間違った情報を発明する可能性が高かったです。モデル全体で、エージェントは頻繁に情報源を相互参照したり、出力の最終化前に調査結果を検証したりしませんでした。誰でもAIに頼った仕事をしたことがあれば、これらの問題はとてもよく知っていることです。これらは、人間のように考えること、研究することができるエージェントを構築するにはまだまだ距離があることを強調しています。

メモリベースのパフォーマンスについては？

興味深いことに、Deep Research Benchは「ツールレス」エージェントも評価しました。ツールレスエージェントとは、Web検索やドキュメントの取得などの外部ツールにアクセスできない言語モデルです。これらのエージェントは、内部のトレーニングデータとメモリのみに依存して回答を生成し、トレーニング中に学んだ内容に基づいて推測します。つまり、調べたり検証したりすることはできません。彼らは「覚えている」ものに基づいて推測しています。

驚くことに、これらのツールレスエージェントは、特定のタスクでフルリサーチエージェントとほぼ同等のパフォーマンスを示しました。たとえば、「主張を検証する」タスクでは、0.61のスコアを獲得しました。これは、ツールを使用したエージェントの平均スコア0.62に近いです。これは、o3やClaudeのようなモデルが強力な内部先入観を持っており、Webを検索する必要なく一般的な主張の真実性を認識できることを示しています。

しかし、より要求の厳しいタスクについては、「番号を導出する」や「証拠を収集する」などのタスクでは、ツールレスモデルは完全に崩壊しました。新しい情報やリアルタイムの検索機能がなければ、正確または包括的な回答を生成する手段がなかったのです。

この対比は、重要なニュアンスを強調しています。今日のLLMは「知識」をシミュレートできますが、ディープリサーチには、単に記憶ではなく、最新の検証可能な情報を推論することが必要です。後者は、ツールを使用したエージェントのみが提供できます。

最終的な考察

DRBレポートは1つのことを明確に示しています。今日のベストなAIエージェントは、狭いタスクで平均的な人間を上回る可能性がありますが、戦略的に計画し、途中で適応し、繊細に推論する能力では、熟練した汎用研究者にまだ後れを取っています。

このギャップは、特に長時間のセッションや複雑なセッションで顕現します。そこでは、エージェントがタスクの目的を逐渐的に忘れ、回答の連携と有用性が崩壊します。

Deep Research Benchが価値があるのは、表面的な知識だけをテストしないからです。ツールの使用、メモリ、推論、適応の交差点を探り、MMLUやGSM8Kなどのベンチマークよりも現実の研究に近いアナログを提供します。

LLMが本格的な知識の仕事に統合され続けるにつれて、DRBのようなFutureSearchツールは、これらのシステムが何を知っているかではなく、実際にどのように機能するかを評価するために不可欠になります。

Related Topics:benchmark FutureSearch LLM

Antoine Tardif, CEO & Founder of Unite.AI

アントワーヌは、Unite.AIの創設パートナーであり、ビジョナリーなリーダーです。彼は、AIとロボティクスの未来を形作り、推進するという、揺るぎない情熱に突き動かされています。シリアルエントレプレナーである彼は、AIは電気と同じように社会に大きな変革をもたらすと信じており、破壊的な技術やAGIの潜在能力について熱く語ることがよくあります。

As a futurist、彼は、これらのイノベーションが私たちの世界をどのように形作るかを探求することに尽力しています。さらに、彼は、Securities.ioの創設者であり、未来を再定義し、全セクターを再構築する最先端技術への投資に焦点を当てたプラットフォームです。