인공지능

AI 에이전트가 실제 연구에 얼마나 좋은가? Deep Research Bench 리포트 내부

Published June 2, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

대규모 언어 모델(LLMs)이 빠르게 진화함에 따라, 강력한 연구 보조ツール로서의 그들의 약속도 함께 진화하고 있다. 점점 더 많이, 그들은 단순한 사실적인 질문에 답변하는 것을 넘어서서, “깊은 연구” 작업을 수행하고 있다. 이러한 작업은 다단계推論, 상반되는 정보의 평가, 웹 전반에 걸친 데이터 소싱, 그리고 일관된 출력으로의 종합을 포함한다.

이러한 新興能力은 현재 주요 연구소에서 다양한 브랜드 이름으로 판매되고 있다. OpenAI는 이를 “Deep Research”라고 부르며, Anthropic은 “Extended Thinking”이라고 부르고, Google의 Gemini은 “Search + Pro” 기능을 제공하며, Perplexity는 이를 “Pro Search” 또는 “Deep Research”라고 부른다. 그러나 이러한 제공이 실제로 얼마나 효과적인가? FutureSearch의 새로운 리포트인 Deep Research Bench (DRB): Web 연구 에이전트 평가는 가장 엄격한 평가를 제공하며, 결과는 둘 다 놀라운 능력과 중요한 약점을 보여준다.

Deep Research Bench는 무엇인가?

FutureSearch 팀에 의해 생성된 Deep Research Bench는 AI 에이전트의 성능을 웹 기반의 다단계 연구 작업에서 평가하기 위해 신중하게 구성된 벤치마크이다. 이러한 질문은 단순한 질문과 직접적인 답변을 가진 것이 아니다. 실제 세계 설정에서 분석가, 정책 결정자, 연구자들이 직면하는 복잡하고 개방형의 도전을 반영한다.

벤치마크에는 8개 범주에 걸쳐 89개의 DISTINCT 작업이 포함되어 있다.

번호 찾기: 예를 들어, “FDA Class II 의료 기기 리콜이 몇 건 발생했는가?”
주장 검증: 예를 들어, “ChatGPT는 Google 검색보다 10배 더 에너지 집약적이다?”
데이터셋 컴파일: 예를 들어, “2019-2023년 미국 소프트웨어 개발자 직업 동향”

각 작업 유형은 인간이 검증한 답변과 함께 신중하게 구조화되어 있으며, RetroSearch라고 하는 웹 페이지의 고정 데이터 세트를 사용하여 평가된다. 이는 모델 평가에서 일관성을 보장하며, 라이브 웹의 상태를 피한다.

에이전트 아키텍처: ReAct와 RetroSearch

Deep Research Bench의 핵심에는 ReAct 아키텍처, 즉 “Reason + Act”가 있다. 이 방법은 인간 연구자가 문제를 해결하는 방식을 모방한다. 즉, 작업을 생각하고, 웹 검색과 같은 작업을 수행하고, 결과를 관찰한 다음 반복 또는 결론을 내리는지 결정한다.

이전 모델은 이 루프를 명시적으로 따르지만, 새로운 “생각” 모델은 프로세스를 더 유연하게 통합한다. 일관성을 보장하기 위해 DRB는 RetroSearch를 도입한다. 즉, 웹의 정적 버전이다. 라이브 인터넷을 사용하는 대신 에이전트는 웹 페이지의 커리된 아카이브에 접근한다. 이러한 아카이브는 Serper, Playwright, ScraperAPI와 같은 도구를 사용하여 스크레이핑한다. 규모는 인상적이다. 높은 복잡성 작업의 경우 “증거 수집”과 같은 작업에서 RetroSearch는 189,000 페이지 이상에 접근할 수 있다. 모든 페이지는 시간이 지남에 따라 고정되어 공정하고 재현 가능한 테스트 환경을 보장한다.

어느 AI 에이전트가 가장 잘 수행되는가?

모든 경쟁자 중에서 OpenAI의 o3이最高 성능을 보였다. Deep Research Bench에서 1.0 중 0.51을 달성했다. 이는 MODEST한 것으로 보일 수 있지만, 벤치마크의 난이도를 이해하는 것이 중요하다. 작업 정의와 평가의 모호성으로 인해, даже 완벽한 에이전트도 0.8 근처에서 최대치에 도달할 가능성이 있다. 즉, 현재의 최고 모델도 여전히 잘 информ된, 방법론적인 인간 연구자에 비해 부족하다.

그러나 리더보드는 밝은 통찰력을 제공한다. o3는 패키지를 이끌었고, 거의 모든 작업 유형에서 강력한 성능을 보여주었다. Anthropic의 Claude 3.7 Sonnet은 “생각” 및 “비생각” 모드 모두에서 유연성을 보여주었다. Google의 Gemini 2.5 Pro는 구조화된 계획 및 단계별推論이 필요한 작업을 처리하는 능력으로 두드러졌다. 한편, 오픈 웨이트 DeepSeek-R1은 기쁜驚き를 제공했다. GPT-4 Turbo와 성능 격차를 좁히며, 오픈 및 클로즈드 모델 사이의 성능 격차를 좁혔다.

전반적으로, 명확한 패턴이 나타났다. 새로운 “생각” 모델은 일관되게 이전 모델보다 성능이 좋았다. 클로즈드 소스 모델은 오픈 웨이트 대안보다 đáng kể한 우위를 유지했다.

에이전트가 어려움을 겪는 곳은 어디인가?

Deep Research Bench 리포트에서 강조된 실패 패턴을 읽는 것은 놀랍게도 익숙했다. 특히 연구 또는 콘텐츠 생성 세션에서 긴 시간을 보낸 후에, AI 에이전트가 단순히 우리가 무엇을 하고 있었는지 잊어버리는 경우가 있다. 컨텍스트 창이 늘어나면, 모델은 종종 스레드를 잃기 시작한다. 주요 세부 사항이 사라지고, 목표가混沌해지며, 응답은 비연결되거나 목적이 없게 느껴진다. 어느 시점에, 나는 종종 모든 것을 새로 시작하는 것이 더 낫다는 것을 알게 되었다. 즉, 생성된 모든 것을 삭제하는 것이 더 낫다.

그런 종류의健忘症은 단순한 ан에콜드가 아니다. Deep Research Bench 평가에서 가장 중요한 실패 예측이다. 그러나 그것은 유일한 반복되는 문제가 아니다. 리포트는 또한 일부 모델이 반복적인 도구 사용에 빠지거나, 동일한 검색을 반복적으로 수행하는 것을 보여준다. 다른 모델은 비판적으로 검색하는 대신 키워드 일치만 하는 경향이 있다. 그리고 너무 souvent, 에이전트는 조기 결론에 빠지게 된다. 즉, 기술적으로 체크박스를 클릭하지만, 실제 통찰력을 제공하지 못한다.

최상위 모델에서도 차이점은 뚜렷하다. GPT-4 Turbo는 이전 단계를 잊는 경향을 보여주었다. 반면 DeepSeek-R1은 더 많이 허구의 정보를 생성하거나, 실제와 다르게 들리지만, 잘못된 정보를 생성하는 경향이 있었다. 전반적으로, 모델은 종종 출처를 교차 확인하거나, 결과를 검증하기 전에 출력을 완료했다. 이러한 문제는 nghiêm重하다. 이는 실제 연구에서 에이전트가 인간과 같이 생각하고 연구할 수 있도록 하는데 얼마나 멀었는지 보여준다.

기억 기반 성능은 어떠한가?

흥미롭게도, Deep Research Bench는 또한 “도구 없는” 에이전트를 평가했다. 즉, 외부 도구에 접근할 수 없는 언어 모델이다. 이러한 에이전트는 내부 훈련 데이터와 메모리만을 사용하여 답변을 생성한다. 즉, 웹을 검색하거나 정보를 확인할 수 없다. 훈련 중에 배운 내용만으로 추측한다.

놀랍게도, 이러한 도구 없는 에이전트는 특정 작업에서 거의 전체 연구 에이전트와 같은 성능을 보였다. 예를 들어, 주장 검증 작업에서, 즉 진실성 평가를 목표로 하는 경우, 0.61의 점수를 얻었다. 이는 도구가 가능한 에이전트의 평균인 0.62와 거의 일치한다. 이는 o3 및 Claude와 같은 모델이 강한 내부적 사전 지식과 공통적인 주장을 확인할 수 있음을 시사한다.

그러나 더 어려운 작업의 경우, 예를 들어, 여러 소스에서 값을 조각조각 모으는 Derive Number 또는 Gather Evidence와 같은 작업에서, 이러한 도구 없는 모델은 완전히 분해되었다. 최신 정보나 실시간 조회 기능이 없으면, 정확하거나 포괄적인 답변을 생성할 수 없었다.

이 대조는 중요한ニュアンス를 강조한다. 오늘날의 LLMs는 많은 것을 “알고” 있는 것을 시뮬레이션할 수 있지만, 깊은 연구는 단순히 회상에만 의존하지 않는다. 즉, 최신의 검증 가능한 정보와 함께 推論하는 것이 필요하다. 이것은 도구를 사용하는 에이전트만이真正로 제공할 수 있다.

최종 생각

DRB 리포트는 한 가지를 분명히 한다. 오늘날의 최고 AI 에이전트는 狭い 정의된 작업에서 평균 인간을 초과할 수 있지만, 여전히 전략적으로 계획하고, 중간에 적응하며, 微妙하게 推論하는 데에는 뒤처진다. 특히, 장기간 또는 복잡한 세션에서 그렇다.

이 격차는 특히 장기간 또는 복잡한 세션에서明显하다. 에이전트는 작업의 목적을 잃어버리기 시작하며, 일관성과 유용성이 부족해진다.

Deep Research Bench가 इतन 가치 있는 이유는, 그것이 표면적인 지식만을 테스트하지 않는다는 것이다. 즉, 도구 사용, 메모리, 推論, 그리고 적응의 교차점을 조사한다. 이는 실제 세계의 연구에 더 가까운 아날로그를 제공한다. MMLU 또는 GSM8k와 같은 벤치마크와는 다르다.

LLMs가 지식 작업에 통합됨에 따라, FutureSearch의 도구인 DRB는 이러한 시스템이 실제로 무엇을 알고 있는지 평가하는 데 필수적이다. 즉, 이러한 시스템이 실제로 어떻게 작동하는지 평가하는 데 필요하다.

Related Topics:benchmark FutureSearch LLM

Antoine Tardif, CEO & Founder of Unite.AI

앙투안은 Unite.AI의 비전있는 리더이자 공동 창립자로서, AI와 로봇공학의 미래를 형성하고 촉진하는 데 대한 불변의 열정에 의해 추동됩니다. 연쇄적인 기업가로서, 그는 AI가 사회에 대한 전기와 같은 파괴력을 가질 것이라고 믿으며, 종종 파괴적인 기술과 AGI의 잠재력에 대해 열광합니다.

作为 futurist, 그는 이러한 혁신이 우리의 세계를 어떻게 형성할지 탐구하는 데 전념하고 있습니다. 또한, 그는 Securities.io의 창립자로서, 미래를 재정의하고 전체 부문을 재형성하는 최첨단 기술에 투자하는 플랫폼입니다.