Искусственный интеллект

Насколько хорошо AI-агенты выполняют реальные исследования? Внутри отчета Deep Research Bench

Published June 2, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

По мере того, как большие языковые модели (LLM) быстро эволюционируют, растет и их обещание как мощных помощников в исследованиях. Все чаще они не только отвечают на простые фактические вопросы, но и решают задачи “глубоких исследований”, которые включают многоступенчатое рассуждение, оценку противоречивой информации, поиск данных по всему интернету и синтез их в связный вывод.

Эта возникающая возможность сейчас продвигается под разными брендовыми названиями крупными лабораториями – OpenAI называет ее “Глубокими исследованиями”, Anthropic именует ее “Расширенным мышлением”, Gemini от Google предлагает функции “Поиск + Pro”, а Perplexity обозначает свою как “Продвинутый поиск” или “Глубокие исследования”. Но насколько эффективны эти предложения на практике? Новый отчет FutureSearch, озаглавленный Deep Research Bench (DRB): Оценка веб-агентов исследований, предлагает наиболее строгую оценку на сегодняшний день – и результаты показывают как впечатляющие возможности, так и критические недостатки.

Что такое Deep Research Bench?

Созданный командой FutureSearch, Deep Research Bench – это тщательно сконструированный эталон, предназначенный для оценки производительности AI-агентов в многоступенчатых, веб-ориентированных задачах исследований. Это не простые вопросы с прямыми ответами – они отражают запутанные, открытые проблемы, с которыми сталкиваются аналитики, политики и исследователи в реальных условиях.

Эталон включает 89 различных задач по 8 категориям, таким как:

Найти число: например, “Сколько отзывов медицинских устройств класса II FDA произошло?”
Проверить утверждение: например, “Является ли ChatGPT в 10 раз более энергоемким, чем поиск Google?”
Собрать набор данных: например, “Тенденции занятости разработчиков программного обеспечения в США за 2019-2023 годы”

Каждый тип задачи тщательно структурирован с человечески верифицированными ответами и оценивается с помощью замороженного набора веб-страниц, известного как RetroSearch. Это обеспечивает последовательность в оценке моделей, избегая колеблющегося состояния живого интернета.

Архитектура агента: ReAct и RetroSearch

В сердце Deep Research Bench лежит архитектура ReAct, что означает “Рассуждение + Действие”. Этот метод имитирует, как человеческий исследователь мог бы решить проблему – подумав над задачей, выполнив действие, такое как веб-поиск, наблюдая результаты и затем решая, следует ли продолжать или завершить.

Хотя более ранние модели следуют этому циклу явно, новые “мышление”-модели часто упрощают процесс, более жидко встраивая рассуждение в свои действия. Чтобы обеспечить последовательность в оценках, DRB вводит RetroSearch – специально созданную, статическую версию веба. Вместо того, чтобы полагаться на живой интернет, который постоянно меняется, агенты подключаются к отобранному архиву веб-страниц, полученному с помощью инструментов, таких как Serper, Playwright и ScraperAPI. Масштаб впечатляет: для задач высокой сложности, таких как “Собрать доказательства”, RetroSearch может предоставить доступ к более чем 189 000 страниц, все замороженные во времени, обеспечивая справедливую и воспроизводимую среду тестирования.

Какие AI-агенты показывают лучшие результаты?

Среди всех претендентов о3 от OpenAI показал себя лучшим, набрав 0,51 из возможных 1,0 на Deep Research Bench. Хотя это может показаться скромным, важно понять сложность эталона: из-за двусмысленности в определениях задач и оценке даже идеальный агент, скорее всего, достигнет потолка около 0,8 – что исследователи называют “потолком шума”. Другими словами, даже лучшие модели сегодня все еще отстают от хорошо информированных, методичных человеческих исследователей.

Тем не менее, таблица лидеров предлагает откровенные идеи. о3 не только возглавил группу, но и сделал это с быстротой и последовательностью, показав сильную производительность почти во всех типах задач. Claude 3.7 Sonnet от Anthropic последовал за ним, продемонстрировав универсальность как в “мышлении”, так и в “немышлении” режимах. Gemini 2.5 Pro, флагманская модель Google, выделилась своей способностью обрабатывать задачи, требующие структурированного планирования и многоступенчатого рассуждения. Тем временем, открытый DeepSeek-R1 принес приятный сюрприз, идущий в ногу с GPT-4 Turbo и сокращая разрыв в производительности между открытыми и закрытыми моделями.

По всей доске возникла четкая закономерность: новые, “думająщие” модели последовательно превосходили своих более ранних аналогов, и закрытые модели сохраняли заметное преимущество над открытыми альтернативами.

Где агенты испытывают трудности?

Чтение через закономерности неудач, выделенные в отчете Deep Research Bench, показалось удивительно знакомым. Одним из самых раздражающих аспектов, с которыми я лично столкнулся – особенно во время длинных исследовательских или творческих сессий, – является когда AI-агент просто забывает, над чем мы работали. По мере того, как контекстное окно растягивается, модель часто начинает терять нить: ключевые детали исчезают, цели становятся запутанными, и вдруг ответы кажутся несвязанными или бессмысленными. В какой-то момент я понял, что часто лучше прекратить потери и начать все заново, даже если это означает отказ от всего, что было сгенерировано до этого.

Такая забывчивость не только анекдотична – это наиболее значимый предиктор неудачи в оценке Deep Research Bench. Но это не единственная повторяющаяся проблема. Отчет также подчеркивает, как некоторые модели попадают в повторяющееся использование инструментов, запуская один и тот же поиск снова и снова, как будто застряли в цикле. Другие демонстрируют плохое формирование запросов, лениво сопоставляя ключевые слова вместо критического мышления о том, как эффективно искать. И слишком часто агенты становятся жертвами преждевременных выводов – доставляя полуformed ответ, который технически удовлетворяет требованию, но не достигает реального прозрения.

Даже среди лучших моделей различия резки. GPT-4 Turbo, например, показал заметную тенденцию забывать предыдущие шаги, в то время как DeepSeek-R1 был более склонен галлюцинировать или изобретать правдоподобно звучащую, но неверную информацию. По всей доске модели часто не смогли проверить источники или подтвердить свои находки перед окончательным выводом. Для всех, кто полагался на AI для серьезной работы, эти проблемы будут казаться слишком знакомыми – и они подчеркивают, как далеко мы еще должны продвинуться в построении агентов, которые могут действительно мыслить и исследовать, как люди.

Что насчет показателей, основанных на памяти?

Интересно, что Deep Research Bench также оценил, что он называет “безинструментальными” агентами – языковые модели, работающие без доступа к внешним инструментам, таким как веб-поиск или извлечение документов. Эти агенты полагаются исключительно на свои внутренние данные обучения и память, генерируя ответы, основанные только на том, что они узнали во время обучения. На практике это означает, что они не могут ничего искать или проверять информацию – они угадывают, основываясь на том, что они “помнят”.

Удивительно, что эти безинструментальные агенты показали почти такую же производительность, как и полноценные исследовательские агенты, на определенных задачах. Например, на задаче “Проверить утверждение” – где цель состоит в том, чтобы оценить правдоподобность утверждения – они набрали 0,61, почти совпадая с средним показателем 0,62 для агентов с инструментами. Это говорит о том, что модели, такие как о3 и Claude, имеют сильные внутренние приоры и могут часто распознавать истинность общих утверждений без необходимости поиска в интернете.

Но на более требовательных задачах – таких как “Получить число”, которое требует сборки нескольких значений из различных источников, или “Собрать доказательства”, которое зависит от нахождения и оценки разнообразных фактов в контексте – эти безинструментальные модели полностью развалились. Без свежей информации или возможностей реального времени они просто не имели средств для производства точных или всесторонних ответов.

Этот контраст подчеркивает важную нюанс: хотя современные LLM могут имитировать “знание” многое, глубокие исследования зависят не только от воспоминания, но и от рассуждения с актуальной, проверяемой информацией – что могут обеспечить только инструментально-усиленные агенты.

Заключительные мысли

Отчет DRB делает одно ясным: хотя лучшие AI-агенты сегодня могут опережать средних людей на узко определенных задачах, они все еще отстают от опытных универсальных исследователей – особенно когда речь идет о стратегическом планировании, адаптации в процессе и нюансированном рассуждении.

Этот разрыв становится особенно очевидным во время длинных или сложных сессий – что я испытал лично, когда агент постепенно теряет цель задачи, что приводит к разочаровывающему разрушению связности и полезности.

Что делает Deep Research Bench так ценным, так это то, что он не только тестирует поверхностные знания – он исследует пересечение использования инструментов, памяти, рассуждения и адаптации, предлагая более близкий аналог реальных исследований, чем эталоны, такие как MMLU или GSM8k.

По мере того, как LLM продолжают интегрироваться в серьезную работу с знаниями, инструменты FutureSearch, такие как DRB, будут необходимы для оценки не только того, что эти системы знают, но и того, насколько хорошо они действительно работают.

Related Topics:benchmark FutureSearch LLM

Antoine Tardif, CEO & Founder of Unite.AI

Антуан - видный лидер и сооснователь Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Как серийный предприниматель, он считает, что ИИ будет столь же разрушительным для общества, как электричество, и часто увлекается потенциалом разрушительных технологий и ИИ.

Как футуролог, он посвящен изучению того, как эти инновации изменят наш мир. Кроме того, он является основателем Securities.io, платформы, ориентированной на инвестиции в передовые технологии, которые переопределяют будущее и меняют целые сектора.