Свяжитесь с нами:

Насколько хороши агенты ИИ в реальных исследованиях? Внутри отчета Deep Research Bench

Искусственный интеллект

Насколько хороши агенты ИИ в реальных исследованиях? Внутри отчета Deep Research Bench

mm

As большие языковые модели (LLM) быстро развиваются, так же как и их обещания как мощных помощников исследователей. Все чаще они не просто отвечают на простые фактические вопросы — они берутся за «глубокие исследовательские» задачи, которые включают многоэтапное рассуждение, оценку противоречивой информации, поиск данных по всему Интернету и их синтез в связный вывод.

Эта новая возможность теперь продается под разными торговыми марками крупными лабораториями — OpenAI называет ее «Deep Research», Anthropic называет ее «Extended Thinking», Gemini от Google предлагает функции «Search + Pro», а Perplexity называет свои «Pro Search» или «Deep Research». Но насколько эффективны эти предложения на практике? Новый отчет FutureSearch, Под названием Deep Research Bench (DRB): оценка агентов веб-исследований, предлагает самую строгую оценку на сегодняшний день, и результаты выявляют как впечатляющие возможности, так и критические недостатки.

Что такое Deep Research Bench?

Deep Research Bench, созданный командой FutureSearch, представляет собой тщательно проработанный бенчмарк, предназначенный для оценки эффективности ИИ-агентов при выполнении многоэтапных исследовательских задач в веб-среде. Это не простые вопросы с однозначными ответами — они отражают сложные и открытые задачи, с которыми сталкиваются аналитики, политики и исследователи в реальных условиях.

Тест включает 89 отдельных задач в 8 категориях, таких как:

  • Найти номер: например, «Сколько было отзывов медицинских изделий класса II по FDA?»
  • Подтвердить заявку: например, «ChatGPT потребляет в 10 раз больше энергии, чем Google Search?»
  • Компилировать набор данных: например, «Тенденции вакансий для разработчиков программного обеспечения в США в 2019–2023 годах»

Каждый тип задачи тщательно структурирован с проверенными человеком ответами и оценен с использованием замороженного набора данных из извлеченных веб-страниц, известного как RetroSearch. Это обеспечивает согласованность оценок модели, избегая флуктуирующего состояния живой сети.

Архитектура агента: ReAct и RetroSearch

В основе Deep Research Bench лежит архитектура ReAct, сокращение от «Reason + Act». Этот метод имитирует то, как исследователь-человек мог бы решать проблему — обдумывая задачу, предпринимая действия, например, выполняя поиск в Интернете, наблюдая за результатами, а затем решая, следует ли повторять или завершать работу.

В то время как более ранние модели следуют этому циклу явно, более новые модели «мышления» часто упрощают процесс, более плавно встраивая рассуждения в свои действия. Чтобы обеспечить согласованность оценок, DRB представляет RetroSearch — специально созданную статическую версию сети. Вместо того чтобы полагаться на живой интернет, который постоянно меняется, агенты подключаются к курируемому архиву веб-страниц, собранных с помощью таких инструментов, как Серпер, Драматург и СкребокAPIМасштаб впечатляет: для задач высокой сложности, таких как «Сбор доказательств», RetroSearch может предоставить доступ к более чем 189,000 XNUMX страниц, все из которых заморожены во времени, что гарантирует справедливую и воспроизводимую среду тестирования.

Какие агенты ИИ работают лучше всего?

Среди всех участников лучшим оказался o3 от OpenAI, набравший 0.51 из возможных 1.0 на Deep Research Bench. Хотя это может показаться скромным, важно понимать сложность бенчмарка: из-за неоднозначности в определениях задач и оценке даже безупречный агент, скорее всего, достигнет максимума около 0.8 — того, что исследователи называют «потолком шума». Другими словами, даже лучшие модели сегодня все еще не дотягивают до хорошо информированных, методичных исследователей-людей.

Тем не менее, таблица лидеров предлагает показательные идеи. o3 не только возглавил группу, но и сделал это с быстротой и последовательностью, показав высокую производительность практически во всех типах задач. Claude 3.7 Sonnet от Anthropic не отставал, демонстрируя универсальность как в «думающем», так и в «недумающем» режимах. Gemini 2.5 Pro, флагманская модель Google, выделялась своей способностью справляться с задачами, требующими структурированного планирования и пошагового рассуждения. Между тем, DeepSeek-R1 с открытым весом преподнес приятный сюрприз, не отставая от GPT-4 Turbo и сокращая разрыв в производительности между открытыми и закрытыми моделями.

В целом выявилась четкая закономерность: новые модели, «с поддержкой мышления», неизменно превосходили своих более ранних аналогов, а модели с закрытым исходным кодом сохраняли заметное преимущество над альтернативами с открытым весом.

Где агенты испытывают трудности?

Чтение шаблонов сбоев, выделенных в отчете Deep Research Bench, показалось мне удивительно знакомым. Один из самых неприятных аспектов, с которыми я лично столкнулся, особенно во время длительных сеансов исследования или создания контента, — это когда агент ИИ просто забывает, что мы делали. По мере того, как контекстное окно расширяется, модель часто начинает терять нить: ключевые детали исчезают, цели путаются, и внезапно ответы кажутся разрозненными или бесцельными. В какой-то момент я понял, что часто лучше сократить потери и начать с нуля, даже если это означает выбросить все, что было сгенерировано до сих пор.

Такая забывчивость не просто анекдотична — это самый существенный предиктор неудачи в оценке Deep Research Bench. Но это не единственная повторяющаяся проблема. В отчете также подчеркивается, как некоторые модели попадают в повторяющееся использование инструментов, снова и снова запуская один и тот же поиск, как будто застряв в цикле. Другие демонстрируют плохое создание запросов, ленивое сопоставление ключевых слов вместо того, чтобы критически думать о том, как искать эффективно. И слишком часто агенты становятся жертвами преждевременных выводов — предоставляя наполовину сформированный ответ, который технически соответствует требованиям, но не дает реального понимания.

Даже среди лучших моделей различия разительны. Например, GPT-4 Turbo показал заметную тенденцию забывать предыдущие шаги, тогда как DeepSeek-R1 был более склонен галлюцинировать или изобретать правдоподобно звучащую, но неверную информацию. По всем направлениям модели часто не могли перепроверить источники или подтвердить выводы перед финализацией своего вывода. Для любого, кто полагался на ИИ в серьезной работе, эти проблемы покажутся слишком знакомыми — и они подчеркивают, как много нам еще предстоит сделать в создании агентов, которые действительно могут думать и исследовать как люди.

А как насчет производительности, основанной на памяти?

Интересно, что Deep Research Bench также оценил так называемые «бесинструментальные» агенты — языковые модели, работающие без доступа к внешним инструментам, таким как веб-поиск или поиск документов. Эти агенты полностью полагаются на свои внутренние данные и память, генерируя ответы исключительно на основе того, что они узнали во время обучения. На практике это означает, что они не могут ничего искать или проверять информацию — они строят догадки, основываясь на том, что «помнят».

Удивительно, но эти агенты без инструментов справились с некоторыми задачами почти так же хорошо, как и агенты с полными исследовательскими возможностями. Например, в задании Validate Claim (где цель состоит в оценке правдоподобности утверждения) они набрали 0.61, что почти соответствует среднему баллу 0.62 у агентов с инструментами. Это говорит о том, что модели, такие как o3 и Claude, имеют сильные внутренние априорные данные и часто могут распознавать правдивость распространенных утверждений без необходимости поиска в Интернете.

Но на более сложных задачах, таких как Derive Number, которая требует объединения нескольких значений из разных источников, или Gather Evidence, которая зависит от поиска и оценки разнообразных фактов в контексте, эти модели без инструментов полностью развалились. Без свежей информации или возможностей поиска в реальном времени им просто не хватало средств для получения точных или всеобъемлющих ответов.

Этот контраст подчеркивает важный нюанс: в то время как сегодняшние обладатели степени магистра права могут имитировать «знание» многих вещей, глубокие исследования зависят не только от припоминания, но и от рассуждений с использованием актуальной, проверяемой информации — то, что по-настоящему могут обеспечить только агенты, оснащенные инструментами.

Заключение

Отчет DRB ясно показывает одно: хотя лучшие современные агенты ИИ могут превосходить среднестатистических людей в решении узко определенных задач, они все еще отстают от опытных исследователей-универсалов, особенно когда речь идет о стратегическом планировании, адаптации в ходе процесса и рассуждениях с учетом нюансов.

Этот разрыв становится особенно очевидным во время длительных или сложных сеансов — я испытал это на себе, когда агент постепенно теряет цель задачи, что приводит к раздражающему снижению связности и полезности.

То, что делает Стенд глубоких исследований Его ценность в том, что он не просто проверяет поверхностные знания — он исследует пересечение использования инструментов, памяти, рассуждений и адаптации, предлагая более близкий аналог реальному исследованию, чем такие тесты, как MMLU или GSM8k.

Поскольку LLM продолжают интегрироваться в серьезную работу в области знаний, FutureSearch Такие инструменты, как DRB, будут иметь важное значение для оценки не только того, что знают эти системы, но и того, насколько хорошо они на самом деле работают.

Антуан — дальновидный лидер и партнер-основатель Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Серийный предприниматель, он считает, что ИИ будет таким же разрушительным для общества, как электричество, и его часто ловят на том, что он восторженно отзывается о потенциале разрушительных технологий и AGI.

футурист, он посвятил себя изучению того, как эти инновации изменят наш мир. Кроме того, он является основателем Ценные бумаги.io, платформа, ориентированная на инвестиции в передовые технологии, которые меняют будущее и преобразуют целые секторы.