Штучний інтелект
Як добре працюють агенти штучного інтелекту в реальному дослідженні? Всередині звіту Deep Research Bench

Як більші моделі мови (LLM) швидко еволюціонують, так само еволюціонує їхнє обіцяння як потужних дослідницьких помічників. Все частіше вони не тільки відповідають на прості фактичні питання, але й займаються “глибокими дослідженнями”, які включають багатоступневе міркування, оцінку суперечливої інформації, пошуки даних у всьому інтернеті та синтезування їх у суцільний вивід.
Ця появляюча здатність зараз рекламується під різними брендовими назвами великими лабораторіями – OpenAI називають її “Глибоким дослідженням”, Anthropic називають її “Розширеним мисленням”, Google’s Gemini пропонує функції “Пошук + Pro”, а Perplexity позначає свої як “Професійний пошук” або “Глибоке дослідження”. Але наскільки ефективні ці пропозиції на практиці? Новий звіт FutureSearch, озаглавлений Deep Research Bench (DRB): Оцінка веб-дослідницьких агентів, пропонує найсуворіше оцінювання на сьогодні – і результати показують як вражаючі можливості, так і критичні недоліки.
Що таке Deep Research Bench?
Створений командою FutureSearch, Deep Research Bench – це ретельно сконструйований бенчмарк, призначений для оцінки продуктивності агентів штучного інтелекту при виконанні багатоступеневих веб-досліджень. Це не прості питання з прямими відповідями – вони відображають заплутані, відкриті виклики, з якими стикаються аналітики, політики та дослідники в реальних умовах.
Бенчмарк включає 89 окремих завдань у 8 категоріях, таких як:
- Знайти число: наприклад, “Скільки відзивів медичних приладів класу II FDA відбулося?”
- Перевірити твердження: наприклад, “Чи є ChatGPT у 10 разів більш енергозатратним, ніж Google Search?”
- Складання набору даних: наприклад, “Тенденції зайнятості розробників програмного забезпечення в США з 2019 по 2023 рік”
Кожен тип завдання ретельно структурований з людською перевіркою відповідей та оцінюється за допомогою замороженого набору веб-сторінок, відомого як RetroSearch. Це забезпечує узгодженість під час оцінки моделей, уникнувши коливань стану живого інтернету.
Архітектура агента: ReAct і RetroSearch
У серці Deep Research Bench лежить архітектура ReAct, скорочення від “Розум + Дія”. Цей метод імітує те, як людський дослідник міг би підходити до проблеми – подумавши про завдання, виконавши дію, наприклад, виконання веб-пошуку, спостереження результатів, а потім вирішивши, чи продовжувати чи закінчити.
Хоча раніше моделі слідували цій петлі явно, новіші “думаючі” моделі часто спрощують процес, вкладаючи міркування більш плавно у свої дії. Для забезпечення узгодженості під час оцінки DRB вводить RetroSearch – спеціально створену, статичну версію інтернету. Замість того, щоб покладатися на живий інтернет, який постійно змінюється, агенти звертаються до кураторської архіву веб-сторінок, отриманих за допомогою інструментів, таких як Serper, Playwright та ScraperAPI. Масштаб вражаючий: для завдань високої складності, таких як “Зібрати докази”, RetroSearch може надати доступ до понад 189 000 сторінок, всі заморожені в часі, забезпечуючи справедливе та репліковане середовище тестування.
Які агенти штучного інтелекту виконують найкраще?
Серед усіх учасників виділився OpenAI’s o3, який став найкращим виконавцем, набравши 0,51 з можливих 1,0 на Deep Research Bench. Хоча це може здатися скромним, важливо зрозуміти складність бенчмарка: через двозначність у визначення завдань та оцінювання, навіть ідеальний агент, ймовірно, досягне максимуму близько 0,8 – те, що дослідники називають “стельовим шумом”. Інакше кажучи, навіть найкращі моделі сьогодні все ще не дотягують до добреінформованих, методичних людських дослідників.
Все ж таки, таблиця лідерів пропонує відкривальні знання. o3 не тільки очолив групу, але й зробив це з швидкістю та узгодженістю, демонструючи сильну продуктивність майже у всіх типах завдань. Claude 3.7 Sonnet від Anthropic слідував близько, демонструючи універсальність у своїх “думаючих” та “недумаючих” режимах. Gemini 2.5 Pro, флагманська модель Google, виділилася своєю здатністю виконувати завдання, які вимагають структурованого планування та багатоступеневого міркування. Тоді як відкритий DeepSeek-R1 приніс приємну несподіванку – тримаючи темп з GPT-4 Turbo та звужуючи прогалину у продуктивності між відкритими та закритими моделями.
Загалом, чіткий шаблон виник: новіші “думаючі” моделі постійно перевершували своїх попередників, а закриті моделі зберігали помітну перевагу над відкритими альтернативами.
Де агенти зазнають труднощів?
Читання через шаблони невдач, виділені у звіті Deep Research Bench, відчувалося дивно знайомим. Одним з найбільш розчаровуючих аспектів, з якими я особисто стикався – особливо під час довгих досліджень або сесій створення контенту – це коли агент штучного інтелекту просто забуває, що ми робили. Коли вікно контексту розтягується, модель часто починає втрачати нитку: ключові деталі зникають, цілі заплутуються, і раптом відповіді відчуваються роз’єднаними або безцільними. У якийсь момент я навчився, що часто краще перервати та почати заново, навіть якщо це означає викидання всього, що було згенеровано до цього.
Такий забуття не тільки анекдотичний – це найважливіший передбачувач невдачі у оцінюванні Deep Research Bench. Але це не єдина повторювана проблема. Звіт також підкреслює, як деякі моделі потрапляють у повторне використання інструментів, повторюючи той самий пошук знову і знову, як ніби застрягли у петлі. Інші демонструють погану форму запитів, ледве ключово-відповідні, замість того, щоб критично думати про те, як ефективно шукати. І надто часто агенти стають жертвами передчасних висновків – доставляючи напівутворену відповідь, яка технічно перевіряє коробку, але не дотягує до справжнього осяяння.
Дажи серед топ-моделей різниці явні. GPT-4 Turbo, наприклад, показав помітну схильність забувати попередні кроки, тоді як DeepSeek-R1 був більш схильний до галюцинацій або вигадування правдоподібних, але неправильних, відомостей. Загалом, моделі часто не перевіряли джерела чи не підтверджували свої висновки перед остаточним виводом. Для тих, хто покладався на штучний інтелект для серйозної роботи, ці питання будуть відчуватися надто знайомими – і вони підкреслюють, як далеко нам ще потрібно піти у будівництві агентів, які можуть справді думати та досліджувати, як люди.
А що щодо результатів, заснованих на пам’яті?
Цікаво, що Deep Research Bench також оцінював те, що він називає “безінструментними” агентами – мовними моделями, які працюють без доступу до зовнішніх інструментів, таких як веб-пошук або пошук документів. Ці агенти покладаються повністю на свої внутрішні навчальні дані та пам’ять, генеруючи відповіді, засновані лише на тому, що вони раніше навчалися під час навчання. На практиці це означає, що вони не можуть шукати нічого або перевіряти інформацію – вони просто здогадуються, засновані на тому, що вони “запам’ятали”.
Дивно, що ці безінструментальні агенти показали майже таку саму продуктивність, як і повноцінні дослідницькі агенти на певних завданнях. Наприклад, на завданнях з перевірки твердження – де метою є оцінка правдоподібності твердження – вони набрали 0,61, майже збігшись із середнім показником 0,62 для агентів, оснащених інструментами. Це свідчить про те, що моделі, такі як o3 та Claude, мають сильні внутрішні припущення та можуть часто розпізнавати правдивість звичайних тверджень без потреби шукати в інтернеті.
Але на більш вимогливих завданнях – таких як отримання числа, яке вимагає складання кількох значень з різних джерел, або збору доказів, який залежить від пошуку та оцінки різноманітних фактів у контексті – ці безінструментальні моделі повністю розсипалися. Без свіжої інформації або можливостей реального часу вони просто не мали засобів для генерації точних або повних відповідей.
Цей контраст підкреслює важливу нюанс: хоча сучасні LLM можуть імітувати “знаючу” багато, глибоке дослідження залежить не тільки від спогадів, але й від міркування з актуальною, перевіреною інформацією – щось, чого можуть досягти лише агенти, оснащені інструментами.
Остаточні думки
Звіт DRB робить одне питання ясним: хоча найкращі агенти штучного інтелекту сьогодні можуть обігнати середніх людей на вузько визначених завданнях, вони все ще відстають від кваліфікованих дослідників-універсалів – особливо коли йдеться про стратегічне планування, адаптацію в процесі та нюансування міркування.
Ця прогалина стає особливо очевидною під час довгих або складних сесій – щось, з чим я стикнувся особисто, коли агент поступово втрачав нитку завдання, що призводило до розчаровуючого розриву у узгодженості та корисності.
Що робить Deep Research Bench так цінним, це те, що воно не тільки перевіряє поверхневі знання – воно досліджує перетин використання інструментів, пам’яті, міркування та адаптації, пропонуючи ближчу аналогію до реального дослідження, ніж бенчмарки, такі як MMLU або GSM8k.
Оскільки LLM продовжують інтегруватися у серйозну роботу з знаннями, інструменти FutureSearch, такі як DRB, будуть життєво важливими для оцінки не тільки того, що ці системи знають, але й того, як добре вони справляються.










