Sztuczna inteligencja

Jak dobrzy są agenci AI w prawdziwych badaniach? Wewnętrzny raport Deep Research Bench

Published June 2, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Podczas gdy duże modele językowe (LLM) ewoluują w szybkim tempie, rośnie również ich potencjał jako potężnych asystentów badawczych. Coraz częściej nie tylko odpowiadają na proste pytania faktograficzne, ale także podejmują się “głębokich badań”, które wymagają wieloetapowego rozumowania, oceny sprzecznych informacji, wyszukiwania danych z całego internetu i syntezowania ich w spójną odpowiedź.

Ta pojawiająca się możliwość jest obecnie promowana pod różnymi nazwami marki przez główne laboratoria – OpenAI nazywa to “Głębokimi Badaniami”, Anthropic odnosi się do niego jako “Rozszerzonego Myślenia”, Gemini Google oferuje funkcje “Wyszukiwanie + Pro”, a Perplexity nazywa je “Wyszukiwanie Pro” lub “Głębokimi Badaniami”. Ale jak skuteczne są te oferty w praktyce? Nowy raport FutureSearch, zatytułowany Deep Research Bench (DRB): Ocena agentów wyszukiwania internetowego, oferuje najbardziej rygorystyczną ocenę do tej pory – a wyniki ujawniają zarówno imponujące możliwości, jak i krytyczne braki.

Czym jest Deep Research Bench?

Stworzony przez zespół FutureSearch, Deep Research Bench to starannie skonstruowany benchmark zaprojektowany do oceny wydajności agentów AI w wieloetapowych zadaniach badawczych opartych na sieci. Nie są to proste pytania z prostymi odpowiedziami – odzwierciedlają one nieładne, otwarte wyzwania, z którymi spotykają się analitycy, decydenci i badacze w rzeczywistych sytuacjach.

Benchmark obejmuje 89 odrębnych zadań w 8 kategoriach, takich jak:

Znajdź Liczbę: np. “Ile odwołań urządzeń medycznych FDA Klasy II wystąpiło?”
Walidacja Oświadczenia: np. “Czy ChatGPT jest 10 razy bardziej energochłonne niż wyszukiwarka Google?”
Kompilacja Zestawu Danych: np. “Trendy zatrudnienia dla amerykańskich deweloperów oprogramowania w latach 2019-2023”

Każdy typ zadania jest starannie opracowany z ludzkimi, zweryfikowanymi odpowiedziami i oceniany przy użyciu zamrożonego zestawu danych ze stron internetowych, znanego jako RetroSearch. Zapewnia to spójność w ocenach modeli, unikając zmieniającego się stanu sieci.

Architektura Agentów: ReAct i RetroSearch

W sercu Deep Research Bench leży architektura ReAct, skrót od “Reason + Act”. Metoda ta naśladuje sposób, w jaki badacz może podejść do problemu – poprzez przemyślenie zadania, wykonanie akcji, takiej jak wyszukiwanie w sieci, obserwowanie wyników, a następnie decyzję, czy kontynuować czy zakończyć.

Podczas gdy wcześniejsze modele wykonują tę pętlę wyraźnie, nowsze “myślące” modele często upraszczają proces, osadzając rozumowanie w sposób bardziej płynny w swoich działaniach. Aby zapewnić spójność w ocenach, DRB wprowadza RetroSearch – niestandardową, statyczną wersję sieci. Zamiast polegać na żywej sieci, która ciągle się zmienia, agenci korzystają z wyselekcjonowanego archiwum stron internetowych pobranych przy użyciu narzędzi takich jak Serper, Playwright i ScraperAPI. Skala jest imponująca: dla zadań o wysokiej złożoności, takich jak “Zbieranie Dowodów”, RetroSearch może zapewnić dostęp do ponad 189 000 stron, wszystkich zamrożonych w czasie, co gwarantuje uczciwe i powtarzalne środowisko testowe.

Które agenci AI wykonują najlepiej?

Wśród wszystkich uczestników o3 OpenAI wyszedł jako najlepszy wykonawca, uzyskując 0,51 na możliwe 1,0 w Deep Research Bench. Chociaż może to brzmieć skromnie, ważne jest zrozumienie trudności benchmarku: ze względu na niejasność w definicjach zadań i ocen, nawet idealny agent prawdopodobnie osiągnąłby maksymalnie 0,8 – co badacze nazywają “sufitem szumu”. Innymi słowy, nawet najlepsze modele dzisiaj wciąż mają braki w porównaniu z dobrze poinformowanymi, metodycznymi badaczami ludzkimi.

Jednak tabela liderów oferuje ujawniające spostrzeżenia. o3 nie tylko prowadził stado, ale robił to z prędkością i spójnością, pokazując silne wyniki we wszystkich rodzajach zadań. Claude 3.7 Sonnet z Anthropic śledził ściśle, demonstrując wszechstronność w trybach “myślenia” i “niemyślenia”. Gemini 2.5 Pro, flagowy model Google, wyróżnił się możliwością radzenia sobie z zadaniem wymagającym ustrukturyzowanego planowania i wieloetapowego rozumowania. Tymczasem otwarty model DeepSeek-R1 zaskoczył miłym zaskoczeniem – utrzymując tempo z GPT-4 Turbo i zmniejszając lukę w wydajności między modelem otwartym a zamkniętym.

Na całej linii wyłonił się wyraźny wzorzec: nowsze, “myślące” modele konsekwentnie przewyższały swoich poprzedników, a modele zamknięte utrzymywały znaczną przewagę nad alternatywami o otwartym wagomiarze.

Gdzie agenci mają trudności?

Czytanie wzorców niepowodzeń podkreślonych w raporcie Deep Research Bench wydawało się niezwykle znajome. Jednym z najbardziej frustrujących aspektów, które osobiście spotkałem – szczególnie podczas długich sesji badawczych lub tworzenia treści – jest to, kiedy agent AI po prostu zapomina, co robimy. Gdy okno kontekstowe się wydłuża, model często zaczyna tracić wątek: kluczowe szczegóły znikają, cele stają się niejasne, a odpowiedzi wydają się niezwiązane lub bezcelowe. W pewnym momencie nauczyłem się, że lepiej jest odpuścić i zacząć od nowa, nawet jeśli oznacza to wyrzucenie wszystkiego, co zostało wygenerowane do tej pory.

Tego rodzaju zapomnienie nie jest tylko anegdotyczne – jest to najważniejszy predykator niepowodzenia w ocenie Deep Research Bench. Ale nie jest to jedyny powtarzający się problem. Raport również podkreśla, jak niektóre modele wpadają w nawykowe użycie narzędzi, wielokrotnie wykonywane tego samego wyszukiwania, jakby utknęły w pętli. Inne pokazują słabą konstrukcję zapytań, leniwie dopasowując słowa kluczowe zamiast myśleć krytycznie o tym, jak skutecznie wyszukiwać. I zbyt często agenci ulegają przedwczesnym wnioskom – dostarczając półuformowaną odpowiedź, która technicznie spełnia wymóg, ale nie daje prawdziwych spostrzeżeń.

Nawet wśród najlepszych modeli różnice są wyraźne. GPT-4 Turbo, na przykład, wykazał zauważalną tendencję do zapominania poprzednich kroków, podczas gdy DeepSeek-R1 był bardziej skłonny do halucynacji lub wymyślania brzmiących prawdopodobnie, ale nieprawidłowych informacji. Na całej linii modele często nie sprawdzały źródeł ani nie weryfikowały ustaleń przed ostatecznym wygenerowaniem swojej odpowiedzi. Dla każdego, kto polegał na AI w poważnej pracy, te problemy będą wydawać się zbyt znajome – i podkreślają, jak daleko jeszcze mamy do przejścia w budowaniu agentów, które mogą naprawdę myśleć i badać jak ludzie.

Co z wydajnością opartą na pamięci?

Co ciekawe, Deep Research Bench również ocenił, co nazywa “bez narzędzi” agentami – modelami językowymi działającymi bez dostępu do zewnętrznych narzędzi, takich jak wyszukiwanie w sieci lub pobieranie dokumentów. Agenci ci polegają wyłącznie na swoich wewnętrznych danych szkoleniowych i pamięci, generując odpowiedzi oparte tylko na tym, czego się nauczyli podczas szkolenia. W praktyce oznacza to, że nie mogą niczego wyszukać ani zweryfikować informacji – są to zgadywanie na podstawie tego, co “pamiętają”.

Zaskakująco, agenci ci wykonali niemal tak dobrze, jak pełni agenci badawczy w pewnych zadaniach. Na przykład w zadaniu Walidacja Oświadczenia – gdzie celem jest ocena prawdopodobieństwa oświadczenia – uzyskali 0,61, niemal dopasowując się do średniej 0,62 agentów z narzędziami. Sugeruje to, że modele takie jak o3 i Claude mają silne wewnętrzne założenia i często mogą rozpoznać prawdziwość powszechnych oświadczeń bez potrzeby wyszukiwania w sieci.

Jednak w bardziej wymagających zadaniach – takich jak Wyprowadź Liczbę, które wymaga łączenia wielu wartości z różnych źródeł, lub Zbierz Dowody, które zależą od znajdowania i oceny różnorodnych faktów w kontekście – te bez narzędzi modele całkowicie rozpadły się. Bez świeżych informacji lub możliwości wyszukiwania w czasie rzeczywistym, po prostu nie mieli środków do produkcji dokładnych lub kompletnych odpowiedzi.

Ten kontrast podkreśla ważną nuansę: chociaż dzisiejsze LLM mogą symulować “wiedzę” o wielu rzeczach, głębokie badania zależą nie tylko od przypomnień, ale także od rozumowania z bieżącymi, weryfikowalnymi informacjami – czego tylko agenci z narzędziami mogą naprawdę dostarczyć.

Końcowe myśli

Raport DRB czyni jednoznacznie: chociaż najlepsi agenci AI dzisiaj mogą wyprzedzać przeciętnych ludzi w wąsko określonych zadaniach, wciąż pozostają w tyle za umiejętnymi, ogólnymi badaczami – szczególnie, gdy chodzi o planowanie strategiczne, adaptację w trakcie procesu i rozumowanie z nuansami.

Ta luka staje się szczególnie oczywista podczas długich lub złożonych sesji – co doświadczyłem osobiście, gdzie agent stopniowo traci cel zadania, prowadząc do frustrującego rozpadu spójności i użyteczności.

To, co sprawia, że Deep Research Bench jest tak cenne, polega na tym, że nie testuje tylko powierzchniowej wiedzy – on sonduje przecięcie użycia narzędzi, pamięci, rozumowania i adaptacji, oferując bliższy analog do rzeczywistych badań niż benchmarki takie jak MMLU lub GSM8k.

Ponieważ LLM są coraz bardziej integrowane z poważną pracą wiedzy, narzędzia FutureSearch, takie jak DRB, będą niezbędne do oceny nie tylko tego, co te systemy wiedzą, ale także jak dobrze one naprawdę działają.

Related Topics:benchmark FutureSearch LLM

Antoine Tardif, CEO & Founder of Unite.AI

Antoine jest wizjonerskim liderem i współzałożycielem Unite.AI, z niezachwianą pasją do kształtowania i promowania przyszłości sztucznej inteligencji i robotyki. Jako serialowy przedsiębiorca, uważa, że sztuczna inteligencja będzie tak samo przełomowa dla społeczeństwa, jak elektryczność, i często zachwycany jest potencjałem technologie przełomowych i AGI. Jako futurysta, poświęca się badaniu, jak te innowacje ukształtują nasz świat. Ponadto jest założycielem Securities.io, platformy skupiającej się na inwestowaniu w najnowocześniejsze technologie, które przeobrażają przyszłość i zmieniają całe sektory.