Povežite se s nama

Umjetna inteligencija

Koliko su dobri AI agenti u stvarnom istraživanju? Izvješće Deep Research Bench

mm

As veliki jezični modeli (LLM) Kako se brzo razvijaju, tako raste i njihov potencijal kao moćnih istraživačkih asistenata. Sve više ne odgovaraju samo na jednostavna činjenična pitanja - već se bave zadacima "dubokog istraživanja", koji uključuju višestepeno zaključivanje, procjenu proturječnih informacija, prikupljanje podataka s weba i njihovo sintetiziranje u koherentan rezultat.

Ovu novu sposobnost sada veliki laboratoriji prodaju pod različitim robnim markama - OpenAI je naziva "Deep Research", Anthropic je naziva "Extended Thinking", Googleov Gemini nudi značajke "Search + Pro", a Perplexity svoje naziva "Pro Search" ili "Deep Research". Ali koliko su ove ponude učinkovite u praksi? Novo izvješće FutureSearch, Pod naslovom Deep Research Bench (DRB): Evaluacija agenata za web istraživanje, nudi do sada najrigorozniju evaluaciju - a rezultati otkrivaju i impresivne mogućnosti i kritične nedostatke.

Što je klupa za duboko istraživanje?

Deep Research Bench, koji je kreirao tim FutureSearcha, pomno je konstruiran benchmark osmišljen za procjenu učinkovitosti AI agenata na višekoračnim, web-baziranim istraživačkim zadacima. To nisu jednostavna pitanja s izravnim odgovorima - ona odražavaju neuredne, otvorene izazove s kojima se suočavaju analitičari, kreatori politika i istraživači u stvarnim okruženjima.

Mjerilo uključuje 89 različitih zadataka u 8 kategorija kao što su:

  • Pronađite brojnpr. „Koliko je medicinskih uređaja klase II od strane FDA bilo opoziva?“
  • Potvrdi tvrdnjunpr. „Je li ChatGPT 10 puta energetski intenzivniji od Google pretraživanja?“
  • Kompiliraj skup podatakanpr. „Trendovi u zapošljavanju američkih softverskih programera od 2019. do 2023.“

Svaka vrsta zadatka pažljivo je strukturirana s ljudski provjerenim odgovorima i evaluirana korištenjem zamrznutog skupa podataka sa skidanih web stranica, poznatog kao RetroSearch. To osigurava dosljednost u evaluacijama modela, izbjegavajući fluktuirajuće stanje aktivnog weba.

Arhitektura agenta: ReAct i RetroSearch

U srži Deep Research Bencha leži ReAct arhitektura, skraćenica za „Reason + Act“ (Razum + Djelovanje). Ova metoda oponaša način na koji bi ljudski istraživač mogao riješiti problem - razmišljanjem o zadatku, poduzimanjem radnje poput pretraživanja weba, promatranjem rezultata, a zatim odlukom hoće li ponoviti ili zaključiti.

Dok raniji modeli eksplicitno slijede ovu petlju, noviji modeli „razmišljanja“ često pojednostavljuju proces, fluidnije ugrađujući razmišljanje u svoje radnje. Kako bi se osigurala dosljednost među evaluacijama, DRB uvodi RetroSearch - prilagođenu, statičnu verziju weba. Umjesto da se oslanjaju na živi internet, koji se stalno mijenja, agenti koriste kuriranu arhivu web stranica prikupljenih pomoću alata poput Serper, dramaturgi ScraperAPIRazmjeri su impresivni: za zadatke visoke složenosti poput „Prikupljanja dokaza“, RetroSearch može omogućiti pristup više od 189,000 XNUMX stranica, sve zamrznute u vremenu, osiguravajući pravedno i ponovljivo okruženje za testiranje.

Koji AI agenti postižu najbolje rezultate?

Među svim natjecateljima, OpenAI-jev o3 istaknuo se kao najbolji, postigavši ​​rezultat od 0.51 od mogućih 1.0 na Deep Research Benchu. Iako to možda zvuči skromno, važno je razumjeti teškoću ovog mjerila: zbog nejasnoća u definicijama zadataka i bodovanju, čak bi i besprijekoran agent vjerojatno dosegao maksimum od oko 0.8 - ono što istraživači nazivaju "plafonom šuma". Drugim riječima, čak ni najbolji modeli danas još uvijek ne uspijevaju dostići dobro informirane, metodične ljudske istraživače.

Ipak, ljestvica najboljih nudi otkrivajuće uvide. o3 ne samo da je predvodio skupinu, već je to činio brzinom i dosljednošću, pokazujući snažne performanse u gotovo svim vrstama zadataka. Claude 3.7 Sonnet iz Anthropica slijedio ga je u stopu, demonstrirajući svestranost i u svojim "razmišljajućim" i "nerazmišljajućim" načinima rada. Gemini 2.5 Pro, Googleov vodeći model, istaknuo se svojom sposobnošću rješavanja zadataka koji zahtijevaju strukturirano planiranje i postupno zaključivanje. U međuvremenu, DeepSeek-R1 otvorene kategorije donio je ugodno iznenađenje - držeći korak s GPT-4 Turbo i smanjujući jaz u performansama između otvorenih i zatvorenih modela.

U svim područjima pojavio se jasan obrazac: noviji modeli „omogućeni razmišljanjem“ dosljedno su nadmašivali svoje ranije ekvivalente, a modeli zatvorenog koda zadržali su značajnu prednost u odnosu na alternative otvorene težine.

Gdje se agenti bore?

Čitanje obrazaca neuspjeha istaknutih u izvješću Deep Research Bencha djelovalo je iznenađujuće poznato. Jedan od najfrustrirajućih aspekata s kojima sam se osobno susreo - posebno tijekom dugih istraživanja ili sesija stvaranja sadržaja - jest kada AI agent jednostavno zaboravi što smo radili. Kako se kontekstni prozor rasteže, model često počinje gubiti nit: ključni detalji blijede, ciljevi se brkaju i odjednom se odgovori čine nepovezanima ili besciljnima. U nekom trenutku naučio sam da je često bolje smanjiti gubitke i početi ispočetka, čak i ako to znači bacanje svega što je do sada generirano.

Takva vrsta zaboravnosti nije samo anegdota - to je najznačajniji prediktor neuspjeha u evaluaciji Deep Research Bencha. Ali to nije jedini problem koji se ponavlja. Izvješće također ističe kako neki modeli upadaju u repetitivno korištenje alata, iznova i iznova pokrećući istu pretragu kao da su zaglavljeni u petlji. Drugi pokazuju loše formuliranje upita, lijeno podudaranje ključnih riječi umjesto kritičkog razmišljanja o tome kako učinkovito pretraživati. I prečesto agenti postaju žrtve preuranjenih zaključaka - dajući poluformuliran odgovor koji tehnički odgovara, ali ne pruža pravi uvid.

Čak i među najboljim modelima, razlike su velike. GPT-4 Turbo, na primjer, pokazao je značajnu tendenciju zaboravljanja prethodnih koraka, dok je DeepSeek-R1 to pokazao veću vjerojatnost. halucinirati ili izmišljaju uvjerljive - ali netočne - informacije. Modeli su često propuštali unakrsno provjeriti izvore ili potvrditi nalaze prije finaliziranja svog rezultata. Za svakoga tko se oslanjao na umjetnu inteligenciju za ozbiljan rad, ovi će se problemi činiti previše poznatima - i oni naglašavaju koliko još moramo ići u izgradnji agenata koji zaista mogu razmišljati i istraživati ​​poput ljudi.

Što je s performansama temeljenim na memoriji?

Zanimljivo je da je Deep Research Bench također procijenio ono što naziva „agentima bez alata“ – jezičnim modelima koji rade bez ikakvog pristupa vanjskim alatima, poput pretraživanja weba ili pronalaženja dokumenata. Ti se agenti u potpunosti oslanjaju na svoje interne podatke i memoriju za obuku, generirajući odgovore isključivo na temelju onoga što su prethodno naučili tijekom obuke. U praksi to znači da ne mogu ništa pretraživati ​​ili provjeravati informacije – nagađaju na temelju onoga što se „sjećaju“.

Iznenađujuće, ovi agenti bez alata postigli su gotovo jednako dobre rezultate kao i potpuni istraživački agenti na određenim zadacima. Na primjer, na zadatku Validacija tvrdnje - gdje je cilj procijeniti vjerodostojnost izjave - postigli su rezultat od 0.61, što je gotovo jednako prosjeku od 0.62 za agente s alatima. To sugerira da modeli poput o3 i Claude imaju snažne unutarnje apriorne vjerojatnosti i često mogu prepoznati istinitost uobičajenih tvrdnji bez potrebe za pretraživanjem weba.

Ali kod zahtjevnijih zadataka - poput Izvođenja brojeva, koji zahtijeva spajanje više vrijednosti iz različitih izvora, ili Prikupljanja dokaza, koji ovisi o pronalaženju i procjeni različitih činjenica u kontekstu - ovi modeli bez alata potpuno su se raspali. Bez svježih informacija ili mogućnosti pretraživanja u stvarnom vremenu, jednostavno su im nedostajala sredstva za davanje točnih ili sveobuhvatnih odgovora.

Ovaj kontrast ističe važnu nijansu: dok današnji LLM-ovi mogu simulirati mnogo „znanja“, dubinsko istraživanje ne ovisi samo o prisjećanju, već i o zaključivanju s ažurnim, provjerljivim informacijama - nešto što samo alatima prošireni agenti mogu doista pružiti.

Final Misli

Izvješće DRB-a jasno daje do znanja jednu stvar: iako današnji najbolji AI agenti mogu nadmašiti prosječne ljude u usko definiranim zadacima, oni i dalje zaostaju za vještim generalističkim istraživačima - posebno kada je riječ o strateškom planiranju, prilagodbi usred procesa i nijansiranom rasuđivanju.

Taj jaz postaje posebno očit tijekom dugih ili složenih sesija - nešto što sam iskusio iz prve ruke, gdje agent postupno gubi pojam o svrsi zadatka, što dovodi do frustrirajućeg sloma koherentnosti i korisnosti.

Što čini Klupa za duboko istraživanje Toliko je vrijedan da ne testira samo površno znanje - istražuje presjek korištenja alata, pamćenja, rasuđivanja i prilagodbe, nudeći bliži analog istraživanju iz stvarnog svijeta od mjerila poput MMLU-a ili GSM8k.

Kako se LLM nastavlja integrirati u ozbiljan znanstveni rad, FutureSearch Alati poput DRB-a bit će ključni za procjenu ne samo onoga što ti sustavi znaju, već i koliko dobro zapravo funkcioniraju.

Antoine je vizionarski vođa i partner u osnivanju Unite.AI, vođen nepokolebljivom strašću za oblikovanjem i promicanjem budućnosti umjetne inteligencije i robotike. Kao serijski poduzetnik, on vjeruje da će AI biti razoran za društvo kao i električna energija, i često ga se uhvati kako bjesni o potencijalu disruptivnih tehnologija i AGI-ja.

Kao futurist, posvećen je istraživanju kako će ove inovacije oblikovati naš svijet. Osim toga, on je osnivač Vrijednosni papiri.io, platforma usmjerena na ulaganje u vrhunske tehnologije koje redefiniraju budućnost i preoblikuju cijele sektore.