Connect with us

Cât de buni sunt agenții AI la cercetarea reală? În interiorul raportului Deep Research Bench

Inteligență artificială

Cât de buni sunt agenții AI la cercetarea reală? În interiorul raportului Deep Research Bench

mm

Pe măsură ce modelele de limbaj de mare capacitate (LLM) evoluează rapid, crește și promisiunea lor ca asistenți de cercetare puternici. Tot mai mult, ei nu mai răspund doar la întrebări factuale simple – ei abordează “cercetarea profundă” care implică raționamente multi-etapă, evaluarea informațiilor contradictorii, surse de date de pe întregul web și sintetizarea lor într-un output coerent.

Această capacitate emergentă este acum comercializată sub diferite nume de marcă de laboratoare majore – OpenAI o numește “Cercetare profundă”, Anthropic se referă la ea ca “Gândire extinsă”, Gemini de la Google oferă funcții “Căutare + Pro”, iar Perplexity o etichetează ca “Căutare Pro” sau “Cercetare profundă”. Dar cât de eficiente sunt aceste oferte în practică? Un raport nou de la FutureSearch, intitulat Deep Research Bench (DRB): Evaluarea agenților de cercetare web, oferă cea mai riguroasă evaluare până în prezent – și rezultatele arată atât capacități impresionante, cât și lipsuri critice.

Ce este Deep Research Bench?

Creat de echipa FutureSearch, Deep Research Bench este o benchmark construită cu atenție pentru a evalua performanța agenților AI la sarcini de cercetare pe web multi-etapă. Acestea nu sunt întrebări simple cu răspunsuri directe – ele reflectă provocările deschise și complexe cu care se confruntă analiștii, factorii de decizie și cercetătorii în mediile reale.

Benchmark-ul include 89 de sarcini distincte în 8 categorii, cum ar fi:

  • Găsește numărul: de exemplu, “Câte retrageri de dispozitive medicale de clasa a II-a FDA au avut loc?”
  • Validează afirmația: de exemplu, “Este ChatGPT de 10 ori mai energointensiv decât Google Search?”
  • Compilă setul de date: de exemplu, “Tendințe de locuri de muncă pentru dezvoltatorii de software din SUA din 2019-2023”

Fiecare tip de sarcină este structurat cu atenție, cu răspunsuri verificate de oameni și evaluate utilizând un set de date înghețat de pagini web extrase, cunoscute sub numele de RetroSearch. Acest lucru asigură consistență în evaluarea modelelor, evitând starea în schimbare a web-ului live.

Arhitectura agentului: ReAct și RetroSearch

La baza Deep Research Bench se află arhitectura ReAct, prescurtare de la “Reason + Act”. Această metodă imită modul în care un cercetător uman ar aborda o problemă – prin gândirea sarcinii, efectuarea unei acțiuni precum o căutare pe web, observarea rezultatelor și apoi decizia de a continua sau de a încheia.

În timp ce modelele anterioare urmează acest buclă în mod explicit, noile modele “de gândire” adesea simplifică procesul, integrând mai fluid raționamentul în acțiunile lor. Pentru a asigura consistența evaluărilor, DRB introduce RetroSearch – o versiune statică, personalizată a web-ului. În loc de a se baza pe internetul live, care se schimbă constant, agenții accesează o arhivă curată de pagini web extrase utilizând unelte precum Serper, Playwright și ScraperAPI. Scara este impresionantă: pentru sarcini complexe, cum ar fi “Adună dovezi”, RetroSearch poate oferi acces la peste 189.000 de pagini, toate înghețate în timp, asigurând un mediu de testare corect și reproductibil.

Care agenți AI performează cel mai bine?

Printre toți concurenții, OpenAI o3 a ieșit ca performerul de top, scorând 0,51 dintr-un total posibil de 1,0 la Deep Research Bench. Deși acest lucru ar putea părea modest, este important să înțelegem dificultatea benchmark-ului: din cauza ambiguității în definițiile sarcinilor și a scorării, chiar și un agent fără defecte probabil că ar atinge aproximativ 0,8 – ceea ce cercetătorii numesc “tavanul de zgomot”. Cu alte cuvinte, chiar și cele mai bune modele de astăzi încă se situează sub cercetătorii umani bine informați și metodic.

Totuși, clasamentul oferă perspective revelatoare. o3 nu numai că a condus grupul, dar a făcut-o cu viteză și consistență, arătând o performanță puternică în aproape toate tipurile de sarcini. Claude 3.7 Sonnet de la Anthropic a urmat îndeaproape, demonstrând versatilitate atât în modul “de gândire”, cât și în modul “fără gândire”. Gemini 2.5 Pro, modelul emblematic al Google, s-a remarcat prin capacitatea de a gestiona sarcini care necesită planificare structurată și raționament etapizat. Între timp, DeepSeek-R1 cu greutate deschisă a oferit o surpriză plăcută – menținându-se la același nivel cu GPT-4 Turbo și reducând decalajul de performanță între modelele deschise și cele închise.

Pe tot parcursul, a apărut un model clar: noile modele “cu capacitate de gândire” au depășit în mod constant predecesorii lor, iar modelele cu sursă închisă au menținut un avantaj semnificativ față de alternativele cu greutate deschisă.

Unde au agenții dificultăți?

Citind modelele de eșec evidențiate în raportul Deep Research Bench a fost surprinzător de familiar. Unul dintre aspectele cel mai frustrante pe care le-am întâlnit personal – în special în timpul sesiunilor lungi de cercetare sau creare de conținut – este atunci când un agent AI pur și simplu uită ce făceam. Pe măsură ce fereastra de context se extinde, modelul adesea începe să piardă firul: detaliile cheie se estompează, obiectivele se încurcă și răspunsurile par deconectate sau fără scop. La un moment dat, am învățat că adesea este mai bine să renunți și să începi de la zero, chiar dacă asta înseamnă să arunci tot ce a fost generat până acum.

Asemenea uitare nu este doar anecotică – este cel mai important predictor de eșec în evaluarea Deep Research Bench. Dar nu este singurul aspect recurent. Raportul subliniază, de asemenea, cum anumite modele cad în utilizarea repetitivă a uneltelor, rulând aceeași căutare de mai multe ori, ca și cum ar fi blocate într-un buclă. Altele arată o slabă construire a interogărilor, potrivind cuvinte cheie în mod leneș, în loc să gândească critic despre cum să caute eficient. Și prea des, agenții cad victime unor concluzii premature – livrând un răspuns jumătate format, care, tehnic, îndeplinește condițiile, dar lipsește cu adevărat de perspicacitate.

Chiar și printre cele mai bune modele, diferențele sunt evidente. GPT-4 Turbo, de exemplu, a arătat o tendință notabilă de a uita pașii anteriori, în timp ce DeepSeek-R1 a fost mai probabil să halucineze sau să inventeze informații plauzibile, dar incorecte. Pe tot parcursul, modelele au eșuat frecvent să verifice sursele sau să valideze rezultatele înainte de a-și finaliza outputul. Pentru oricine s-a bazat pe AI pentru munca serioasă, aceste probleme vor părea prea familiare – și subliniază cât de departe mai avem de a merge în construirea unor agenți care să poată cu adevărat gândi și cerceta ca oamenii.

Ce despre performanța bazată pe memorie?

Interesant, Deep Research Bench a evaluat, de asemenea, ceea ce numește “agenți fără unelte” – modele de limbaj care funcționează fără acces la unelte externe, cum ar fi căutarea pe web sau recuperarea documentelor. Acești agenți se bazează în întregime pe datele lor de antrenare interne și pe memoria lor, generând răspunsuri bazate doar pe ceea ce au învățat în timpul antrenamentului. În practică, acest lucru înseamnă că nu pot căuta nimic sau verifica informații – ei ghicesc pe baza a ceea ce “și-au amintit”.

Surprinzător, acești agenți fără unelte au performant aproape la fel de bine ca agenții de cercetare completați pe anumite sarcini. De exemplu, la sarcina de Validare a afirmației – unde scopul este de a evalua plauzibilitatea unei afirmații – ei au obținut 0,61, aproape egal cu media de 0,62 a agenților cu unelte. Acest lucru sugerează că modele precum o3 și Claude au puternice presupuneri interne și pot adesea recunoaște adevărul afirmațiilor comune fără a fi nevoie să caute pe web.

Dar la sarcini mai solicitante – cum ar fi Derivarea numărului, care necesită asamblarea mai multor valori din surse diverse, sau Adunarea dovezilor, care depinde de găsirea și evaluarea faptelor diverse în context – acești agenți fără unelte s-au destrămat complet. Fără informații proaspete sau capacități de căutare în timp real, ei pur și simplu au lipsit mijloacele de a produce răspunsuri precise sau cuprinzătoare.

Acest contrast subliniază o nuanță importantă: în timp ce LLM-urile de astăzi pot simula “știind” multe, cercetarea profundă depinde nu numai de reamintire, ci și de raționament cu informații actualizate și verificabile – ceea ce doar agenții cu unelte pot livra cu adevărat.

Gânduri finale

Raportul DRB face un lucru clar: în timp ce cei mai buni agenți AI de astăzi pot depăși oamenii obișnuiți la sarcini îngust definite, ei încă se situează sub cercetătorii generaliști pricepuți – în special atunci când vine vorba de planificare strategică, adaptare pe parcurs și raționament nuanțat.

Acest decalaj devine deosebit de evident în timpul sesiunilor lungi sau complexe – ceea ce am experimentat personal, unde un agent își pierde treptat scopul sarcinii, ducând la o întrerupere frustrantă a coerenței și utilității.

Ceea ce face Deep Research Bench atât de valoros este că nu doar testează cunoștințele de suprafață – ci sondează intersecția dintre utilizarea uneltelor, memorie, raționament și adaptare, oferind un analog mai apropiat de cercetarea din lumea reală decât benchmark-urile precum MMLU sau GSM8k.

Pe măsură ce LLM-urile continuă să se integreze în munca serioasă de cunoaștere, uneltele FutureSearch, cum ar fi DRB, vor fi esențiale pentru evaluarea nu numai a ceea ce știu aceste sisteme, ci și a modului în care funcționează cu adevărat.

Antoine este un lider vizionar și partener fondator al Unite.AI, condus de o pasiune neclintita pentru a da forma și a promova viitorul inteligenței artificiale și al roboticii. Un antreprenor serial, el crede că inteligența artificială va fi la fel de disruptivă pentru societate ca și electricitatea, și este adesea prins vorbind cu entuziasm despre potențialul tehnologiilor disruptive și al inteligenței artificiale generale.

Ca futurist, el este dedicat explorării modului în care aceste inovații vor modela lumea noastră. În plus, el este fondatorul Securities.io, o platformă axată pe investiții în tehnologii de ultimă generație care redefinesc viitorul și reshapă întregi sectoare.