Connect with us

Hoe goed zijn AI-agents in echt onderzoek? Binnenin het Deep Research Bench-rapport

Kunstmatige intelligentie

Hoe goed zijn AI-agents in echt onderzoek? Binnenin het Deep Research Bench-rapport

mm

Aangezien grote taalmodellen (LLM’s) snel evolueren, groeit ook hun belofte als krachtige onderzoeksassistenten. Steeds vaker zijn ze niet alleen bezig met het beantwoorden van eenvoudige feitelijke vragen, maar nemen ze ook “diep onderzoek” taken aan, die meerdere stappen van redenering, evaluatie van tegenstrijdige informatie, het zoeken van gegevens op het web en het combineren ervan in een coherent resultaat omvatten.

Deze opkomende mogelijkheid wordt nu onder verschillende merknamen op de markt gebracht door grote laboratoria – OpenAI noemt het “Deep Research”, Anthropic verwijst ernaar als “Extended Thinking”, Google’s Gemini biedt “Search + Pro”-functies en Perplexity labelt het als “Pro Search” of “Deep Research”. Maar hoe effectief zijn deze aanbiedingen in de praktijk? Een nieuw rapport van FutureSearch, getiteld Deep Research Bench (DRB): Evaluating Web Research Agents, biedt de meest grondige evaluatie tot nu toe – en de resultaten laten zowel indrukwekkende mogelijkheden als kritieke tekortkomingen zien.

Wat is Deep Research Bench?

Gecreëerd door het FutureSearch-team, is Deep Research Bench een zorgvuldig geconstrueerde benchmark ontworpen om de prestaties van AI-agents te beoordelen op meerdere stappen van webgebaseerd onderzoek. Dit zijn geen eenvoudige vragen met rechttoe rechtaan antwoorden – ze weerspiegelen de rommelige, open-eindige uitdagingen waarmee analisten, beleidsmakers en onderzoekers in real-world situaties worden geconfronteerd.

De benchmark omvat 89 afzonderlijke taken in 8 categorieën, zoals:

  • Find Number: bijv. “Hoeveel FDA Class II-medische apparaat-terugroepacties vonden plaats?”
  • Validate Claim: bijv. “Is ChatGPT 10x meer energie-intensief dan Google Search?”
  • Compile Dataset: bijv. “Trends voor Amerikaanse software-ontwikkelaars van 2019-2023”

Elk type taak is zorgvuldig gestructureerd met door mensen geverifieerde antwoorden en wordt beoordeeld met behulp van een bevroren dataset van gescrapte webpagina’s, bekend als RetroSearch. Dit zorgt voor consistentie bij modelbeoordelingen, waardoor de fluctuerende staat van het live web wordt vermeden.

De Agent Architecture: ReAct en RetroSearch

In het hart van Deep Research Bench ligt de ReAct-architectuur, een afkorting voor “Reason + Act.” Deze methode bootst na hoe een menselijke onderzoeker een probleem zou aanpakken – door het probleem te doorlopen, een actie uit te voeren zoals een webzoekopdracht, de resultaten te observeren en vervolgens te beslissen of het moet itereren of concluderen.

Terwijl eerdere modellen deze lus expliciet volgen, stroomlijnen nieuwere “denk”-modellen het proces vaak, waarbij redenering meer vloeiend in hun acties wordt geïntegreerd. Om consistentie bij beoordelingen te garanderen, introduceert DRB RetroSearch – een aangepaste, statische versie van het web. In plaats van te vertrouwen op het live internet, dat constant verandert, tappen agents in een gecurateerde archief van webpagina’s die zijn gescraped met behulp van tools zoals Serper, Playwright en ScraperAPI. De omvang is indrukwekkend: voor hoge complexiteitstaken zoals “Gather Evidence” kan RetroSearch toegang bieden tot meer dan 189.000 pagina’s, allemaal bevroren in de tijd, waardoor een eerlijke en reproduceerbare testomgeving wordt gegarandeerd.

Welke AI-agents presteren het beste?

Onder alle deelnemers kwam OpenAI’s o3 als de beste presteerder naar voren, met een score van 0,51 uit een mogelijke 1,0 op de Deep Research Bench. Hoewel dat misschien bescheiden klinkt, is het belangrijk om te begrijpen dat de benchmark moeilijk is: vanwege de ambiguïteit in taakdefinities en scoring, zou zelfs een foutloze agent waarschijnlijk rond de 0,8 eindigen – wat onderzoekers de “ruisplafond” noemen. Met andere woorden, zelfs de beste modellen vandaag de dag vallen nog steeds tekort voor goed geïnformeerde, methodische menselijke onderzoekers.

Toch biedt de ranglijst verhelderende inzichten. o3 leidde niet alleen de groep, maar deed dit ook met snelheid en consistentie, en toonde een sterke prestatie in bijna alle taaktypen. Claude 3.7 Sonnet van Anthropic volgde op de hielen, en toonde veelzijdigheid in zowel de “denk”- als “niet-denken”-modi. Gemini 2.5 Pro, Google’s vlaggenschipmodel, bleek uitstekend in het omgaan met taken die gestructureerde planning en stap-voor-stapredenering vereisten. Ondertussen boekte de open-weight DeepSeek-R1 een aangename verrassing – het hield gelijke tred met GPT-4 Turbo en verkleinde de prestatieverschillen tussen open en gesloten modellen.

Over het hele bord verscheen een duidelijk patroon: nieuwere, “denk”-geactiveerde modellen presteerden consequent beter dan hun eerdere tegenhangers, en gesloten modellen behielden een opvallende voorsprong op open-gewichtalternatieven.

Waar worstelen agents?

Het lezen van de foutpatronen die in het Deep Research Bench-rapport worden benadrukt, voelde verrassend vertrouwd. Een van de meest frustrerende aspecten die ik persoonlijk ben tegengekomen – vooral tijdens lange onderzoeks- of inhoudscreatiessessies – is wanneer een AI-agent gewoon vergeet wat we aan het doen waren. Naarmate het contextvenster zich uitstrekt, begint het model vaak de draad kwijt te raken: belangrijke details vervagen, doelen worden verward en plotseling voelen de antwoorden onsamengaand of doelloos. Op een gegeven moment heb ik geleerd dat het vaak beter is om de verliezen te nemen en opnieuw te beginnen, zelfs als dat betekent dat alles wat tot nu toe is gegenereerd, wordt weggegooid.

Die soort vergeetachtigheid is niet alleen anekdotisch – het is de meest significante voorspeller van falen in de Deep Research Bench-beoordeling. Maar het is niet het enige terugkerende probleem. Het rapport benadrukt ook hoe sommige modellen in herhaald gereedschapsgebruik terechtkomen, dezelfde zoekopdracht herhalend alsof ze vastzitten in een lus. Andere tonen een slechte query-constructie, lui keyword-matchend in plaats van kritisch nadenken over hoe effectief te zoeken. En veel te vaak komen agents ten prooi aan premature conclusies – leveren een half-gevormd antwoord dat technisch de doos aanvinkt, maar tekort schiet voor echte inzichten.

Zelfs onder de topmodellen zijn de verschillen opvallend. GPT-4 Turbo, bijvoorbeeld, toonde een opvallende neiging om eerdere stappen te vergeten, terwijl DeepSeek-R1 vaker hallucineerde of plausibele, maar onjuiste informatie uitvond. Over het hele bord faalden modellen vaak om bronnen te controleren of bevindingen te valideren voordat ze hun uitvoer finaliseerden. Voor iedereen die ooit van AI voor serieus werk afhankelijk is geweest, zullen deze problemen maar al te vertrouwd aanvoelen – en ze benadrukken hoe ver we nog moeten gaan in het bouwen van agents die echt kunnen denken en onderzoeken als mensen.

Wat met geheugen-gebaseerde prestaties?

Interessant genoeg, Deep Research Bench beoordeelde ook wat het “toolless”-agents noemt – taalmodellen die zonder toegang tot externe tools werken, zoals webzoekopdrachten of documentopname. Deze agents vertrouwen volledig op hun interne trainingsgegevens en geheugen, en genereren antwoorden op basis van wat ze eerder hebben geleerd tijdens de training. In de praktijk betekent dit dat ze niets kunnen opzoeken of informatie kunnen verifiëren – ze gokken op basis van wat ze “onthouden”.

Tot verbazing presteerden deze toolless-agents bijna even goed als full research-agents op bepaalde taken. Bijvoorbeeld, op de Validate Claim-taak – waarbij het doel is om de geloofwaardigheid van een statement te beoordelen – scoorden ze 0,61, bijna hetzelfde als de 0,62 gemiddelde van tool-geactiveerde agents. Dit suggereert dat modellen zoals o3 en Claude sterke interne prioriteiten hebben en vaak de waarheid van gangbare claims kunnen herkennen zonder het web te hoeven doorzoeken.

Maar op meer veeleisende taken – zoals Derive Number, die het combineren van meerdere waarden uit verschillende bronnen vereist, of Gather Evidence, die afhankelijk is van het vinden en evalueren van diverse feiten in context – vielen deze toolless-modellen volledig uit elkaar. Zonder verse informatie of real-time lookup-mogelijkheden, ontbrak het hen aan de middelen om accurate of uitgebreide antwoorden te produceren.

Deze contrast benadrukt een belangrijke nuance: hoewel de huidige LLM’s “weten” kunnen simuleren, hangt diep onderzoek niet alleen af van herinnering, maar ook van redeneren met up-to-date, verifieerbare informatie – iets wat alleen tool-geactiveerde agents echt kunnen bieden.

Eindgedachten

Het DRB-rapport maakt één ding duidelijk: hoewel de beste AI-agents van vandaag de dag gemiddelde mensen op smal gedefinieerde taken kunnen inhalen, vallen ze nog steeds achter bij ervaren generalistische onderzoekers – vooral als het gaat om strategisch plannen, aanpassen tijdens het proces en redeneren met nuances.

Deze kloof wordt vooral duidelijk tijdens lange of complexe sessies – iets wat ik persoonlijk heb meegemaakt, waarbij een agent langzaam de taakdoelstelling verliest, wat leidt tot een frustrerende ineenstorting van coherentie en bruikbaarheid.

Wat Deep Research Bench zo waardevol maakt, is dat het niet alleen oppervlakkige kennis test – het onderzoekt het snijvlak van toolgebruik, geheugen, redenering en aanpassing, en biedt een nauwere analogie met real-world onderzoek dan benchmarks zoals MMLU of GSM8k.

Aangezien LLM’s verder integreren in serieus kenniswerk, zullen FutureSearch-tools zoals DRB essentieel zijn voor het beoordelen van niet alleen wat deze systemen weten, maar hoe goed ze werkelijk werken.

Antoine is een visionaire leider en oprichtend partner van Unite.AI, gedreven door een onwankelbare passie voor het vormgeven en promoten van de toekomst van AI en robotica. Een seriële ondernemer, hij gelooft dat AI net zo disruptief voor de samenleving zal zijn als elektriciteit, en wordt vaak betrapt op het enthousiast praten over het potentieel van disruptieve technologieën en AGI. Als een futurist, is hij toegewijd aan het onderzoeken van hoe deze innovaties onze wereld zullen vormgeven. Bovendien is hij de oprichter van Securities.io, een platform dat zich richt op investeren in cutting-edge technologieën die de toekomst opnieuw definiëren en hele sectoren herschappen.