Artificiell intelligens
Hur bra är AI-agenter på riktigt forskning? Inuti Deep Research Bench-rapporten

Medan stora språkmodeller (LLM) utvecklas snabbt, ökar också deras potential som kraftfulla forskningsassistenter. Alltmer så tar de inte bara upp enkla faktiska frågor – de hanterar “djup forskning” – uppgifter som innefattar flerstegs resonemang, utvärdering av motsägelsefull information, källhänvisning av data från hela webben och syntes av den till en sammanhängande utdata.
Denna framväxande förmåga marknadsförs nu under olika varumärkesnamn av stora laboratorier – OpenAI kallar det “Deep Research”, Anthropic hänvisar till det som “Extended Thinking”, Googles Gemini erbjuder “Search + Pro” -funktioner och Perplexity märker deras “Pro Search” eller “Deep Research”. Men hur effektiva är dessa erbjudanden i praktiken? En ny rapport från FutureSearch, med titeln Deep Research Bench (DRB): Utvärdering av webbforskningsagenter, erbjuder den mest rigorösa utvärderingen hittills – och resultaten avslöjar både imponerande förmågor och kritiska brister.
Vad är Deep Research Bench?
Skapad av FutureSearch-teamet är Deep Research Bench en noggrant konstruerad benchmark för att utvärdera AI-agenter prestation på multi-steg, webbaserade forskningsuppgifter. Dessa är inte enkla frågor med raka svar – de återspeglar de smutsiga, öppna utmaningar som analytiker, beslutsfattare och forskare står inför i verkliga miljöer.
Benchmarken innehåller 89 distinkta uppgifter i 8 kategorier, såsom:
- Hitta Nummer: t.ex. “Hur många FDA-klass II-medical enhetsåterkallanden inträffade?”
- Validera Påstående: t.ex. “Är ChatGPT 10 gånger mer energikrävande än Google Search?”
- Sammanställ Dataset: t.ex. “Trend för amerikanska programvaruutvecklare från 2019-2023”
Varje uppgiftstyp är noggrant strukturerad med mänskligt verifierade svar och utvärderas med en frusen dataset av skrapade webbsidor, känd som RetroSearch. Detta säkerställer konsekvens över modellutvärderingar och undviker den fluktuerande tillståndet på den levande webben.
Agentarkitekturen: ReAct och RetroSearch
I hjärtat av Deep Research Bench ligger ReAct-arkitekturen, en förkortning för “Reason + Act”. Denna metod imiterar hur en mänsklig forskare kan tackla ett problem – genom att tänka igenom uppgiften, utföra en åtgärd som en webbsökning, observera resultaten och sedan bestämma om att iterera eller slutföra.
Medan tidigare modeller följer denna loop explicit, förenklar nyare “tänkande” modeller ofta processen, inbäddar resonemang mer flytande i deras handlingar. För att säkerställa konsekvens över utvärderingar introducerar DRB RetroSearch – en anpassad, statisk version av webben. Istället för att förlita sig på den levande internet, som ständigt förändras, använder agenter RetroSearch – en kuraterad arkiv av webbsidor skrapade med hjälp av verktyg som Serper, Playwright och ScraperAPI. Omfattningen är imponerande: för högkomplexa uppgifter som “Samla Bevis” kan RetroSearch ge tillgång till över 189 000 sidor, alla frusna i tid, säkerställande en rättvis och replikerbar testmiljö.
Vilka AI-agenter presterar bäst?
Bland alla deltagare framträdde OpenAI:s o3 som den bästa presteraren, med en poäng på 0,51 av en möjlig 1,0 på Deep Research Bench. Även om det kan låta blygsamt, är det viktigt att förstå benchmarkens svårighetsgrad: på grund av tvetydighet i uppgiftsdefinitioner och poängsättning, skulle till och med en perfekt agent sannolikt toppa ut runt 0,8 – vad forskare kallar “brus taket”. Med andra ord, även de bästa modellerna idag faller fortfarande kort i jämförelse med väl informerade, metodiska mänskliga forskare.
Ändå erbjuder leaderboarden avslöjande insikter. o3 ledde inte bara gruppen, utan gjorde det med hastighet och konsekvens, visande stark prestation över nästan alla uppgiftstyper. Claude 3.7 Sonnet från Anthropic följde nära, demonstrerande mångsidighet i både “tänkande” och “icke-tänkande” lägen. Gemini 2.5 Pro, Googles flaggskeppmodell, stack ut för sin förmåga att hantera uppgifter som kräver strukturerad planering och steg-för-steg resonemang. Medan den öppna viktmodellen DeepSeek-R1 överraskade positivt – höll jämna steg med GPT-4 Turbo och minskade prestandagapet mellan öppna och stängda modeller.
Över hela linjen, framträdde ett tydligt mönster: nyare, “tänkande-aktiverade” modeller presterade konsekvent bättre än sina tidigare motsvarigheter, och stängda modeller upprätthöll en anmärkningsvärd fördel jämfört med öppna alternativ.
Där kämpar agenter?
Att läsa igenom misslyckandemönstren som framhävs i Deep Research Bench-rapporten kändes förvånansvärt bekant. En av de mest frustrerande aspekterna jag personligen har stött på – särskilt under långa forsknings- eller innehållsskapande sessioner – är när en AI-agent helt enkelt glömmer vad vi gjorde. När kontextfönstret sträcker sig, börjar modellen ofta tappa tråden: viktiga detaljer bleknar, mål blir otydliga och plötsligt känns svaren ojämnt eller mållösa. Vid någon punkt har jag lärt mig att det ofta är bättre att kapa förlusterna och börja om från början, även om det innebär att kasta allt som har genererats hittills.
Den typen av glömska är inte bara anekdotisk – det är den mest signifikanta prediktorn för misslyckande i Deep Research Bench-utvärderingen. Men det är inte den enda återkommande frågan. Rapporten betonar också hur vissa modeller faller i upprepad verktygsanvändning, kör samma sökning om och om igen som om de är fast i en loop. Andra visar dålig frågekonstruktion, lata keyword-matchning istället för att tänka kritiskt om hur man ska söka effektivt. Och alldeles för ofta faller agenter offer för för tidiga slutsatser – levererar ett halvfärdigt svar som tekniskt sett uppfyller kraven men inte riktigt ger insikt.
Även bland de bästa modellerna är skillnaderna slående. GPT-4 Turbo visade till exempel en anmärkningsvärd tendens att glömma tidigare steg, medan DeepSeek-R1 var mer benägen att hallucinera eller uppfinna trovärdiga, men felaktiga, uppgifter. Över hela linjen misslyckades modeller ofta med att korskontrollera källor eller validera resultat innan de slutförde sin utdata. För alla som har förlitat sig på AI för allvarligt arbete kommer dessa problem att kännas alltför bekanta – och de understryker hur långt vi fortfarande har att gå i att bygga agenter som kan tänka och forska som människor.
Vad gäller minnesbaserad prestanda?
Intressant nog utvärderade Deep Research Bench också vad de kallar “verktygsfria” agenter – språkmodeller som fungerar utan tillgång till externa verktyg, som webbsökning eller dokumentåtervinning. Dessa agenter förlitar sig helt på sin interna utbildningsdata och minne, genererar svar baserat enbart på vad de tidigare har lärt sig under utbildning. I praktiken innebär det att de inte kan leta upp någonting eller verifiera information – de gissar baserat på vad de “minns”.
Förvånansvärt presterade dessa verktygsfria agenter nästan lika bra som fullständiga forskningsagenter på vissa uppgifter. Till exempel på uppgiften Validera Påstående – där målet är att bedöma sannolikheten för ett påstående – fick de en poäng på 0,61, nästan matchande den genomsnittliga poängen på 0,62 för verktygsaktiverade agenter. Detta antyder att modeller som o3 och Claude har starka interna prioriteringar och ofta kan känna igen sanningen i vanliga påståenden utan att behöva söka på webben.
Men på mer krävande uppgifter – som Att Avleda Nummer, som kräver att man sätter samman flera värden från olika källor, eller Samla Bevis, som beror på att hitta och utvärdera olika fakta i sammanhang – kollapsade dessa verktygsfria modeller helt. Utan färsk information eller möjlighet till sökning i realtid, saknade de helt enkelt medlen att producera korrekta eller omfattande svar.
Denna kontrast betonar en viktig nyans: medan dagens LLM kan simulera “att veta” mycket, beror djup forskning inte bara på återkallande, utan på resonemang med uppdaterad, verifierbar information – något som endast verktygsförstärkta agenter kan verkligen leverera.
Slutliga tankar
DRB-rapporten gör en sak tydlig: medan dagens bästa AI-agenter kan överträffa genomsnittliga människor på snävt definierade uppgifter, ligger de fortfarande efter skickliga generalistforskare – särskilt när det gäller att planera strategiskt, anpassa sig under processen och resonera med nyans.
Denna klyfta blir särskilt uppenbar under långa eller komplexa sessioner – något jag har upplevt personligen, där en agent gradvis tappar spåret av uppgiftens syfte, vilket leder till en frustrerande sammanbrott i sammanhang och användbarhet.
Vad som gör Deep Research Bench så värdefullt är att den inte bara testar ytnivåkunskap – den undersöker skärningspunkten mellan verktygsanvändning, minne, resonemang och anpassning, och erbjuder en närmare analog till riktiga forskningsmiljöer än benchmark som MMLU eller GSM8k.
Medan LLM fortsätter att integreras i allvarligt kunskapsarbete, kommer FutureSearch-verktyg som DRB att vara avgörande för att utvärdera inte bara vad dessa system känner till, utan hur väl de faktiskt fungerar.












