Kunstig intelligens
Hvor godt er AI-agenter til rigtig forskning? Indenfor den dybe forskningsbænk rapport

Da store sprogmodeller (LLM) udvikler sig hurtigt, udvikler deres løfte som kraftfulde forskningsassistenter sig også. I stigende grad er de ikke kun med til at besvare simple faktuelle spørgsmål, men de tackler også “dyb forskning” opgaver, som indebærer multi-trins resonnering, evaluering af modstridende information, kilde data fra hele webben og syntetisering af dem i en koherent output.
Denne opdyrkende kapacitet markedsføres nu under forskellige varemærker af store laboratorier – OpenAI kalder det “Dyb Forskning”, Anthropic henviser til det som “Udvidet Tænkning”, Googles Gemini tilbyder “Søg + Pro” funktioner, og Perplexity mærker deres “Pro Søg” eller “Dyb Forskning”. Men hvor effektive er disse tilbud i praksis? En ny rapport fra FutureSearch, med titlen Deep Research Bench (DRB): Evaluering af webforskningsagenter, tilbyder den mest omfattende evaluering til dato – og resultaterne afslører både imponerende evner og kritiske svagheder.
Hvad er Deep Research Bench?
Oprettet af FutureSearch-holdet, er Deep Research Bench en omhyggeligt konstrueret benchmark designet til at evaluere AI-agenteres præstation på multi-trins, webbaserede forskningsopgaver. Disse er ikke simple spørgsmål med direkte svar – de afspejler de beskidte, åbne udfordringer, som analytikere, beslutningstagerne og forskerne står overfor i virkelige situationer.
Benchmarket indeholder 89 distinkte opgaver over 8 kategorier, såsom:
- Find Nummer: f.eks. “Hvor mange FDA Class II medicinske enheds tilbagekald blev der?”
- Valider Klage: f.eks. “Er ChatGPT 10 gange mere energi-intensivt end Google Søg?”
- Sammenstil Datasæt: f.eks. “Jobtendenser for US softwareudviklere fra 2019-2023”
Hver opgavetype er omhyggeligt struktureret med menneske-verificerede svar og vurderes ved hjælp af en frosset datasæt af websteder, kendt som RetroSearch. Dette sikrer konsistens på tværs af modelvurderinger og undgår den skiftende tilstand af den levende web.
Agentarkitekturen: ReAct og RetroSearch
I hjertet af Deep Research Bench ligger ReAct-arkitekturen, kort for “Reason + Act.” Denne metode ligner, hvordan en menneskelig forsker måske tackler et problem – ved at tænke igennem opgaven, udføre en handling som at udføre en websøgning, observere resultaterne og derefter beslutte, om at iterere eller konkludere.
Mens tidligere modeller følger denne løkke eksplicit, strømliner nyere “tænken”-modeller ofte processen og integrerer resonnering mere flydende i deres handlinger. For at sikre konsistens på tværs af vurderinger introducerer DRB RetroSearch – en brugerdefineret, statisk version af webben. I stedet for at stole på den levende internet, som konstant ændrer sig, kan agenterne tilgå en kurateret arkiv af websteder, som er hentet ved hjælp af værktøjer som Serper, Playwright og ScraperAPI. Skalaen er imponerende: for høj-kompleksitetsopgaver som “Samling af Bevis” kan RetroSearch give adgang til over 189.000 sider, alle frosset i tid, hvilket sikrer en retfærdig og replicerbart testmiljø.
Hvilke AI-agenter udfører bedst?
Blandt alle deltagere opstod OpenAI’s o3 som den bedste udfører, med en score på 0,51 ud af en mulig 1,0 på Deep Research Bench. Selv om det måske lyder beskedent, er det vigtigt at forstå benchmarkets sværhedsgrad: på grund af tvetydighed i opgavedefinitioner og scoring, ville selv en fejlfri agent sandsynligvis toppe ud omkring 0,8 – hvad forskerne kalder “støjtagen.” Med andre ord, selv de bedste modeller i dag falder stadig kort i forhold til velinformerede, metodiske menneskelige forskere.
Alligevel tilbyder leaderboarden afslørende indsigt. o3 førte ikke kun pakken, men gjorde det med hastighed og konsistens, og viste stærk præstation på næsten alle opgavetyper. Claude 3.7 Sonnet fra Anthropic fulgte tæt, og demonstrerede fleksibilitet i både dens “tænkende” og “ikke-tænkende” tilstande. Gemini 2.5 Pro, Googles flagskibmodel, stod ud for sin evne til at håndtere opgaver, der kræver struktureret planlægning og trin-for-trin resonnering. Imens leverede den åbne vægt DeepSeek-R1 en behagelig overraskelse – ved at holde trit med GPT-4 Turbo og indsnævring af præstationsgapet mellem åbne og lukkede modeller.
På tværs af brættet opstod et tydeligt mønster: nyere, “tænken-aktiverede” modeller udførte konsekvent bedre end deres tidligere modeller, og lukkede modeller opretholdt en bemærkelsesværdig fordel over åbne vægt-alternativer.
Hvor kæmper agenterne?
Læsning af fejlmønstrene, der er fremhævet i Deep Research Bench-rapporten, føltes overraskende bekendt. En af de mest frustrerende aspekter, jeg personligt har stødt på – især under lange forsknings- eller indholdsskabende sessioner – er, når en AI-agent simpelthen glemmer, hvad vi lavede. Da kontekstvinduet strækkes, begynder modellen ofte at tabe tråden: nøgledeataler forsvinder, mål bliver uklare, og pludselig føles svarene sammenflikkede eller målrette.
Den slags glemmelighed er ikke kun anekdotisk – det er den mest betydningsfulde forudsiger for fiasko i Deep Research Bench-evalueringen. Men det er ikke det eneste tilbagevendende problem. Rapporten fremhæver også, hvordan nogle modeller falder i gentagne værktøjsbrug, kørende den samme søgning igen og igen, som om de er fanget i en løkke. Andre viser dårlig forespørgselskonstruktion, dovne nøgleordsmatchning i stedet for at tænke kritisk over, hvordan man søger effektivt. Og alt for ofte falder agenterne ofre for forhastede konklusioner – leverer et halvdannet svar, der teknisk set afkrydser afkrydsningsfeltet, men falder kort i forhold til rigtig indsigt.
Selv blandt de bedste modeller er forskellene markante. GPT-4 Turbo viste f.eks. en bemærkelsesværdig tendens til at glemme tidligere trin, mens DeepSeek-R1 var mere tilbøjelig til at hallucinere eller opfinde plausibelt lydende – men forkerte – information. På tværs af brættet fejlede modellerne ofte i at kontrollere kilder eller validere resultater, før de endeligt udgav deres output. For enhver, der har støttet sig til AI til alvorligt arbejde, vil disse problemer føles alt for bekendt – og de understreger, hvor langt vi endnu har til at gå i opbygning af agenter, der kan rigtigt tænke og forske som mennesker.
Hvad med hukommelsesbaseret præstation?
Interessant nok evaluerede Deep Research Bench også, hvad det kalder “værktøjsløse” agenter – sprogmodeller, der fungerer uden adgang til eksterne værktøjer, såsom websøgning eller dokumenthenting. Disse agenter afhænger udelukkende af deres interne træningsdata og hukommelse, og genererer svar baseret udelukkende på, hvad de har lært under træning. I praksis betyder det, at de ikke kan se noget op eller verificere information – de gætter baseret på, hvad de “husker”.
Overraskende udførte disse værktøjsløse agenter næsten lige så godt som fulde forskningsagenter på visse opgaver. F.eks. på opgaven Valider Klage – hvor målet er at vurdere sandsynligheden af en udtalelse – scorede de 0,61, næsten matchende den gennemsnitlige 0,62 for værktøjsaktiverede agenter. Dette antyder, at modeller som o3 og Claude har stærke interne prioriteringer og kan ofte genkende sandheden i almindelige påstande uden at skulle søge på webben.
Men på mere krævende opgaver – som Afled Nummer, der kræver at samle flere værdier fra forskellige kilder, eller Samling af Bevis, der afhænger af at finde og evaluere diverse fakta i kontekst – fejlede disse værktøjsløse modeller helt. Uden frisk information eller realtids-opslagningsevner manglede de simpelthen midlerne til at producere præcise eller omfattende svar.
Denne kontrast fremhæver en vigtig nuance: selv om i dagens LLM kan simulere “at vide” meget, afhænger dyb forskning ikke kun af genkald, men også af resonnering med opdateret, verificerbar information – noget, kun værktøjsforstærkede agenter kan rigtigt levere.
Endelige tanker
DRB-rapporten gør det klart: selv om i dagens bedste AI-agenter kan overgå gennemsnitlige mennesker på snævert definerede opgaver, ligger de stadig bagud i forhold til dygtige, almenforskere – især når det kommer til at planlægge strategisk, tilpasse sig under processen og resonere med nuance.
Denne forskel bliver særligt tydelig under lange eller komplekse sessioner – noget, jeg har oplevet personligt, hvor en agent gradvist mister sporet af opgavens formål, hvilket fører til en frustrerende sammenbrud i kohærens og nytte.
Hvad der gør Deep Research Bench så værdifuld, er, at det ikke kun tester overfladisk viden – det undersøger skæringen af værktøjsbrug, hukommelse, resonnering og tilpasning, og tilbyder en tættere analog til virkelige forskningsmiljøer end benchmarks som MMLU eller GSM8k.
Da LLM integrerer sig i alvorligt videnarbejde, vil FutureSearch-værktøjer som DRB være afgørende for at evaluere ikke kun, hvad disse systemer ved, men hvordan de faktisk fungerer.










