Künstliche Intelligenz

Wie gut sind KI-Agenten im echten Forschen? Im Inneren des Deep Research Bench Report

Published June 2, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Da große Sprachmodelle (LLMs) sich schnell weiterentwickeln, wächst auch ihr Versprechen als leistungsstarke Forschungsassistenten. Immer öfter gehen sie nicht nur simple faktische Fragen durch – sie bewältigen “tiefe Forschungsaufgaben”, die mehrstufiges Denken, die Bewertung widersprüchlicher Informationen, die Suche nach Daten im gesamten Web und die Synthese in eine kohärente Ausgabe beinhalten.

Diese aufkommende Fähigkeit wird nun unter verschiedenen Markennamen von großen Labors vermarktet – OpenAI nennt es “Deep Research”, Anthropic bezeichnet es als “Extended Thinking”, Google’s Gemini bietet “Search + Pro”-Funktionen und Perplexity kennzeichnet es als “Pro Search” oder “Deep Research”. Aber wie effektiv sind diese Angebote in der Praxis? Ein neuer Bericht von FutureSearch, betitelt Deep Research Bench (DRB): Evaluating Web Research Agents, bietet die strengste Bewertung bislang – und die Ergebnisse zeigen sowohl beeindruckende Fähigkeiten als auch kritische Mängel.

Was ist Deep Research Bench?

Erstellt vom FutureSearch-Team, ist Deep Research Bench eine sorgfältig konstruierte Benchmark, die die Leistung von KI-Agenten bei mehrstufigen, webbasierten Forschungsaufgaben bewertet. Diese sind keine einfachen Fragen mit geradlinigen Antworten – sie spiegeln die chaotischen, offenen Herausforderungen wider, denen Analysten, Politiker und Forscher in realen Umgebungen gegenüberstehen.

Die Benchmark umfasst 89 verschiedene Aufgaben in 8 Kategorien, wie:

Finde Zahl: z.B. “Wie viele Rückrufe von FDA-Klasse-II-Medizinprodukten gab es?”
Überprüfe Behauptung: z.B. “Ist ChatGPT 10-mal energieintensiver als Google Search?”
Erstelle Datensatz: z.B. “Jobtrends für US-Softwareentwickler von 2019-2023”

Jeder Aufgabentyp ist sorgfältig mit menschlich verifizierten Antworten strukturiert und mithilfe eines eingefrorenen Datensatzes von gescreapten Webseiten, bekannt als RetroSearch, bewertet. Dies gewährleistet Konsistenz bei der Bewertung der Modelle und vermeidet den wechselnden Zustand des Live-Webs.

Die Agentenarchitektur: ReAct und RetroSearch

Im Herzen von Deep Research Bench liegt die ReAct-Architektur, kurz für “Reason + Act”. Diese Methode ahmt die Art und Weise nach, wie ein menschlicher Forscher ein Problem angehen würde – indem er das Problem durchdenkt, eine Aktion wie eine Web-Suche durchführt, die Ergebnisse beobachtet und dann entscheidet, ob er iterieren oder abschließen soll.

Während frühere Modelle diese Schleife explizit befolgen, strömen neuere “denkfähige” Modelle den Prozess oft ein, indem sie das Denken flüssiger in ihre Aktionen einbetten. Um Konsistenz bei den Bewertungen zu gewährleisten, führt DRB RetroSearch ein – eine benutzerdefinierte, statische Version des Webs. Anstatt auf das Live-Internet zu vertrauen, das ständig wechselt, greifen die Agenten auf ein kuratiertes Archiv von Webseiten zu, die mithilfe von Tools wie Serper, Playwright und ScraperAPI gescreapet wurden. Der Umfang ist beeindruckend: für komplexe Aufgaben wie “Beweise sammeln” kann RetroSearch Zugang zu über 189.000 Seiten bieten, alle eingefroren im Laufe der Zeit, um eine faire und replizierbare Testumgebung zu gewährleisten.

Welche KI-Agenten performen am besten?

Unter allen Teilnehmern trat OpenAI’s o3 als bester Performer hervor, mit einem Score von 0,51 von möglichen 1,0 auf dem Deep Research Bench. Obwohl dies bescheiden klingen mag, ist es wichtig, die Schwierigkeit der Benchmark zu verstehen: aufgrund von Ambiguität in den Aufgabendefinitionen und der Bewertung würde sogar ein fehlerfreier Agent wahrscheinlich bei etwa 0,8 liegen – was Forscher als “Rauschdecke” bezeichnen. Mit anderen Worten: selbst die besten Modelle heute fallen noch kurz von gut informierten, methodischen menschlichen Forschern.

Trotzdem bietet die Rangliste aufschlussreiche Einblicke. o3 führte nicht nur das Feld an, sondern tat dies mit Geschwindigkeit und Konsistenz, zeigte starke Leistung bei fast allen Aufgabentypen. Claude 3.7 Sonnet von Anthropic folgte dicht, demonstrierte Vielseitigkeit in beiden “denkfähigen” und “nicht-denkfähigen” Modi. Gemini 2.5 Pro, Google’s Flaggschiffmodell, ragte durch seine Fähigkeit heraus, Aufgaben zu bewältigen, die strukturierte Planung und schrittweises Denken erfordern. Währenddessen lieferte das offene DeepSeek-R1 eine angenehme Überraschung – es hielt mit GPT-4 Turbo Schritt und verringerte die Leistungsunterschiede zwischen offenen und geschlossenen Modellen.

Über die gesamte Bandbreite hinweg trat ein klares Muster zutage: neuere, “denkfähige” Modelle übertrafen ihre Vorgänger konstant, und geschlossene Modelle behielten einen bemerkenswerten Vorteil gegenüber offenen Alternativen.

Wo haben Agenten Schwierigkeiten?

Das Durchlesen der im Deep Research Bench-Bericht hervorgehobenen Fehlmuster fühlte sich überraschend vertraut an. Einer der frustrierendsten Aspekte, die ich persönlich erlebt habe – besonders während langer Forschungs- oder Inhaltserschaffungssitzungen – ist, wenn ein KI-Agent einfach vergisst, was wir taten. Wenn das Kontextfenster sich ausdehnt, beginnt das Modell oft, den Faden zu verlieren: wichtige Details verblassen, Ziele werden verwirrt, und plötzlich fühlen sich die Antworten unzusammenhängend oder ziellos an. Irgendwann habe ich gelernt, dass es oft besser ist, Verluste zu akzeptieren und von vorne zu beginnen, auch wenn es bedeutet, alles, was bisher generiert wurde, wegzuschmeißen.

Diese Art von Vergesslichkeit ist nicht nur anekdotisch – sie ist der bedeutendste Prädiktor für Misserfolg in der Deep Research Bench-Bewertung. Aber es ist nicht das einzige wiederkehrende Problem. Der Bericht hebt auch hervor, wie einige Modelle in wiederholter Werkzeugverwendung fallen, dieselbe Suche immer wieder durchführen, als ob sie in einer Schleife feststecken. Andere zeigen schlechte Abfrageerstellung, indem sie faul Schlüsselwörter abgleichen, anstatt kritisch über die effektive Suche nachzudenken. Und viel zu oft fallen Agenten Opfer von verfrühten Schlussfolgerungen – sie liefern eine halbgeformte Antwort, die zwar formal die Box abhakt, aber von echtem Einblick weit entfernt ist.

Sogar unter den Top-Modellen sind die Unterschiede auffallend. GPT-4 Turbo zeigte beispielsweise eine bemerkenswerte Tendenz, vorherige Schritte zu vergessen, während DeepSeek-R1 eher dazu neigte, zu halluzinieren oder plausibel klingende, aber falsche Informationen zu erfinden. Über die gesamte Bandbreite hinweg versagten Modelle häufig, Quellen zu überprüfen oder Ergebnisse zu validieren, bevor sie ihre Ausgabe finalisierten. Für jeden, der auf KI für ernsthafte Arbeit angewiesen ist, werden diese Probleme allzu vertraut sein – und sie unterstreichen, wie weit wir noch von der Entwicklung von Agenten entfernt sind, die wirklich denken und forschen können wie Menschen.

Was ist mit leistungsbasiertem Gedächtnis?

Interessanterweise bewertete Deep Research Bench auch, was es “werkzeuglose” Agenten nennt – Sprachmodelle, die ohne Zugang zu externen Werkzeugen wie Web-Suche oder Dokumentenabruf arbeiten. Diese Agenten verlassen sich ausschließlich auf ihre internen Trainingsdaten und ihr Gedächtnis, generieren Antworten, die allein auf dem basieren, was sie während des Trainings gelernt haben. In der Praxis bedeutet dies, dass sie nichts nachschlagen oder Informationen überprüfen können – sie raten, basierend auf dem, was sie “wissen”.

Überraschenderweise performten diese werkzeuglosen Agenten fast so gut wie vollständige Forschungsagenten bei bestimmten Aufgaben. Zum Beispiel erreichten sie bei der Aufgabe “Überprüfe Behauptung” – wo das Ziel darin besteht, die Plausibilität einer Aussage zu bewerten – einen Score von 0,61, was nahezu dem Durchschnitt von 0,62 der werkzeuggestützten Agenten entspricht. Dies deutet darauf hin, dass Modelle wie o3 und Claude starke interne Priors haben und oft die Wahrhaftigkeit gemeinsamer Behauptungen erkennen können, ohne das Web durchsuchen zu müssen.

Bei anspruchsvolleren Aufgaben jedoch – wie “Zahl ableiten”, die das Zusammensetzen mehrerer Werte aus verschiedenen Quellen erfordert, oder “Beweise sammeln”, die das Finden und Bewerten diverser Fakten im Kontext erfordern – brachen diese werkzeuglosen Modelle völlig zusammen. Ohne frische Informationen oder Echtzeit-Suchfunktionen fehlten ihnen einfach die Mittel, um genaue oder umfassende Antworten zu produzieren.

Dieser Kontrast unterstreicht eine wichtige Nuance: während heutige LLMs “Wissen” simulieren können, hängt tiefe Forschung nicht nur vom Abruf ab, sondern vom Denken mit aktuellen, überprüfbaren Informationen – etwas, das nur werkzeuggestützte Agenten wirklich liefern können.

Schlussgedanken

Der DRB-Bericht macht eines klar: während die besten KI-Agenten heute auf eng definierten Aufgaben die Durchschnittsleistung von Menschen überbieten können, fallen sie noch hinter geschickten, allgemein ausgebildeten Forschern zurück – besonders wenn es um strategische Planung, Anpassung während des Prozesses und nuanciertes Denken geht.

Diese Lücke wird besonders offensichtlich während langer oder komplexer Sitzungen – etwas, das ich persönlich erlebt habe, wo ein Agent allmählich den Zweck der Aufgabe verliert, was zu einem frustrierenden Zusammenbruch von Kohärenz und Nützlichkeit führt.

Was Deep Research Bench so wertvoll macht, ist, dass es nicht nur oberflächliches Wissen testet – es untersucht die Kreuzung von Werkzeugnutzung, Gedächtnis, Denken und Anpassung, was eine nähere Analogie zu realer Forschung bietet als Benchmarks wie MMLU oder GSM8k.

Da LLMs weiterhin in ernsthafte Wissensarbeit integriert werden, werden FutureSearch-Tools wie DRB unerlässlich sein, um nicht nur zu bewerten, was diese Systeme wissen, sondern auch, wie gut sie tatsächlich funktionieren.

Related Topics:benchmark FutureSearch LLM

Antoine Tardif, CEO & Founder of Unite.AI

Antoine ist ein visionärer Führer und Gründungspartner von Unite.AI, getrieben von einer unerschütterlichen Leidenschaft für die Gestaltung und Förderung der Zukunft von KI und Robotik. Ein Serienunternehmer, glaubt er, dass KI so disruptiv für die Gesellschaft sein wird wie Elektrizität, und wird oft dabei ertappt, wie er über das Potenzial disruptiver Technologien und AGI schwärmt.

Als futurist ist er darauf fokussiert, zu erforschen, wie diese Innovationen unsere Welt formen werden. Zusätzlich ist er der Gründer von Securities.io, einer Plattform, die sich auf Investitionen in hochmoderne Technologien konzentriert, die die Zukunft neu definieren und ganze Branchen umgestalten.