KĂĽnstliche Intelligenz
Wie gut sind KI-Agenten in der realen Forschung? Einblicke in den Deep Research Bench Report

As Große Sprachmodelle (LLMs) Die rasante Entwicklung von Technologien und ihre Bedeutung als leistungsstarke Forschungsassistenten steigen. Immer häufiger beantworten sie nicht nur einfache Sachfragen, sondern bewältigen auch tiefgreifende Forschungsaufgaben. Dazu gehören mehrstufiges Denken, die Bewertung widersprüchlicher Informationen, die Beschaffung von Daten aus dem gesamten Internet und deren Zusammenführung zu einem schlüssigen Ergebnis.
Diese neue Fähigkeit wird nun von großen Laboren unter verschiedenen Markennamen vermarktet – OpenAI nennt sie „Deep Research“, Anthropic bezeichnet sie als „Extended Thinking“, Googles Gemini bietet „Search + Pro“-Funktionen und Perplexity bezeichnet seine Angebote als „Pro Search“ oder „Deep Research“. Doch wie effektiv sind diese Angebote in der Praxis? Ein neuer Bericht von Zukunftssuche, Betitelt Deep Research Bench (DRB): Evaluierung von Web-Research-Agentenbietet die bislang strengste Bewertung – und die Ergebnisse offenbaren sowohl beeindruckende Fähigkeiten als auch kritische Mängel.
Was ist Deep Research Bench?
Deep Research Bench wurde vom FutureSearch-Team entwickelt und ist ein sorgfältig konstruierter Benchmark, der die Leistung von KI-Agenten bei mehrstufigen, webbasierten Forschungsaufgaben bewertet. Dabei handelt es sich nicht um einfache Fragen mit eindeutigen Antworten – sie spiegeln die komplexen, offenen Herausforderungen wider, mit denen Analysten, Politiker und Forscher in der Praxis konfrontiert sind.
Der Benchmark umfasst 89 verschiedene Aufgaben in 8 Kategorien, wie zum Beispiel:
- Nummer suchen: z. B. „Wie viele Rückrufe von Medizinprodukten der FDA-Klasse II gab es?“
- Anspruch validieren: zB „Ist ChatGPT 10x energieintensiver als Google Search?“
- Datensatz kompilieren: zB „Jobtrends für US-Softwareentwickler von 2019–2023“
Jeder Aufgabentyp ist sorgfältig strukturiert, mit von Menschen überprüften Antworten, und wird mithilfe eines eingefrorenen Datensatzes aus ausgelesenen Webseiten, bekannt als RetroSearch, ausgewertet. Dies gewährleistet Konsistenz über Modellbewertungen hinweg und vermeidet den schwankenden Zustand des Live-Webs.
Die Agentenarchitektur: ReAct und RetroSearch
Das Herzstück von Deep Research Bench ist die ReAct-Architektur, kurz für „Reason + Act“. Diese Methode ahmt nach, wie ein menschlicher Forscher ein Problem angeht: Er durchdenkt die Aufgabe, führt eine Aktion durch, z. B. eine Websuche, beobachtet die Ergebnisse und entscheidet dann, ob er iteriert oder zum Abschluss kommt.
Während frühere Modelle diesem Kreislauf explizit folgten, rationalisieren neuere „Denkmodelle“ den Prozess oft und integrieren das Denken fließender in ihre Aktionen. Um die Konsistenz aller Bewertungen zu gewährleisten, führt DRB RetroSearch ein – eine maßgeschneiderte, statische Version des Webs. Anstatt sich auf das sich ständig verändernde Live-Internet zu verlassen, greifen Agenten auf ein kuratiertes Archiv von Webseiten zurück, die mit Tools wie Serper, Dramatiker und SchaberAPIDer Umfang ist beeindruckend: Für hochkomplexe Aufgaben wie „Beweise sammeln“ kann RetroSearch Zugriff auf über 189,000 Seiten bieten, die alle zeitlich eingefroren sind, und so eine faire und reproduzierbare Testumgebung gewährleisten.
Welche KI-Agenten erbringen die beste Leistung?
Unter allen Konkurrenten erwies sich o3 von OpenAI als Spitzenreiter mit 0.51 von 1.0 möglichen Punkten im Deep Research Bench. Das mag zwar bescheiden klingen, doch ist es wichtig, die Schwierigkeit des Benchmarks zu verstehen: Aufgrund der Mehrdeutigkeit bei Aufgabendefinitionen und Bewertung würde selbst ein fehlerfreier Agent wahrscheinlich nur bei etwa 0.8 landen – was Forscher als „Rauschobergrenze“ bezeichnen. Anders ausgedrückt: Selbst die besten Modelle von heute können gut informierte, methodische menschliche Forscher noch nicht mithalten.
Dennoch bietet die Bestenliste aufschlussreiche Erkenntnisse. o3 führte nicht nur das Feld an, sondern tat dies auch mit Geschwindigkeit und Konstanz und zeigte bei nahezu allen Aufgabentypen eine starke Leistung. Dicht dahinter folgte Claude 3.7 Sonnet von Anthropic, das sowohl im Denk- als auch im Nicht-Denkmodus Vielseitigkeit bewies. Gemini 2.5 Pro, Googles Flaggschiff-Modell, überzeugte durch seine Fähigkeit, Aufgaben zu bewältigen, die strukturierte Planung und schrittweises Denken erforderten. Der offengewichtige DeepSeek-R1 sorgte für eine angenehme Überraschung: Er hielt mit GPT-4 Turbo Schritt und verringerte die Leistungslücke zwischen offenen und geschlossenen Modellen.
Überall zeichnete sich ein klares Muster ab: Neuere, „denkfähige“ Modelle waren ihren früheren Gegenstücken durchweg überlegen, und Closed-Source-Modelle behielten einen deutlichen Vorsprung gegenüber Open-Source-Alternativen.
Wo haben Agenten Probleme?
Die im Deep Research Bench-Bericht hervorgehobenen Fehlermuster kamen mir überraschend bekannt vor. Besonders frustrierend ist es, wenn ein KI-Agent einfach vergisst, was wir gerade tun – insbesondere bei langen Recherche- oder Content-Erstellungssitzungen. Mit zunehmendem Kontextfenster verliert das Modell oft den Faden: Wichtige Details verschwinden, Ziele geraten ins Unklare, und plötzlich wirken die Antworten unzusammenhängend oder ziellos. Irgendwann habe ich gelernt, dass es oft besser ist, die Verluste zu begrenzen und von vorne anzufangen, selbst wenn das bedeutet, alles bisher Erarbeitete zu verwerfen.
Diese Art von Vergesslichkeit ist nicht nur anekdotisch – sie ist der wichtigste Indikator für ein Scheitern in der Deep Research Bench-Evaluierung. Doch es ist nicht das einzige wiederkehrende Problem. Der Bericht zeigt auch, wie manche Modelle auf repetitive Tool-Nutzung zurückgreifen und dieselbe Suche immer wieder ausführen, als ob sie in einer Schleife feststecken. Andere Modelle zeichnen sich durch eine schlechte Abfrageformulierung aus und führen nachlässige Keyword-Abgleiche durch, anstatt kritisch über effektive Suchmethoden nachzudenken. Und allzu oft fallen Agenten voreiligen Schlussfolgerungen zum Opfer – sie liefern eine halbherzige Antwort, die zwar technisch gesehen den Anforderungen entspricht, aber keine wirklichen Erkenntnisse liefert.
Selbst unter den Topmodellen sind die Unterschiede deutlich. GPT-4 Turbo beispielsweise zeigte eine bemerkenswerte Tendenz, vorherige Schritte zu vergessen, während DeepSeek-R1 eher dazu neigte, halluzinieren oder erfinden plausibel klingende, aber falsche Informationen. Überall versäumten es die Modelle häufig, Quellen zu überprüfen oder Ergebnisse zu validieren, bevor sie ihre Ergebnisse finalisierten. Wer schon einmal ernsthaft mit KI gearbeitet hat, dem werden diese Probleme nur allzu vertraut vorkommen – und sie unterstreichen, wie weit wir noch gehen müssen, um Agenten zu entwickeln, die wirklich wie Menschen denken und forschen können.
Was ist mit der speicherbasierten Leistung?
Interessanterweise untersuchte Deep Research Bench auch sogenannte „toolless“-Agenten – Sprachmodelle, die ohne Zugriff auf externe Tools wie Websuche oder Dokumentenabruf arbeiten. Diese Agenten verlassen sich vollständig auf ihre internen Trainingsdaten und ihr Gedächtnis und generieren Antworten ausschließlich auf Grundlage des zuvor im Training Gelernten. In der Praxis bedeutet dies, dass sie weder nachschlagen noch Informationen überprüfen können – sie raten auf Grundlage dessen, was sie sich „erinnern“.
Überraschenderweise schnitten diese werkzeuglosen Agenten bei bestimmten Aufgaben fast genauso gut ab wie Agenten mit vollständiger Recherche. Beispielsweise erreichten sie bei der Aufgabe „Behauptung validieren“ – bei der es darum geht, die Plausibilität einer Aussage zu beurteilen – einen Wert von 0.61 und erreichten damit nahezu den Durchschnitt von 0.62 der werkzeuggestützten Agenten. Dies deutet darauf hin, dass Modelle wie o3 und Claude über starke interne Vorannahmen verfügen und den Wahrheitsgehalt gängiger Behauptungen oft erkennen können, ohne im Internet suchen zu müssen.
Bei anspruchsvolleren Aufgaben – wie dem Ableiten von Zahlen, bei dem mehrere Werte aus unterschiedlichen Quellen zusammengefügt werden müssen, oder dem Sammeln von Beweisen, bei dem es darum geht, verschiedene Fakten im Kontext zu finden und zu bewerten – versagten diese werkzeuglosen Modelle jedoch völlig. Ohne aktuelle Informationen oder Echtzeit-Suchfunktionen fehlten ihnen schlicht die Mittel, um präzise und umfassende Antworten zu liefern.
Dieser Kontrast verdeutlicht eine wichtige Nuance: Während die heutigen LLMs das „Wissen“ in vielerlei Hinsicht simulieren können, hängt die gründliche Forschung nicht nur vom Erinnern ab, sondern auch vom logischen Denken anhand aktueller, überprüfbarer Informationen – etwas, das nur durch Tools erweiterte Agenten wirklich leisten können.
Fazit
Der DRB-Bericht macht eines deutlich: Die besten KI-Agenten von heute können zwar bei eng definierten Aufgaben den durchschnittlichen Menschen übertreffen, sie hinken jedoch immer noch hinter versierten Generalistenforschern her – insbesondere, wenn es um strategische Planung, Anpassungen während des Prozesses und differenziertes Denken geht.
Diese Lücke wird besonders bei langen oder komplexen Sitzungen deutlich – das habe ich selbst erlebt: Ein Agent verliert nach und nach den Überblick über den Zweck der Aufgabe, was zu einem frustrierenden Zusammenbruch der Kohärenz und Nützlichkeit führt.
Was macht Tiefe Forschungsbank Der Wert liegt darin, dass es nicht nur oberflächliches Wissen testet, sondern auch die Schnittstelle zwischen Werkzeugnutzung, Gedächtnis, logischem Denken und Anpassung untersucht und so eine bessere Analogie zur realen Forschung bietet als Benchmarks wie MMLU oder GSM8k.
Da LLMs immer mehr in ernsthafte Wissensarbeit integriert werden, Zukunftssuche Tools wie DRB werden von entscheidender Bedeutung sein, um nicht nur zu beurteilen, was diese Systeme wissen, sondern auch, wie gut sie tatsächlich funktionieren.










