Intelligence Artificielle
Quelle est l'efficacité des agents d'IA en recherche réelle ? À la découverte du rapport Deep Research Bench

As grands modèles de langage (LLM) Leur évolution rapide s'accompagne d'une forte promesse d'assistants de recherche performants. De plus en plus, ils ne se contentent pas de répondre à de simples questions factuelles : ils s'attaquent à des tâches de « recherche approfondie », impliquant un raisonnement en plusieurs étapes, l'évaluation d'informations contradictoires, la recherche de données sur le web et leur synthèse en un résultat cohérent.
Cette nouvelle fonctionnalité est désormais commercialisée sous différentes marques par de grands laboratoires : OpenAI l'appelle « Recherche approfondie », Anthropic « Pensée étendue », Gemini de Google propose des fonctionnalités « Recherche + Pro », et Perplexity la qualifie de « Recherche Pro » ou « Recherche approfondie ». Mais quelle est l'efficacité de ces offres en pratique ? Un nouveau rapport de FutureSearch, Intitulé Deep Research Bench (DRB) : évaluation des agents de recherche Web, offre l’évaluation la plus rigoureuse à ce jour, et les résultats révèlent à la fois des capacités impressionnantes et des lacunes critiques.
Qu'est-ce que Deep Research Bench ?
Créé par l'équipe FutureSearch, Deep Research Bench est un benchmark méticuleusement conçu pour évaluer les performances des agents d'IA sur des tâches de recherche en ligne en plusieurs étapes. Il ne s'agit pas de questions simples aux réponses évidentes : elles reflètent les défis complexes et ouverts auxquels sont confrontés les analystes, les décideurs politiques et les chercheurs dans des contextes réels.
Le benchmark comprend 89 tâches distinctes réparties en 8 catégories telles que :
- Trouver un numéro: par exemple « Combien de rappels de dispositifs médicaux de classe II de la FDA ont eu lieu ? »
- Valider la réclamation: par exemple « ChatGPT est-il 10 fois plus énergivore que la recherche Google ? »
- Compiler l'ensemble de données: par exemple « Tendances de l'emploi pour les développeurs de logiciels aux États-Unis de 2019 à 2023 »
Chaque type de tâche est soigneusement structuré avec des réponses vérifiées par des experts et évalué à l'aide d'un ensemble de données figées de pages web extraites, appelé RetroSearch. Cela garantit la cohérence entre les évaluations des modèles, évitant ainsi les fluctuations de l'état du web en direct.
L'architecture de l'agent : ReAct et RetroSearch
Au cœur de Deep Research Bench se trouve l'architecture ReAct (abréviation de « Reason + Act »). Cette méthode imite la manière dont un chercheur humain aborde un problème : il réfléchit à la tâche, effectue une action comme une recherche sur le Web, observe les résultats, puis décide d'itérer ou de conclure.
Alors que les modèles antérieurs suivaient explicitement cette boucle, les modèles de « réflexion » plus récents rationalisent souvent le processus, intégrant le raisonnement de manière plus fluide dans leurs actions. Pour garantir la cohérence des évaluations, DRB introduit RetroSearch, une version statique et personnalisée du Web. Plutôt que de s'appuyer sur Internet, en constante évolution, les agents exploitent une archive organisée de pages web extraites à l'aide d'outils tels que Serper, Dramaturgebauen GrattoirAPIL'échelle est impressionnante : pour les tâches de grande complexité telles que « Rassembler des preuves », RetroSearch peut donner accès à plus de 189,000 XNUMX pages, toutes figées dans le temps, garantissant un environnement de test équitable et reproductible.
Quels agents d’IA sont les plus performants ?
Parmi tous les concurrents, o3 d'OpenAI s'est imposé comme le meilleur, avec un score de 0.51 sur 1.0 possible au Deep Research Bench. Bien que cela puisse paraître modeste, il est important de comprendre la difficulté de ce benchmark : en raison de l'ambiguïté des définitions et des scores des tâches, même un agent parfait atteindrait probablement un score d'environ 0.8, ce que les chercheurs appellent le « plafond de bruit ». Autrement dit, même les meilleurs modèles actuels restent en deçà des attentes des chercheurs humains bien informés et méthodiques.
Le classement offre néanmoins des informations révélatrices. o3 a non seulement dominé le peloton, mais l'a fait avec rapidité et constance, affichant d'excellentes performances dans presque tous les types de tâches. Claude 3.7 Sonnet d'Anthropic suivait de près, faisant preuve de polyvalence dans ses modes « pensant » et « non-pensant ». Gemini 2.5 Pro, le modèle phare de Google, s'est distingué par sa capacité à gérer des tâches nécessitant une planification structurée et un raisonnement étape par étape. De son côté, le DeepSeek-R1, un modèle ouvert, a réservé une agréable surprise en suivant le rythme de GPT-4 Turbo et en réduisant l'écart de performance entre les modèles ouverts et fermés.
Dans l’ensemble, une tendance claire s’est dégagée : les modèles plus récents, « basés sur la réflexion », ont systématiquement surpassé leurs homologues antérieurs, et les modèles à code source fermé ont conservé un avantage notable sur les alternatives à code source ouvert.
Où les agents ont-ils des difficultés ?
La lecture des schémas d'échec mis en évidence dans le rapport Deep Research Bench m'a semblé étonnamment familière. L'un des aspects les plus frustrants que j'ai personnellement rencontrés, notamment lors de longues sessions de recherche ou de création de contenu, est lorsqu'un agent d'IA oublie tout simplement ce que nous faisions. À mesure que la fenêtre contextuelle s'élargit, le modèle perd souvent le fil : les détails clés s'estompent, les objectifs se brouillent et, soudain, les réponses semblent décousues ou sans but. J'ai fini par comprendre qu'il est souvent préférable de limiter les pertes et de repartir de zéro, même si cela implique de jeter tout ce qui a été généré jusqu'à présent.
Ce type d'oubli n'est pas seulement anecdotique : c'est le principal facteur prédictif d'échec dans l'évaluation Deep Research Bench. Mais ce n'est pas le seul problème récurrent. Le rapport souligne également que certains modèles utilisent des outils répétitifs, exécutant la même recherche encore et encore, comme s'ils étaient bloqués dans une boucle. D'autres présentent une mauvaise formulation des requêtes, une correspondance paresseuse des mots-clés au lieu d'une réflexion critique sur la manière de rechercher efficacement. Et bien trop souvent, les agents sont victimes de conclusions prématurées, fournissant une réponse incomplète qui, techniquement, remplit les conditions, mais qui manque d'informations concrètes.
Même parmi les modèles haut de gamme, les différences sont flagrantes. Le GPT-4 Turbo, par exemple, a montré une tendance notable à oublier les étapes précédentes, tandis que le DeepSeek-R1 était plus susceptible de halluciner ou inventer des informations apparemment plausibles, mais erronées. Dans l'ensemble, les modèles omettaient souvent de recouper les sources ou de valider les résultats avant de finaliser leurs résultats. Pour quiconque s'est appuyé sur l'IA pour un travail sérieux, ces problèmes ne seront que trop familiers, et ils soulignent le chemin qu'il nous reste à parcourir pour créer des agents capables de penser et de rechercher véritablement comme des humains.
Qu'en est-il des performances basées sur la mémoire ?
Il est intéressant de noter que Deep Research Bench a également évalué ce qu'il appelle des agents « sans outils » : des modèles de langage fonctionnant sans aucun accès à des outils externes, tels que la recherche web ou la récupération de documents. Ces agents s'appuient entièrement sur leurs données d'entraînement et leur mémoire internes, générant des réponses basées uniquement sur ce qu'ils ont appris pendant l'entraînement. En pratique, cela signifie qu'ils ne peuvent rien rechercher ni vérifier ; ils se contentent de deviner en fonction de ce dont ils se « souviennent ».
Étonnamment, ces agents sans outils ont obtenu des résultats presque aussi bons que les agents de recherche sur certaines tâches. Par exemple, pour la tâche de validation d'une affirmation, dont l'objectif est d'évaluer la plausibilité d'une affirmation, ils ont obtenu un score de 0.61, soit presque la moyenne de 0.62 des agents avec outils. Cela suggère que des modèles comme o3 et Claude ont des a priori internes solides et peuvent souvent reconnaître la véracité d'affirmations courantes sans avoir à effectuer de recherche sur le web.
Mais pour des tâches plus exigeantes, comme Dériver un nombre, qui nécessite de rassembler plusieurs valeurs provenant de sources diverses, ou Recueillir des preuves, qui repose sur la recherche et l'évaluation de faits divers en contexte, ces modèles, dépourvus d'outils, se sont complètement effondrés. Sans informations actualisées ni capacités de recherche en temps réel, ils manquaient tout simplement des moyens de produire des réponses précises et complètes.
Ce contraste met en évidence une nuance importante : alors que les LLM d’aujourd’hui peuvent simuler le « savoir » dans de nombreux domaines, la recherche approfondie ne dépend pas seulement du rappel, mais du raisonnement avec des informations actualisées et vérifiables, quelque chose que seuls les agents augmentés par des outils peuvent réellement fournir.
Réflexions finales
Le rapport DRB met clairement en évidence une chose : même si les meilleurs agents d'IA d'aujourd'hui peuvent surpasser les humains moyens sur des tâches étroitement définies, ils sont toujours à la traîne par rapport aux chercheurs généralistes qualifiés, en particulier lorsqu'il s'agit de planifier de manière stratégique, de s'adapter en cours de processus et de raisonner avec nuance.
Cet écart devient particulièrement évident lors de sessions longues ou complexes, ce que j’ai pu constater de première main, où un agent perd progressivement la trace de l’objectif de la tâche, ce qui conduit à une rupture frustrante de cohérence et d’utilité.
Ce qui rend Banc de recherche approfondi Ce qui est si précieux, c'est qu'il ne se contente pas de tester les connaissances superficielles : il sonde l'intersection de l'utilisation des outils, de la mémoire, du raisonnement et de l'adaptation, offrant ainsi une analogie plus proche de la recherche du monde réel que des benchmarks comme MMLU ou GSM8k.
Alors que les LLM continuent de s’intégrer dans un travail intellectuel sérieux, FutureSearch Des outils comme DRB seront essentiels pour évaluer non seulement ce que ces systèmes savent, mais aussi dans quelle mesure ils fonctionnent réellement.










