Intelligence artificielle
Quelle est l’efficacité des agents IA dans la recherche réelle ? À l’intérieur du rapport de banc d’essai de recherche approfondie

Alors que les grands modèles de langage (LLM) évoluent rapidement, leur promesse en tant qu’assistants de recherche puissants évolue également. De plus en plus, ils ne répondent pas seulement à des questions factuelles simples, mais abordent également des tâches de “recherche approfondie” qui impliquent une raisonnement multi-étapes, l’évaluation d’informations contradictoires, la recherche de données à travers le web et la synthèse de celles-ci en une sortie cohérente.
Cette capacité émergente est maintenant commercialisée sous différents noms de marque par les principaux laboratoires – OpenAI l’appelle “Recherche approfondie”, Anthropic la désigne comme “Pensée étendue”, Gemini de Google offre des fonctionnalités “Recherche + Pro” et Perplexity la désigne comme “Recherche Pro” ou “Recherche approfondie”. Mais à quel point ces offres sont-elles efficaces dans la pratique ? Un nouveau rapport de FutureSearch, intitulé Deep Research Bench (DRB) : Évaluation des agents de recherche web, propose l’évaluation la plus rigoureuse à ce jour – et les résultats révèlent à la fois des capacités impressionnantes et des lacunes critiques.
Qu’est-ce que le Deep Research Bench ?
Créé par l’équipe de FutureSearch, Deep Research Bench est un référentiel soigneusement construit conçu pour évaluer les performances des agents IA sur des tâches de recherche web à plusieurs étapes. Ce ne sont pas des questions simples avec des réponses directes – elles reflètent les défis complexes et ouverts auxquels sont confrontés les analystes, les décideurs politiques et les chercheurs dans des contextes réels.
Le référentiel comprend 89 tâches distinctes dans 8 catégories telles que :
- Trouver un numéro : par exemple, “Combien de rappels de dispositifs médicaux de classe II de la FDA ont eu lieu ?”
- Valider une affirmation : par exemple, “ChatGPT est-il 10 fois plus gourmand en énergie que la recherche Google ?”
- Compiler un ensemble de données : par exemple, “Tendances de l’emploi pour les développeurs de logiciels américains de 2019 à 2023”
Chaque type de tâche est soigneusement structuré avec des réponses vérifiées par des humains et évalué à l’aide d’un ensemble de données figé de pages web scrapées, appelé RetroSearch. Cela garantit la cohérence à travers les évaluations de modèles, en évitant l’état changeant du web en direct.
L’architecture de l’agent : ReAct et RetroSearch
Au cœur du Deep Research Bench se trouve l’architecture ReAct, abréviation de “Reason + Act”. Cette méthode imite la façon dont un chercheur humain pourrait aborder un problème – en réfléchissant à la tâche, en effectuant une action comme une recherche web, en observant les résultats et en décidant ensuite s’il faut itérer ou conclure.
Alors que les modèles plus anciens suivent explicitement cette boucle, les modèles “de pensée” plus récents rationalisent souvent le processus, en intégrant la raison de manière plus fluide dans leurs actions. Pour assurer la cohérence à travers les évaluations, le DRB introduit RetroSearch – une version statique personnalisée du web. Plutôt que de s’appuyer sur l’internet en direct, qui change constamment, les agents puisent dans un archive curatée de pages web scrapées à l’aide d’outils tels que Serper, Playwright et ScraperAPI. L’échelle est impressionnante : pour des tâches à haute complexité telles que “Rassembler des preuves”, RetroSearch peut fournir l’accès à plus de 189 000 pages, toutes figées dans le temps, garantissant un environnement de test équitable et reproductible.
Quels agents IA performants ?
Parmi tous les concurrents, o3 d’OpenAI est apparu comme le meilleur performer, obtenant un score de 0,51 sur 1,0 sur le Deep Research Bench. Même si cela peut sembler modeste, il est important de comprendre la difficulté du référentiel : en raison de l’ambiguïté des définitions de tâches et de la notation, même un agent sans faille obtiendrait probablement un score d’environ 0,8 – ce que les chercheurs appellent le “plafond de bruit”. En d’autres termes, même les meilleurs modèles d’aujourd’hui sont encore loin de rivaliser avec des chercheurs humains bien informés et méthodiques.
Cependant, le classement offre des insights révélateurs. o3 ne s’est pas seulement classé en tête, mais l’a fait avec rapidité et cohérence, montrant de solides performances dans presque tous les types de tâches. Claude 3.7 Sonnet d’Anthropic a suivi de près, démontrant sa polyvalence dans ses modes “de pensée” et “non de pensée”. Gemini 2.5 Pro, le modèle phare de Google, s’est distingué par sa capacité à gérer les tâches nécessitant une planification structurée et un raisonnement étape par étape. Pendant ce temps, le DeepSeek-R1 à poids ouvert a offert une agréable surprise – en suivant le rythme de GPT-4 Turbo et en réduisant l’écart de performance entre les modèles ouverts et fermés.
Dans l’ensemble, un schéma clair est apparu : les modèles plus récents “dotés de capacités de pensée” ont systématiquement surpassé leurs prédécesseurs, et les modèles à code fermé ont maintenu un avantage notable sur les alternatives à poids ouvert.
Où les agents ont-ils des difficultés ?
Lire les modèles d’échec mis en évidence dans le rapport Deep Research Bench m’a semblé étrangement familier. L’un des aspects les plus frustrants que j’ai personnellement rencontrés – en particulier lors de longues sessions de recherche ou de création de contenu – est lorsque l’agent IA oublie simplement ce que nous faisions. À mesure que la fenêtre contextuelle s’étend, le modèle commence souvent à perdre le fil : les détails clés s’estompent, les objectifs sont embrouillés et les réponses finissent par sembler disjointes ou sans but. À un moment donné, j’ai appris qu’il est souvent préférable de limiter les pertes et de recommencer à zéro, même si cela signifie jeter tout ce qui a été généré jusqu’à présent.
Ce type d’oubli n’est pas simplement anecdotique – c’est le plus grand prédicteur d’échec dans l’évaluation du Deep Research Bench. Mais ce n’est pas le seul problème récurrent. Le rapport met également en évidence la façon dont certains modèles tombent dans une utilisation répétitive d’outils, exécutant la même recherche encore et encore comme s’ils étaient coincés dans une boucle. D’autres présentent une mauvaise formulation de requêtes, effectuant des correspondances de mots clés de manière paresseuse au lieu de réfléchir de manière critique à la façon de rechercher efficacement. Et bien trop souvent, les agents sont victimes de conclusions prématurées – fournissant une réponse à moitié formée qui répond techniquement à la case mais manque de véritable perspicacité.
Même parmi les meilleurs modèles, les différences sont frappantes. GPT-4 Turbo, par exemple, a montré une tendance notable à oublier les étapes précédentes, tandis que DeepSeek-R1 était plus susceptible de halluciner ou d’inventer des informations plausibles mais incorrectes. Dans l’ensemble, les modèles ont souvent échoué à vérifier les sources ou à valider les résultats avant de finaliser leur sortie. Pour quiconque a utilisé l’IA pour un travail sérieux, ces problèmes seront trop familiers – et ils soulignent à quel point nous devons encore progresser dans la création d’agents capables de réellement penser et rechercher comme des humains.
Qu’en est-il des performances basées sur la mémoire ?
Intéressant, le Deep Research Bench a également évalué ce qu’il appelle des “agents sans outils” – des modèles de langage fonctionnant sans accès à des outils externes, tels que la recherche web ou la récupération de documents. Ces agents s’appuient entièrement sur leurs données de formation internes et leur mémoire, générant des réponses basées uniquement sur ce qu’ils ont appris lors de la formation. Dans la pratique, cela signifie qu’ils ne peuvent pas consulter quoi que ce soit ou vérifier des informations – ils devinent en fonction de ce qu’ils “se souviennent”.
Étonnamment, ces agents sans outils ont performé presque aussi bien que les agents de recherche complets sur certaines tâches. Par exemple, sur la tâche de validation d’une affirmation – où l’objectif est d’évaluer la plausibilité d’une déclaration – ils ont obtenu un score de 0,61, presque égal à la moyenne de 0,62 des agents avec outils. Cela suggère que des modèles comme o3 et Claude ont de solides a priori internes et peuvent souvent reconnaître la véracité des affirmations courantes sans avoir besoin de rechercher sur le web.
Mais sur des tâches plus exigeantes – comme la dérivation d’un numéro, qui nécessite de rassembler plusieurs valeurs de différentes sources, ou la collecte de preuves, qui dépend de la recherche et de l’évaluation de faits divers dans leur contexte – ces modèles sans outils ont complètement échoué. Sans informations fraîches ou capacités de recherche en temps réel, ils leur manquait simplement les moyens de produire des réponses précises ou complètes.
Ce contraste met en évidence une nuance importante : même si les LLM d’aujourd’hui peuvent simuler “savoir” beaucoup de choses, la recherche approfondie dépend non seulement de la mémoire, mais également de la capacité de raisonner avec des informations à jour et vérifiables – quelque chose que seuls les agents avec outils peuvent vraiment offrir.
Pensées finales
Le rapport DRB rend une chose claire : même si les meilleurs agents IA d’aujourd’hui peuvent surpasser les humains moyens sur des tâches étroitement définies, ils sont encore en retard par rapport aux chercheurs généralistes qualifiés – en particulier lorsqu’il s’agit de planification stratégique, d’adaptation en cours de processus et de raisonnement nuancé.
Cet écart devient particulièrement évident lors de sessions longues ou complexes – quelque chose que j’ai vécu personnellement, où un agent perd progressivement la trace de l’objectif de la tâche, conduisant à un effondrement frustrant de la cohérence et de l’utilité.
Ce qui rend le Deep Research Bench si précieux, c’est qu’il ne teste pas seulement les connaissances de surface – il sonde l’intersection de l’utilisation d’outils, de la mémoire, du raisonnement et de l’adaptation, offrant un analogue plus proche de la recherche dans le monde réel que des référentiels comme MMLU ou GSM8k.
Alors que les LLM continuent à s’intégrer dans le travail de connaissance sérieux, les outils FutureSearch comme le DRB seront essentiels pour évaluer non seulement ce que ces systèmes savent, mais également comment ils fonctionnent réellement.










