Suivez nous sur

Quelle est l'efficacitĂ© des agents d'IA en recherche rĂ©elle ? Ă€ la dĂ©couverte du rapport Deep Research Bench

Intelligence Artificielle

Quelle est l'efficacitĂ© des agents d'IA en recherche rĂ©elle ? Ă€ la dĂ©couverte du rapport Deep Research Bench

mm

As grands modèles de langage (LLM) Leur Ă©volution rapide s'accompagne d'une forte promesse d'assistants de recherche performants. De plus en plus, ils ne se contentent pas de rĂ©pondre Ă  de simples questions factuelles : ils s'attaquent Ă  des tâches de « recherche approfondie Â», impliquant un raisonnement en plusieurs Ă©tapes, l'Ă©valuation d'informations contradictoires, la recherche de donnĂ©es sur le web et leur synthèse en un rĂ©sultat cohĂ©rent.

Cette nouvelle fonctionnalitĂ© est dĂ©sormais commercialisĂ©e sous diffĂ©rentes marques par de grands laboratoires : OpenAI l'appelle « Recherche approfondie Â», Anthropic « PensĂ©e Ă©tendue Â», Gemini de Google propose des fonctionnalitĂ©s « Recherche + Pro Â», et Perplexity la qualifie de « Recherche Pro Â» ou « Recherche approfondie Â». Mais quelle est l'efficacitĂ© de ces offres en pratique ? Un nouveau rapport de FutureSearch, IntitulĂ© Deep Research Bench (DRB) : Ă©valuation des agents de recherche Web, offre l’évaluation la plus rigoureuse Ă  ce jour, et les rĂ©sultats rĂ©vèlent Ă  la fois des capacitĂ©s impressionnantes et des lacunes critiques.

Qu'est-ce que Deep Research Bench ?

Créé par l'Ă©quipe FutureSearch, Deep Research Bench est un benchmark mĂ©ticuleusement conçu pour Ă©valuer les performances des agents d'IA sur des tâches de recherche en ligne en plusieurs Ă©tapes. Il ne s'agit pas de questions simples aux rĂ©ponses Ă©videntes : elles reflètent les dĂ©fis complexes et ouverts auxquels sont confrontĂ©s les analystes, les dĂ©cideurs politiques et les chercheurs dans des contextes rĂ©els.

Le benchmark comprend 89 tâches distinctes réparties en 8 catégories telles que :

  • Trouver un numĂ©ro: par exemple « Combien de rappels de dispositifs mĂ©dicaux de classe II de la FDA ont eu lieu ? »
  • Valider la rĂ©clamation: par exemple « ChatGPT est-il 10 fois plus Ă©nergivore que la recherche Google ? »
  • Compiler l'ensemble de donnĂ©es: par exemple « Tendances de l'emploi pour les dĂ©veloppeurs de logiciels aux États-Unis de 2019 Ă  2023 »

Chaque type de tâche est soigneusement structuré avec des réponses vérifiées par des experts et évalué à l'aide d'un ensemble de données figées de pages web extraites, appelé RetroSearch. Cela garantit la cohérence entre les évaluations des modèles, évitant ainsi les fluctuations de l'état du web en direct.

L'architecture de l'agent : ReAct et RetroSearch

Au cĹ“ur de Deep Research Bench se trouve l'architecture ReAct (abrĂ©viation de « Reason + Act Â»). Cette mĂ©thode imite la manière dont un chercheur humain aborde un problème : il rĂ©flĂ©chit Ă  la tâche, effectue une action comme une recherche sur le Web, observe les rĂ©sultats, puis dĂ©cide d'itĂ©rer ou de conclure.

Alors que les modèles antĂ©rieurs suivaient explicitement cette boucle, les modèles de « rĂ©flexion Â» plus rĂ©cents rationalisent souvent le processus, intĂ©grant le raisonnement de manière plus fluide dans leurs actions. Pour garantir la cohĂ©rence des Ă©valuations, DRB introduit RetroSearch, une version statique et personnalisĂ©e du Web. PlutĂ´t que de s'appuyer sur Internet, en constante Ă©volution, les agents exploitent une archive organisĂ©e de pages web extraites Ă  l'aide d'outils tels que Serper, Dramaturgebauen GrattoirAPIL'Ă©chelle est impressionnante : pour les tâches de grande complexitĂ© telles que « Rassembler des preuves », RetroSearch peut donner accès Ă  plus de 189,000 XNUMX pages, toutes figĂ©es dans le temps, garantissant un environnement de test Ă©quitable et reproductible.

Quels agents d’IA sont les plus performants ?

Parmi tous les concurrents, o3 d'OpenAI s'est imposĂ© comme le meilleur, avec un score de 0.51 sur 1.0 possible au Deep Research Bench. Bien que cela puisse paraĂ®tre modeste, il est important de comprendre la difficultĂ© de ce benchmark : en raison de l'ambiguĂŻtĂ© des dĂ©finitions et des scores des tâches, mĂŞme un agent parfait atteindrait probablement un score d'environ 0.8, ce que les chercheurs appellent le « plafond de bruit Â». Autrement dit, mĂŞme les meilleurs modèles actuels restent en deçà des attentes des chercheurs humains bien informĂ©s et mĂ©thodiques.

Le classement offre nĂ©anmoins des informations rĂ©vĂ©latrices. o3 a non seulement dominĂ© le peloton, mais l'a fait avec rapiditĂ© et constance, affichant d'excellentes performances dans presque tous les types de tâches. Claude 3.7 Sonnet d'Anthropic suivait de près, faisant preuve de polyvalence dans ses modes « pensant Â» et « non-pensant Â». Gemini 2.5 Pro, le modèle phare de Google, s'est distinguĂ© par sa capacitĂ© Ă  gĂ©rer des tâches nĂ©cessitant une planification structurĂ©e et un raisonnement Ă©tape par Ă©tape. De son cĂ´tĂ©, le DeepSeek-R1, un modèle ouvert, a rĂ©servĂ© une agrĂ©able surprise en suivant le rythme de GPT-4 Turbo et en rĂ©duisant l'Ă©cart de performance entre les modèles ouverts et fermĂ©s.

Dans l’ensemble, une tendance claire s’est dégagée : les modèles plus récents, « basés sur la réflexion », ont systématiquement surpassé leurs homologues antérieurs, et les modèles à code source fermé ont conservé un avantage notable sur les alternatives à code source ouvert.

Où les agents ont-ils des difficultés ?

La lecture des schĂ©mas d'Ă©chec mis en Ă©vidence dans le rapport Deep Research Bench m'a semblĂ© Ă©tonnamment familière. L'un des aspects les plus frustrants que j'ai personnellement rencontrĂ©s, notamment lors de longues sessions de recherche ou de crĂ©ation de contenu, est lorsqu'un agent d'IA oublie tout simplement ce que nous faisions. Ă€ mesure que la fenĂŞtre contextuelle s'Ă©largit, le modèle perd souvent le fil : les dĂ©tails clĂ©s s'estompent, les objectifs se brouillent et, soudain, les rĂ©ponses semblent dĂ©cousues ou sans but. J'ai fini par comprendre qu'il est souvent prĂ©fĂ©rable de limiter les pertes et de repartir de zĂ©ro, mĂŞme si cela implique de jeter tout ce qui a Ă©tĂ© gĂ©nĂ©rĂ© jusqu'Ă  prĂ©sent.

Ce type d'oubli n'est pas seulement anecdotique : c'est le principal facteur prĂ©dictif d'Ă©chec dans l'Ă©valuation Deep Research Bench. Mais ce n'est pas le seul problème rĂ©current. Le rapport souligne Ă©galement que certains modèles utilisent des outils rĂ©pĂ©titifs, exĂ©cutant la mĂŞme recherche encore et encore, comme s'ils Ă©taient bloquĂ©s dans une boucle. D'autres prĂ©sentent une mauvaise formulation des requĂŞtes, une correspondance paresseuse des mots-clĂ©s au lieu d'une rĂ©flexion critique sur la manière de rechercher efficacement. Et bien trop souvent, les agents sont victimes de conclusions prĂ©maturĂ©es, fournissant une rĂ©ponse incomplète qui, techniquement, remplit les conditions, mais qui manque d'informations concrètes.

Même parmi les modèles haut de gamme, les différences sont flagrantes. Le GPT-4 Turbo, par exemple, a montré une tendance notable à oublier les étapes précédentes, tandis que le DeepSeek-R1 était plus susceptible de halluciner ou inventer des informations apparemment plausibles, mais erronées. Dans l'ensemble, les modèles omettaient souvent de recouper les sources ou de valider les résultats avant de finaliser leurs résultats. Pour quiconque s'est appuyé sur l'IA pour un travail sérieux, ces problèmes ne seront que trop familiers, et ils soulignent le chemin qu'il nous reste à parcourir pour créer des agents capables de penser et de rechercher véritablement comme des humains.

Qu'en est-il des performances basĂ©es sur la mĂ©moire ?

Il est intĂ©ressant de noter que Deep Research Bench a Ă©galement Ă©valuĂ© ce qu'il appelle des agents « sans outils Â» : des modèles de langage fonctionnant sans aucun accès Ă  des outils externes, tels que la recherche web ou la rĂ©cupĂ©ration de documents. Ces agents s'appuient entièrement sur leurs donnĂ©es d'entraĂ®nement et leur mĂ©moire internes, gĂ©nĂ©rant des rĂ©ponses basĂ©es uniquement sur ce qu'ils ont appris pendant l'entraĂ®nement. En pratique, cela signifie qu'ils ne peuvent rien rechercher ni vĂ©rifier ; ils se contentent de deviner en fonction de ce dont ils se « souviennent Â».

Étonnamment, ces agents sans outils ont obtenu des résultats presque aussi bons que les agents de recherche sur certaines tâches. Par exemple, pour la tâche de validation d'une affirmation, dont l'objectif est d'évaluer la plausibilité d'une affirmation, ils ont obtenu un score de 0.61, soit presque la moyenne de 0.62 des agents avec outils. Cela suggère que des modèles comme o3 et Claude ont des a priori internes solides et peuvent souvent reconnaître la véracité d'affirmations courantes sans avoir à effectuer de recherche sur le web.

Mais pour des tâches plus exigeantes, comme Dériver un nombre, qui nécessite de rassembler plusieurs valeurs provenant de sources diverses, ou Recueillir des preuves, qui repose sur la recherche et l'évaluation de faits divers en contexte, ces modèles, dépourvus d'outils, se sont complètement effondrés. Sans informations actualisées ni capacités de recherche en temps réel, ils manquaient tout simplement des moyens de produire des réponses précises et complètes.

Ce contraste met en évidence une nuance importante : alors que les LLM d’aujourd’hui peuvent simuler le « savoir » dans de nombreux domaines, la recherche approfondie ne dépend pas seulement du rappel, mais du raisonnement avec des informations actualisées et vérifiables, quelque chose que seuls les agents augmentés par des outils peuvent réellement fournir.

Réflexions finales

Le rapport DRB met clairement en évidence une chose : même si les meilleurs agents d'IA d'aujourd'hui peuvent surpasser les humains moyens sur des tâches étroitement définies, ils sont toujours à la traîne par rapport aux chercheurs généralistes qualifiés, en particulier lorsqu'il s'agit de planifier de manière stratégique, de s'adapter en cours de processus et de raisonner avec nuance.

Cet écart devient particulièrement évident lors de sessions longues ou complexes, ce que j’ai pu constater de première main, où un agent perd progressivement la trace de l’objectif de la tâche, ce qui conduit à une rupture frustrante de cohérence et d’utilité.

Ce qui rend Banc de recherche approfondi Ce qui est si précieux, c'est qu'il ne se contente pas de tester les connaissances superficielles : il sonde l'intersection de l'utilisation des outils, de la mémoire, du raisonnement et de l'adaptation, offrant ainsi une analogie plus proche de la recherche du monde réel que des benchmarks comme MMLU ou GSM8k.

Alors que les LLM continuent de s’intégrer dans un travail intellectuel sérieux, FutureSearch Des outils comme DRB seront essentiels pour évaluer non seulement ce que ces systèmes savent, mais aussi dans quelle mesure ils fonctionnent réellement.

Antoine est un leader visionnaire et partenaire fondateur d'Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et on le surprend souvent en train de s'extasier sur le potentiel des technologies disruptives et de l'AGI.

En futuriste, il se consacre à l'exploration de la manière dont ces innovations façonneront notre monde. En outre, il est le fondateur de Titres.io, une plateforme axée sur l’investissement dans les technologies de pointe qui redéfinissent l’avenir et remodèlent des secteurs entiers.