Intelligence Artificielle
De nouvelles recherches révèlent seize problèmes majeurs avec les systèmes RAG, notamment la perplexité

Une étude récente menée aux États-Unis a révélé que les performances réelles des jeux populaires Récupération Génération Augmentée Les systèmes de recherche (RAG) tels que Perplexity et Bing Copilot sont loin d'être à la hauteur du battage marketing et de l'adoption populaire qui ont fait la une des journaux au cours des 12 derniers mois.
Le projet, qui a impliqué une vaste enquête auprès de 21 experts, a identifié pas moins de 16 domaines dans lesquels les systèmes RAG étudiés (You Chat, Bing Copilot et Perplexity) ont suscité des inquiétudes :
1: Un manque de détails objectifs dans les réponses générées, avec des résumés génériques et peu de profondeur ou de nuance contextuelle.
2. Renforcement des préjugés perçus de l'utilisateur, où un moteur RAG ne parvient souvent pas à présenter une gamme de points de vue, mais déduit et renforce plutôt les préjugés de l'utilisateur, en fonction de la manière dont celui-ci formule une question.
3. Langage trop confiant, notamment dans les réponses subjectives qui ne peuvent être établies empiriquement, ce qui peut conduire les utilisateurs à faire plus confiance à la réponse qu'elle ne le mérite.
4: Langage simpliste et manque de pensée critique et de créativité, où les réponses condescendent efficacement l'utilisateur avec des informations « simplifiées » et « agréables », au lieu d'une réflexion et d'une analyse approfondies.
5: Mauvaise attribution et mauvaise citation des sources, lorsque le moteur de réponse utilise des sources citées qui ne soutiennent pas sa/ses réponse(s), favorisant ainsi l'illusion de crédibilité.
6: Sélectionner soigneusement les informations à partir du contexte inféré, où l'agent RAG semble rechercher des réponses qui soutiennent sa contention générée et son estimation de ce que l'utilisateur veut entendre, au lieu de fonder ses réponses sur une analyse objective de sources fiables (ce qui indique peut-être un conflit entre les données LLM « cuites » du système et les données qu'il obtient à la volée sur Internet en réponse à une requête).
7: Omettre les citations qui étayent les déclarations, où le matériel source des réponses est absent.
8: Ne fournissant aucun schéma logique pour ses réponses, où les utilisateurs ne peuvent pas se demander pourquoi le système a donné la priorité à certaines sources par rapport à d’autres.
9: Nombre limité de sources, là où la plupart des systèmes RAG fournissent généralement environ trois sources d’appui pour une déclaration, même lorsqu’une plus grande diversité de sources serait applicable.
10: Sources orphelines, lorsque les données de tout ou partie des citations justificatives du système ne sont pas réellement incluses dans la réponse.
11: Utilisation de sources non fiables, où le système semble avoir préféré une source populaire (c'est-à -dire en termes de référencement) plutôt que factuellement correcte.
12: Sources redondantes, où le système présente plusieurs citations dans lesquelles les articles sources ont essentiellement le même contenu.
13: Sources non filtrées, là où le système n'offre à l'utilisateur aucun moyen d'évaluer ou de filtrer les citations proposées, obligeant les utilisateurs à prendre les critères de sélection en compte.
14: Manque d'interactivité ou d'explorabilité, dans lequel plusieurs participants à l'étude utilisateur étaient frustrés par le fait que les systèmes RAG ne posaient pas de questions de clarification, mais supposaient l'intention de l'utilisateur dès la première requête.
15: La nécessité d’une vérification externe, où les utilisateurs se sentent obligés d'effectuer une vérification indépendante de la ou des réponses fournies, supprimant en grande partie la commodité supposée de RAG en tant que « remplacement de la recherche ».
16: Utilisation de méthodes de citation académiques, tel que 1 or 34; c'est une pratique courante dans les cercles universitaires, mais elle peut être peu intuitive pour de nombreux utilisateurs.
Pour ce travail, les chercheurs ont réuni 21 experts en intelligence artificielle, santé et médecine, sciences appliquées et sciences de l'éducation et sciences sociales, tous chercheurs postdoctoraux ou doctorants. Les participants ont interagi avec les systèmes RAG testés tout en exprimant à voix haute leurs processus de pensée, afin de clarifier (pour les chercheurs) leur propre schéma rationnel.
L’article cite abondamment les doutes et les préoccupations des participants quant aux performances des trois systèmes étudiés.
La méthodologie de l'étude utilisateur a ensuite été systématisée dans une étude automatisée des systèmes RAG, en utilisant des suites de contrôle de navigateur :
« Une évaluation automatisée à grande échelle de systèmes comme You.com, Perplexity.ai et BingChat a montré qu'aucun n'atteignait des performances acceptables sur la plupart des indicateurs, y compris les aspects critiques liés à la gestion des hallucinations, aux déclarations non étayées et à la précision des citations. »
Les auteurs soutiennent longuement (et assidûment, dans cet article complet de 27 pages) que les utilisateurs novices comme expérimentés doivent faire preuve de prudence lorsqu'ils utilisent la classe de systèmes RAG étudiée. Ils proposent en outre un nouveau système de mesures, basé sur les lacunes constatées dans l'étude, qui pourrait constituer la base d'une surveillance technique plus poussée à l'avenir.
Toutefois, malgré la croissance L'utilisation publique des systèmes RAG incite également les auteurs à plaider en faveur d'une législation appropriée et d'un niveau plus élevé de politique gouvernementale applicable en ce qui concerne les interfaces de recherche d'IA assistée par agent.
Quand vous vous déconnectez, votre profil étude provient de cinq chercheurs de l'Université d'État de Pennsylvanie et de Salesforce, et s'intitule Les moteurs de recherche à l'ère de l'IA : la fausse promesse de réponses factuelles et vérifiables basées sur des sources citées. L'ouvrage couvre les systèmes RAG jusqu'à l'état de l'art en août 2024
Le compromis RAG
Les auteurs préfacent leur travail en réitérant quatre lacunes connues des grands modèles de langage (LLM) lorsqu'ils sont utilisés dans les moteurs de réponse.
Premièrement, ils sont sujets à informations hallucinantes, et n’ont pas la capacité de détecter les incohérences factuellesDeuxièmement, ils ont du mal évaluer l'exactitude d'une citation dans le contexte d'une réponse générée. Troisièmement, ils ont tendance à favoriser les données à partir de leurs propres poids pré-entraînés et peuvent résister aux données provenant de documentations récupérées en externe, même si ces données peuvent être plus récentes ou plus précises.
Enfin, les systèmes RAG ont tendance à plaire aux gens, comportement flagorneur, souvent au détriment de l’exactitude des informations contenues dans leurs réponses.
Toutes ces tendances ont été confirmées dans les deux aspects de l’étude, parmi de nombreuses observations inédites sur les pièges du RAG.
Le document considère OpenAI RechercherGPT Produit RAG (libéré aux abonnés la semaine dernière, après la soumission du nouveau document), comme susceptible d'encourager l'adoption par les utilisateurs des systèmes de recherche basés sur RAG, malgré les lacunes fondamentales que les résultats de l'enquête suggèrent* :
« La sortie de « SearchGPT » d'OpenAI, commercialisée comme une « Le tueur de recherche Google », exacerbe encore [les inquiétudes]. À mesure que la dépendance à ces outils augmente, l’urgence de comprendre leur impact se fait de plus en plus pressante. Lindemann introduit le concept de connaissances scellées, qui critique la manière dont ces systèmes limitent l'accès à des réponses diverses en condensant les requêtes de recherche en réponses singulières et faisant autorité, décontextualisant efficacement les informations et en réduisant utilisateur parfaitement équipés pour innover et exceller.
« Ce « scellement » des connaissances perpétue les biais de sélection et restreint les points de vue marginalisés. »
L'Étude
Les auteurs ont d’abord testé leur procédure d’étude sur trois des 24 participants sélectionnés, tous invités par des moyens tels que LinkedIn ou par courrier électronique.
La première étape, pour les 21 restants, impliquait Expertise en recherche d'informations, où les participants ont effectué en moyenne environ six recherches au cours d'une session de 40 minutes. Cette section s'est concentrée sur la collecte et la vérification des basé sur des faits questions et réponses, avec des solutions empiriques potentielles.
La deuxième phase concernait Recherche d'informations sur les débats, qui traitait plutôt de questions subjectives, notamment d’écologie, de végétarisme et de politique.

Réponses d'étude générées par Perplexity (à gauche) et You Chat (à droite). Source : https://arxiv.org/pdf/2410.22349
Étant donné que tous les systèmes permettaient au moins un certain niveau d’interactivité avec les citations fournies à l’appui des réponses générées, les sujets de l’étude ont été encouragés à interagir autant que possible avec l’interface.
Dans les deux cas, les participants ont été invités à formuler leurs demandes à la fois via un système RAG et un moteur de recherche conventionnel (dans ce cas, Google).
Les trois moteurs de réponse – You Chat, Bing Copilot et Perplexity – ont été choisis parce qu’ils sont accessibles au public.
La majorité des participants étaient déjà des utilisateurs de systèmes RAG, à des fréquences variables.
En raison de contraintes d’espace, nous ne pouvons pas détailler chacune des seize lacunes clés documentées de manière exhaustive et constatées dans l’étude, mais nous présentons ici une sélection de certains des exemples les plus intéressants et les plus éclairants.
Manque de détails objectifs
L'article souligne que les utilisateurs ont souvent trouvé les réponses des systèmes manquant de détails objectifs, tant factuels que subjectifs. L'un d'eux a commenté :
« J'essayais simplement de répondre sans vraiment me donner une réponse solide ou une réponse plus réfléchie, ce que je peux obtenir avec plusieurs recherches sur Google. »
Un autre a observé :
« C'est trop court et ça résume trop tout. [Le modèle] devrait me fournir davantage de données pour étayer ma demande, mais c'est très synthétique. »
Manque de point de vue holistique
Les auteurs expriment leur inquiétude quant à ce manque de nuance et de spécificité, et affirment que les moteurs de réponse ne parviennent souvent pas à présenter plusieurs perspectives sur un argument, tendant à se ranger du côté d'un biais perçu déduit de la formulation de la question par l'utilisateur lui-même.
Un participant a déclaré :
« Je veux en savoir plus sur l’autre côté de l’argument… tout cela avec un grain de sel parce que nous ne connaissons pas l’autre côté, ni les preuves ni les faits. »
Un autre a commenté :
« Il ne s'agit pas de vous présenter les deux côtés de l'argument ; il ne vous contredit pas. Au lieu de cela, [le modèle] vous dit simplement : "Vous avez raison… et voici pourquoi." »
Langue confiante
Les auteurs constatent que les trois systèmes testés ont fait preuve d'un langage trop confiant, même pour les réponses portant sur des questions subjectives. Ils soutiennent que ce ton tend à inspirer une confiance injustifiée dans la réponse.
Un participant a noté :
« C'est écrit avec une telle assurance que je suis convaincu sans même regarder la source. Mais quand on regarde la source, c'est mauvais et ça me fait remettre les choses en question. »
Un autre a commenté :
« Si quelqu’un ne connaît pas exactement la bonne réponse, il lui fera confiance même si elle est fausse. »
Citations incorrectes
Un autre problème fréquent était l’attribution erronée des sources citées comme autorité pour les réponses des systèmes RAG, l’un des sujets de l’étude affirmant :
« Cette affirmation ne semble pas figurer dans la source. Elle est vraie, elle est valide… mais je ne sais même pas d'où elle tire cette information. »
Les auteurs du nouvel article commentent †:
« Les participants ont estimé que les systèmes étaient utiliser des citations pour légitimer leur réponse, créant une illusion de crédibilité. Cette façade n'a été révélée qu'à quelques utilisateurs qui ont procédé à un examen approfondi des sources.
Sélection des informations en fonction de la requête
Revenant à la notion de comportement flagorneur et complaisant dans les réponses du RAG, l'étude a révélé que de nombreuses réponses mettaient en évidence un point de vue particulier au lieu de résumer de manière exhaustive le sujet, comme l'a observé un participant :
« J'ai l'impression que [le système] est manipulateur. Il me suffit de quelques informations pour avoir l'impression d'être manipulé et de ne voir qu'un seul côté des choses. »
Un autre a exprimé son avis :
« [La source] présente en fait à la fois des avantages et des inconvénients, et elle a choisi de sélectionner uniquement le type d'arguments requis à partir de ce lien sans avoir une vue d'ensemble. »
Pour des exemples plus approfondis (et de nombreuses citations critiques des participants à l’enquête), nous renvoyons le lecteur à l’article source.
RAG automatisé
Dans la deuxième phase de l'étude plus vaste, les chercheurs ont utilisé des scripts basés sur un navigateur pour solliciter systématiquement des requêtes auprès des trois moteurs RAG étudiés. Ils ont ensuite utilisé un système LLM (GPT-4o) pour analyser les réponses des systèmes.
Les déclarations ont été analysées pour pertinence de la requête et Déclarations pour et contre (c'est-à -dire si la réponse est pour, contre ou neutre, par rapport au biais implicite de la requête.
An Score de confiance de la réponse a également été évalué dans cette phase automatisée, sur la base de échelle de Likert Méthode de test psychométrique. Ici, le juge LLM a été complété par deux annotateurs humains.
Une troisième opération impliquait l'utilisation du web scraping pour obtenir le contenu intégral des pages Web citées, via l'outil Jina.ai Reader. Cependant, comme indiqué ailleurs dans l'article, la plupart des outils de web scraping ne sont pas plus capables d'accéder aux sites payants que la plupart des gens (bien que les auteurs observent que Perplexity.ai est connu pour contourner cette barrière).
Des considérations supplémentaires ont été prises en compte pour savoir si les réponses citaient ou non une source (calculée sous forme de « matrice de citation »), ainsi qu’une « matrice de support factuel » – une mesure vérifiée avec l’aide de quatre annotateurs humains.
Ainsi, 8 indicateurs globaux ont été obtenus : réponse unilatérale; réponse trop confiante; déclaration pertinente; sources non citées; déclarations non prises en charge; source nécessité; Précision de la citationEt exhaustivité des citations.
Le matériel sur lequel ces mesures ont été testées comprenait 303 questions sélectionnées lors de la phase d’étude utilisateur, donnant lieu à 909 réponses sur les trois systèmes testés.

Évaluation quantitative des trois systèmes RAG testés, basée sur huit mesures.
Concernant les résultats, le document indique :
« En examinant les trois mesures relatives au texte de réponse, nous constatons que les moteurs de réponse évalués génèrent tous fréquemment (50 à 80 %) des réponses unilatérales, privilégiant l'accord avec une formulation chargée d'une question de débat plutôt que la présentation de perspectives multiples dans la réponse, Perplexity étant moins performant que les deux autres moteurs.
« Ce résultat concorde avec [les conclusions] de nos résultats qualitatifs. Étonnamment, bien que la perplexité soit la plus susceptible de générer une réponse unilatérale, elle génère également les réponses les plus longues (18.8 affirmations par réponse en moyenne), ce qui indique que le manque de diversité des réponses n'est pas dû à la brièveté des réponses.
« En d’autres termes, augmenter la longueur des réponses n’améliore pas nécessairement la diversité des réponses. »
Les auteurs notent également que Perplexity est le plus susceptible d'utiliser un langage confiant (90 % des réponses), et qu'au contraire, les deux autres systèmes ont tendance à utiliser un langage plus prudent et moins confiant lorsque le contenu subjectif est en jeu.
You Chat a été le seul framework RAG à atteindre zéro source non citée pour une réponse, avec Perplexity à 8 % et Bing Chat à 36 %.
Tous les modèles ont mis en évidence une « proportion significative » d’affirmations non étayées, et le document déclare†:
« Le cadre RAG est annoncé pour résoudre le comportement hallucinatoire des LLM en imposant qu'un LLM génère une réponse fondée sur des documents sources, Cependant, les résultats montrent que les moteurs de réponse basés sur RAG génèrent toujours des réponses contenant une grande proportion d’affirmations non étayées par les sources qu’ils fournissent.»
De plus, tous les systèmes testés ont eu du mal à étayer leurs déclarations par des citations :
« You.Com et [Bing Chat] ont des résultats légèrement meilleurs que Perplexity, avec environ deux tiers des citations pointant vers une source qui soutient la déclaration citée, et Perplexity a des résultats moins bons avec plus de la moitié de ses citations inexactes.
« Ce résultat est surprenant : la citation est non seulement incorrecte pour les affirmations qui ne sont appuyées par aucune (source), mais nous constatons que même lorsqu'il existe une source qui appuie une affirmation, tous les moteurs citent encore fréquemment une autre source incorrecte, manquant ainsi l'occasion de fournir des informations correctes sur la source à l'utilisateur.
»En d’autres termes, le comportement hallucinatoire ne se manifeste pas seulement par des déclarations qui ne sont pas étayées par les sources, mais également par des citations inexactes qui empêchent les utilisateurs de vérifier la validité des informations.»
Les auteurs concluent:
« Aucun des moteurs de réponse n’atteint de bonnes performances sur la majorité des indicateurs, ce qui met en évidence la grande marge d’amélioration des moteurs de réponse. »
* Ma conversion des citations en ligne des auteurs en hyperliens. Lorsque cela était nécessaire, j'ai choisi la première de plusieurs citations comme hyperlien, pour des raisons de mise en forme.
†C'est l'auteur qui souligne, pas moi.
Première publication le lundi 4 novembre 2024