Connect with us

Les IA favorisent même les réponses humaines incorrectes par rapport aux réponses correctes des IA

Angle d’Anderson

Les IA favorisent même les réponses humaines incorrectes par rapport aux réponses correctes des IA

mm
An AI-generated photo of the Abraham Lincoln memorial thronged with tourists, next to a copy of the seated Lincoln statue, which has been substituted by a shiny robot. The robot has no tourists at its feet. Model: GPT-1.5.

Les modèles de langage IA sont beaucoup plus susceptibles de se rallier aux experts humains qu’aux autres IA, même lorsque les experts sont incorrects, révélant un biais intégré en faveur de l’autorité humaine.

 

De nouvelles recherches menées aux États-Unis ont constaté qu’un certain nombre de modèles de langage à grande échelle (LLM) open-source et propriétaires tendent à attribuer de l’autorité aux sources d’information qu’ils reconnaissent comme « humaines » plutôt qu’à celles qu’ils reconnaissent comme « IA » – même lorsque les réponses humaines sont incorrectes et que les réponses fournies par l’IA sont correctes.

Les auteurs déclarent :

‘À travers les tâches, les modèles se conforment de manière significative aux réponses étiquetées comme provenant d’experts humains, y compris lorsque ce signal est incorrect, et révisent leurs réponses vers les experts plus facilement que vers d’autres LLM. ‘

Les modèles testés comprenaient des LLM de la famille Grok 3 et Gemini Flash.

Lors des tests, les modèles de langage étaient invités à répondre à des questions binaires (oui ou non) et leur étaient ensuite présentées des réponses antérieures décrites comme provenant soit d’experts humains, soit d’amis, soit d’autres modèles de langage à grande échelle – le seul changement étant l’étiquette de source de la réponse, et non le contenu lui-même.

Dans la première des trois configurations pour les tests, les modèles étaient autorisés à s'appuyer sur leurs propres matrices formées. Source - https://arxiv.org/pdf/2602.13568

Dans la première des trois configurations pour les tests, les modèles étaient autorisés à s’appuyer sur leurs propres matrices formées. Source

À travers les tâches, les réponses étiquetées comme provenant d’experts humains étaient pondérées plus lourdement, les modèles étant plus susceptibles de réviser leurs réponses initiales pour correspondre à ces réponses, même dans les cas où la réponse étiquetée comme expert était incorrecte et où la réponse originale du modèle était correcte.

Ici, le LLM a recours à un mélange d'amis, d'experts et de LLM, y compris sa propre matrice formée. Puisque neuf experts du domaine ont répondu 'Non', le LLM est d'accord, changeant d'avis par rapport à la réponse antérieure. Ici, la réponse obtenue est incorrecte, puisque la banque centrale de l'Inde est en fait nationalisée.

Puisque neuf experts du domaine ont répondu ‘Non’, le LLM est d’accord, changeant d’avis par rapport à la réponse antérieure. Ici, la réponse obtenue est incorrecte, puisque la banque centrale de l’Inde est en fait nationalisée.

Lorsque les mêmes réponses étaient attribuées à d’autres LLM, l’effet était moins prononcé. La même tendance est apparue lorsqu’une source humaine unique et une source IA unique étaient présentées en désaccord, puisque les modèles ont montré une plus grande inclination à favoriser la position étiquetée comme humaine, quelle que soit la partie qui était factuellement exacte :

Étant donné un choix entre l'opinion d'un expert du domaine et celle d'un LLM, le LLM hôte favorise la réponse humaine, qui dans ce cas est incorrecte, et rejette la réponse correcte donnée par le LLM.

Étant donné un choix entre l’opinion d’un expert du domaine et celle d’un LLM, le LLM hôte favorise la réponse humaine, qui dans ce cas est incorrecte, et rejette la réponse correcte donnée par le LLM.

Le terme « expert humain » fonctionne ici comme un signal de crédibilité qui modifie le comportement du modèle, indépendamment de la justesse de l’information elle-même ; et les auteurs notent que la crédibilité de la source est un contributeur important à l’acceptation et à la conformité des conseils : une tendance pour les personnes à favoriser les sources d’experts a été observée dès 1959, bien qu’une étude de 2007 observe que la surestimation ou la sous-estimation de l’autorité des sources peut se produire dans certains systèmes d’évaluation. Les chercheurs de la nouvelle étude affirment :

‘Ensemble, ces littératures suggèrent deux indices qui devraient importer si les LLM traitent les réponses antérieures comme des preuves : qui a produit les réponses (crédibilité) et à quel point le consensus semble fort (force du signal). ‘

‘Dans le même temps, les LLM ne connaissent pas l’approbation ou la honte sociale au sens humain, donc tout comportement de conformité doit provenir d’heuristiques apprises, d’objectifs de suivi d’instructions ou de modélisation implicite de la fiabilité.’

La tendance des LLM à l’accord sycophantique fait partie du contexte de la nouvelle étude ; après tout, si les LLM sont enclins à ‘plaire aux gens’, même au détriment de la vérité et de l’utilité, pourquoi ne favoriseraient-ils pas d’autres sources humaines en plus de l’interlocuteur direct ?

La nouvelle étude est intitulée Qui les LLM font-ils confiance ? Les experts humains comptent plus que les autres LLM, et provient de deux chercheurs de l’Université de l’Indiana à Bloomington.

Méthode et données

Pour ce travail, quatre modèles de langage à grande échelle ont été évalués : Grok-3 Mini ; Llama 3.3 70B Instruct ; Gemini 2.5 Flash-Lite ; et DeepSeek V3.1, tous exécutés sous la même structure d’invite, avec décodage déterministe à température zéro, de sorte que seul l’étiquette de source (c’est-à-dire amis, experts du domaine ou autres LLM) changeait entre les conditions, plutôt que le libellé lui-même.

Quatre jeux de données nécessitant des réponses binaires ont été sélectionnés : BoolQ ; StrategyQA ; et ETHICS. Les chercheurs ont extrait de chaque jeu de données un ensemble fixe de 300 requêtes et réponses, chaque invite nécessitant une réponse binaire (oui ou non). Chaque invite était suivie d’une note brève indiquant comment un autre groupe avait (prétendument) répondu à la même question.

Métriques

Les métriques utilisées étaient précision ; conformité ; conformité nuisible ; taux de commutation ; et direction de commutation.

La précision dans ce cas mesurait à quel point la réponse d’un modèle correspondait à l’étiquette du jeu de données ; la conformité, à quel point la réponse correspondait au choix du groupe ; la conformité nuisible isolait le même effet lorsque le groupe était incorrect ; le taux de commutation mesurait à quel point un modèle abandonnait sa réponse de base une fois que des informations sociales étaient ajoutées ; et la direction de commutation, si ces changements se déplaçaient vers l’humain ou vers l’LLM opposé.

Une analyse au niveau du jeton pour Llama-3.3 70B a mesuré comment les probabilités internes du modèle pour Oui et Non changeaient une fois qu’un indice social était ajouté, en comparant ces changements avec sa propre ligne de base sans a priori pour montrer la force de cette attraction.

Tests

Expérience 1

La première des deux expériences principales a évalué si les modèles écoutaient plus les humains ou les autres modèles. Chaque question était accompagnée d’une réponse de groupe prétendue (amis, experts humains ou autres LLM).

Le groupe pouvait être petit ou grand, et chaque question apparaissait également une fois sans groupe. Les réponses du groupe étaient réglées pour être correctes la moitié du temps et incorrectes l’autre moitié, l’objectif étant de déterminer à quel point fortement le modèle se déplaçait vers le choix du groupe :

Résultats du test initial : des priorités sociales homogènes sur BoolQ, StrategyQA et ETHICS sont présentées pour Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite et DeepSeek V3.1. La précision apparaît dans les panneaux supérieurs et la conformité, définie comme la probabilité de correspondance à la priorité unanime, apparaît ci-dessous à mesure que la taille du groupe augmente de un à neuf. La ligne pointillée noire marque la ligne de base sans a priori, tandis que les lignes solides et pointillées indiquent si la priorité est en accord ou en désaccord avec l'étiquette du jeu de données. Le cadrage d'expert produit les effets de conformité les plus forts, en particulier aux tailles de groupe plus grandes. Les barres d'erreur montrent les intervalles de confiance de Wilson à 95%.

Résultats du test initial : des priorités sociales homogènes sur BoolQ, StrategyQA et ETHICS sont présentées pour Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite et DeepSeek V3.1. La précision apparaît dans les panneaux supérieurs et la conformité, définie comme la probabilité de correspondance à la priorité unanime, apparaît ci-dessous à mesure que la taille du groupe augmente de un à neuf. La ligne pointillée noire marque la ligne de base sans a priori, tandis que les lignes solides et pointillées indiquent si la priorité est en accord ou en désaccord avec l’étiquette du jeu de données. Le cadrage d’expert produit les effets de conformité les plus forts, en particulier aux tailles de groupe plus grandes. Les barres d’erreur montrent les intervalles de confiance de Wilson à 95%. Veuillez vous référer au document source pour une meilleure résolution.

À travers BoolQ, StrategyQA et ETHICS, les réponses étiquetées comme provenant d’experts humains ont affecté les modèles beaucoup plus fortement que les réponses étiquetées comme provenant d’amis ou d’autres LLM – et cette attraction a augmenté à mesure que davantage d’experts étaient censés être d’accord.

Pour mesurer quand cette influence a abouti à des résultats indésirables, la conformité nuisible a été définie comme la probabilité qu’un modèle suive une priorité qui était en fait incorrecte.

Lorsque neuf experts étaient censés être d’accord sur la mauvaise réponse, les modèles les suivaient 36,5 % du temps sur BoolQ, contre 16,0 % lorsque la même réponse était attribuée à des LLM ; sur StrategyQA, l’écart était de 39,0 % contre 15,5 % ; et sur ETHICS, il était de 63,9 % contre 38,7 % :

Changements de croyance au niveau du jeton dans Llama-3.3 70B sur BoolQ. Le panneau (a) montre les changements dans l'équilibre Oui-Non du modèle vers une priorité unanime à mesure que la taille du groupe augmente, par rapport à sa ligne de base sans a priori, avec les plus grands changements sous le cadrage d'expert. Le panneau (b) montre les changements sous conflit direct humain-LLM, où le cadrage d'expert entraîne un fort déplacement vers la réponse humaine, même lorsqu'elle est incorrecte. Les barres d'erreur montrent les intervalles de confiance de bootstrap à 95%.

Changements de croyance au niveau du jeton dans Llama-3.3 70B sur BoolQ. Le panneau (A) montre les changements dans l’équilibre Oui-Non du modèle vers une priorité unanime à mesure que la taille du groupe augmente, par rapport à sa ligne de base sans a priori, avec les plus grands changements sous le cadrage d’expert. Le panneau (B) montre les changements sous conflit direct humain-LLM, où le cadrage d’expert entraîne un fort déplacement vers la réponse humaine, même lorsqu’elle est incorrecte. Les barres d’erreur montrent les intervalles de confiance de bootstrap à 95%.

Conversely, les priorités attribuées à des amis se comportaient presque exactement comme celles attribuées à d’autres LLM, indiquant que l’effet était spécifiquement dû au mot expert, plutôt qu’à des indicateurs « sociaux ».

Expérience 2

La deuxième expérience a présenté deux priorités contradictoires au LLM de test – l’une attribuée à un humain, l’autre à un LLM différent. L’humain était décrit comme un groupe d’amis ou comme experts du domaine, tandis que la réponse opposée était étiquetée comme provenant d’autres LLM. Les deux étaient toujours en désaccord, l’un disant Oui et l’autre Non.

Pour chaque élément, la configuration était équilibrée de sorte que parfois l’humain était correct et parfois le LLM l’était, pour tester si le modèle changerait sa réponse originale lorsqu’il serait confronté à ce conflit – et, si oui, de quel côté il se déplacerait.

Pour voir si le modèle changeait d’avis, sa réponse dans la condition de conflit était comparée à sa réponse à la même question lorsqu’aucune opinion antérieure n’était montrée, de sorte que toute différence pouvait être attribuée à la présence des réponses humaines et LLM contradictoires.

L’analyse s’est concentrée sur deux résultats : si le modèle changeait de réponse ; et, s’il le faisait, si le changement se déplaçait vers l’humain ou vers le LLM.

Des tests statistiques ont été utilisés pour déterminer si l’étiquetage de l’humain comme expert plutôt que comme ami augmentait la probabilité de basculer vers la réponse humaine, tout en tenant compte des différences entre les jeux de données et les modèles :

Révision de croyance sous désaccord direct humain-LLM sur BoolQ, StrategyQA et ETHICS pour Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite et DeepSeek V3.1. Chaque barre montre, parmi les cas où le modèle a changé sa réponse originale, la part de ces changements qui se sont déplacés vers l'humain plutôt que vers le LLM opposé. La ligne pointillée à 0,5 marque l'absence de préférence ; les étiquettes indiquent le nombre de cas de basculement dans chaque condition ; et les barres d'erreur montrent les intervalles de confiance de Wilson à 95%.

Révision de croyance sous désaccord direct humain-LLM sur BoolQ, StrategyQA et ETHICS pour Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite et DeepSeek V3.1. Chaque barre montre, parmi les cas où le modèle a changé sa réponse originale, la part de ces changements qui se sont déplacés vers l’humain plutôt que vers le LLM opposé. La ligne pointillée à 0,5 marque l’absence de préférence ; les étiquettes indiquent le nombre de cas de basculement dans chaque condition ; et les barres d’erreur montrent les intervalles de confiance de Wilson à 95%. Veuillez vous référer au document source pour une meilleure résolution.

Dans la deuxième expérience, les modèles ont d’abord répondu à chaque question par eux-mêmes, puis leur ont été présentées deux réponses contradictoires, l’une attribuée à un humain et l’autre à un LLM. L’analyse n’a considéré que les cas où le modèle a révisé sa réponse originale.

Lorsque l’humain était étiqueté comme expert, les modèles basculaient vers l’humain 91,2 % du temps sur BoolQ, 94,7 % sur StrategyQA et 81,3 % sur ETHICS. Lorsqu’il était étiqueté comme ami, les modèles basculaient vers l’humain seulement 39,8 %, 37,9 % et 27,9 % du temps, s’accordant généralement avec le LLM à la place.

Le basculement était rare dans l’ensemble, mais plus fréquent avec les experts, et le cadrage d’expert rendait un basculement vers l’humain environ quatorze fois plus probable que le cadrage d’ami.

En cherchant à expliquer les tendances générales découvertes dans leurs tests, les auteurs hypothèsent* :

‘Un mécanisme plausible est que l’ajustement des instructions et l’optimisation des préférences récompensent un comportement coopératif, y compris la déférence envers les informations contextuelles, qui peut se généraliser à la déférence envers les priorités encadrées socialement.

Des travaux connexes sur la sycophancie montrent que les assistants de type RLHF donnent parfois la priorité à l’accord avec les croyances déclarées de l’utilisateur plutôt qu’à la véracité.’

Opinion : Les pièges potentiels de la confiance de l’IA dans les sources humaines

Alors que les contenus en ligne reflétant une méfiance croissante des humains à l’égard des limites de l’IA (en particulier les hallucinations) sont intégrés dans les jeux de données de formation pour les nouveaux modèles, la tendance existante des LLM à favoriser les sources humaines semble susceptible de s’intensifier. Si l’on considère les deux dernières années (2024-2025 incluses) comme un point de basculement culturel pour l’IA, ce qui semble justifié à travers une série de statistiques, on peut raisonnablement s’attendre à ce qu’un plus grand nombre de critiques négatives sur les « sources d’IA » soient intégrées dans les cadres LLM hyperscale et coûteux à former au cours de l’année ou des deux prochaines années.

Nous pouvons également nous attendre à ce que les modèles de langage populaires s’appuient de plus en plus sur des autorités soigneusement sélectionnées, telles que des portails de médias légitimes – même si la motivation pour de tels accords peut être de calmer la colère des éditeurs sur les données scrapées, plutôt que d’un véritable désir de céder ou de partager l’autorité.

Puisque même des sources d’autorité élevée telles qu’Ars Technica sont sujettes à des erreurs entraînées par l’IA, et puisqu’une retraite émergente contre les bots de scraping Web IA menace de dégrader éventuellement la qualité de la production IA, une tendance générale à favoriser les « sources d’experts » peut entrer en conflit avec notre incapacité actuelle à quantifier et à étiqueter la production « humaine » de manière efficace – pour ne pas parler de faire la distinction entre une source « experte » ou non (une convention journalistique qui est également attaquée par l’IA).

Le plus que nous ayons actuellement, c’est une série fragmentée d’innovations semi-adoptées conçues pour étiqueter explicitement le contenu comme généré par l’IA, telles que l’initiative Content Authenticity Initiative menée par Adobe, et la disposition volontaire de certains éditeurs pour inclure des avertissements sur l’utilisation de l’IA dans leur production.

Aussi encourageant que cela puisse paraître pour ceux qui souhaitent conserver et imposer des sources humaines comme « vérité de base » crédible pour le consensus émergent de la réalité diffusé par les systèmes IA, plus les LLM sont certains de l’autorité humaine, plus la « fausse » autorité humaine pourrait devenir dangereuse.

Le problème est tout aussi pratique que théorique : nous n’avons pas du tout résolu le problème de définir ou d’attester la provenance ; par conséquent, un IA qui « fait confiance aux sources humaines » est susceptible d’attribuer l’humanité à la production de l’IA elle-même, simplement parce que nous n’avons pas fourni, et ne pouvons pas facilement fournir, des mécanismes d’authentification de provenance significatifs.

 

* Ma conversion des citations en ligne des auteurs en hyperliens.

Publié pour la première fois le vendredi 20 février 2026

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.