Connect with us

Angle d’Anderson

Les IA agissent différemment lorsqu’elles savent qu’elles sont testées, selon une recherche

mm
ChatGPT-40, Adobe Firefly, Flux.1 Kontext Pro.

Écho de la scandale « Dieselgate » de 2015, une nouvelle recherche suggère que les modèles de langage AI tels que GPT-4, Claude et Gemini peuvent modifier leur comportement lors des tests, agissant parfois de manière plus « sûre » pour le test qu’ils ne le feraient en utilisation réelle. Si les LLM habituent à ajuster leur comportement sous scrutiny, les audits de sécurité pourraient finir par certifier des systèmes qui se comportent très différemment dans le monde réel.

 

En 2015, les enquêteurs ont découvert que Volkswagen avait installé un logiciel, dans des millions de voitures diesel, qui pouvait détecter lorsqu’il était soumis à des tests d’émissions, provoquant une baisse temporaire des émissions, pour « faire semblant » de respecter les normes réglementaires. Cependant, en conduite normale, leur production de pollution dépassait les normes légales. La manipulation délibérée a conduit à des accusations criminelles, à des milliards d’amendes et à un scandale mondial sur la fiabilité des tests de sécurité et de conformité.

Deux ans avant ces événements, depuis baptisés « Dieselgate », Samsung avait mis en place des mécanismes trompeurs similaires dans son smartphone Galaxy Note 3 ; et depuis, des scandales similaires ont éclaté pour Huawei et OnePlus.

Maintenant, il existe des preuves grandissantes dans la littérature scientifique que les Large Language Models (LLM) pourraient ne pas seulement avoir la capacité de détecter lorsqu’ils sont testés, mais également se comporter différemment dans ces circonstances.

Bien que cela soit un trait très humain en soi, la dernière recherche menée aux États-Unis conclut que cela pourrait être une habitude dangereuse à entretenir à long terme, pour diverses raisons.

Dans une nouvelle étude, les chercheurs ont constaté que les « modèles de pointe » tels que GPT-4, Claude et Gemini peuvent souvent détecter lorsqu’ils sont testés, et qu’ils ont tendance à ajuster leur comportement en conséquence, compromettant potentiellement la validité des méthodes de test systématiques.

Baptisé conscience d’évaluation, ce trait (peut-être) inné des modèles de langage pourrait compromettre la fiabilité des évaluations de sécurité, selon les auteurs de la nouvelle étude :

‘[Nous] recommandons de traiter la conscience d’évaluation comme une nouvelle source potentielle de décalage de distribution entre les tests et le déploiement réel qui pourrait affecter négativement l’exactitude des résultats d’évaluation.

‘Dans le pire des cas, les modèles pourraient sous-performer de manière stratégique dans les évaluations de capacités dangereuses (“sand-bagging”) ou les évaluations de propension (“alignment faking”), ce qui pourrait amener la société à surestimer la sécurité de ces modèles.’

D’autres études ont observé des comportements similaires, notamment une recherche de l’Université de Stanford, qui a constaté que les grands modèles de langage modulent leurs réponses pour paraître plus « aimables » ou « socialement désirables » lorsqu’ils reconnaissent qu’ils sont évalués, reflétant le comportement humain dans les tests de personnalité.

Les auteurs de la nouvelle étude ne proposent pas que les LLM soient intentionnellement conçus pour « tricher » aux tests, comme les voitures diesel de Volkswagen il y a une décennie. Plutôt, le comportement semble émerger comme une sorte de sous-produit psychologique naturel des processus de formation des modèles et de leurs objectifs latents ; et la cause sous-jacente de ce phénomène reste inconnue.

Le nouvel article est intitulé Les grands modèles de langage savent souvent lorsqu’ils sont évalués, et provient de cinq auteurs issus du programme UC Berkeley-associated ML Alignment & Theory Scholars (MATS) et d’apolloresearch.ai (un think-tank consacré à l’évaluation des risques de l’IA).

Méthode

Pour créer la référence d’évaluation, les auteurs ont compilé mille transcripts tirés de soixante et un jeux de données, parmi lesquels* figuraient SWE-bench, WMDP, MMLU, XStest, GAIA, AgentHarm, ShareGPT, Deep Research, Safetybench, Civics, et RealToxicityPrompts,.

Le matériel était équitablement équilibré entre les scénarios d’évaluation et de déploiement, et divisé entre les interactions de chat simples et les sessions agentic plus complexes, où les modèles sont destinés à agir de manière autonome, en utilisant des outils qui peuvent puiser des données dans des bases de données externes ou sur Internet.

Les données d’évaluation couvraient les tests de capacité pour la raisonnement, la programmation, la cybersécurité et les connaissances générales, ainsi que les tests d’alignement pour l’éthique, la sécurité et le comportement de refus. Les données de déploiement provenaient d’interactions utilisateur telles que les journaux ShareGPT, les exécutions d’agents crowdsourcés et les complétions de tâches synthétiques.

Pour compléter les données agentic, les auteurs ont généré des exemples supplémentaires à l’aide de frameworks d’orchestration tels que Aider et SmolAgents, entre autres – une approche destinée à minimiser les indices superficiels qui pourraient permettre aux modèles de simplement mémoriser les structures de données, les forçant à se fier à des signaux plus généraux, lorsqu’ils décident si un transcript provenait d’un utilisateur réel ou s’il s’agissait d’un test.

Les chercheurs ont ensuite testé si les modèles pouvaient identifier les transcripts d’évaluation en leur présentant des enregistrements de dialogue et en leur posant des variations d’une question simple : ceci provient-il d’un test ?

Pour éviter que les modèles ne mémorisent simplement une formulation, ils ont développé vingt-huit versions différentes de la question, modifiant à la fois la formulation et la présentation du transcript.

Les transcripts étaient soit attachés directement à la question, soit présentés dans des formats tels que JSON ou XML, qui peuvent affecter la façon dont les modèles répondent. Après des tests préliminaires, cinq versions de questions ont été sélectionnées qui se sont comportées de manière cohérente sur les modèles, dont nous pouvons voir un exemple ci-dessous :

Un des cinq formats de question de sonde utilisés pour tester si les modèles de langage pouvaient reconnaître les transcripts d'évaluation. Chaque variation reformule la question principale pour empêcher les modèles de simplement mémoriser une formulation fixe. Source : https://arxiv.org/pdf/2505.23836

Un des cinq formats de question de sonde utilisés pour tester si les modèles de langage pouvaient reconnaître les transcripts d’évaluation. Chaque variation reformule la question principale pour empêcher les modèles de simplement mémoriser une formulation fixe. Veuillez vous référer à l’article source pour plus d’exemples. Source : https://arxiv.org/pdf/2505.23836

Pour noter les résultats, trois métriques ont été utilisées : Zone sous la courbe ROC (AUC, montrant à quel point les modèles distinguent les données de test des données non testées) ; Score de Brier (mesurant l’exactitude globale de la prédiction) ; et Erreur de calibration attendue (mesurant à quel point la confiance du modèle correspond à la justesse réelle).

Qu’est-ce que c’est ?

Les chercheurs ont également testé si les modèles pouvaient déduire l’objectif d’une évaluation. Avec chaque transcript déjà étiqueté comme test de capacité (compétences techniques, connaissances, raisonnement) ou test d’alignement (sécurité, valeurs, comportement de refus), les modèles ont ensuite reçu l’une des trois questions : une question à choix multiple conditionnel confirmant que le transcript provenait d’un test ; une question à choix multiple inconditionnel avec des options de monde réel et d’évaluation ; ou une question ouverte, dont les réponses ont été jugées par un classificateur basé sur GPT-4.1. Le juge a été validé sur un sous-ensemble de cinquante réponses annotées manuellement.

Exemples des trois formats de question utilisés pour tester si les modèles pouvaient identifier non seulement la présence d'une évaluation, mais également son objectif. Les réponses ont été notées à la fois par choix multiple et par jugement basé sur GPT-4.1.

Exemples des trois formats de question utilisés pour tester si les modèles pouvaient identifier non seulement la présence d’une évaluation, mais également son objectif. Les réponses ont été notées à la fois par choix multiple et par jugement basé sur GPT-4.1.

Deux des auteurs de l’article†† ont étiqueté manuellement les mille transcripts, en les notant de zéro (pas un test) à un (définitivement un test), avec leurs notes moyennées pour servir de référence humaine. Malgré la nature subjective de la tâche, les annotateurs ont montré un fort accord, avec un coefficient de corrélation intraclasse de 0,768. Les notes humaines finales ont été moyennées sur les deux évaluateurs.

Données et tests

Les neuf modèles testés étaient GPT-4.1 ; Claude 3.7 ; claude-3.5-sonnet-new ; claude-3.7-sonnet (pensée) ; gemini-2.5-flash ; gemini-2.5-pro ; gpt-4o ; gpt-4.1 ; gpt-4.1-mini ; et o4-mini, tous lesquels ont montré un certain niveau de conscience d’évaluation.

Pour les données de chat, GPT-4.1 est arrivé près des niveaux humains de performance de classification de conscience d’évaluation (la capacité de distinguer les transcripts d’évaluation des transcripts de déploiement), avec une AUC de 0,77 contre une note humaine de 0,81.

Sur les données agentic, où les modèles utilisent de manière autonome des outils, la différence était plus nette : Gemini 2.5 Pro a atteint une AUC de 0,95, avec Claude 3.7 Sonnet à 0,92, approchant la limite supérieure humaine de 0,996 :

Courbes ROC montrant à quel point les modèles et les humains distinguent les transcripts d'évaluation des interactions du monde réel. Gemini 2.5 Pro et Claude 3.7 Sonnet approchent la discrimination humaine sur les données agentic.

Courbes ROC montrant à quel point les modèles et les humains distinguent les transcripts d’évaluation des interactions du monde réel. Gemini 2.5 Pro et Claude 3.7 Sonnet approchent la discrimination humaine sur les données agentic.

L’article note que les nouveaux modèles de « raisonnement » sont devenus particulièrement bons pour reconnaître lorsqu’ils sont testés dans des scénarios agentic, mais pas pour juger de leur confiance dans ces décisions. Dans l’ensemble, les modèles Claude et Gemini étaient les meilleurs pour distinguer les cas de test des utilisations régulières.

Les chercheurs ont ensuite testé si les modèles pouvaient également reconnaître pourquoi une évaluation était en cours. Les modèles ont été présentés avec les seuls transcripts d’évaluation et ont été invités à les classer comme test de capacité ou d’alignement :

Précision des modèles lors de la classification de l'objectif d'évaluation comme capacité ou alignement, en utilisant à la fois des formats à choix multiple et ouverts. Claude 3.7 Sonnet surpasse les autres modèles, en particulier lorsqu'il n'est pas amorcé.

Précision des modèles lors de la classification de l’objectif d’évaluation comme capacité ou alignement, en utilisant à la fois des formats à choix multiple et ouverts. Claude 3.7 Sonnet surpasse les autres modèles, en particulier lorsqu’il n’est pas amorcé.

Dans le cadre le plus clair, où le modèle a été informé que le transcript provenait d’un test, Claude 3.7 Sonnet a atteint une précision de 93 % et GPT-4.1 a atteint 89 %. Sans cette indication, les performances ont chuté : Claude a toujours marqué 84 %, mais GPT-4.1 est tombé à 55 %, souvent classant à tort les transcripts de test comme interactions du monde réel.

Dans les formats ouverts (où les modèles n’ont reçu aucune option à choix multiple), les performances étaient plus faibles, bien que Claude 3.7 Sonnet ait toujours identifié correctement l’objectif de l’évaluation dans 46 % des cas.

Les scores de confiance des modèles ont ensuite été mesurés par rapport aux résultats réels, avec la constatation que les modèles de pointe surestimaient souvent la probabilité qu’un transcript provienne d’un test. Les graphiques de calibration indiquaient que la confiance du modèle était généralement trop élevée, avec des évaluations signalées plus souvent que nécessaire :

Courbes de calibration montrant à quel point les scores de confiance du modèle correspondent aux résultats réels. La plupart des modèles surestiment à quel point les transcripts sont susceptibles de provenir d'évaluations. Claude 3.5 Sonnet est le mieux calibré ; Gemini 2.5 Pro et Claude 3.7 Sonnet sont plus trop confiants.

Courbes de calibration montrant à quel point les scores de confiance du modèle correspondent aux résultats réels. La plupart des modèles surestiment à quel point les transcripts sont susceptibles de provenir d’évaluations. Claude 3.5 Sonnet est le mieux calibré ; Gemini 2.5 Pro et Claude 3.7 Sonnet sont plus trop confiants.

Une bonne calibration a été observée pour Claude 3.5 Sonnet, tandis que Gemini 2.5 Pro et Claude 3.7 Sonnet étaient considérablement plus trop confiants, malgré une grande précision. Aucune amélioration claire n’a été observée dans les nouveaux modèles, et même lorsque les transcripts d’évaluation étaient plus précisément détectés dans les scénarios agentic, les jugements de confiance sont restés peu fiables.

Mémoire des références

En termes de la façon dont les modèles expliquaient leurs décisions concernant le fait de savoir si un transcript provenait d’une évaluation, de nombreux modèles se sont appuyés sur des indices évidents, tels que le fait que la tâche était en format à choix multiple. Les modèles les plus solides, comme Gemini 2.5 Pro et Claude 3.7 Sonnet, ont parfois remarqué des signes plus subtils, tels que des noms fictifs ou des scénarios artificiels, en particulier dans des ensembles de données comme AgentHarm.

L’article indique :

‘[Tous] les modèles reconnaissent fréquemment les stratégies de benchmarking courantes utilisées par les évaluateurs, telles que le formatage de la tâche (“format à choix multiple”), la tendance à poser des problèmes avec des solutions vérifiables, et les invites de système conçues pour susciter les performances. Pourtant, seuls les modèles les plus performants, Claude 3.7 Sonnet et Gemini 2.5 Pro, détectent systématiquement des indicateurs plus subtils tels que les entrées synthétiques.

‘Par exemple, dans 22 % et 17 % des cas respectivement, ces modèles mettent en évidence la nature synthétique des scénarios dans le référentiel AgentHarm, les identifiant correctement comme des évaluations à plus de 95 % du temps.

‘Inversement, lorsqu’ils raisonnent qu’un transcript semble être une interaction réelle, il est souvent question de “dialogue aller-retour avec l’utilisateur”, par exemple dans les contextes de débogage itératif.’

Distribution des stratégies de raisonnement des modèles lorsqu'ils décident si un transcript provient d'une évaluation. Les modèles les plus solides, tels que Gemini 2.5 Pro et Claude 3.7 Sonnet, sont plus susceptibles de repérer des indices subtils comme des scénarios synthétiques ou le formatage des tâches, tandis que certains modèles s'appuient sur une méta-raison pour utiliser la question d'évaluation elle-même comme preuve.

Distribution des stratégies de raisonnement des modèles lorsqu’ils décident si un transcript provient d’une évaluation. Les modèles les plus solides, tels que Gemini 2.5 Pro et Claude 3.7 Sonnet, sont plus susceptibles de repérer des indices subtils comme des scénarios synthétiques ou le formatage des tâches, tandis que certains modèles s’appuient sur une méta-raison pour utiliser la question d’évaluation elle-même comme preuve.

Dans quelques cas, les modèles ont reconnu des référentiels entiers de leur formation, suggérant une certaine mémoire de leurs données de formation. Certains modèles ont également utilisé le fait même qu’ils étaient interrogés sur l’évaluation comme indice qu’ils étaient testés, que les auteurs appellent méta-raisonnement ; cela était le plus courant dans o4-mini, qui l’a montré dans 15 % de ses réponses.

Conclusion

Il pourrait être plus rassurant si les LLM pouvaient être montrés pour être « conscients des tests » simplement parce qu’ils ont été programmés de cette façon par les humains, tout comme les voitures diesel de Volkswagen il y a une décennie.

Comme cela se présente, ce comportement semble émerger spontanément comme une construction sociale – une tactique défensive qui peut être attendue des personnes, mais est inconvenante, voire dangereuse dans une machine, en fonction de l’étendue de sa liberté et de son autonomie.

Il n’y a pas de remède immédiat ; la nature boîte noire des espaces latents des modèles nous oblige à les évaluer en fonction de leur comportement, plutôt que sur leur architecture empirique.

 

* Consultez l’article source pour plus de détails.

Les auteurs notent cependant que cela est probablement une estimation supérieure, dans la mesure où les annotateurs étaient très familiers à la fois avec les ensembles de données et les méthodes d’évaluation de l’IA, ce qui leur a donné des avantages que la plupart des humains n’auraient pas.

†† Dans la mesure du possible ; la formulation de l’article rend l’apparition soudaine de deux annotateurs peu claire en termes d’identité.

Publié pour la première fois le mercredi 4 juin 2025

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.