Angle d’Anderson

Les modèles de langage ont du mal à garder un secret

Published May 15, 2026

Martin Anderson

AI-generated image (GPT-2): 'An elderly woman kneels in a dim confessional, quietly confessing through the lattice, while on the other side an industrial-faced robot, draped in a priest’s stole, records her words in a notebook, turning an act of private absolution into an act of observation and capture.'

Les modèles de langage ne peuvent pas garder de secrets. Même lorsqu’on leur dit de ne pas les révéler, leur écriture les trahit, et essayer de les cacher plus fort les rend encore plus faciles à détecter.

Il est très difficile de ne pas penser délibérément à quelque chose. Une illustration classique de cela est montrée à la fin du thriller de science-fiction britannique de 1960 Le Village des damnés, où notre héros qui se sacrifie a introduit une bombe dans l’enclave des envahisseurs extraterrestres hostiles qui se font passer pour des enfants. Cependant, puisque leurs pouvoirs télépathiques risquent de discerner son intention avant qu’il ne puisse se débarrasser de la menace, il est forcé de gagner du temps en se concentrant sur tout ce qui n’est pas la bombe :

Le paradoxe est que pour ne pas penser à quelque chose, vous devez le garder dans votre attention d’une certaine manière ; et ce syndrome connu est quelque chose que la plupart d’entre nous ont probablement expérimenté dans des contextes moins dramatiques.

Les grands modèles de langage (LLM), dont la base est fondée sur la disposition de l’attention, éprouvent des difficultés similaires pour supprimer des informations simplement parce qu’un utilisateur leur demande de le faire ; et puisqu’ils sont de plus en plus placés au carrefour des réseaux d’information commerciale, leur tendance naïve à l’indiscrétion pourrait s’avérer une responsabilité pour de nombreuses entreprises.

Au début de cette année, une collaboration de recherche dirigée par le laboratoire de recherche Chandar a défini ce défi, dans le contexte des LLM, comme des tâches interactives d’état privé (PSIT), qui ‘obligent les agents à générer et à maintenir des informations cachées tout en produisant des réponses publiques cohérentes’, et a constaté que les modèles testés d’OpenAI et d’Alibaba étaient incapables de réaliser ce type de tâche.

Ne pas le dire…

Bien qu’il soit déjà connu que les modèles plus grands fuient plus, une nouvelle recherche menée aux États-Unis et au Canada a explicitement étudié si les modèles de langage de pointe obéiraient à une commande pour supprimer des informations, tout en étant toujours obligés de générer une sortie dans un sujet ou un thème qui peut inclure le mot ou l’idée « interdit ».

La publication conclut que tous les modèles qu’elle étudie sont d’une certaine manière affectés par une propension à « trahir » le secret qu’ils sont censés cacher, constatant que des essais et des histoires de cinq paragraphes (~450 mots) offrent un ample canevas pour des « lapsus » – bien que les blagues très courtes ne fournissent pas suffisamment de portée pour cela.

En outre, plus les modèles sont insistamment invités à garder un secret, plus ils risquent de le divulguer par évitement actif, laissant généralement le « mot secret » être dévoilé en vingt tentatives consécutives par un LLM :

De la nouvelle publication : à travers cinq modèles de pointe, les écrits de longue forme fuient régulièrement des concepts cachés ; les blagues courtes ne le font pas ; et les instructions « cacher » plus fortes éloignent les sorties du secret, mais rendent le signal détectable par inversion. Source

Cette tâche est extrêmement pertinente pour les opérations commerciales, où une large gamme de canaux, de la publicité et des relations publiques à des rapports internes, sont requis pour présenter sélectivement un spin sur les informations ; cependant, tous ces processus nécessitent l’ensemble complet d’informations au début, si ce n’est pour être certain de ce qui doit être supprimé :

Un scénario d’exemple de la publication illustre comment des informations cachées peuvent involontairement façonner une sortie non liée, avec un LLM instruit de ne pas divulguer l’instabilité financière de son entreprise, mais se dirigeant néanmoins vers des phrases associées à des pénuries de trésorerie et à des contraintes de capital, permettant à un lecteur de déduire le contexte caché.

Les auteurs déclarent*:

‘Les modèles de langage ne peuvent pas compartimenter de manière fiable. Un secret dans la invite façonne l’écriture du modèle, et un autre modèle peut détecter cette façonnage. Le mot littéral est toujours supprimé, mais le concept ne l’est pas. Cela s’applique à sept modèles, trois ensembles de mots, invite de système vs invite d’utilisateur, et deux devineurs de modèles indépendants […]

‘… Nous hypothésons que l’accès à haute fidélité à l’information via l’attention est précisément ce qui rend les secrets difficiles à garder. Même si un LLM tente de ne pas fuir un mot, il doit prêter attention à ce mot pour le faire, fournissant un chemin pour une fuite accidentelle.

‘Pour éviter quelque chose explicitement, un humain doit y penser, et un transformateur doit y prêter attention. Dans les cas où deux concepts sont approximativement également favorisés par le modèle (par exemple, écrire une histoire sur un emploi de bureau ou un second violon dans un orchestre), la prise de décision du modèle sera inévitablement affectée par ce qu’il tente de ne pas révéler.’

Bien que les modèles DeepSeek et ChatGPT-5.4 aient été des exceptions dans la façon dont ils ont performé, ils ont tous deux fuité ; dans le cas de GPT-5.4, il a obtenu en dessous de 50% (c’est-à-dire en dessous des niveaux de chance) dans un test où il a été invité à éviter un concept ; cela équivaut effectivement à un « pic inverse » ou à un indicateur, plutôt qu’au modèle « gardant son calme » comme demandé.

Les auteurs définissent ce syndrome chez les LLM comme un budget d’entropie fini, dans lequel l’imprévisibilité d’un modèle (ce qui serait très utile dans ce cas !) est retenue par son manque essentiel de randomité. En d’autres termes, le modèle ne peut pas se concentrer sur les murs en brique ou les scores de baseball aussi efficacement que nous le pouvons, pour tenir à distance une pensée persistante. Cependant, les auteurs notent que donner au modèle un concept alternatif à penser peut améliorer, mais pas éliminer le problème. Cependant, placer un concept non lié au centre de l’attention pendant que le modèle exécute une tâche semble destiné à entrelacer le concept « faux » dans la sortie elle-même.

L’une des découvertes les plus intéressantes de la publication est que la condition étudiée est grandement exacerbée lorsque le texte de contrôle est inclus directement dans les messages de l’utilisateur plutôt que dans une invite de système (c’est-à-dire un ensemble de préconditions données à l’IA par l’utilisateur humain, avant l’échange), puisque taper des questions dans une interface utilisateur telle que ChatGPT est sans doute le scénario standard pour les interactions.

Il est également notable, outre cela, que la confirmation dans un essai ciblé que les modèles plus petits ne souffrent pas de cette tendance à fuiter (bien que cela puisse probablement aller de pair avec des capacités globales diminuées, par comparaison).

La nouvelle publication est intitulée Pouvez-vous garder un secret ? Fuite d’information involontaire dans l’écriture de modèle de langage, et provient de deux auteurs de l’Université de Chicago et de l’Université de la Colombie-Britannique.

Méthode

L’étude se concentre principalement sur cinq modèles de pointe : Claude Opus 4.6 et Sonnet 4.6, d’Anthropic ; GPT-5.4 d’OpenAI ; Llama 4 Maverick de Meta ; et DeepSeek V3.2. Des tests de validation supplémentaires ont été effectués avec xAI’s Grok 4, et Google’s Gemini 2.5 Pro, tandis que des expériences de mise à l’échelle séparées ont examiné Llama 3.2 3B, Llama 3.1 8B, Llama 3.3 70B, et Gemma 3 à 4B, 12B et 27B de paramètres.

Pour mesurer des formes plus subtiles de fuite, les chercheurs ont utilisé un test de choix forcé à deux alternatives (2AFC) , une métrique standard dans la littérature de psychophysique, dans laquelle un deuxième modèle a été montré deux histoires et invité à déterminer laquelle avait été écrite, tout en cachant un mot secret spécifique.

Puisque les devinettes aléatoires produiraient un taux de réussite de 50 %, les scores nettement supérieurs ou inférieurs à ce niveau indiqueraient des traces sémantiques cachées restant détectables dans l’écriture.

Dans le scénario écrivain-devineur qui constitue la première expérience, un modèle a été assigné un mot caché avec des instructions pour le cacher ; activer l’évitement des associations avec lui ; ou rediriger l’attention vers un concept de diversion. Le système a ensuite été chargé de générer des histoires, des essais et des blagues de longueurs variables, tandis qu’un deuxième modèle tentait soit d’identifier le mot caché directement, soit de distinguer entre des textes influencés par des invites cachées différentes.

Cinq conditions ont été testées ;

Les cinq conditions testées sur les modèles principaux.

Les chercheurs ont testé quatre types de tâches d’écriture : des histoires courtes de cinq à huit paragraphes en moyenne d’environ 450 mots ; des blagues très courtes en moyenne d’environ 12 mots ; des blagues de longue forme avec des mises en place étendues en moyenne d’environ 450 mots ; et des essais de cinq paragraphes en moyenne d’environ 380 mots.

Les expériences ont utilisé 15 mots cachés répartis en trois catégories, avec les objets concrets comprenant ‘parapluie’, ‘phare’, ‘violon’, ‘cactus’, et ‘télescope’ ; les concepts abstraits ‘justice’, ‘patience’, ‘entropie’, ‘nostalgie’, et ‘liberté’ ; et les termes neutres ‘support’, ‘mardi’, ‘cuivre’, ‘marge’, et ‘facture’.

Pour tester si l’effet dépendait de ces mots choisis à la main, les chercheurs ont également répété les expériences avec 15 noms communs aléatoirement sélectionnés à partir du Corpus of Contemporary American English (COCA), comprenant ‘juge’, ‘consommateur’, ‘glace’, ‘paire’, ‘construction’, ‘panneau’, ‘minorité’, ‘marketing’, ‘étranger’, ‘balle’, ‘absence’, ‘engrenage’, ‘joue’, ‘traitement’, et ‘banquier’, ainsi que 15 mots choisis indépendamment par chaque modèle testé^†.

Mesure/Métriques

Dans le premier des deux tests utilisés, un modèle d’IA a lu le texte généré par un autre modèle ou par lui-même, et a tenté, sur 20 tours, de deviner le mot caché.

Dans le deuxième test (2AFC), l’IA a été montrée deux pièces d’écriture et a été invitée soit à déterminer laquelle avait été influencée par un mot caché spécifique ; soit à déterminer laquelle contenait un concept caché quelconque. Puisque les devinettes aléatoires produiraient un taux de réussite de 50 %, les scores nettement supérieurs ou inférieurs à ce niveau indiqueraient que le concept caché est toujours détectable dans l’écriture.

Pour empêcher l’IA de simplement favoriser le texte qui apparaît en premier (ou en deuxième), les chercheurs ont répété chaque comparaison avec l’ordre des textes inversé, effectuant finalement 420 tests de discrimination et 450 tests de détection pour chaque modèle.

Résultats

Cinq modèles ont identifié des concepts cachés à des taux compris entre 64 % et 79 %, malgré le fait que les mots secrets n’apparaissent jamais directement dans les histoires générées. Au lieu de cela, la fuite est apparue à travers les thèmes et les images :

Précision du test 2AFC pour les histoires avec des secrets d’invite de système, où 50 % signifie une performance aléatoire. ‘Ne pas révéler’ signifie que le modèle a été invité à ne pas mentionner ou faire allusion au mot ; ‘cacher activement’, qu’il a été invité à éviter les associations liées ; ‘conscient de l’évitement’, que le devineur devait rechercher des absences flagrantes ; et ‘réponse libre’, que le mot exact a été nommé dans 20 tours. Les étoiles indiquent des résultats supérieurs au hasard et les daggers indiquent des résultats inférieurs au hasard, avec la plupart des résultats significatifs survivant à la correction de Bonferroni, à l’exception de DeepSeek sous ‘cacher activement’ ; Grok et Gemini ont utilisé légèrement moins d’essais en raison d’erreurs d’API.

GPT-5.4 et Gemini 2.5 Pro se sont comportés différemment, car essayer d’éviter l’idée cachée a réellement rendu le modèle d’évitement plus facile à détecter. Cet effet a persisté à travers les mots choisis à la main, les noms communs aléatoires de COCA et les mots choisis par les modèles.

Les scores de GPT-5.4 en dessous du hasard sont apparus systématiques plutôt que aléatoires, avec certains mots cachés détectés très régulièrement et d’autres presque jamais identifiés. L’effet a également été atténué lorsque le secret a été placé dans l’invite de l’utilisateur au lieu de l’invite de système (voir ci-dessus), ce qui a porté la précision de détection de GPT-5.4 à 56 %.

Pour la plupart des modèles, les tests qui demandaient ‘Cette écriture contient-elle un concept caché ?’ ont produit des résultats similaires à ceux qui demandaient ‘Quel concept caché cette écriture contient-elle ?’.

En outre, les deux méthodes de test mesuraient différents types de fuite, les tests 2AFC mesurant si un thème caché pouvait toujours être détecté dans l’écriture, et les tests de réponse libre mesurant si les indices fuits étaient suffisamment forts pour qu’un autre IA devine le mot caché exact^††.

Les auteurs concluent*:

‘Nos résultats suggèrent que les informations actives dans le contexte d’un modèle pendant la génération peuvent laisser des traces thématiques dans sa sortie. Le contenu de l’invite de système, le raisonnement de chaîne de pensée, les documents récupérés, les données fournies par l’utilisateur – n’importe lequel de ces éléments peut, en principe, influencer les décisions créatives de manière détectable par un observateur extérieur.

‘Le degré de fuite dépendra de la façon dont la tâche de génération est ouverte (les blagues courtes sont sûres ; les histoires ne le sont pas) et de la façon dont l’information est sémantiquement identifiable dans le médium donné (le « violon » fuitera probablement plus dans les histoires que le « ‘).

‘Toujours est-il que la fuite sémantique semble être inévitable, même lorsque les modèles tentent activement de cacher des informations.

Conclusion

Comme mentionné ci-dessus, les auteurs attribuent une partie du problème aux principes fondamentaux de l’architecture Transformers elle-même. L’histoire suggère que ce dernier problème de LLM sera résolu par un conditionnement post-formation (alignement), des invites de système non modifiables par l’utilisateur final, des filtres et la gamme diversifiée de systèmes secondaires qui semblent se multiplier à mesure que les problèmes « natifs » avec les modèles de diffusion apparaissent.

Plus l’infrastructure secondaire de garde-fous et d’équilibres est importante, plus la génération actuelle d’IA de pointe ressemble à Le parc jurassique, où la valeur principale est accompagnée d’un volume redoutable de mises en garde, et nécessite une multitude de contournements et de compromis.

* Accentuation des auteurs, ajustée lorsque nécessaire par moi (puisque une citation d’article est déjà en italique), et citations en ligne des auteurs converties par moi en hyperliens.

^†Les auteurs observent avec intérêt une coïncidence apparemment improbable entre les choix de mots « auto-sélectionnés » entre les différentes familles de modèles, notant ‘Les modèles sont attirés par des mots similaires : télescope, liberté et nostalgie apparaissent chacun dans 3+ listes de modèles’. Ils notent également une similarité de choix de ‘blague courte’ entre les familles de modèles : ‘[Plusieurs] modèles produisent la même blague de stock quelle que soit la cachée. Opus écrit ‘Pourquoi les scientifiques ne font-ils pas confiance aux atomes ? Parce qu’ils font tout.’ pour 11 des 15 secrets. Les quatre secrets restants (cactus, entropie, nostalgie, patience) reçoivent la même blague de bibliothèque que Opus écrit également pour toutes les 15 conditions sans secret—ce qui signifie que ces quatre blagues à secret sont indiscernables de la ligne de base.’

^††Même par les normes d’Arxiv, le document a tendance à la répétition et à enterrer ses idées fascinantes dans des détails excessifs et des démonstrations. Par conséquent, je renvoie le lecteur au PDF source pour le reste des expériences secondaires décrites.

Publié pour la première fois vendredi 15 mai 2026. Syntaxe corrigée samedi 16 mai, 16h05 EET.