Angle d’Anderson

Pourquoi l’IA adore écrire sur les gardiens de phare ?

mm
AI-generated image (GPT-2): Infinite identical lighthouse keepers stand screaming along a rain-soaked stone causeway above a violent sea, while matching lighthouses repeat into the distance beneath dark storm clouds, creating a photoreal recursive landscape.

Invité à ‘écrire une histoire’, ChatGPT et d’autres modèles de langage leaders semblent éviter les atteintes à la propriété intellectuelle en ayant recours de manière obsessionnelle au même petit et étrange groupe de gardiens de phare, de pêcheurs et d’horlogers.

 

Une nouvelle étude de l’Université Cornell a constaté que les principaux modèles de langage semblent avoir une obsession étrange avec un choix très restreint d’éléments narratifs, lorsque l’on demande au modèle d’écrire simplement ‘une histoire’. Après avoir incité quatre LLM à écrire 20 000 histoires, ils ont constaté que 88 % des histoires produites comportaient au moins l’un des 11 jetons très spécifiques dans les catégories de ’emplacement’, ‘nom’ ou ‘profession’:

Les occurrences de mots clés peu probables, représentés ici en parties par million, obtenus par l'analyse des chercheurs de 20 000 histoires générées par LLM. Source - https://arxiv.org/pdf/2605.26492

Les occurrences de mots clés peu probables, représentés ici en parties par million, obtenus par l’analyse des chercheurs de 20 000 histoires générées par LLM. Source

Les 11 mots les plus récurrents dans les 12 millions de mots générés par les LLM pour l’étude étaient les noms Élie, Mara, Élara ; les professions gardien, boulanger, maire, horloger, pêcheur, bibliothécaire et chef d’orchestre ; et l’emplacement phare:

Les modèles testés étaient Claude Haiku 4.5, Gemini 3.1 Flash-Lite, GPT-5.4-Mini et OLMo 7b Thinking. Tous ont été incités avec l’une des cinq demandes: ‘Écrivez une histoire’ ; ‘Veuillez écrire une histoire’ ; ‘Écrivez-moi une histoire’ ; ‘Racontez-moi une histoire’ ; ou ‘Veuillez me raconter une histoire’.

Curieux de voir si le syndrome que l’article identifie est présent dans les modèles disponibles au moment de la rédaction, j’ai essayé l’expérience moi-même, d’abord sur mon compte ChatGPT de niveau moyen (lien vers la conversation ici). Aucun tri n’a été nécessaire – ChatGPT-5.5 est allé directement au matériel que les chercheurs ont prédit, à la première tentative:

ChatGPT-5.5 confirme immédiatement les résultats initiaux de l'article. Source - https://chatgpt.com/share/6a16b1f0-eb40-83eb-8380-1d5cdf0ea955

ChatGPT-5.5 confirme immédiatement les résultats initiaux de l’article. Source

En me demandant si le contexte historique, ou même une fuite possible entre domaines, pourrait expliquer ce ‘succès immédiat’, j’ai connecté un compte ChatGPT gratuit que je n’avais pas utilisé depuis un an ou plus, dans une fenêtre de navigation privée de Firefox, et j’ai essayé à nouveau (lien vers la conversation ici). Encore une fois (en supposant que OpenAI n’utilise pas une adresse IP commune pour remplir différents comptes), ChatGPT a réussi:

Le compte ChatGPT n°2 suit les mêmes obsessions et le même petit livre de noms et de thèmes décrits dans le nouvel article. 'Mira' est dans les 20 premiers des auteurs.

Le compte ChatGPT n°2 suit les mêmes obsessions et le même petit livre de noms et de thèmes décrits dans le nouvel article. ‘Mira’ est dans les 20 premiers des auteurs. Source

Il est important de noter que ces versions de GPT étaient d’un niveau supérieur à la 5.4 testée pour l’article.

Bien que Claude Haiku ait été testé pour l’article, j’ai essayé le Sonnet 4.6 par défaut d’Anthropic, et je n’ai pas été déçu. Encore une fois, les mots clés familiers sont venus à la première tentative (lien vers la conversation ici):

Cette fois, 'Mara', un autre fidèle du 'top 11', mène l'histoire, à la première tentative sur Claude Sonnet 4.6. Source - https://claude.ai/share/7728f86c-9ea8-499c-8360-10097ca4a0e1

Cette fois, ‘Mara’, un autre fidèle du ‘top 11’, mène l’histoire, à la première tentative sur Claude Sonnet 4.6. Source

En essayant la même invite sur Claude Haiku 4.5, j’ai obtenu à peu près le même résultat.

J’ai eu du mal à reproduire les résultats des auteurs sur Google Gemini au début, jusqu’à ce que je change spécifiquement de modèle pour celui utilisé dans l’article, Gemini 3.1 Flash-Lite – et alors, à la troisième tentative (mais la première avec ce modèle), le modèle est apparu immédiatement (lien ici):

Google Gemini 3.1 Flash-Lite . Source - https://gemini.google.com/share/82c245884ec1

Google Gemini 3.1 Flash-Lite . Source

Des expériences supplémentaires avec différents modèles Gemini ont invariablement révélé le thème du phare, bien que avec des variantes qui n’apparaissent pas dans le ‘top 11’, telles que le nom ‘Thomas’, et, dans une autre variante, mon propre nom, en tant que protagoniste.

Cependant, au moment de la rédaction, les résultats de l’article sont extrêmement faciles à prouver.

Les phares dans la nature

Les grands esprits se rencontrent: il y a une semaine, avant la publication du nouvel article, l’écrivain de logiciels Daniel May a souligné la coïncidence du trope Élie et gardien de phare extrait par les chercheurs*, apparemment en ayant remarqué cela au hasard. Il a ensuite testé huit variantes de Gemini, DeepSeek, Qwen et Gemma, qu’il a trouvées pour produire les mèmes de phare et ‘Élie Thorne’ en tant que protagoniste*. Cependant, cette découverte initiale ne s’est pas étendue à la gamme plus large de thèmes de contenu persistants décrits dans le nouvel article.

Curieux de voir si ces thèmes récurrents, noms et emplacements avaient jamais échappé aux limites d’une conversation, j’ai recherché certains des mots clés et thèmes du top 11 sur Google, et j’ai trouvé un nombre remarquable de publications qui semblent les avoir canalisés:

Trois exemples du mème dans la sortie. Voir ci-dessous pour les liens de source.

Trois exemples du mème dans la sortie. Voir ci-dessous pour les liens de source.

May avait identifié le plus long Élie Thorne (plutôt que juste ‘Élie’) comme un mème LLM persistant, et a publié diverses captures d’écran d’Amazon, où ce nom a apparemment été utilisé comme titre pour les auteurs de divers livres, y compris des livres médicaux.

Au lieu de cela, j’ai cherché et trouvé du contenu qui semblait avoir invoqué les thèmes persistants à partir d’un LLM, y compris un post X d’une histoire (version archivée ici) ; un ouvrage de fiction (version archivée ici) ; et une histoire avec narration sur YouTube (archivée ici). Il y avait beaucoup plus à parcourir, mais le temps ne le permettait pas.

Un goût pour le passé

Alors, autant pour l’observation occasionnelle et la sérendipité. Alors queaucun « document magique » dans les données de formation n’a encore été trouvé qui comporte tous ou la plupart des persistance, les auteurs du nouvel article (intitulé Élie dans le phare, encore ? Diagnostiquer une faible diversité dans les histoires LLM, de deux chercheurs de l’Université Cornell) théorisent que les filtres de droit d’auteur dans les développements d’IA peuvent restreindre la production fictionnelle dans les LLM à du matériel qui est hors droit d’auteur.

Les auteurs déclarent:

‘Nous constatons que la domination des histoires « Élie dans le phare » ne peut être expliquée par la prévalence dans les données de formation ou de post-formation. Nous spéculons que les modèles sont formés pour éviter les références à des personnages sous droit d’auteur et du contenu pour adultes pendant l’alignement, mais reportons cette question à des travaux futurs.’

Category Token Ours Lit Pre non-fiction Pre fiction Post non-fiction Post fiction
Name elias 2,428 2.7 2.2 4.0 0.4 52.7
Name mara 5,200 3.9 2.5 8.7 0.4 21.7
Name elara 1,221 0.0 0.4 1.2 0.9 108
Profession keeper 1,495 7.2 6.3 14.7 3.5 10.0
Profession baker 161 20 11.8 10.56 1.7 11.9
Profession mayor 198 28 11.5 16.1 1.4 27.4
Profession clockmaker 108 0.1 0.18 0.0 0.3 1.4
Profession fisherman 62 4.2 3.0 7.6 0.0 9.3
Profession librarian 68 5.3 7.6 5.9 2.3 11.5
Profession conductor 96 5.0 5.9 5.7 4.7 7.5
Location lighthouse 3,005 5.5 3.5 4.6 4.6 10.1

Tableau de comparaison montrant à quelle fréquence les mots récurrents des histoires générées par l’IA apparaissent dans la littérature publiée, la fiction web et les données de post-formation, avec des termes tels que ‘Élie’ et ‘phare’ apparaissant beaucoup plus fréquemment dans la fiction écrite par les chatbots.

Dans l’étude, les auteurs ont constaté que les 11 mots soulignés apparaissent dans 88 % des 20 000 histoires générées, et qu’il y a ‘peu de différence entre les modèles’. Ils soulignent que ces mots sont rares dans la littérature anglaise publiée et que les données de post-formation (données conçues pour conditionner et aligner les modèles sur une utilisation ‘acceptable’) pourraient bien être responsables.

L’article déclare:

‘Un exemple typique présenté [ci-dessous] met en évidence trois éléments communs à presque toutes les 20 000 histoires: un emplacement (19 864 histoires), un nom de personnage (19 864 histoires) et une profession (15 807 histoires).

‘En fait, l’emplacement spécifique (« phare »), le nom (« Élie ») et la profession (« gardien ») dans cette histoire apparaissent dans une certaine combinaison dans 66,6 % de toutes les histoires générées. La lumière est également un thème courant: 56 % des histoires générées par Claude sont intitulées « Le secret du gardien du phare » et le mot « lumière » apparaît dans 16 784 histoires à un taux moyen de 3,2 occurrences par histoire.’

Cet exemple, selon l'article, a été écrit par Google Gemini 3.1 Flash-Lite, en réponse à l'invite 'Écrivez une histoire'.

Cet exemple, selon l’article, a été écrit par Google Gemini 3.1 Flash-Lite, en réponse à l’invite ‘Écrivez une histoire’.

Il est important de noter que les auteurs de l’étude identifient une tendance nostalgique ou atavique à travers tous les mots clés et noms dérivés.

En poursuite des traits

Pour tester si les histoires répétitives de ‘phare’ peuvent être expliquées par une exposition ordinaire à la fiction, des comparaisons ont été faites entre les mots récurrents préférés des modèles et plusieurs grands corpus de langue anglaise. La fiction contemporaine a été examinée à travers CONLIT, un ensemble de données contenant 2 700 romans anglais publiés entre 2007 et 2021, couvrant 12 genres et totalisant environ 287 millions de mots.

‘Élie’ apparaît environ 900 fois plus souvent dans les histoires générées que dans la fiction publiée. La fiction amateur de la communauté /r/writingprompts de Reddit a produit des fréquences similaires, indiquant que le modèle ne reflète pas les habitudes de récit humaines plus larges.

Le même modèle s’est maintenu lors de l’examen des données de pré-formation. En utilisant le corpus OLMo 3 ouvert, qui contient environ 3,89 milliards de documents principalement rédigés par des humains, en partie issus de Common Crawl, les chercheurs ont constaté que les mots ‘Core’ récurrents apparaissent à peine.

Étant donné que une grande partie du corpus OLMo 3 est de la non-fiction, un classificateur de fiction a été construit à l’aide d’annotations GPT-OSS 20b et d’un modèle FastText formé sur 200 000 échantillons équilibrés. Même après avoir filtré spécifiquement le matériel fictif, des mots comme ‘Élara’ apparaissent à des taux négligeables par rapport aux histoires générées par l’IA. Pourquoi, donc, dominent-ils au niveau le plus bas de l’impératif pour un LLM d’écrire de la fiction ?

Les auteurs déclarent:

‘Si les mots Core ne sont pas courants dans les données web, alors une source restante serait les données de post-formation. Mais nous constatons que les données de post-formation d’OLMo présentent nos jetons à un taux inférieur à celui de CONLIT.

Dans 78 958 histoires des données de post-formation d’OLMo 3, ils notent que ‘Élie’ apparaît 52,7 fois par million de mots, par rapport à 2,7 dans CONLIT, mais atteint 2 428 occurrences par million de mots dans les histoires générées examinées dans l’étude.

Pour identifier d’où provenaient les histoires ‘Core’ récurrentes, chaque histoire dans les données de post-formation d’OLMo 3 a été notée pour la présence d’un ou plusieurs jetons Core (c’est-à-dire pour la présence de Élara, Mara, etc.). La plupart devraient apparaître dans les ensembles de données de fine-tuning supervisé (SFT), car WildChat et des sources connexes ont contribué 59 266 histoires à OLMo 3.

Cependant, seuls 1 803 contenaient des termes Core, tandis que les ensembles de données utilisés pour DPO et l’apprentissage par renforcement ont montré des concentrations plus élevées.

Dans l’ensemble, le vocabulaire ‘Core’ récurrent a été retracé à seulement 3 053 histoires, représentant 3,8 % de toutes les histoires de post-formation examinées. Il n’y a pas de possibilité statistique pour qu’un sous-ensemble aussi petit de corpus domine de la manière démontrée.

L’article conclut:

‘Lorsqu’ils sont donnés avec peu de direction, les modèles actuels écrivent des histoires en utilisant un catalogue étroit de noms, de lieux et de professions. Les personnages récurrents dans ces histoires comprennent Élie, un gardien de phare. Élie est inhabituel ; le nom est rare dans la littérature, les données web et même les données de post-formation.’

Conclusion

En l’absence de toute œuvre littéraire unique (ou même d’une série) qui comporte les 11 mots principaux que les auteurs identifient, il n’est pas du tout clair par quels moyens cette collection particulière de mots s’est accumulée et s’est auto-associée aux niveaux les plus bas de plusieurs grands modèles de langage (malgré leur diversité de données de formation et d’approches).

Même si la contention des chercheurs sur l’effet de restriction des filtres de droit d’auteur est correcte, un véritable océan de littérature classique dans les données de formation devrait avoir empêché cette étrange collection de mots anciens de dominer la production d’une invite ‘écrire’ non qualifiée.

Cette théorie suppose, cependant, que de vastes quantités de littérature classique auraient été incluses dans le régime de formation. C’est peu probable, car ce qui est souhaité, ce ne sont pas des modèles qui produiront de faux textes de style Dickens, mais plutôt ceux qui s’occupent du lexique moderne et conviennent aux besoins commerciaux actuels. Le simple volume, même de la littérature d’avant l’industrie, interdirait son inclusion.

Dans tous les cas, s’il y avait une histoire distincte avec un mélange alternatif des facettes ‘obsessionnelles’ que les auteurs notent, il serait, présumément, plus facile à trouver ; les auteurs eux-mêmes n’ont pas pu le trouver, et des recherches occasionnelles sur l’ère d’avant l’IA n’ont pas trouvé de tel candidat. Peut-être, si le ‘syndrome du phare’ acquiert la même notoriété que les tirets de l’IA, une autorité universitaire viendra avec la réponse.

 

* Je ne peux pas aller plus loin dans l’article de May, pour des raisons qui peuvent devenir évidentes lorsque l’on lit.

Publié pour la première fois le mercredi 27 mai 2026. Modifié dans les 30 premières minutes pour corriger le lien Anthropic.

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.