Andersonの視点
AIはなぜ灯台の番人について書くことを愛しているのか?

「物語を書いてください」という依頼を受けたChatGPTや他のトップレベルの言語モデルは、著作権侵害を避けるために、同じ小さな奇妙なキャラクター、たとえば灯台の番人、漁師、時計職人について執拗に書くように見える。
コーネル大学の新しい研究によると、トップレベルの言語モデルは、単に「物語を書いてください」という依頼を受けたときに、非常に狭い範囲の物語の要素を使用するように見える。4つのLLMに20,000個の物語を書くように依頼した結果、88%の物語には、11個の特定のトークン(「場所」、「名前」、「職業」のカテゴリに分類される)が少なくとも1つ含まれていることがわかった。

研究者による20,000個のLLM生成物語の分析で得られた、ありそうもないキーワードの出現回数(百万語あたり)。 ソース
研究対象となった11個のトークンは、名前「エリアス」、「マラ」、「エララ」、職業「番人」、「パン屋」、「市長」、「時計職人」、「漁師」、「司書」、「指揮者」、および場所「灯台」である。
テストされたモデルは、Claude Haiku 4.5、Gemini 3.1 Flash-Lite、GPT-5.4-Mini、およびOLMo 7b Thinkingであった。これらのモデルは、5つの依頼のうち1つを受けた:「物語を書いてください」、「物語を書いてください」、「私に物語を書いてください」、「物語を私に教えてください」、または「私に物語を教えてください」。
好奇心から、研究者は自分で実験を行い、最初の試みでChatGPT-5.5を使用して、研究者が予測した内容をすぐに得ることができた。

ChatGPT-5.5が初めて試みで研究者の初期の発見を裏付けた。 ソース
同じ依頼をClaude Sonnet 4.6で試みたところ、同じ結果が得られた。

このときは「マラ」という名前が、Claude Sonnet 4.6の物語の先頭に登場した。 ソース
Google Gemini 3.1 Flash-Liteでも同じパターンが見られた。

Google Gemini 3.1 Flash-Lite。 ソース
野生の灯台
先日、ソフトウェアライターのダニエル・メイは、研究者が抽出したトロープである「エリアス」と「灯台の番人」の一致を指摘した。
メイは、Gemini、DeepSeek、Qwen、Gemmaの8つのバリアントをテストし、研究者が見つけた物語のパターンを再現した。
メイは、Amazonで「エリアス・ソーン」という名前が使用されている本を見つけた。
代わりに、研究者は、LLMから生成された物語のパターンが、ウェブ上のコンテンツに現れているかどうかを調べた。

ウェブ上でのメムの3つの例。
メイは、Xの投稿、Amazonのフィクション作品、YouTubeの物語を発見した。
過去への味
研究者は、LLMが物語を書くときに、著作権フィルタの制約により、著作権で保護されていない物語を書く傾向があると推測している。
研究者は、著作権で保護されていない物語を書くために、LLMは「エリアス」と「灯台」のようなトークンを使用する可能性があると示唆している。
| カテゴリ | トークン | 私たちのもの | 文学 | 事前非フィクション | 事前フィクション | 事後非フィクション | 事後フィクション |
|---|---|---|---|---|---|---|---|
| 名前 | エリアス | 2,428 | 2.7 | 2.2 | 4.0 | 0.4 | 52.7 |
| 名前 | マラ | 5,200 | 3.9 | 2.5 | 8.7 | 0.4 | 21.7 |
| 名前 | エララ | 1,221 | 0.0 | 0.4 | 1.2 | 0.9 | 108 |
| 職業 | 番人 | 1,495 | 7.2 | 6.3 | 14.7 | 3.5 | 10.0 |
| 職業 | パン屋 | 161 | 20 | 11.8 | 10.56 | 1.7 | 11.9 |
| 職業 | 市長 | 198 | 28 | 11.5 | 16.1 | 1.4 | 27.4 |
| 職業 | 時計職人 | 108 | 0.1 | 0.18 | 0.0 | 0.3 | 1.4 |
| 職業 | 漁師 | 62 | 4.2 | 3.0 | 7.6 | 0.0 | 9.3 |
| 職業 | 司書 | 68 | 5.3 | 7.6 | 5.9 | 2.3 | 11.5 |
| 職業 | 指揮者 | 96 | 5.0 | 5.9 | 5.7 | 4.7 | 7.5 |
| 場所 | 灯台 | 3,005 | 5.5 | 3.5 | 4.6 | 4.6 | 10.1 |
LLM生成物語で再現されるトークンの出現回数の比較表。『エリアス』や『灯台』などのトークンは、チャットボットによるフィクションで非常に頻繁に出現する。
研究者は、20,000個の物語でこれらのトークンがどの程度出現するかを調べた。
研究者は、CONLITというデータセットを使用して、2007年から2021年までに出版された2,700冊の英語小説を分析した。
研究者は、OLMo 3コーパスを使用して、約38.9億の人間が書いた文書を分析した。
特性の追求
研究者は、LLMが「灯台」の物語を書く理由を調べるために、比較検証を行った。
研究者は、CONLITデータセットとOLMo 3コーパスを使用して、LLM生成物語で再現されるトークンの出現回数を調べた。
研究者は、LLM生成物語で再現されるトークンは、人間が書いた物語ではほとんど出現しないと結論付けた。
研究者は、LLMが「灯台」の物語を書く理由について、著作権フィルタの制約が原因である可能性があると示唆した。
結論
研究者は、LLMが「灯台」の物語を書く理由について、まだ明らかになっていないと結論付けた。
研究者は、LLMが「灯台」の物語を書く理由について、著作権フィルタの制約が原因である可能性があると示唆した。
研究者は、LLMが「灯台」の物語を書く理由について、さらに調査する必要があると結論付けた。
「灯台症候群」がAIのエムダッシュと同じレベルの注目を集めた場合、ある学術的権威が答えを提供してくれるかもしれない。
* 私はメイの記事についてさらに詳しく説明できない。
最初に公開されたのは2026年5月27日。Anthropicのリンクを修正するために、最初の30分以内に修正された。












