Andersonの視点

AIはなぜ灯台の番人について書くことを愛しているのか?

mm
AI-generated image (GPT-2): Infinite identical lighthouse keepers stand screaming along a rain-soaked stone causeway above a violent sea, while matching lighthouses repeat into the distance beneath dark storm clouds, creating a photoreal recursive landscape.

「物語を書いてください」という依頼を受けたChatGPTや他のトップレベルの言語モデルは、著作権侵害を避けるために、同じ小さな奇妙なキャラクター、たとえば灯台の番人、漁師、時計職人について執拗に書くように見える。

 

コーネル大学の新しい研究によると、トップレベルの言語モデルは、単に「物語を書いてください」という依頼を受けたときに、非常に狭い範囲の物語の要素を使用するように見える。4つのLLMに20,000個の物語を書くように依頼した結果、88%の物語には、11個の特定のトークン(「場所」、「名前」、「職業」のカテゴリに分類される)が少なくとも1つ含まれていることがわかった。

研究者による20,000個のLLM生成物語の分析で得られた、ありそうもないキーワードの出現回数(百万語あたり)。ソース - https://arxiv.org/pdf/2605.26492

研究者による20,000個のLLM生成物語の分析で得られた、ありそうもないキーワードの出現回数(百万語あたり)。 ソース

研究対象となった11個のトークンは、名前「エリアス」、「マラ」、「エララ」、職業「番人」、「パン屋」、「市長」、「時計職人」、「漁師」、「司書」、「指揮者」、および場所「灯台」である。

テストされたモデルは、Claude Haiku 4.5Gemini 3.1 Flash-LiteGPT-5.4-Mini、およびOLMo 7b Thinkingであった。これらのモデルは、5つの依頼のうち1つを受けた:「物語を書いてください」「物語を書いてください」「私に物語を書いてください」「物語を私に教えてください」、または「私に物語を教えてください」

好奇心から、研究者は自分で実験を行い、最初の試みでChatGPT-5.5を使用して、研究者が予測した内容をすぐに得ることができた。

ChatGPT-5.5が初めて試みで研究者の初期の発見を裏付けた。ソース - https://chatgpt.com/share/6a16b1f0-eb40-83eb-8380-1d5cdf0ea955

ChatGPT-5.5が初めて試みで研究者の初期の発見を裏付けた。 ソース

同じ依頼をClaude Sonnet 4.6で試みたところ、同じ結果が得られた。

このときは「マラ」という名前が、Claude Sonnet 4.6の物語の先頭に登場した。ソース - https://claude.ai/share/7728f86c-9ea8-499c-8360-10097ca4a0e1

このときは「マラ」という名前が、Claude Sonnet 4.6の物語の先頭に登場した。 ソース

Google Gemini 3.1 Flash-Liteでも同じパターンが見られた。

Google Gemini 3.1 Flash-Lite。ソース - https://gemini.google.com/share/82c245884ec1

Google Gemini 3.1 Flash-Lite。 ソース

野生の灯台

先日、ソフトウェアライターのダニエル・メイは、研究者が抽出したトロープである「エリアス」と「灯台の番人」の一致を指摘した。

メイは、Gemini、DeepSeek、Qwen、Gemmaの8つのバリアントをテストし、研究者が見つけた物語のパターンを再現した。

メイは、Amazonで「エリアス・ソーン」という名前が使用されている本を見つけた。

代わりに、研究者は、LLMから生成された物語のパターンが、ウェブ上のコンテンツに現れているかどうかを調べた。

ウェブ上でのメムの3つの例。以下にソースリンクを参照のこと。

ウェブ上でのメムの3つの例。

メイは、Xの投稿、Amazonのフィクション作品、YouTubeの物語を発見した。

過去への味

研究者は、LLMが物語を書くときに、著作権フィルタの制約により、著作権で保護されていない物語を書く傾向があると推測している。

研究者は、著作権で保護されていない物語を書くために、LLMは「エリアス」と「灯台」のようなトークンを使用する可能性があると示唆している。

カテゴリ トークン 私たちのもの 文学 事前非フィクション 事前フィクション 事後非フィクション 事後フィクション
名前 エリアス 2,428 2.7 2.2 4.0 0.4 52.7
名前 マラ 5,200 3.9 2.5 8.7 0.4 21.7
名前 エララ 1,221 0.0 0.4 1.2 0.9 108
職業 番人 1,495 7.2 6.3 14.7 3.5 10.0
職業 パン屋 161 20 11.8 10.56 1.7 11.9
職業 市長 198 28 11.5 16.1 1.4 27.4
職業 時計職人 108 0.1 0.18 0.0 0.3 1.4
職業 漁師 62 4.2 3.0 7.6 0.0 9.3
職業 司書 68 5.3 7.6 5.9 2.3 11.5
職業 指揮者 96 5.0 5.9 5.7 4.7 7.5
場所 灯台 3,005 5.5 3.5 4.6 4.6 10.1

LLM生成物語で再現されるトークンの出現回数の比較表。『エリアス』や『灯台』などのトークンは、チャットボットによるフィクションで非常に頻繁に出現する。

研究者は、20,000個の物語でこれらのトークンがどの程度出現するかを調べた。

研究者は、CONLITというデータセットを使用して、2007年から2021年までに出版された2,700冊の英語小説を分析した。

研究者は、OLMo 3コーパスを使用して、約38.9億の人間が書いた文書を分析した。

特性の追求

研究者は、LLMが「灯台」の物語を書く理由を調べるために、比較検証を行った。

研究者は、CONLITデータセットとOLMo 3コーパスを使用して、LLM生成物語で再現されるトークンの出現回数を調べた。

研究者は、LLM生成物語で再現されるトークンは、人間が書いた物語ではほとんど出現しないと結論付けた。

研究者は、LLMが「灯台」の物語を書く理由について、著作権フィルタの制約が原因である可能性があると示唆した。

結論

研究者は、LLMが「灯台」の物語を書く理由について、まだ明らかになっていないと結論付けた。

研究者は、LLMが「灯台」の物語を書く理由について、著作権フィルタの制約が原因である可能性があると示唆した。

研究者は、LLMが「灯台」の物語を書く理由について、さらに調査する必要があると結論付けた。

「灯台症候群」がAIのエムダッシュと同じレベルの注目を集めた場合、ある学術的権威が答えを提供してくれるかもしれない。

* 私はメイの記事についてさらに詳しく説明できない。

最初に公開されたのは2026年5月27日。Anthropicのリンクを修正するために、最初の30分以内に修正された。

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。