Погляд Anderson
Чому штучний інтелект любить писати про доглядачів маяків?

Після запитів на «написання історії» ChatGPT та інші провідні мовні моделі, схоже, уникають порушення авторських прав завдяки одержимості одними й тими ж незвичайними персонажами, такими як доглядачі маяків, рибалками та годинникарями.
Нове дослідження Корнельського університету показало, що провідні мовні моделі мають дивну одержимість дуже вузьким вибором розповідних елементів, коли модель просимо просто «написати історію». Після того, як чотири великих мовних моделі були запрошені написати 20 000 історій, дослідники виявили, що 88% історій містять принаймні один з 11 дуже конкретних токенів у категорії «місце», «ім’я» або «професія»:

Виникнення малоймовірних ключових слів, представлених тут у мільйонних частинах, отриманих шляхом аналізу дослідниками 20 000 історій, згенерованих мовними моделями. Джерело
11 найчастіших слів у 12+ мільйонах слів, згенерованих мовними моделями для дослідження, були іменами Еліас, Мара, Елара; професіями доглядач, пекар, мер, годинникар, рибалка, бібліотекар і диригент; і місцем маяк:
Тестувалися моделі Claude Haiku 4.5, Gemini 3.1 Flash-Lite, GPT-5.4-Mini і OLMo 7b Thinking. Всі вони були запрошені на одну з п’яти запитів: «Напишіть історію»; «Будь ласка, напишіть історію»; «Напишіть мені історію»; «Розкажіть мені історію»; або «Будь ласка, розкажіть історію».
Цікаво було побачити, чи синдром, який ідентифікує стаття, присутній у моделях, доступних на момент написання, тому я сам спробував провести експеримент, спочатку на своєму звичайному аккаунті ChatGPT (посилання на розмову тут). Не було необхідності вибирати окремі випадки – ChatGPT-5.5 одразу ж пішов за матеріалом, який передбачили дослідники, з першої спроби:

ChatGPT-5.5 одразу ж підтвердив початкові висновки статті. Джерело
Задумавшись, чи історичний контекст, або навіть можливе міждоменне просочування може бути причиною цього «інстант-хіту», я увійшов у безплатний аккаунт ChatGPT, який не використовував понад рік, у приватному вікні браузера Firefox, і знову спробував (посилання на розмову тут). І знову, після того, як припустив, що OpenAI не використовує спільну IP-адресу для поповнення різних аккаунтів, ChatGPT знову вийшов у верх:

Аккаунт ChatGPT #2 слідує тим же одержимостям і маленькій книзі імен і тем, викладених у новій статті. ‘Міра’ знаходиться в топ-20 авторів. Джерело
Версії GPT, які були випробувані для статті, були на один рівень вище, ніж 5.4.
Хоча Claude Haiku був випробуваний для статті, я спробував стандартний Sonnet 4.6 від Anthropic, і не був розчарований. І знову, знайомі ключові слова прийшли з першої спроби (посилання на розмову тут):

Цього разу ‘Мара’, ще один стійкий учасник ‘топ-11’, очолює історію в першій спробі на Claude Sonnet 4.6. Джерело
Спробувавши ту ж саму підказку на Claude Haiku 4.5, я отримав майже те ж результат.
Спочатку я не зміг відтворити висновки авторів на Google Gemini, доки не змінив модель на ту, яка використовувалася в статті, Gemini 3.1 Flash-Lite – і тільки тоді, на третій спробі (але першій з цією моделлю), шаблон з’явився одразу:

Google Gemini 3.1 Flash-Lite. Джерело
Далі експерименти з різними моделями Gemini завжди викидали тему маяка, хоча з варіантами, яких не було у «топ-11», наприклад, ім’ям «Томас», і в іншому варіанті – моє ім’я, як ім’я головного героя.
Все ж таки, на момент написання статті її висновки дуже легко довести.
Маяки в дикій природі
Великі думки думають однаково: тиждень тому, до публікації нової статті, програміст Даніель Мей вказав на збіг імені Еліас і тропу доглядач маяка, видобуту дослідниками*, як видається, помітивши це випадково. Він пішов далі і випробував вісім варіантів Gemini, DeepSeek, Qwen і Gemma, і виявив, що вони будуть генерувати «меми маяка» і «Еліаса Торна» як головного героя*. Однак це перше відкриття не поширювалося на ширший діапазон постійних тем змісту, викладених у новій статті.
Цікаво було побачити, чи ці повторювані теми, імена та місця колись виходили за межі чату, тому я шукав деякі з топ-11 ключових слів і тем у Google і знайшов дивну кількість публікацій, які, здається, каналізували їх:

Три приклади мему у виводі. Див. нижче для посилань на джерела.
Мей ідентифікував довше ім’я Еліас Торн (а не просто «Еліас»), як постійний мем LLM, і опублікував різні знімки екрана з Amazon, де це ім’я було використано як ім’я автора/авторів різних книг, включаючи медичні книги.
Натомість я шукав і знайшов контент, який, здається, викликав постійні теми з LLM, включаючи пост X історії (версія архіву тут); художню роботу (версія архіву тут); і історію з оповіданням на YouTube (зархіровано тут). Було багато чого, але часу не вистачило.
Смак минулого
От і все з випадкових спостережень і серендипності. Хоча жодного «магічного документа» у навчальних даних, який містить усі або більшість з 11 слів, ще не з’явився, автори нової статті статті (під назвою Еліас у маяку, знову? Діагностика низької різноманітності у історіях LLM, двох дослідників з Корнельського університету) припускають, що фільтри авторських прав у розробках штучного інтелекту можуть обмежувати художній вивід LLM до матеріалу, який знаходиться поза авторськими правами.
Автори заявляють:
‘Ми виявили, що домінування історій «Еліас у маяку» не можна пояснити їх поширеністю у попередніх чи післянавчальних даних. Ми припускаємо, що моделі навчаються уникати посилань на захищені авторським правом персонажів та дорослий контент під час вирівнювання, але відкладаємо цей питання на майбутню роботу.’
| Категорія | Токен | Наші | Літ | До нехудожньої літератури | До художньої літератури | Після нехудожньої літератури | Після художньої літератури |
|---|---|---|---|---|---|---|---|
| Ім’я | еліас | 2,428 | 2.7 | 2.2 | 4.0 | 0.4 | 52.7 |
| Ім’я | мара | 5,200 | 3.9 | 2.5 | 8.7 | 0.4 | 21.7 |
| Ім’я | елара | 1,221 | 0.0 | 0.4 | 1.2 | 0.9 | 108 |
| Професія | доглядач | 1,495 | 7.2 | 6.3 | 14.7 | 3.5 | 10.0 |
| Професія | пекар | 161 | 20 | 11.8 | 10.56 | 1.7 | 11.9 |
| Професія | мер | 198 | 28 | 11.5 | 16.1 | 1.4 | 27.4 |
| Професія | годинникар | 108 | 0.1 | 0.18 | 0.0 | 0.3 | 1.4 |
| Професія | рибалка | 62 | 4.2 | 3.0 | 7.6 | 0.0 | 9.3 |
| Професія | бібліотекар | 68 | 5.3 | 7.6 | 5.9 | 2.3 | 11.5 |
| Професія | диригент | 96 | 5.0 | 5.9 | 5.7 | 4.7 | 7.5 |
| Місце | маяк | 3,005 | 5.5 | 3.5 | 4.6 | 4.6 | 10.1 |
Таблиця порівняння, яка показує, як часто повторювані слова з історій, згенерованих штучним інтелектом, з’являються в опублікованій літературі, веб-фантастиці та післянавчальних наборах даних, з термінами, такими як «Еліас» і «маяк», які зустрічаються набагато частіше в художніх творах, згенерованих чат-ботами.
У дослідженні автори виявили, що підкреслені 11 слів зустрічаються в 88% із 20 000 згенерованих історій, і що між моделями мало різниці. Вони підкреслюють, що ці слова незвичайні в опублікованій англійській літературі, і що післянавчальні дані (дані, призначені для умовляння і вирівнювання моделей у «прийнятне» використання) можуть бути відповідальними.
Стаття заявляє:
‘Типовий приклад, представлений нижче, підкреслює три елементи, спільні для майже всіх 20 000 історій: місце (19 864 історії), ім’я персонажа (19 864 історії) і професія (15 807 історій).
‘Фактично, конкретне місце («маяк»), ім’я («Еліас») і професія («доглядач») в цій історії зустрічаються в якійсь комбінації в 66,6% усіх згенерованих історій. Світло також є спільною темою: 56% історій, згенерованих Claude, називаються «Таємниця доглядача маяка», а слово «світло» з’являється в 16 784 історіях у середньому 3,2 випадків на історію.’

Цей приклад, як зазначається в статті, був написаний Google Gemini 3.1 Flash-Lite у відповідь на підказку «Напишіть історію».
Варті зазначити, що автори дослідження ідентифікують ностальгічний або атавістичний тренд по всім виведеним ключовим словам і іменам.
Погоня за ознаками
Для перевірки, чи повторювані історії про «маяк» можна пояснити звичайною експозицією до художньої літератури, порівняння були проведені між улюбленими повторюваними словами моделей і кількома великими англійськими корпусами. Сучасна художня література була розглянута через CONLIT, набір даних, який містить 2 700 англійських романів, опублікованих між 2007 і 2021 роками, що охоплює 12 жанрів і становить приблизно 287 мільйонів слів.
«Еліас» з’явився приблизно в 900 разів частіше в згенерованих історіях, ніж у опублікованій художній літературі. Аматорська художня література з спільноти /r/writingprompts Reddit виробила подібні частоти, вказуючи на те, що шаблон не відображає ширші людські звички розповіді.
Той самий шаблон зберігся, коли були розглянуті попередні навчальні дані. За допомогою відкритого корпусу OLMo 3, який містить приблизно 3,89 мільярда документів, написаних людиною, частково з Common Crawl, дослідники виявили, що повторювані «ядро» слова практично не з’являються.
Оскільки більша частина корпусу OLMo 3 складається з нехудожніх робіт, класифікатор художньої літератури був створений за допомогою анотацій GPT-OSS 20b і моделі FastText, навченої на 200 000 збалансованих зразках. Навіть після фільтрації конкретно художніх матеріалів слів, таких як «Елара», все ще з’являлися з незначними швидкостями порівняно з історіями, згенерованими штучним інтелектом. Чому, тому, вони домінують на найнизькому рівні імперативу для LLM написати художню літературу?
Автори заявляють:
‘Якщо ядро-слова не є загальними у веб-даних, то однією з залишених джерел будуть післянавчальні дані. Але ми виявили, що післянавчальні дані OLMo містять наші токени з нижчою швидкістю, ніж CONLIT.
У 78 958 історіях з післянавчальних наборів даних OLMo 3, як зазначається, «Еліас» з’являється 52,7 рази на мільйон слів, порівняно з 2,7 у CONLIT, але досягає 2 428 випадків на мільйон слів у згенерованих історіях, розглянутих у дослідженні.
Для визначення походження повторюваних «ядро»-історій кожна історія в післянавчальних даних OLMo 3 була оцінена за наявність одного або декількох ядро-токенів (тобто за наявність Елари, Мари тощо). Більшість з них мали бути у навчальних наборах даних (SFT), оскільки WildChat і пов’язані джерела внесли 59 266 історій до OLMo 3.
Однак, лише 1 803 містять ядро-терміни, тоді як набори даних, використані для DPO і вирішення завдань за допомогою підкріплення, показали вищу концентрацію.
У цілому, повторювана лексика ядра була відстежена до всього лише 3 053 історій, що становить 3,8% усіх післянавчальних історій, розглянутих у дослідженні. Не існує статистичної можливості для такої маленької підмножини корпусу, щоб вона домінувала в нього таким чином.
Стаття висновує:
‘Коли їм дають мало напрямку, сучасні моделі пишуть історії, використовуючи вузький каталог імен, місць і професій. Повторювані персонажі в цих історіях включають Еліаса, доглядача маяка. Еліас незвичайний; ім’я рідке в літературі, веб-даних і навіть післянавчальних даних.’
Висновок
У відсутності будь-якої окремої літературної праці (або навіть серії) з топ-11 слів, які ідентифікують автори, зовсім не зрозуміло, яким чином ця конкретна колекція слів накопичилася і асоціюється у найнижчих рівнях декількох великих мовних моделей (незважаючи на їх різноманітність навчальних даних і підходів).
Даже якщо твердження дослідників про обмежувальний ефект фільтрів авторських прав є правильним, справжнє «океан» класичної літератури в навчальному режимі мав би запобігти цій дивній колекції старомодних слів від домінування у виводі некваліфікованої підказки «напишіть».
Ця теорія припускає, однак, що великі об’єми класичної літератури були б включені в навчальний режим зовсім. Це малоймовірно, оскільки потрібні не моделі, які будуть наслідувати фальшиві твори Діккенса, а моделі, які будуть справлятися з сучасним лексиконом і підходять для сучасних бізнес-потреб. Сама величина навіть доіндустріальної літератури виключила б її включення.
У будь-якому випадку, якщо був би окремий нарратив, який містить якийсь змінний набір «одержимих» аспектів, яких відзначають автори, він, мабуть, був би легше знайти; автори самі не змогли знайти його, а випадкові пошуки в до-штучноінтелектуальної ери не виявили жодного претендента. Можливо, якщо «синдром маяка» здобуде таку ж відомість, як ем-деші штучного інтелекту, деяка вчена влада вийде вперед з відповіддю.
* Я не можу продовжувати статтю Мея, з причин, які можуть стати очевидними, коли хтось прочитає її.
Перша публікація середи, 27 травня 2026 року. Змінено в перші 30 хвилин, щоб виправити посилання на Anthropic.












