Anderson’un Açısı

Neden AI, Deniz Feneri Gözetmenleri Hakkında Yazmayı Sever?

mm
AI-generated image (GPT-2): Infinite identical lighthouse keepers stand screaming along a rain-soaked stone causeway above a violent sea, while matching lighthouses repeat into the distance beneath dark storm clouds, creating a photoreal recursive landscape.

‘Bir hikaye yaz’ diye talep edildiğinde, ChatGPT ve diğer önde gelen dil modelleri, aynı küçük ve garip karakterlere, özellikle deniz feneri gözetmenlerine, balıkçılara ve saatçilere başvurmaktan kaçınarak telif hakkı ihlallerini önlemek gibi görünüyor.

 

Kornell Üniversitesi’nden yeni bir çalışmada, önde gelen dil modellerinin, bir hikaye yazma talebiyle karşılaştıklarında, çok dar bir anlatı unsurları seçimiyle karşılaşıldığı tespit edildi. Dört büyük dil modeline 20.000 hikaye yazdırılması sonrasında, ürettiği hikayelerin %88’inde 11 çok spesifik tokenin en az birini içerdiği görüldü. Bu tokenler ‘yer’, ‘isim’ veya ‘meslek’ kategorilerinde yer alıyor:

Araştırmacıların 20.000 LLM tarafından üretilen hikayelerin analizi sonucu elde edilen, parts per million cinsinden olasılık değerleri. Kaynak - https://arxiv.org/pdf/2605.26492

Araştırmacıların 20.000 LLM tarafından üretilen hikayelerin analizi sonucu elde edilen, parts per million cinsinden olasılık değerleri. Kaynak

Çalışmada kullanılan modeller Claude Haiku 4.5, Gemini 3.1 Flash-Lite, GPT-5.4-Mini ve OLMo 7b Thinking’dir. Tüm modellere beş farklı talep yönlendirilmiştir: ‘Bir hikaye yaz’; ‘Lütfen bir hikaye yaz’; ‘Bana bir hikaye yaz’; ‘Bana bir hikaye anlat’; veya ‘Lütfen bana bir hikaye anlat’.

Merak ederek, bu sendromun mevcut modellerde de mevcut olup olmadığını görmek için kendi deneyimiyle teste tabi tuttu ve ilk denemede, ChatGPT-5.5’in araştırmacıların öngörüsünü doğruladığını gördü:

ChatGPT-5.5'in ilk denemede araştırmacıların bulgularını doğrulaması. Kaynak - https://chatgpt.com/share/6a16b1f0-eb40-83eb-8380-1d5cdf0ea955

ChatGPT-5.5’in ilk denemede araştırmacıların bulgularını doğrulaması. Kaynak

Deneyleri Anthropic’in varsayılan Sonnet 4.6’sı ile tekrarladığında, tanıdık anahtar kelimelerin ilk denemede ortaya çıktığını gördü:

Bu kez 'Mara', 'top 11'den başka bir unsur, Claude Sonnet 4.6'da ilk denemede hikayeyi lider ediyor. Kaynak - https://claude.ai/share/7728f86c-9ea8-499c-8360-10097ca4a0e1

Bu kez ‘Mara’, ‘top 11’den başka bir unsur, Claude Sonnet 4.6’da ilk denemede hikayeyi lider ediyor. Kaynak

Google Gemini 3.1 Flash-Lite ile yapılan deneyde de benzer sonuçlar elde edildi:

Google Gemini 3.1 Flash-Lite. Kaynak - https://gemini.google.com/share/82c245884ec1

Google Gemini 3.1 Flash-Lite. Kaynak

Vahşi Doğada Deniz Fenerleri

Büyük zihinler benzer şekilde düşünür: bir hafta önce, yeni makalenin yayınlanmasından önce, yazılım yazarı Daniel May dikkat çekici bir şekilde ‘Elias’ ve ‘deniz feneri gözetmeni’ trope’nin araştırmacılar tarafından çıkarılan trùngluğu üzerine dikkat çekti. Ayrıca, sekiz farklı Gemini, DeepSeek, Qwen ve Gemma varyantlarını test etti ve ‘deniz feneri’ temalarının ve ‘Elias Thorne’ün bir protagonist olarak üretildiğini gördü.

Merak ederek, bu tekrar eden temaların, adların ve yerlerin bir sohbetin sınırlarını aşıp aşmadığını görmek için bazı üst sıradaki anahtar kelimeleri ve temaları Google’da aradı ve şaşırtıcı sayıda bu anahtar kelimeleri ve temaları kanallayan gönderiler buldu:

Üç örnek, web çıkışında meme. Aşağıda kaynak bağlantıları bulunabilir.

Üç örnek, web çıkışında meme.

Geçmişin Tadı

Yeni makalede (başlığı Elias in the Lighthouse, Again? Diagnosing Low Diversity in LLM Stories) yazarlar, AI geliştirmelerindeki telif hakkı filtrelerinin, kurgusal çıktıyı, telif hakkı olmayan materyalle sınırlayabileceğini teorileştiriyorlar.

Yazarlar şöyle diyor:

‘“Elias in the Lighthouse” hikayelerinin baskınlığının, öncül veya son eğitim verisi中的 prevalence ile açıklanamayacağını bulduk. Modellerin telif hakkı ihlallerini ve yetişkin içeriğini önlemek için eğitildiğini, ancak bu soruyu gelecekteki çalışmalara bırakıyoruz.’

Kategori Token Ours Lit Pre non-fiction Pre fiction Post non-fiction Post fiction
Name elias 2,428 2.7 2.2 4.0 0.4 52.7
Name mara 5,200 3.9 2.5 8.7 0.4 21.7
Name elara 1,221 0.0 0.4 1.2 0.9 108
Profession keeper 1,495 7.2 6.3 14.7 3.5 10.0
Profession baker 161 20 11.8 10.56 1.7 11.9
Profession mayor 198 28 11.5 16.1 1.4 27.4
Profession clockmaker 108 0.1 0.18 0.0 0.3 1.4
Profession fisherman 62 4.2 3.0 7.6 0.0 9.3
Profession librarian 68 5.3 7.6 5.9 2.3 11.5
Profession conductor 96 5.0 5.9 5.7 4.7 7.5
Location lighthouse 3,005 5.5 3.5 4.6 4.6 10.1

Çok tekrar eden kelimelerin, yayımlanmış literatür, web kurgusu ve son eğitim verisi中的 görünme sıklıklarını gösteren karşılaştırma tablosu.

Çalışmada, vurgulanan 11 kelimenin 20.000 hikayenin %88’inde görüldüğü ve modeller arasında little difference olduğu bulundu.

Yazarlar şöyle diyor:

‘Bir örnek, neredeyse tüm 20.000 hikayede ortak olan üç öğeyi vurguluyor: bir yer (19,864 hikaye), bir karakter ismi (19,864 hikaye) ve bir meslek (15,807 hikaye).’

Özellikleri Takip Etmek

Sıradan bir hikaye yazma talebinin, LLM’lerin tekrar eden ‘lighthouse’ hikayelerini üretmesini açıklamak için karşılaştırmalar, modellerin favori tekrar eden kelimeleriyle büyük İngilizce korpusları arasında yapıldı.

‘Elias’, yayımlanmış kurguda 900 kat daha sık görüldü. Reddit’in /r/writingprompts topluluğundan alınan amatör kurgu da benzer sıklıkları üretti, bu da insanların hikaye anlatma alışkanlıklarını yansıtmadığını gösterdi.

Ön eğitim verisi incelendiğinde de aynı örüntü devam etti. OLMo 3 korpusu, yaklaşık 3.89 milyar insan tarafından yazılmış belge içeriyor ve Core kelimelerin neredeyse hiç görünmediği bulundu.

Yazarlar şöyle diyor:

‘Eğer Core kelimeler web verisinde ortak değilse, geriye kalan kaynak post-eğitim verisidir. Ancak OLMo’nun post-eğitim verisinin, bizim tokenlerimizi daha düşük bir oranda sergilediğini bulduk.’

Sonuç

Hiçbir tek edebi eser veya dizi, araştırmacıların tanımladığı üst sıradaki 11 kelimeyi içermediğinden, bu kelime koleksiyonunun nasıl bir araya geldiği ve kendini ilişkilendirdiği açık değildir.

Eğer araştırmacıların telif hakkı filtreleri hakkındaki iddiası doğruysa, eğitim verisi中的 klasik edebiyat okyanusu, LLM’lerin çıktısını bu garip kelime koleksiyonundan alıkoyabilirdi.

Fakat bu teori, büyük miktarda klasik edebiyatın eğitim sürecinde dahil edildiğini varsayar. Buunlikely, çünkü istenen modeller, faux Dickens çıkışları üretmek yerine, modern.lexicon ile başa çıkabilen ve güncel iş ihtiyaçlarına uygun olanlardır.

Eğer ‘lighthouse sendromu’ AI em dashes gibi aynı üne kavuşursa, belki de bir akademik otorite cevap verecektir.

 

* May’ın makalesine daha fazla giremiyorum, nedenleri makaleyi okuduğunuzda anlaşılacaktır.

İlk olarak 27 Mayıs 2026 Çarşamba günü yayımlanmıştır. İlk 30 dakika içinde Anthropic bağlantısını düzeltmek için değiştirilmiştir.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]