Sudut Anderson

Mengapa AI Menggemari Menulis tentang Penjaga Mercusuar?

mm
AI-generated image (GPT-2): Infinite identical lighthouse keepers stand screaming along a rain-soaked stone causeway above a violent sea, while matching lighthouses repeat into the distance beneath dark storm clouds, creating a photoreal recursive landscape.

Diminta untuk ‘menulis sebuah cerita’, ChatGPT dan model bahasa lainnya tampaknya menghindari pelanggaran hak cipta dengan mengandalkan kastil kecil dan aneh dari penjaga mercusuar, nelayan, dan pembuat jam.

 

Sebuah studi baru dari Cornell University menemukan bahwa model bahasa terkemuka tampaknya memiliki obsesi aneh dengan pilihan elemen naratif yang sangat terbatas, ketika diminta untuk menulis sebuah cerita. Setelah meminta empat LLM untuk menulis 20.000 cerita, mereka menemukan bahwa 88% dari cerita yang dihasilkan mengandung setidaknya satu dari 11 token yang sangat spesifik, dalam kategori ‘lokasi’, ‘nama’, atau ‘profesi’:

Kemunculan kata-kata yang tidak mungkin, diwakili dalam bagian per juta, diperoleh oleh analisis peneliti dari 20.000 cerita yang dihasilkan LLM. Sumber - https://arxiv.org/pdf/2605.26492

Kemunculan kata-kata yang tidak mungkin, diwakili dalam bagian per juta, diperoleh oleh analisis peneliti dari 20.000 cerita yang dihasilkan LLM. Sumber

Kata-kata yang paling sering muncul dalam 12 juta kata yang dihasilkan oleh LLM untuk studi ini adalah nama elias, mara, elara; profesi penjaga, tukang roti, wali kota, pembuat jam, nelayan, petugas perpustakaan, dan konduktor; dan lokasi mercusuar:

Model yang diuji adalah Claude Haiku 4.5, Gemini 3.1 Flash-Lite, GPT-5.4-Mini, dan OLMo 7b Thinking. Semua diminta dengan salah satu dari lima permintaan:

Penulis perangkat lunak Daniel May menunjukkan kebetulan dari Elias dan penjaga mercusuar trope yang diekstrak oleh peneliti*, tampaknya telah memperhatikan hal ini secara acak.

Mercusuar di Alam Liar

Pikiran yang hebat berpikir sama: seminggu yang lalu, sebelum publikasi makalah baru, penulis perangkat lunak Daniel May menunjukkan kebetulan dari Elias dan penjaga mercusuar trope yang diekstrak oleh peneliti*, tampaknya telah memperhatikan hal ini secara acak. Ia kemudian menguji delapan varian Gemini, DeepSeek, Qwen, dan Gemma, yang ia temukan akan menghasilkan mercusuar meme dan ‘Elias Thorne’ sebagai protagonis*. Namun, penemuan awal ini tidak meluas ke rentang tema konten yang lebih luas yang diuraikan dalam makalah baru.

Penulis makalah Elias in the Lighthouse, Again? Diagnosing Low Diversity in LLM Stories dari dua peneliti di Cornell University berspekulasi bahwa filter hak cipta dalam pengembangan AI mungkin membatasi output fiksi dalam LLM ke materi yang sudah tidak berhak cipta.

Penulis menyatakan:

Penulis makalah menyatakan:

Rasa untuk Masa Lalu

Jadi, bagaimana dengan pengamatan kasual dan kebetulan? Sementara tidak ada ‘dokumen ajaib’ dalam data pelatihan yang telah ditemukan yang menampilkan semua atau sebagian besar persistensi, penulis makalah baru berspekulasi bahwa filter hak cipta dalam pengembangan AI mungkin membatasi output fiksi dalam LLM ke materi yang sudah tidak berhak cipta.

Penulis menyatakan:

Mengejar Sifat-sifat

Untuk menguji apakah cerita ‘mercusuar’ yang berulang dapat dijelaskan oleh paparan fiksi biasa, perbandingan dibuat antara kata-kata berulang favorit model dan beberapa korpus bahasa Inggris besar. Fiksi kontemporer diperiksa melalui CONLIT, sebuah dataset yang berisi 2.700 novel bahasa Inggris yang diterbitkan antara 2007 dan 2021, mencakup 12 genre dan total sekitar 287 juta kata.

‘Elias’ muncul sekitar 900 kali lebih sering dalam cerita yang dihasilkan daripada dalam fiksi yang diterbitkan. Fiksi amatir dari komunitas /r/writingprompts Reddit menghasilkan frekuensi serupa, menunjukkan bahwa pola ini tidak mencerminkan kebiasaan bercerita manusia yang lebih luas.

Penulis makalah menyimpulkan:

Kesimpulan


Dalam ketiadaan satu karya sastra (atau bahkan sebuah seri) yang menampilkan 11 kata atas yang diidentifikasi oleh penulis, tidak jelas bagaimana koleksi kata-kata ini telah terakumulasi dan mengasosiasi ke dalam tingkat terendah dari beberapa model bahasa besar (meskipun keragaman data pelatihan dan pendekatan mereka).

Penulis menyatakan:

Jika ‘sindrom mercusuar’ memperoleh ketenaran yang sama dengan tanda hubung AI, maka beberapa otoritas akademis akan datang dengan jawabannya.

* Saya tidak bisa melanjutkan ke artikel May, karena alasan yang mungkin menjadi jelas ketika Anda membacanya.

Dipublikasikan pertama kali pada Rabu, 27 Mei 2026. Dimodifikasi dalam 30 menit pertama untuk memperbaiki tautan Anthropic.

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.