มุมมองของ Anderson

ทำไม AI ถึงรักการเขียนเรื่องราวเกี่ยวกับคนดูแลหอไฟ

mm
AI-generated image (GPT-2): Infinite identical lighthouse keepers stand screaming along a rain-soaked stone causeway above a violent sea, while matching lighthouses repeat into the distance beneath dark storm clouds, creating a photoreal recursive landscape.

เมื่อถูกขอให้ ‘เขียนเรื่องราว’ โมเดลภาษาที่มีชื่อเสียง เช่น ChatGPT และอื่นๆ ดูเหมือนจะหลีกเลี่ยงการละเมิดลิขสิทธิ์โดยการอ้างอิงถึงตัวละครและสถานที่ที่เหมือนกันซ้ำๆ

 

การศึกษาใหม่จากมหาวิทยาลัยคอร์เนลพบว่าโมเดลภาษาที่มีชื่อเสียงดูเหมือนจะมีความหลงใหลในองค์ประกอบเรื่องราวที่แคบและแปลกๆ เมื่อถูกขอให้ ‘เขียนเรื่องราว’ หลังจากให้โมเดลภาษา 4 ตัวเขียนเรื่องราว 20,000 เรื่อง พบว่า 88% ของเรื่องราวที่สร้างขึ้นมีองค์ประกอบอย่างน้อย 1 ใน 11 องค์ประกอบที่เฉพาะเจาะจง ในหมวดหมู่ ‘สถานที่’, ‘ชื่อ’ หรือ ‘อาชีพ’

การเกิดขึ้นของคำที่ไม่น่าจะเกิดขึ้น ซึ่งแสดงเป็นส่วนต่อล้านคำที่ได้รับจากนักวิจัย 'การวิเคราะห์เรื่องราว 20,000 เรื่องที่สร้างโดยโมเดลภาษา

การเกิดขึ้นของคำที่ไม่น่าจะเกิดขึ้น ซึ่งแสดงเป็นส่วนต่อล้านคำที่ได้รับจากนักวิจัย ‘การวิเคราะห์เรื่องราว 20,000 เรื่องที่สร้างโดยโมเดลภาษา

11 คำที่เกิดขึ้นบ่อยที่สุดใน 12 ล้านคำที่สร้างโดยโมเดลภาษาในการศึกษานี้คือ ชื่อ elias, mara, elara; อาชีพ keeper, baker, mayor, clockmaker, fisherman, librarian, และ conductor; และสถานที่ lighthouse

โมเดลภาษาที่ถูกทดสอบคือ Claude Haiku 4.5, Gemini 3.1 Flash-Lite, GPT-5.4-Mini, และ OLMo 7b Thinking ทั้งหมดนี้ถูกขอให้ ‘เขียนเรื่องราว’ โดยใช้คำขอ 5 คำขอที่แตกต่างกัน

เมื่อฉันลองทดสอบโมเดลภาษาเหล่านี้ด้วยตัวเอง ฉันพบว่าพวกมันสร้างเรื่องราวที่มีคำและสถานที่ที่เหมือนกันซ้ำๆ เช่นเดียวกับที่นักวิจัยพบ

ChatGPT-5.5 สร้างเรื่องราวที่มีคำและสถานที่ที่เหมือนกันซ้ำๆ

ChatGPT-5.5 สร้างเรื่องราวที่มีคำและสถานที่ที่เหมือนกันซ้ำๆ

ฉันลองทดสอบโมเดลภาษาอื่นๆ เช่น Claude Sonnet 4.6 และ Google Gemini 3.1 Flash-Lite และพบว่าพวกมันสร้างเรื่องราวที่มีคำและสถานที่ที่เหมือนกันซ้ำๆ เช่นเดียวกัน

หอไฟในธรรมชาติ

นักวิจัยพบว่าเรื่องราวที่สร้างโดยโมเดลภาษามักจะมีคำและสถานที่ที่เหมือนกันซ้ำๆ เช่น หอไฟ และชื่อ elias

ฉันลองค้นหาคำเหล่านี้บน Google และพบว่ามีหลายโพสต์ที่มีคำและสถานที่ที่เหมือนกันซ้ำๆ

สามตัวอย่างของเรื่องราวที่มีคำและสถานที่ที่เหมือนกันซ้ำๆ

สามตัวอย่างของเรื่องราวที่มีคำและสถานที่ที่เหมือนกันซ้ำๆ

รสชาติของอดีต

นักวิจัยพบว่าเรื่องราวที่สร้างโดยโมเดลภาษามักจะมีคำและสถานที่ที่เหมือนกันซ้ำๆ เช่น หอไฟ และชื่อ elias

พวกเขาเสนอว่าโมเดลภาษาอาจถูกฝึกให้หลีกเลี่ยงการละเมิดลิขสิทธิ์โดยการสร้างเรื่องราวที่มีคำและสถานที่ที่เหมือนกันซ้ำๆ

หมวดหมู่ คำ ของเรา วรรณกรรม ข้อมูลก่อนฝึก ข้อมูลหลังฝึก
ชื่อ elias 2,428 2.7 2.2 0.4 52.7
ชื่อ mara 5,200 3.9 2.5 0.4 21.7
ชื่อ elara 1,221 0.0 0.4 1.2 108
อาชีพ keeper 1,495 7.2 6.3 3.5 10.0
อาชีพ baker 161 20 11.8 1.7 11.9
อาชีพ mayor 198 28 11.5 1.4 27.4
อาชีพ clockmaker 108 0.1 0.18 0.0 1.4
อาชีพ fisherman 62 4.2 3.0 0.0 9.3
อาชีพ librarian 68 5.3 7.6 2.3 11.5
อาชีพ conductor 96 5.0 5.9 4.7 7.5
สถานที่ lighthouse 3,005 5.5 3.5 4.6 10.1

ตารางเปรียบเทียบแสดงถึงความถี่ของคำที่เกิดขึ้นบ่อยๆ ในเรื่องราวที่สร้างโดยโมเดลภาษา

การไล่ล่าลักษณะ

นักวิจัยพบว่าเรื่องราวที่สร้างโดยโมเดลภาษามักจะมีคำและสถานที่ที่เหมือนกันซ้ำๆ เช่น หอไฟ และชื่อ elias

พวกเขาเสนอว่าโมเดลภาษาอาจถูกฝึกให้หลีกเลี่ยงการละเมิดลิขสิทธิ์โดยการสร้างเรื่องราวที่มีคำและสถานที่ที่เหมือนกันซ้ำๆ

สรุป

นักวิจัยพบว่าเรื่องราวที่สร้างโดยโมเดลภาษามักจะมีคำและสถานที่ที่เหมือนกันซ้ำๆ เช่น หอไฟ และชื่อ elias

พวกเขาเสนอว่าโมเดลภาษาอาจถูกฝึกให้หลีกเลี่ยงการละเมิดลิขสิทธิ์โดยการสร้างเรื่องราวที่มีคำและสถานที่ที่เหมือนกันซ้ำๆ

หาก ‘หอไฟซินโดรม’ ได้รับความนิยมเช่นเดียวกับ AI em dashes บางทีนักวิชาการจะมาค้นหาคำตอบ

* ฉันไม่สามารถไปต่อได้เพราะเหตุผลที่จะชัดเจนเมื่อคุณอ่านมัน

เผยแพร่ครั้งแรกวันพุธที่ 27 พฤษภาคม 2569 แก้ไขภายใน 30 นาทีแรกเพื่อแก้ไขลิงก์ Anthropic

นักเขียนด้านการเรียนรู้ของเครื่องจักร ผู้เชี่ยวชาญด้านสังเคราะห์ภาพมนุษย์ อดีตหัวหน้าฝ่ายวิจัยเนื้อหาที่ Metaphysic.ai