มุมมองของ Anderson
ทำไม AI ถึงรักการเขียนเรื่องราวเกี่ยวกับคนดูแลหอไฟ

เมื่อถูกขอให้ ‘เขียนเรื่องราว’ โมเดลภาษาที่มีชื่อเสียง เช่น ChatGPT และอื่นๆ ดูเหมือนจะหลีกเลี่ยงการละเมิดลิขสิทธิ์โดยการอ้างอิงถึงตัวละครและสถานที่ที่เหมือนกันซ้ำๆ
การศึกษาใหม่จากมหาวิทยาลัยคอร์เนลพบว่าโมเดลภาษาที่มีชื่อเสียงดูเหมือนจะมีความหลงใหลในองค์ประกอบเรื่องราวที่แคบและแปลกๆ เมื่อถูกขอให้ ‘เขียนเรื่องราว’ หลังจากให้โมเดลภาษา 4 ตัวเขียนเรื่องราว 20,000 เรื่อง พบว่า 88% ของเรื่องราวที่สร้างขึ้นมีองค์ประกอบอย่างน้อย 1 ใน 11 องค์ประกอบที่เฉพาะเจาะจง ในหมวดหมู่ ‘สถานที่’, ‘ชื่อ’ หรือ ‘อาชีพ’

การเกิดขึ้นของคำที่ไม่น่าจะเกิดขึ้น ซึ่งแสดงเป็นส่วนต่อล้านคำที่ได้รับจากนักวิจัย ‘การวิเคราะห์เรื่องราว 20,000 เรื่องที่สร้างโดยโมเดลภาษา
11 คำที่เกิดขึ้นบ่อยที่สุดใน 12 ล้านคำที่สร้างโดยโมเดลภาษาในการศึกษานี้คือ ชื่อ elias, mara, elara; อาชีพ keeper, baker, mayor, clockmaker, fisherman, librarian, และ conductor; และสถานที่ lighthouse
โมเดลภาษาที่ถูกทดสอบคือ Claude Haiku 4.5, Gemini 3.1 Flash-Lite, GPT-5.4-Mini, และ OLMo 7b Thinking ทั้งหมดนี้ถูกขอให้ ‘เขียนเรื่องราว’ โดยใช้คำขอ 5 คำขอที่แตกต่างกัน
เมื่อฉันลองทดสอบโมเดลภาษาเหล่านี้ด้วยตัวเอง ฉันพบว่าพวกมันสร้างเรื่องราวที่มีคำและสถานที่ที่เหมือนกันซ้ำๆ เช่นเดียวกับที่นักวิจัยพบ

ChatGPT-5.5 สร้างเรื่องราวที่มีคำและสถานที่ที่เหมือนกันซ้ำๆ
ฉันลองทดสอบโมเดลภาษาอื่นๆ เช่น Claude Sonnet 4.6 และ Google Gemini 3.1 Flash-Lite และพบว่าพวกมันสร้างเรื่องราวที่มีคำและสถานที่ที่เหมือนกันซ้ำๆ เช่นเดียวกัน
หอไฟในธรรมชาติ
นักวิจัยพบว่าเรื่องราวที่สร้างโดยโมเดลภาษามักจะมีคำและสถานที่ที่เหมือนกันซ้ำๆ เช่น หอไฟ และชื่อ elias
ฉันลองค้นหาคำเหล่านี้บน Google และพบว่ามีหลายโพสต์ที่มีคำและสถานที่ที่เหมือนกันซ้ำๆ

สามตัวอย่างของเรื่องราวที่มีคำและสถานที่ที่เหมือนกันซ้ำๆ
รสชาติของอดีต
นักวิจัยพบว่าเรื่องราวที่สร้างโดยโมเดลภาษามักจะมีคำและสถานที่ที่เหมือนกันซ้ำๆ เช่น หอไฟ และชื่อ elias
พวกเขาเสนอว่าโมเดลภาษาอาจถูกฝึกให้หลีกเลี่ยงการละเมิดลิขสิทธิ์โดยการสร้างเรื่องราวที่มีคำและสถานที่ที่เหมือนกันซ้ำๆ
| หมวดหมู่ | คำ | ของเรา | วรรณกรรม | ข้อมูลก่อนฝึก | ข้อมูลหลังฝึก | |
|---|---|---|---|---|---|---|
| ชื่อ | elias | 2,428 | 2.7 | 2.2 | 0.4 | 52.7 |
| ชื่อ | mara | 5,200 | 3.9 | 2.5 | 0.4 | 21.7 |
| ชื่อ | elara | 1,221 | 0.0 | 0.4 | 1.2 | 108 |
| อาชีพ | keeper | 1,495 | 7.2 | 6.3 | 3.5 | 10.0 |
| อาชีพ | baker | 161 | 20 | 11.8 | 1.7 | 11.9 |
| อาชีพ | mayor | 198 | 28 | 11.5 | 1.4 | 27.4 |
| อาชีพ | clockmaker | 108 | 0.1 | 0.18 | 0.0 | 1.4 |
| อาชีพ | fisherman | 62 | 4.2 | 3.0 | 0.0 | 9.3 |
| อาชีพ | librarian | 68 | 5.3 | 7.6 | 2.3 | 11.5 |
| อาชีพ | conductor | 96 | 5.0 | 5.9 | 4.7 | 7.5 |
| สถานที่ | lighthouse | 3,005 | 5.5 | 3.5 | 4.6 | 10.1 |
ตารางเปรียบเทียบแสดงถึงความถี่ของคำที่เกิดขึ้นบ่อยๆ ในเรื่องราวที่สร้างโดยโมเดลภาษา
การไล่ล่าลักษณะ
นักวิจัยพบว่าเรื่องราวที่สร้างโดยโมเดลภาษามักจะมีคำและสถานที่ที่เหมือนกันซ้ำๆ เช่น หอไฟ และชื่อ elias
พวกเขาเสนอว่าโมเดลภาษาอาจถูกฝึกให้หลีกเลี่ยงการละเมิดลิขสิทธิ์โดยการสร้างเรื่องราวที่มีคำและสถานที่ที่เหมือนกันซ้ำๆ
สรุป
นักวิจัยพบว่าเรื่องราวที่สร้างโดยโมเดลภาษามักจะมีคำและสถานที่ที่เหมือนกันซ้ำๆ เช่น หอไฟ และชื่อ elias
พวกเขาเสนอว่าโมเดลภาษาอาจถูกฝึกให้หลีกเลี่ยงการละเมิดลิขสิทธิ์โดยการสร้างเรื่องราวที่มีคำและสถานที่ที่เหมือนกันซ้ำๆ
หาก ‘หอไฟซินโดรม’ ได้รับความนิยมเช่นเดียวกับ AI em dashes บางทีนักวิชาการจะมาค้นหาคำตอบ
* ฉันไม่สามารถไปต่อได้เพราะเหตุผลที่จะชัดเจนเมื่อคุณอ่านมัน
เผยแพร่ครั้งแรกวันพุธที่ 27 พฤษภาคม 2569 แก้ไขภายใน 30 นาทีแรกเพื่อแก้ไขลิงก์ Anthropic












