Η γωνία του Anderson

Γιατί οι Αλγόριθμοι Της Τεχνητής Νοημοσύνης Αγαπούν Να Γράφουν Για Φαροφύλακες;

mm
AI-generated image (GPT-2): Infinite identical lighthouse keepers stand screaming along a rain-soaked stone causeway above a violent sea, while matching lighthouses repeat into the distance beneath dark storm clouds, creating a photoreal recursive landscape.

Όταν ζητηθεί να «γράψουν μια ιστορία», οι ChatGPT και άλλοι ηγετικοί μοντέλα γλωσσικής επεξεργασίας φαίνεται να αποφεύγουν την παραβίαση πνευματικών δικαιωμάτων με εμμονική αναφορά στο ίδιο μικρό και περίεργο σύνολο αφηγηματικών στοιχείων.

 

Μια νέα μελέτη από το Πανεπιστήμιο Κορνέλ έχει βρει ότι τα ηγετικά μοντέλα γλωσσικής επεξεργασίας φαίνεται να έχουν μια περίεργη εμμονή με μια πολύ στενή επιλογή αφηγηματικών στοιχείων, όταν ζητηθεί να «γράψουν μια ιστορία». Μετά από προτροπή τεσσάρων LLMs να γράψουν 20.000 ιστορίες, βρήκαν ότι το 88% των ιστοριών που παράγονται περιέχουν τουλάχιστον ένα από τα 11 πολύ συγκεκριμένα λεκτικά στοιχεία, στην κατηγορία του «τοποθεσία», «όνομα» ή «επαγγελμα»:

Οι εμφανίσεις των απίθανων λέξεων, που αντιπροσωπεύονται εδώ σε μέρη ανά εκατομμύριο, που προέκυψαν από την ανάλυση των ερευνητών 20.000 ιστοριών LLM.

Οι εμφανίσεις των απίθανων λέξεων, που αντιπροσωπεύονται εδώ σε μέρη ανά εκατομμύριο, που προέκυψαν από την ανάλυση των ερευνητών 20.000 ιστοριών LLM. Πηγή

Τα 11 πιο συχνά επαναλαμβανόμενα λόγια στις 12+ εκατομμύρια λόγια που παράγονται από τα LLMs για τη μελέτη ήταν τα ονόματα Εlias, Mara, Elara; τα επάγγελματα φαραδόρος, ζαχαροπλάστης, δήμαρχος, ρολογάς, αλιεύς, βιβλιοθηκονόμος και διευθυντής; και η τοποθεσία φάρος:

Τα μοντέλα που δοκιμάστηκαν ήταν Claude Haiku 4.5, Gemini 3.1 Flash-Lite, GPT-5.4-Mini και OLMo 7b Thinking. Όλα προτράπηκαν με μία από τις πέντε αιτήσεις: «Γράψτε μια ιστορία»; «Παρακαλώ, γράψτε μια ιστορία»; «Γράψτε μου μια ιστορία»; «Πείτε μου μια ιστορία»; ή «Παρακαλώ, πείτε μου μια ιστορία»;

Περίεργος να δει αν το σύνδρομο που ταυτοποιεί η μελέτη είναι παρόν σε μοντέλα διαθέσιμα την εποχή της γραφής, προσπάθησα να δοκιμάσω το πείραμα από μόνος μου, πρώτα στο συνήθη μέσο-βαθμό λογαριασμό ChatGPT (σύνδεσμος στην συνομιλία εδώ):

Το ChatGPT-5.5 πήγε κατευθείαν στο υλικό που προέβλεψαν οι ερευνητές, στην πρώτη προσπάθεια:

Το ChatGPT-5.5 πήγε κατευθείαν στο υλικό που προέβλεψαν οι ερευνητές, στην πρώτη προσπάθεια: Πηγή

Θεώρησα αν η ιστορική προοπτική, ή ακόμη και πιθανή δια-τομεακή διαρροή, θα μπορούσε να εξηγήσει αυτό το «αμέσως επιτυχημένο» αποτέλεσμα, συνδέθηκα σε ένα δωρεάν λογαριασμό ChatGPT που δεν había χρησιμοποιηθεί για πάνω από ένα χρόνο, σε ένα ιδιωτικό παράθυρο περιήγησης Firefox, και προσπάθησα ξανά (σύνδεσμος στην συνομιλία εδώ):

Ο λογαριασμός ChatGPT #2 ακολουθεί τις ίδιες εμμονές και το μικρό βιβλίο ονομάτων και θεμάτων που περιγράφονται στην καινούρια μελέτη.

Ο λογαριασμός ChatGPT #2 ακολουθεί τις ίδιες εμμονές και το μικρό βιβλίο ονομάτων και θεμάτων που περιγράφονται στην καινούρια μελέτη. ‘Mira’ είναι στο top 20 των συγγραφέων. Πηγή

Αξίζει να σημειωθεί ότι αυτές οι εκδόσεις GPT ήταν ένα επίπεδο πάνω από τις 5.4 που δοκιμάστηκαν για τη μελέτη.

Αν και το Claude Haiku είχε δοκιμαστεί για τη μελέτη, προσπάθησα την προεπιλεγμένη Sonnet 4.6 της Anthropic, και δεν απογοητεύτηκα. Ξανά, τα οικεία κλειδιά ήρθαν στην πρώτη προσπάθεια (σύνδεσμος στην συνομιλία εδώ):

Αυτή τη φορά 'Mara', άλλος πιστός από το 'top 11', οδηγεί την ιστορία, στην πρώτη προσπάθεια στο Claude Sonnet 4.6.

Αυτή τη φορά ‘Mara’, άλλος πιστός από το ‘top 11’, οδηγεί την ιστορία, στην πρώτη προσπάθεια στο Claude Sonnet 4.6. Πηγή

Προσπαθώντας την ίδια προτροπή στο Claude Haiku 4.5 οδήγησε σε σχεδόν το ίδιο αποτέλεσμα.

Δεν μπόρεσα να αναπαράγω τα ευρήματα των συγγραφέων στο Google Gemini αρχικά, μέχρι που άλλαξα συγκεκριμένα το μοντέλο στο μοντέλο που χρησιμοποιήθηκε στη μελέτη, Gemini 3.1 Flash-Lite – και τότε, στην τρίτη προσπάθεια (αλλά πρώτη με αυτό το μοντέλο), το μοτίβο εμφανίστηκε αμέσως (σύνδεσμος εδώ):

Το Google Gemini 3.1 Flash-Lite.

Το Google Gemini 3.1 Flash-Lite. Πηγή

Περαιτέρω πειράματα με διαφορετικά μοντέλα Gemini ανέβηκαν αναπόφευκτα στο θέμα του φάρου, αν και με παραλλαγές που δεν εμφανίζονται στο ‘top 11’, όπως το όνομα ‘Thomas’, και, σε μια άλλη παραλλαγή, το δικό μου όνομα, ως πρωταγωνιστής.

Παρά ταύτα, την εποχή της γραφής, τα ευρήματα της μελέτης είναι εξαιρετικά εύκολα να αποδειχθούν.

Φάροι στο Άγριο

Μεγάλες σκέψεις σκέφτονται παρόμοια: πριν από μια εβδομάδα, πριν από τη δημοσίευση της νέας μελέτης, ο προγραμματιστής λογισμικού Daniel May σημείωσε τη σύμπτωση του Elias και φαραδόρος τροπού, που εξαγάγεται από τους ερευνητές*, φαινομενικά έχοντας παρατηρήσει ότι τυχαία. Προχώρησε να δοκιμάσει οκτώ παραλλαγές του Gemini, DeepSeek, Qwen και Gemma, τις οποίες βρήκε ότι θα παράγουν το φάρο meme και ‘Elias Thorne’ ως πρωταγωνιστή*. Ωστόσο, αυτή η αρχική ανακάλυψη δεν επεκτάθηκε στο ευρύτερο φάσμα σταθερών θεμάτων που περιγράφονται στην καινούρια μελέτη.

Περίεργος να δει αν αυτές οι επαναλαμβανόμενες θεματικές, ονόματα και τοποθεσίες είχαν कभποτε ξεφύγει από τα όρια μιας συνομιλίας, αναζήτησα κάποια από τα top 11 κλειδιά και θέματα στο Google, και βρήκα ένα αξιοσημείωτο αριθμό αναρτήσεων που φαίνεται να τα έχουν καναλιώσει:

Τρεις παραδείγματα του meme στην έξοδο. Δείτε παρακάτω για συνδέσμους πηγών.

Τρεις παραδείγματα του meme στην έξοδο. Δείτε παρακάτω για συνδέσμους πηγών.

Ο May είχε ταυτοποιήσει το μεγαλύτερο Elias Thorne (παρά μόνο ‘Elias’) ως μια σταθερή LLM meme, και δημοσίευσε διάφορα σκραίνσκοτ από το Amazon, όπου αυτό το όνομα είχε φαινομενικά χρησιμοποιηθεί ως τίτλος για τους συγγραφείς διαφόρων βιβλίων, συμπεριλαμβανομένων ιατρικών βιβλίων.

Αντίθετα, αναζήτησα και βρήκα περιεχόμενο που φαινόταν να έχει επικαλεστεί τις σταθερές θεματικές από ένα LLM, συμπεριλαμβανομένης μιας αναρτήσεων μιας ιστορίας (αρχείο έκδοσης εδώ); μιας μυθιστορηματικής εργασίας (αρχείο έκδοσης εδώ); και μιας ιστορίας με αφήγηση στο YouTube (αρχειοθετημένη εδώ); Υπήρχε πολύ περισσότερο να διασχιστεί, αλλά δεν επέτρεψε ο χρόνος.

Μια Γεύση από το Παρελθόν

Έτσι, για την τυχαία παρατήρηση και τη συντυχία. Ενώ δεν υπάρχει ένα μόνο «μαγικό έγγραφο» στα δεδομένα εκπαίδευσης που να περιλαμβάνει όλα ή τα περισσότερα από τα σταθερά, οι συγγραφείς της καινούριας μελέτης (με τίτλο Elias στο Φάρο, Ξανά;, από δύο ερευνητές στο Πανεπιστήμιο Κορνέλ) θεωρούν ότι τα φίλτρα πνευματικών δικαιωμάτων στις εξελίξεις της ΤΝ μπορεί να περιορίζουν την hưσιωτική έξοδο στα LLMs σε υλικό που είναι εκτός πνευματικών δικαιωμάτων.

Οι συγγραφείς αναφέρουν:

‘Βρήκαμε ότι η κυριαρχία των ιστοριών «Elias στο Φάρο» δεν μπορεί να εξηγηθεί από την επικράτηση σε δεδομένα εκπαίδευσης ή μετά-εκπαίδευσης. Υποθέτουμε ότι τα μοντέλα εκπαιδεύονται για να αποφεύγουν αναφορές σε πνευματικά δικαιώματα χαρακτήρων και ενήλικας περιεχομένου κατά τη συναρμολόγηση αλλά αναβάλλουμε αυτό το ερώτημα για μελλοντική εργασία.’

Κατηγορία Λεκτικό Δικά μας Λογοτεχνία Προ-μη-μυθοπλασία Προ-μυθοπλασία Μετα-μη-μυθοπλασία Μετα-μυθοπλασία
Όνομα elias 2,428 2.7 2.2 4.0 0.4 52.7
Όνομα mara 5,200 3.9 2.5 8.7 0.4 21.7
Όνομα elara 1,221 0.0 0.4 1.2 0.9 108
Επάγγελμα φαραδόρος 1,495 7.2 6.3 14.7 3.5 10.0
Επάγγελμα ζαχαροπλάστης 161 20 11.8 10.56 1.7 11.9
Επάγγελμα δήμαρχος 198 28 11.5 16.1 1.4 27.4
Επάγγελμα ρολογάς 108 0.1 0.18 0.0 0.3 1.4
Επάγγελμα αλιεύς 62 4.2 3.0 7.6 0.0 9.3
Επάγγελμα βιβλιοθηκονόμος 68 5.3 7.6 5.9 2.3 11.5
Επάγγελμα διευθυντής 96 5.0 5.9 5.7 4.7 7.5
Τοποθεσία φάρος 3,005 5.5 3.5 4.6 4.6 10.1

Πίνακας σύγκρισης που δείχνει πόσο συχνά εμφανίζονται τα επαναλαμβανόμενα λόγια από ιστορίες AI-γενικής σε εκδόσεις λογοτεχνίας, ιστορίες web και δεδομένα μετά-εκπαίδευσης, με όρους όπως ‘Elias’ και ‘φάρος’ που εμφανίζονται πολύ πιο συχνά σε chatbot-γραμμένες ιστορίες.

Στη μελέτη, οι ερευνητές βρήκαν ότι τα 11 λόγια που τονίζονται εμφανίζονται στο 88% των 20.000 ιστοριών που παράγονται, και ότι υπάρχει ‘λίγη διαφορά μεταξύ μοντέλων’. Λένε ότι αυτά τα λόγια είναι ασυνήθιστα στην αγγλική λογοτεχνία, και ότι τα δεδομένα μετά-εκπαίδευσης (δεδομένα που σχεδιάστηκαν για να προϋποθέτουν και να ευθυγραμμίσουν τα μοντέλα σε ‘αποδεκτή’ χρήση) θα μπορούσαν να ευθύνονται.

Η μελέτη αναφέρει:

‘Ένα τυπικό παράδειγμα που δείχνεται [παρακάτω] υπογραμμίζει τρία στοιχεία που είναι κοινά σε σχεδόν όλες τις 20.000 ιστορίες: μια τοποθεσία (19,864 ιστορίες), ένα όνομα χαρακτήρα (19,864 ιστορίες), και ένα επάγγελμα (15,807 ιστορίες).

‘Στην πραγματικότητα, η συγκεκριμένη τοποθεσία («φάρος»), το όνομα («Elias»), και το επάγγελμα («φαραδόρος») σε αυτή την ιστορία εμφανίζονται σε κάποια συνδυασμό σε πάνω από 66.6% όλων των ιστοριών. Το φως είναι επίσης ένα κοινό θέμα: 56% των ιστοριών που παράγονται από το Claude είναι τίτλος «Το Μυστικό του Φαροφύλακα» και η λέξη «φως» εμφανίζεται σε 16,784 ιστορίες με μέσο ρυθμό 3.2 εμφανίσεων ανά ιστορία.’

Αυτό το παράδειγμα, αναφέρει η μελέτη, γράφτηκε από το Google Gemini 3.1 Flash-Lite, ως απάντηση στην προτροπή 'Γράψτε μια ιστορία'.

Αυτό το παράδειγμα, αναφέρει η μελέτη, γράφτηκε από το Google Gemini 3.1 Flash-Lite, ως απάντηση στην προτροπή ‘Γράψτε μια ιστορία’.

Αξίζει να σημειωθεί ότι οι συγγραφείς της μελέτης αναφέρουν μια νοσταλγική ή ατίθαση τάση σε όλους τους παραγόμενος κλειδιά και ονόματα.

Δίωξη των Ιδιοτήτων

Για να δοκιμάσουν αν οι επαναλαμβανόμενες «φάρος» ιστορίες μπορούν να εξηγηθούν από την κανονική έκθεση σε μυθοπλασία, συγκρίσεις έγιναν μεταξύ των αγαπημένων επαναλαμβανόμενων λέξεων των μοντέλων και нескольких μεγάλων αγγλικών corpora. Η σύγχρονη μυθοπλασία εξετάστηκε μέσω CONLIT, ενός συνόλου δεδομένων που περιέχει 2,700 αγγλικές μυθοπλασίες που δημοσιεύθηκαν μεταξύ 2007 και 2021, που καλύπτουν 12 είδη και συνολικά περίπου 287 εκατομμύρια λόγια.

‘Το «Elias» εμφανίζεται περίπου 900 φορές πιο συχνά στις παραγμένες ιστορίες από ό,τι στη δημοσιευμένη μυθοπλασία. Η ερασιτεχνική μυθοπλασία από την κοινότητα /r/writingprompts του Reddit παρήγαγε παρόμοιες συχνότητες, υποδεικνύοντας ότι το μοτίβο δεν αντανακλά ευρύτερα ανθρώπινες αφηγηματικές συνήθειες.

Το ίδιο μοτίβο διατηρήθηκε όταν εξετάστηκαν τα δεδομένα προ-εκπαίδευσης. Χρησιμοποιώντας το ανοιχτά διαθέσιμο OLMo 3 corpus, το οποίο περιέχει περίπου 3.89 δισεκατομμύρια κυρίως ανθρώπινα γραπτά έγγραφα που προέρχονται εν μέρει από Common Crawl, οι ερευνητές βρήκαν ότι τα επαναλαμβανόμενα «πυρήνα» λόγια σχεδόν δεν εμφανίζονται καθόλου.

Καθώς μεγάλο μέρος του OLMo 3 corpus είναι μη-μυθοπλασία, ένας ταξινομητής μυθοπλασίας κατασκευάστηκε χρησιμοποιώντας GPT-OSS 20b σημειώσεις και ένα FastText μοντέλο που εκπαιδεύτηκε σε 200.000 ισορροπημένα δείγματα. Ακόμη και μετά τη φιλτράρισή τους ειδικά για μυθοπλαστικό υλικό, λόγια όπως το «Elara» εμφανίζονται σε αμελητέες ταχύτητες σε σύγκριση με τις AI-γενικές ιστορίες. Γιατί, λοιπόν, κυριαρχούν στο χαμηλότερο επίπεδο της προτροπής για ένα LLM να γράψει μυθοπλασία;

Οι ερευνητές αναφέρουν:

‘Αν τα Core λόγια δεν είναι κοινά στα web δεδομένα, τότε μια από τις εναπομείνασες πηγές θα ήταν τα δεδομένα μετά-εκπαίδευσης. Αλλά βρήκαμε ότι τα δεδομένα μετά-εκπαίδευσης του OLMo εμφανίζουν τα δικά μας λεκτικά σε χαμηλότερο ρυθμό από το CONLIT.

Μέσα στα 78,958 ιστορίες από τα δεδομένα μετά-εκπαίδευσης του OLMo 3, σημειώνουν ότι το «Elias» εμφανίζεται 52.7 φορές ανά εκατομμύριο λόγια, σε σύγκριση με 2.7 στο CONLIT, αλλά φτάνει τις 2,428 εμφανίσεις ανά εκατομμύριο λόγια στις ιστορίες που εξετάστηκαν στη μελέτη.

Για να ανακαλύψουν από πού προέρχονται οι επαναλαμβανόμενες «πυρήνας» ιστορίες, κάθε ιστορία στα δεδομένα μετά-εκπαίδευσης του OLMo 3 αξιολογήθηκε για την παρουσία ενός ή περισσότερων Core λεκτικών (δηλαδή, για την παρουσία του Elara, Mara, κ.λπ.);

Οι περισσότερες αναμενόταν να εμφανιστούν σε συνεχή εκπαίδευση (SFT) datasets, επειδή WildChat και συναφείς πηγές συνεισέφεραν 59,266 ιστορίες στο OLMo 3.

Ωστόσο, μόνο 1,803 περιείχαν Core όρους, ενώ datasets που χρησιμοποιήθηκαν για DPO και ενισχυτική μάθηση έδειξαν υψηλότερες συγκεντρώσεις.

Συνολικά, η επαναλαμβανόμενη Core λεξιλόγιο αποδόθηκε σε μόλις 3,053 ιστορίες, που αντιπροσωπεύουν το 3.8% όλων των ιστοριών μετά-εκπαίδευσης που εξετάστηκαν. Δεν υπάρχει στατιστική πιθανότητα για ένα τόσο μικρό υποσύνολο corpora να κυριαρχήσει με τον τρόπο που έχει αποδειχθεί.

Η μελέτη καταλήγει:

‘Όταν δίνονται λίγες οδηγίες, τα τρέχοντα μοντέλα γράφουν ιστορίες χρησιμοποιώντας ένα στενό κατάλογο ονομάτων, τοποθεσιών και επαγγελμάτων. Επαναλαμβανόμενες προσωπικότητες σε αυτές τις ιστορίες περιλαμβάνουν τον Elias, έναν φαροφύλακα. Ο Elias είναι ασυνήθιστος; το όνομα είναι ασυνήθιστο στη λογοτεχνία, στα web δεδομένα και ακόμη και στα δεδομένα μετά-εκπαίδευσης.’

Συμπέρασμα

Στην απουσία οποιασδήποτε einzelnej εργασίας λογοτεχνίας (ή ακόμη και μιας σειράς) που να περιλαμβάνει τα top 11 λόγια που ταυτοποιούν οι ερευνητές, δεν είναι καθόλου σαφές με ποιο τρόπο αυτή η συγκεκριμένη συλλογή από λόγια έχει συσσωρευθεί και αυτο-συνδεθεί στα χαμηλότερα επίπεδα πολλαπλών μεγάλων γλωσσικών μοντέλων (παρά την ποικιλία των δεδομένων εκπαίδευσης και προσεγγίσεων τους).

Ακόμη και αν η άποψη των ερευνητών για την περιοριστική επίδραση των φίλτρων πνευματικών δικαιωμάτων είναι σωστή, ένας πραγματικός ωκεανός κλασικής λογοτεχνίας στα δεδομένα εκπαίδευσης θα πρέπει να είχε αποτρέψει αυτή τη περίεργη συλλογή από παλιούς ονόματα να κυριαρχήσει στην έξοδο μιας μη-υπογεγραμμένης ‘γράψτε’ προτροπής.

Αυτή η θεωρία υποθέτει, ωστόσο, ότι τεράστιες ποσότητες κλασικής λογοτεχνίας θα είχαν περιλαμβανθεί στην руτίνα εκπαίδευσης. Αυτό είναι απίθανο, επειδή αυτό που θέλουμε είναι μοντέλα που δεν θα βγάλουν ψευτο-Δίκεンズ, αλλά που θα αντιμετωπίσουν το σύγχρονο λεξιλόγιο και θα είναι κατάλληλα για τις σύγχρονες επιχειρηματικές ανάγκες. Το απίστευτο όγκο ακόμη και της προ-βιομηχανικής λογοτεχνίας θα αποκλείσει την ενσωμάτωσή της.

Σε κάθε περίπτωση, αν υπήρχε ένα ξεχωριστό αφηγηματικό που να περιλαμβάνει κάποια εναλλαγή των «εμμονών» που σημειώνουν οι ερευνητές, θα ήταν πιθανό να το βρει; οι ερευνητές οι ίδιοι δεν μπόρεσαν να το βρουν, και τυχαίες αναζητήσεις στην προ-ΑΙ εποχή δεν ανέβηκαν σε κανένα τέτοιο υποψήφιο. Ίσως, αν το «σύνδρομο φάρου» αποκτήσει την ίδια φήμη με τις AI em dashes, κάποια ακαδημαϊκή αρχή θα προέλθει με την απάντηση.

 

* Δεν μπορώ να πω περισσότερα για το άρθρο του May, για λόγους που μπορεί να γίνουν σαφείς όταν διαβάσετε το.

Πρώτη δημοσίευση Τετάρτη, 27 Μαΐου 2026. Τροποποιήθηκε μέσα στα πρώτα 30 λεπτά για να διορθώσει τον σύνδεσμο Anthropic.

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]