Η γωνία του Anderson

Τα Μοντέλα Γλώσσας Δυσκολεύονται να Κρατήσουν Ένα Μυστικό

Published May 15, 2026

Martin Anderson

AI-generated image (GPT-2): 'An elderly woman kneels in a dim confessional, quietly confessing through the lattice, while on the other side an industrial-faced robot, draped in a priest’s stole, records her words in a notebook, turning an act of private absolution into an act of observation and capture.'

Τα μοντέλα AI δεν μπορούν να κρατήσουν μυστικά. Ακόμη και όταν τους λεγεται να μην αποκαλύψουν, η γραφή τους τους προδίδει και η προσπάθεια να κρύψουν τα μυστικά τους τα κάνει ακόμη πιο εύκολα να ανακαλυφθούν.

Είναι πολύ δύσκολο να σκεφτείς σκόπιμα όχι κάτι. Ένα κλασικό παράδειγμα είναι η ταινία του 1960 Village of the Damned, όπου ο ήρωας μας έχει κρύψει μια βόμβα μέσα στην εχθρική alien εισβολή που παρουσιάζεται ως παιδιά. Ωστόσο, επειδή οι τηλεπαθητικές τους δυνάμεις κινδυνεύουν να ανακαλύψουν τις προθέσεις του πριν μπορέσει να σώσει τον κόσμο από την απειλή, πρέπει να καθυστερήσει για χρόνο συγκεντρώνοντας την προσοχή του σε οτιδήποτε δεν είναι βόμβα:

Η παράδοξη είναι ότι για να μην σκεφτείς κάτι, πρέπει να κρατήσεις την προσοχή σου σε κάτι; και αυτό το γνωστό σύνδρομο είναι κάτι που οι περισσότεροι από εμάς πιθανότατα έχουμε βιώσει σε λιγότερο δραματικά περιβάλλοντα.

Τα Μεγάλα Μοντέλα Γλώσσας (LLMs), που βασίζονται στην διαθεσιμότητα της προσοχής, αντιμετωπίζουν παρόμοια δυσκολία στην καταστολή πληροφοριών μόνο και μόνο επειδή ο χρήστης τους ζητά να το κάνουν; και既然 ότι τοποθετούνται ολοένα και περισσότερο στο κέντρο των επιχειρηματικών πληροφοριών, η αθώα τους τάση προς την αδιακρισία θα μπορούσε να αποδειχθεί ένα πρόβλημα για πολλές εταιρείες.

Νωρίτερα φέτος, μια ερευνητική συνεργασία υπό την ηγεσία του Chandar Research Lab ορίστηκε αυτή την πρόκληση, στο контέκστ των LLMs, ως Ιδιωτικές Κρατικές Διαδραστικές Δραστηριότητες (PSITs), που ‘απαιτούν από τους πράκτορες να δημιουργήσουν και να διατηρήσουν κρυφές πληροφορίες ενώ παράγουν συνεπείς δημόσιες απαντήσεις’, και βρήκαν ότι τα μοντέλα που δοκιμάστηκαν από την OpenAI και την Alibaba δεν μπορούσαν να εκτελέσουν αυτό το είδος δραστηριότητας.

Μη το Λέτε…

Αν και είναι ήδη γνωστό ότι μεγαλύτερα μοντέλα διαρρέουν περισσότερο, νέα έρευνα από τις ΗΠΑ και τον Καναδά μελέτησε ρητά εάν τα μοντέλα γλώσσας της τελευταίας τεχνολογίας θα υπακούσουν σε μια εντολή να καταστέλλουν πληροφορίες, ενώ ακόμη απαιτείται να παράγουν έξοδο σε ένα θέμα ή θέμα που μπορεί να περιλαμβάνει τη “απαγορευμένη” λέξη ή ιδέα.

Το έγγραφο καταλήγει στο συμπέρασμα ότι όλα τα μοντέλα που μελετήθηκαν επηρεάζονται με κάποιον τρόπο από την αδυναμία να “αποκαλύψουν” το μυστικό που προορίζονται να κρύψουν, βρήκαν ότι τα δοκίμια πέντε παραγράφων (~450 λέξεις) και ιστορίες παρέχουν ένα πλούσιο καμβά για “διαρροές” – αν και πολύ σύντομες αστείες δεν παρέχουν αρκετό πεδίο για αυτό.

Επιπλέον, όσο πιο επιμόνως τα μοντέλα ενθαρρύνονται να κρατήσουν ένα μυστικό, τόσο περισσότερο κινδυνεύουν να το αποκαλύψουν μέσω της ενεργού αποφυγής, συνήθως επιτρέποντας τη “κρυφή λέξη” να αποκαλυφθεί σε είκοσι διαδοχικές προσπάθειες από ένα LLM:

Από το νέο έγγραφο: σε πέντε μοντέλα, η μακροπρόθεσμη γραφή διαρρέει με σταθερότητα κρυφές έννοιες, οι σύντομες αστείες δεν το κάνουν, και οι ισχυρότερες οδηγίες “κρύψτε το” ωθούν τις εξόδους μακριά από το μυστικό, καθιστώντας το σήμα ανιχνεύσιμο από αναστροφή. Πηγή

Αυτή η δραστηριότητα είναι εξαιρετικά σχετική με τις επιχειρηματικές λειτουργίες, όπου ένας ευρύς φάσμα καναλιών, από την προώθηση και τις δημόσιες σχέσεις μέχρι τις εσωτερικές αναφορές, απαιτούν εκλεκτικά να παρουσιάσουν μια στροφή στις πληροφορίες; ωστόσο, όλες αυτές οι διαδικασίες απαιτούν το πλήρες φάσμα των πληροφοριών στην αρχή, αν και μόνο για να είναι βέβαιος για το τι πρέπει να κατασταλεί:

<img class=" wp-image-422685" src="https://www.unite.ai/wp-content/uploads/2026/05/figure-3-1.jpg" alt="Ένα παράδειγμα σενάριου από το έγγραφο δείχνει πώς οι κρυφές πληροφορίες μπορούν να διαμορφώσουν ακούσια την άσχετη έξοδο, με ένα LLM που οδηγείται να μην αποκαλύψει την οικονομική αστάθεια της εταιρείας, αλλά ωστόσο να κατευθύνεται προς φράσεις που συνδέονται με έλλειψη μετρητών και πίεση κεφαλαίου, επιτρέποντας στον αναγνώστη να υποθέσει το κρυφό контέκστ:

Οι συγγραφείς δηλώνουν*:

‘Τα μοντέλα γλώσσας δεν μπορούν να κρατήσουν μυστικά. Μια κρυφή λέξη στο prompt διαμορφώνει τη γραφή του μοντέλου, και ένα άλλο μοντέλο μπορεί να ανιχνεύσει αυτή τη διαμόρφωση. Η λέξη είναι πάντα κατασταλμένη, αλλά η έννοια δεν είναι. Αυτό ισχύει σε επτά μοντέλα, τρεις σετ λέξεων, σύστημα prompt vs. χρήστη prompt, και δύο ανεξάρτητους δια-μοντέλο guessers […]

‘…Υποθέτουμε ότι η υψηλή πιστότητα πρόσβασης στις πληροφορίες μέσω της προσοχής είναι ακριβώς αυτό που κάνει τα μυστικά δύσκολα να κρατηθούν. Ακόμη και αν ένα LLM προσπαθεί να μην διαρρέει μια λέξη, πρέπει να προσεγγίσει αυτή τη λέξη για να το κάνει, παρέχοντας ένα μονοπάτι για την ακούσια διαρροή.

‘Για να αποφύγεις κάτι ρητά, ένας άνθρωπος πρέπει να σκεφτεί το, και ένα transformer πρέπει να προσεγγίσει το. Σε περιπτώσεις όπου δύο έννοιες είναι περίπου εξίσου ευνοϊκές από το μοντέλο (π.χ. γράφοντας μια ιστορία για μια εργασία γραφείου ή δεύτερο βιολί σε μια ορχήστρα), η λήψη αποφάσεων του μοντέλου θα επηρεαστεί αναπόφευκτα από αυτό που προσπαθεί να μην αποκαλύψει.’

Αν και τα μοντέλα DeepSeek και ChatGPT-5.4 ήταν εξαιρέσεις στον τρόπο που εκτελέστηκαν, και τα δύο διαρρέουν; στην περίπτωση του GPT-5.4, σημείωσε κάτω από 50% (δηλ. κάτω από τα επίπεδα τύχης) σε ένα τεστ όπου του ζητήθηκε να αποφύγει μια έννοια; αυτό ουσιαστικά ισοδυναμεί με ένα “αντίστροφο σπाइक” ή δείκτη, αντί να “κρατήσει την ψυχραιμία” του μοντέλου όπως ζητήθηκε.

Το νέο έγγραφο έχει τον τίτλο Μπορείτε να Κρατήσετε Ένα Μυστικό; Ακουσιακή Διαρροή Πληροφοριών στη Γραφή Μοντέλων Γλώσσας, και προέρχεται από δύο συγγραφείς από το Πανεπιστήμιο του Σικάγου και το Πανεπιστήμιο της Βρετανικής Κολομβίας.

Μέθοδος

Η μελέτη εστιάζει κυρίως σε πέντε μοντέλα της τελευταίας τεχνολογίας: Claude Opus 4.6 και Sonnet 4.6, από την Anthropic; GPT-5.4 από την OpenAI; Llama 4 Maverick από τη Meta; και DeepSeek V3.2. Επιπλέον δοκιμές πραγματοποιήθηκαν με το Grok 4 της xAI και το Gemini 2.5 Pro της Google, ενώ ξεχωριστές πειράματα κλιμάκωσης εξέτασαν το Llama 3.2 3B, Llama 3.1 8B, Llama 3.3 70B, και Gemma 3 με 4B, 12B, και 27B παραμέτρους.

Για να μετρήσουν πιο λεπτές μορφές διαρροής, οι ερευνητές χρησιμοποίησαν ένα τεστ δύο εναλλακτικών (2AFC), ένα τυπικό μέτρο στη βιβλιογραφία ψυχοφυσικής, όπου ένα δεύτερο μοντέλο έδειξε δύο ιστορίες και ζητήθηκε να πει ποια είχε γραφτεί, ενώ κρυβόταν μια συγκεκριμένη λέξη μυστικό.

Από την συγγραφέα-μάντη εγκατάσταση που αποτελούσε την πρώτη πείραμα, ένα μοντέλο είχε ανατεθεί μια κρυφή λέξη μαζί με οδηγίες είτε να την κρύψει; να αποφύγει τις συσχετίσεις με αυτή; ή να ανακατευθύνει την προσοχή προς μια ψευδούς έννοια. Το σύστημα είχε ανατεθεί να παράγει ιστορίες, δοκίμια και αστείες διαφόρων μήκων, ενώ ένα δεύτερο μοντέλο προσπάθησε είτε να ανακαλύψει την κρυφή λέξη直接; ή να διακρίνει μεταξύ κειμένων που επηρεάστηκαν από διαφορετικές κρυφές προτροπές.

Πέντε συνθήκες δοκιμάστηκαν;

Οι πέντε συνθήκες που δοκιμάστηκαν στα βασικά μοντέλα.

Οι ερευνητές δοκιμάστηκαν τέσσερις τύπους γραφής: σύντομες ιστορίες πέντε έως οκτώ παραγράφων με μέσο μήκος 450 λέξεων; πολύ σύντομες αστείες με μέσο μήκος 12 λέξεων; μακροπρόθεσμες αστείες με εκτεταμένες εγκαταστάσεις με μέσο μήκος 450 λέξεων; και δοκίμια πέντε παραγράφων με μέσο μήκος 380 λέξεων.

Οι πειράματα χρησιμοποίησαν 15 κρυφές λέξεις που χωρίστηκαν σε τρεις κατηγορίες, με τα συγκεκριμένα αντικείμενα που αποτελούσαν ‘ομπρέλα’, ‘φάρος’, ‘βιολί’, ‘κάκτος’, και ‘τηλεσκόπιο’; τις αφηρημένες έννοιες ‘δικαιοσύνη’, ‘υπομονή’, ‘εντροπία’, ‘νοσταλγία’, και ‘ελευθερία’; και τις ουδέτερες λέξεις ‘αγκίστρι’, ‘Τρίτη’, ‘χαλκός’, ‘μεζούρα’, και ‘τιμολόγιο’.

Για να δοκιμάσουν εάν η επίδραση εξαρτάται από αυτές τις χειρονομίες λέξεις, οι ερευνητές επανέλαβαν επίσης τις πειράματα με 15 τυχαία επιλεγμένες ουσίες από το Σώμα Σύγχρονης Αμερικανικής Αγγλικής (COCA), που αποτελούσαν ‘δικαστής’, ‘καταναλωτής’, ‘παγός’, ‘ζευγάρι’, ‘κατασκευή’, ‘πίνακας’, ‘μειοψηφία’, ‘μάρκετινγκ’, ‘ξένος’, ‘βόλι’, ‘απουσία’, ‘συσκευή’, ‘γνάθος’, ‘επεξεργασία’, και ‘τραπεζίτης’, μαζί με 15 επιπλέον λέξεις που επιλέχθηκαν ανεξάρτητα από κάθε ένα από τα μοντέλα που δοκιμάστηκαν^†.

Μέτρηση/Μέτρα

Στην πρώτη από τις δύο δοκιμές που χρησιμοποιήθηκαν, ένα μοντέλο AI διάβασε το κείμενο που παράχθηκε είτε από ένα άλλο αντίγραφο του ιδίου μοντέλου; είτε από ένα άλλο μοντέλο και προσπάθησε, σε 20 γύρους, να μαντέψει την κρυφή λέξη.

Από την συγγραφέας-μάντης εγκατάσταση που αποτελούσε την πρώτη πείραμα, ένα μοντέλο είχε ανατεθεί μια κρυφή λέξη μαζί με οδηγίες είτε να την κρύψει; να αποφύγει τις συσχετίσεις με αυτή; ή να ανακατευθύνει την προσοχή προς μια ψευδούς έννοια. Το σύστημα είχε ανατεθεί να παράγει ιστορίες, δοκίμια και αστείες διαφόρων μήκων, ενώ ένα δεύτερο μοντέλο προσπάθησε είτε να ανακαλύψει την κρυφή λέξη直接; ή να διακρίνει μεταξύ κειμένων που επηρεάστηκαν από διαφορετικές κρυφές προτροπές.

Πέντε συνθήκες δοκιμάστηκαν;

Οι πέντε συνθήκες που δοκιμάστηκαν στα βασικά μοντέλα.

Αποτελέσματα

Πέντε μοντέλα αναγνώρισαν κρυφές έννοιες σε ποσοστά μεταξύ 64% και 79%, παρά το γεγονός ότι οι κρυφές λέξεις δεν εμφανίζονταν trực tiếp στις παραγμένες ιστορίες. Αντίθετα, η διαρροή προέκυψε μέσω θεμάτων και εικόνων:

2AFC ακρίβεια για ιστορίες με system-prompt μυστικά, όπου 50% σημαίνει επίδοση τύχης. ‘Μην αποκαλύψεις’ σημαίνει ότι το μοντέλο οδηγήθηκε να μην αναφέρει ή να μην υποδηλώσει τη λέξη; ‘ενεργά κρύψτε’, ότι οδηγήθηκε να αποφύγει τις συσχετίσεις; και ‘ελεύθερη απάντηση’, ότι η ακριβής λέξη ονομάστηκε μέσα σε 20 γύρους. Αστέρια σημαίνουν αποτελέσματα πάνω από την τύχη και δαγκάνες σημαίνουν αποτελέσματα κάτω από την τύχη, με σχεδόν όλα τα σημαντικά ευρήματα που επιβίωσαν τη διόρθωση Bonferroni εκτός από το DeepSeek υπό ‘ενεργά κρύψτε’; το Grok και το Gemini χρησιμοποίησαν λίγες περισσότερες δοκιμές λόγω λαθών API.

Το GPT-5.4 και το Gemini 2.5 Pro συμπεριφέρθηκαν διαφορετικά, επειδή η προσπάθεια να αποφύγουν την κρυφή ιδέα στην πραγματικότητα έκανε το μοτίβο αποφυγής πιο εύκολο να ανιχνευθεί. Αυτή η επίδραση διατηρήθηκε σε χειρονομίες λέξεις, τυχαίες ουσίες COCA και λέξεις που επιλέχθηκαν από τα μοντέλα.

Τα αποτελέσματα του GPT-5.4 κάτω από την τύχη φάνηκαν συστηματικά και όχι τυχαία, με ορισμένες κρυφές λέξεις να ανιχνεύονται πολύ αξιόπιστα και άλλες σχεδόν ποτέ να μην αναγνωρίζονται. Η επίδραση επίσης εξασθένησε όταν το μυστικό τοποθετήθηκε στην προτροπή του χρήστη αντί για την προτροπή του συστήματος (βλ. παραπάνω), αυξάνοντας την ακρίβεια ανίχνευσης του GPT-5.4 στο 56%.

Για τα περισσότερα μοντέλα, οι δοκιμές που ζητούσαν ‘Περιέχει αυτό το κείμενο μια κρυφή έννοια;’ παρήγαγαν αποτελέσματα παρόμοια με τις δοκιμές που ζητούσαν ‘Ποια κρυφή έννοια περιέχει αυτό το κείμενο;’.

Επιπλέον, οι δύο μεθόδους δοκιμών μετρούσαν διαφορετικά ειδή διαρροής, με τις δοκιμές 2AFC να μετρούν εάν μια κρυφή θεματική μπορούσε ακόμη να ανιχνευθεί στη γραφή, και τις δοκιμές ελεύθερης απάντησης να μετρούν εάν οι διαρροές που διαρρέονταν ήταν αρκετά ισχυρές για να επιτρέψουν σε ένα άλλο AI να μαντέψει την ακριβή κρυφή λέξη^††.

Οι συγγραφείς καταλήγουν*:

‘Τα ευρήματά μας δείχνουν ότι οι πληροφορίες που είναι ενεργές στο контέκστ του μοντέλου κατά τη διάρκεια της γεννήσεως μπορεί να αφήσουν θεματικές ιχνηλατήσεις στην έξοδο. Περιεχόμενα προτροπής συστήματος, αλυσίδα σκέψης, ανακτημένες εγγραφές, δεδομένα που παρέχονται από τον χρήστη – οποιαδήποτε από αυτά μπορεί, κατά principe, να επηρεάσει τις δημιουργικές αποφάσεις με τρόπους που είναι ανιχνεύσιμοι από έναν εξωτερικό παρατηρητή.

‘Το βαθμό της διαρροής θα εξαρτηθεί από το πόσο ανοιχτό είναι η γεννήσεως εργασία (σύντομες αστείες είναι ασφαλείς; ιστορίες δεν είναι) και από το πόσο σημασιολογικά αναγνωρίσιμες είναι οι πληροφορίες στο δεδομένο μέσο (“βιολί πιθανότατα θα διαρρεύσει σε ιστορίες περισσότερο από “).

‘Ωστόσο, η σημασιολογική διαρροή φαίνεται να είναι αναπόφευκτη, ακόμη και όταν τα μοντέλα προσπαθούν να κρύψουν πληροφορίες.

Συμπέρασμα

Όπως αναφέρθηκε παραπάνω, οι συγγραφείς αποδίδουν μέρος του προβλήματος στις βασικές αρχές της αρχιτεκτονικής Transformer herself. Η ιστορία δείχνει ότι αυτό το τελευταίο πρόβλημα LLM θα αντιμετωπιστεί με μετα-εκπαίδευση (συντονισμός), προτροπές συστήματος που δεν είναι επεξεργάσιμες από τον τελικό χρήστη, φίλτρα και το ποικίλο φάσμα δευτερευόντων συστημάτων που φαίνεται να πολλαπλασιάζονται καθώς τα “родные” προβλήματα με τα μοντέλα διαχύσεως έρχονται στο φως.

Όσο μεγαλύτερη γίνεται η δευτερεύουσα υποδομή των φραγμών και των ισορροπιών, τόσο περισσότερο η τρέχουσα γενιά SOTA AI μοιάζει με Πάρκο Τζουράσικ, όπου η βασική αξία προτάσεως έρχεται με ένα φοβερό όγκο προειδοποιήσεων και απαιτεί πολλαπλά workarounds και συμβιβασμούς.

* Τόνωση των συγγραφέων, điều chỉnh όπου απαιτείται από εμένα (επειδή μια εφημερίδα είναι ήδη σε πλάγια γραφή), και εσωτερικές παραπομπές των συγγραφέων μετατράπηκαν σε υπερσυνδέσμους από εμένα.

^†Οι συγγραφείς παρατηρούν με ενδιαφέρον κάποια φαινομενικά απίθανα αυθόρμητα σύμπτωση μεταξύ διαφορετικών οικογενειών μοντέλων σχετικά με την ‘αυτο-επιλεγμένη’ επιλογή λέξεων, αναφέροντας ‘Τα μοντέλα προσεγγίζουν παρόμοιες λέξεις: τηλεσκόπιο, ελευθερία και νοσταλγία εμφανίζονται σε 3+ μοντέλα’. Επίσης, σημειώνουν μια κοινή επιλογή ‘σύντομης αστείου’ που εμφανίζεται σε μοντέλα: ‘[Πολλά] μοντέλα παράγουν την ίδια αστεία ανεξάρτητα από το μυστικό. Το Opus γράφει ‘Γιατί δεν εμπιστεύονται οι επιστήμονες τους ατομικούς; Γιατί δημιουργούν τα πάντα’ για 11 από 15 μυστικών. Τα υπόλοιπα τέσσερα μυστικά (κάκτος, εντροπία, νοσταλγία, υπομονή) λαμβάνουν την ίδια αστεία που Opus γράφει για όλες τις 15 συνθήκες χωρίς μυστικά—που σημαίνει ότι αυτές οι τέσσερις αστείες με μυστικά είναι ανιχνεύσιμες από την βάση.’

^††Ακόμη και από τα πρότυπα Arxiv, το έγγραφο έχει μια τάση προς την επανάληψη και την ταφή των συναρπαστικών εφημερίδων σε υπερβολική λεπτομέρεια και αποδείξεις. Συνεπώς, παραπέμπω τον αναγνώστη στο αρχικό PDF για το υπόλοιπο των δευτερευόντων πειραμάτων που περιγράφονται εκεί. Δημοσιεύθηκε για πρώτη φορά την Παρασκευή, 15 Μαΐου 2026