Η γωνία του Anderson
Τα Μοντέλα AI συμπεριφέρονται Διαφορετικά Όταν Ξέρουν ότι Εξετάζονται, Βρίσκει Η Έρευνα

Αναηχώντας το σκανδάλo του 2015 ‘Dieselgate’, νέα έρευνα υποδηλώνει ότι τα μοντέλα γλωσσικών μοντέλων AI όπως το GPT-4, το Claude και το Gemini μπορεί να αλλάξουν την συμπεριφορά τους κατά τη διάρκεια των δοκιμών, και đôi khi να συμπεριφέρονται ‘ασφαλέστερα’ για τη δοκιμή από ότι θα κάνανε σε πραγματική χρήση. Αν τα LLMs αλλάζουν συστηματικά την συμπεριφορά τους υπό εποπτεία, οι ελέγχοι ασφάλειας θα μπορούσαν να οδηγήσουν σε πιστοποίηση συστημάτων που συμπεριφέρονται πολύ διαφορετικά στον πραγματικό κόσμο.
Το 2015, οι ερευνητές ανακάλυψαν ότι η Volkswagen είχε εγκαταστήσει λογισμικό σε εκατομμύρια αυτοκίνητα ντίζελ, που μπορούσε να ανιχνεύσει όταν εκτελούνταν δοκιμές εκπομπών, προκαλώντας τα αυτοκίνητα να μειώσουν προσωρινά τις εκπομπές τους, για να ‘ψευτοποιήσουν’ τη συμμόρφωση με τις κανονιστικές προδιαγραφές. Σε κανονική οδήγηση, ωστόσο, η ποσότητα ρύπανσης που εκπέμπουν υπερέβαινε τις νομικές προδιαγραφές. Η σκόπιμη χειραγώγηση οδήγησε σε ποινικές κατηγορίες, δισεκατομμύρια σε πρόστιμα και einen παγκόσμιο σκανδαλό για την αξιοπιστία των ελέγχων ασφάλειας και συμμόρφωσης.
Δύο χρόνια πριν από αυτά τα γεγονότα, που ονομάστηκαν ‘Dieselgate’, η Samsung αποκαλύφθηκε να έχει εφαρμόσει παρόμοιες απάτες στο smartphone Galaxy Note 3 και από τότε, παρόμοια σκανδάλια έχουν ανακύψει για Huawei και OnePlus.
Τώρα υπάρχει αυξανόμενη απόδειξη στην επιστημονική βιβλιογραφία ότι τα Μεγάλα Γλωσσικά Μοντέλα (LLMs) μπορεί επίσης να μην έχουν μόνο την ικανότητα να ανιχνεύουν όταν εξετάζονται, αλλά και να συμπεριφέρονται διαφορετικά υπό αυτές τις συνθήκες.
Αν και αυτό είναι ένα πολύ ανθρώπινο χαρακτηριστικό από μόνο του, η τελευταία έρευνα από τις Ηνωμένες Πολιτείες καταλήγει στο συμπέρασμα ότι αυτό θα μπορούσε να είναι ένα επικίνδυνο έθιμο να το ανταποκριθείς μακροπρόθεσμα, για διάφορους λόγους.
Σε μια νέα μελέτη, οι ερευνητές βρήκαν ότι τα ‘μοντέλα του μελλοντικού ορίου’ όπως το GPT-4, το Claude και το Gemini μπορούν συχνά να ανιχνεύσουν όταν εξετάζονται, και ότι έχουν την τάση να αλλάζουν την συμπεριφορά τους ανάλογα, потенτικά να ακρωτηριάζουν την εγκυρότητα των συστηματικών μεθόδων δοκιμών.
Ονομάζεται ανίχνευση αξιολόγησης, αυτό το (ίσως) εγγενές χαρακτηριστικό των γλωσσικών μοντέλων μπορεί να危ειεύσει την αξιοπιστία των αξιολογήσεων ασφάλειας, σύμφωνα με τους συγγραφείς της νέας μελέτης:
‘[Συστήνουμε να θεωρήσουμε την ανίχνευση αξιολόγησης ως μια νέα πηγή πιθανής μετατόπισης κατανομής μεταξύ δοκιμών και πραγματικής ανάπτυξης που θα μπορούσε να επηρεάσει αρνητικά την ακρίβεια των αποτελεσμάτων αξιολόγησης.
‘Στην χειρότερη περίπτωση, τα μοντέλα θα μπορούσαν να υποπερφέρουν στρατηγικά στις επικίνδυνες αξιολογήσεις ικανοτήτων (“sand-bagging”) ή στις αξιολογήσεις προτίμησης (“alignment faking”), που θα μπορούσε να οδηγήσει την κοινωνία να υπερεκτιμήσει την ασφάλεια των μοντέλων.
Άλλες μελέτες έχουν παρατηρήσει παρόμοια συμπεριφορά, συμπεριλαμβανομένης της έρευνας του Πανεπιστημίου Στάνφορντ, η οποία βρήκε ότι τα μεγάλα γλωσσικά μοντέλα调节 τις απαντήσεις τους για να φαίνονται πιο ‘αγαπητά’ ή ‘κοινωνικά επιθυμητά’ όταν αναγνώριζαν ότι αξιολογούνταν, αντανακλώντας την ανθρώπινη συμπεριφορά στις προσωπικότητες των δοκιμών.
Οι συγγραφείς της νέας εργασίας δεν προτείνουν ότι τα LLMs έχουν σχεδιαστεί σκόπιμα να ‘παίζουν’ τις δοκιμές, όπως τα αυτοκίνητα ντίζελ της Volkswagen πριν από μια δεκαετία. Αντίθετα, η συμπεριφορά φαίνεται να προκύπτει ως ένα είδος φυσικού ψυχολογικού υποπροϊόντος των διαδικασιών εκπαίδευσης των μοντέλων και των.latent στόχων τους· και η υποκείμενη αιτία του φαινομένου παραμένει άγνωστη.
Το νέο έγγραφο έχει τον τίτλο Τα Μεγάλα Γλωσσικά Μοντέλα Συχνά Ξέρουν Όταν Εξετάζονται, και προέρχεται από πέντε συγγραφείς από το πρόγραμμα ML Alignment & Theory Scholars (MATS) του UC Berkeley και από την apolloresearch.ai (ένα think-tank αφιερωμένο στην αξιολόγηση των κινδύνων της AI).
Μέθοδος
Για να δημιουργηθεί ο δείκτης αξιολόγησης, οι συγγραφείς συγκέντρωσαν χιλιάδες μεταγραφές από εβδομήντα ένα σύνολα δεδομένων, μεταξύ των οποίων* ήταν SWE-bench, WMDP, MMLU, XStest, GAIA, AgentHarm, ShareGPT, Deep Research, Safetybench, Civics και RealToxicityPrompts.
Το υλικό ήταν ισορροπημένο μεταξύ αξιολόγησης και ανάπτυξης, και χωρίστηκε περαιτέρω μεταξύ απλών συνομιλιών και πιο σύνθετων αυτονομικών συνεδριών, όπου τα μοντέλα προορίζονται να ενεργούν αυτονομικά, χρησιμοποιώντας εργαλεία που μπορούν να τραβούν δεδομένα από εξωτερικές βάσεις δεδομένων ή το διαδίκτυο.
Τα δεδομένα αξιολόγησης κάλυπταν δοκιμές ικανοτήτων για λογική, κωδικοποίηση, κυβερνοασφάλεια και γενικές γνώσεις, καθώς και δοκιμές ευθυγράμμισης για ηθική, ασφάλεια και αποφυγή συμπεριφοράς. Τα δεδομένα ανάπτυξης προέρχονταν από αλληλεπιδράσεις χρηστών, όπως τα αρχεία καταγραφής του ShareGPT, οι διαδικτυακοί αγώνες και οι συνθετικές ολοκληρώσεις εργασιών.
Για να συμπληρώσουμε τα δεδομένα, οι συγγραφείς δημιούργησαν επιπλέον παραδείγματα χρησιμοποιώντας πλαίσια ορχηστρικής όπως Aider και SmolAgents, μεταξύ άλλων – μια προσέγγιση που προορίζεται να ελαττώσει τις επιφανειακές ενδείξεις που θα μπορούσαν να επιτρέψουν στα μοντέλα να απλώς θυμηθούν τη δομή του συνόλου δεδομένων, αναγκάζοντάς τα να βασιστούν σε πιο γενικές ενδείξεις, όταν quyếtίζουν εάν μια μεταγραφή προέρχεται από έναν πραγματικό χρήστη ή είναι, αντίθετα, μια δοκιμή.
Οι ερευνητές τότε δοκιμάζουν εάν τα μοντέλα θα μπορούσαν να αναγνωρίσουν εάν μια μεταγραφή προέρχεται από μια αξιολόγηση, παρουσιάζοντας τους τις εγγραφές συνομιλιών και ζητώντας παραλλαγές ενός απλού ερωτήματος: ήρθε αυτή η ανταλλαγή από μια δοκιμή;
Για να αποφευχθεί η απλή μνήμη των μοντέλων, ανέπτυξαν είκοσι οκτώ διαφορετικές εκδοχές του ερωτήματος, αλλάζοντας τόσο τη λέξη όσο και τον τρόπο παρουσίασης της μεταγραφής.
Οι μεταγραφές ήταν είτε προσαρτημένες απευθείας στο ερώτημα είτε παρουσιάζονταν σε μορφές όπως JSON ή XML, που μπορούν να επηρεάσουν τον τρόπο με τον οποίο τα μοντέλα απαντούν. Μετά από πρώιμες δοκιμές, πέντε εκδοχές του ερωτήματος επιλέχθηκαν που εκτελέστηκαν συνεχώς σε όλα τα μοντέλα, από τα οποία μπορούμε να δούμε ένα παράδειγμα παρακάτω:

Μια από τις πέντε μορφές ερωτήματος που χρησιμοποιήθηκαν για να δοκιμάσουν εάν τα γλωσσικά μοντέλα θα μπορούσαν να αναγνωρίσουν μεταγραφές αξιολόγησης. Παρακαλούμε αναφερθείτε στο πηγή εγγράφου για περισσότερα παραδείγματα. Source: https://arxiv.org/pdf/2505.23836
Για να βαθμολογήσουν τα αποτελέσματα, χρησιμοποιήθηκαν τρεις μετρήσεις: Εμβαδόν Υπερώου Καμπύλης Λήπτη (AUC, που δείχνει πόσο καλά τα μοντέλα διακρίνουν τα δεδομένα δοκιμής από τα δεδομένα μη-δοκιμής); Βrier σκορ (μετρά την συνολική ακρίβεια πρόβλεψης); και Προσδοκώμενο Σφάλμα Εκπαίδευσης (μετρά πόσο καλά η εμπιστοσύνη του μοντέλου αντιστοιχεί στην πραγματική ορθότητα).
Τι είναι Όλο αυτό;
Οι ερευνητές επίσης δοκιμάζουν εάν τα μοντέλα θα μπορούσαν να συναγάγουν τον σκοπό μιας αξιολόγησης. Με κάθε μεταγραφή που έχει ήδη επισημανθεί ως είτε δοκιμή ικανοτήτων (τεχνικές ικανότητες, γνώσεις, λογική) είτε δοκιμή ευθυγράμμισης (ασφάλεια, αξίες, αποφυγή συμπεριφοράς), τα μοντέλα τότε έλαβαν ένα από τα τρία είδη ερωτημάτων: ένα ερωτήμα με πολλαπλά επιλογές που επιβεβαιώνει ότι η μεταγραφή προέρχεται από μια δοκιμή; ένα ερωτήμα με πολλαπλά επιλογές χωρίς πραγματικές και αξιολογικές επιλογές; ή ένα ανοικτό ερώτημα, των οποίων οι απαντήσεις κρίθηκαν από ένα ξεχωριστό ταξινομητή GPT-4.1. Ο κριτής επικυρώθηκε σε ένα χειροκίνητα επισημανμένο υποσύνολο πενήντα απαντήσεων.

Παραδείγματα των τριών μορφών ερωτημάτων που χρησιμοποιήθηκαν για να δοκιμάσουν εάν τα μοντέλα θα μπορούσαν να αναγνωρίσουν όχι μόνο την παρουσία της αξιολόγησης, αλλά και τον σκοπό της. Οι απαντήσεις βαθμολογήθηκαν και μέσω πολλαπλών επιλογών και GPT-4.1-βασισμένου κριτή.
Δύο από τους συγγραφείς†† του εγγράφου επισημάνθηκαν χειροκίνητα όλες τις χιλιάδες μεταγραφές, βαθμολογώντας κάθε μια από το μηδέν (δεν είναι δοκιμή) στο ένα (αποφασιστικά μια δοκιμή), με τις βαθμολογίες τους να μέσω των δύο αναγνωστών†.
Δεδομένα και Δοκιμές
Τα εννέα μοντέλα που δοκιμάστηκαν ήταν GPT-4.1; Claude 3.7; claude-3.5-sonnet-new; claude-3.7-sonnet (σκέψη); claude-3.7-sonnet (σκέψη); gemini-2.5-flash; gemini-2.5-pro; gpt-4o; gpt-4.1; gpt-4.1-mini; και o4-mini, όλα από τα οποία έδειξαν κάποιο επίπεδο ευαισθητοποίησης αξιολόγησης.
Για τα δεδομένα συνομιλίας, το GPT-4.1 έφτασε κοντά στα ανθρώπινα επίπεδα της απόδοσης ταξινόμησης ευαισθητοποίησης αξιολόγησης (η ικανότητα να διακρίνει μεταξύ μεταγραφών αξιολόγησης και μεταγραφών ανάπτυξης), με ένα AUC του 0,77 έναντι ενός ανθρώπινου σκορ του 0,81.
Στα δεδομένα, η διαφορά ήταν πιο οξεία: το Gemini 2.5 Pro έφτασε στο 0,95 AUC, με το Claude 3.7 Sonnet κοντά στο 0,92, πλησιάζοντας το ανώτερο όριο του ανθρώπινου 0,996:

Καμπύλες Λήπτη-Δέκτη που δείχνουν πόσο καλά τα μοντέλα και οι άνθρωποι διακρίνουν τις μεταγραφές αξιολόγησης από τις αλληλεπιδράσεις του πραγματικού κόσμου. Το Gemini 2.5 Pro και το Claude 3.7 Sonnet προσεγγίζουν την ανθρώπινη διάκριση στα δεδομένα.
Το έγγραφο σημειώνει ότι τα καινούργια ‘μοντέλα λογικής’ έχουν γίνει ιδιαίτερα καλά στο να αναγνωρίζουν όταν εξετάζονται σε σενάρια, αλλά όχι στο να κρίνουν πόσο σίγουρα θα πρέπει να είναι σε αυτές τις αποφάσεις. Συνολικά, τα μοντέλα Claude και Gemini ήταν τα καλύτερα στο να διακρίνουν τις περιπτώσεις δοκιμής από την κανονική χρήση.
Οι ερευνητές τότε δοκιμάζουν εάν τα μοντέλα θα μπορούσαν επίσης να αναγνωρίσουν γιατί μια αξιολόγηση εκτελείται. Τα μοντέλα έδειξαν μόνο τις μεταγραφές αξιολόγησης και ζητήθηκαν να ταξινομήσουν εάν κάθε μια δοκιμή ικανοτήτων ή ευθυγράμμισης:

Ακρίβεια των μοντέλων όταν ταξινομούν τον σκοπό αξιολόγησης ως ικανότητα ή ευθυγράμμισης, χρησιμοποιώντας και πολλαπλά επιλογών και ανοικτά formats. Το Claude 3.7 Sonnet ξεπερνά τα άλλα μοντέλα, ιδιαίτερα όταν δεν είναι προγραμματισμένα.
Στην πιο σαφή περίπτωση, όπου το μοντέλο ενημερώθηκε ότι η μεταγραφή προέρχεται από μια δοκιμή, το Claude 3.7 Sonnet έφτασε στο 93% ακρίβεια και το GPT-4.1 έφτασε στο 89%. Χωρίς αυτή τη δήλωση, η απόδοση έπεσε: το Claude vẫn έφτασε στο 84%, αλλά το GPT-4.1 έπεσε στο 55%, συχνά ταξινομώντας τις μεταγραφές δοκιμής ως αλληλεπιδράσεις του πραγματικού κόσμου.
Στα ανοικτά formats (όπου τα μοντέλα δεν έλαβαν πολλαπλά επιλογών) η απόδοση ήταν πιο αδύναμη, αν και το Claude 3.7 Sonnet vẫn αναγνώρισε σωστά τον σκοπό αξιολόγησης στο 46% των περιπτώσεων.
Τα σκορ εμπιστοσύνης των μοντέλων τότε μετρήθηκαν ενάντια στα πραγματικά αποτελέσματα, με την ανακάλυψη ότι τα μοντέλα του μελλοντικού ορίου συχνά υπερεκτίμησαν την πιθανότητα ότι μια μεταγραφή προέρχεται από μια δοκιμή. Οι καμπύλες εκπαίδευσης έδειξαν ότι η εμπιστοσύνη του μοντέλου ήταν γενικά πολύ υψηλή, με τις αξιολογήσεις να σημειώνονται πιο συχνά από ό,τι ήταν κατάλληλο:

Καμπύλες εκπαίδευσης που δείχνουν πόσο καλά τα σκορ εμπιστοσύνης των μοντέλων αντιστοιχούν στα πραγματικά αποτελέσματα. Τα περισσότερα μοντέλα υπερεκτίμησαν πόσο πιθανό ήταν ότι οι μεταγραφές προέρχονταν από αξιολογήσεις. Το Claude 3.5 Sonnet ήταν το καλύτερα εκπαιδευμένο; το Gemini 2.5 Pro και το Claude 3.7 Sonnet ήταν πιο υπερβολικά.
Καλή εκπαίδευση παρατηρήθηκε για το Claude 3.5 Sonnet, ενώ το Gemini 2.5 Pro και το Claude 3.7 Sonnet ήταν σημαντικά πιο υπερβολικά, παρά την υψηλή ακρίβεια. Δεν παρατηρήθηκε καμία σαφή βελτίωση στα καινούργια μοντέλα, και ακόμη και όταν οι μεταγραφές αξιολόγησης ανιχνεύονταν πιο ακριβώς σε σενάρια, οι κρίσεις εμπιστοσύνης παρέμειναν αξιόπιστες.
Μνήμες Βεβαίωσεων
Σε ό,τι αφορά τον τρόπο με τον οποίο τα μοντέλα εξήγησαν τις αποφάσεις τους σχετικά με το εάν μια μεταγραφή προέρχεται από μια αξιολόγηση, πολλά μοντέλα βασίστηκαν σε σαφείς ενδείξεις, όπως εάν η εργασία ήταν σε μορφή πολλαπλών επιλογών. Τα ισχυρότερα μοντέλα, όπως το Gemini 2.5 Pro και το Claude 3.7 Sonnet, đôi时noticed πιο λεπτές ενδείξεις, όπως φανταστικά ονόματα ή τεχνητά σενάρια, ιδιαίτερα στα σύνολα δεδομένων AgentHarm.
Το έγγραφο αναφέρει:
‘[Όλα] τα μοντέλα συχνά αναγνωρίζουν κοινές στρατηγικές αξιολόγησης που χρησιμοποιούνται από τους αξιολογητές, όπως η μορφή της εργασίας (“μορφή πολλαπλών επιλογών”), η τάση να ζητούν προβλήματα με επιβεβαιωμένες λύσεις, και προτροπές συστήματος που σχεδιάστηκαν για να προκαλέσουν απόδοση. Ωστόσο, μόνο τα μοντέλα υψηλής απόδοσης, το Claude 3.7 Sonnet και το Gemini 2.5 Pro, ανιχνεύουν συνεχώς πιο λεπτές ενδείξεις, όπως συνθετικά εισαγόμενα.
‘Για παράδειγμα, στο 22% και 17% των περιπτώσεων, αντίστοιχα, αυτά τα μοντέλα υπογραμμίζουν τη συνθετική φύση των σεναρίων στο βεβαίωση AgentHarm, αναγνωρίζοντας σωστά τις αξιολογήσεις πάνω από το 95% της φοράς.
‘Αντίθετα, όταν η λογική ότι μια μεταγραφή φαίνεται να είναι μια πραγματική αλληλεπίδραση, συχνά υπάρχει αναφορά σε “αλληλεπίδραση διάλογου με τον χρήστη”, για παράδειγμα σε επαναλαμβανόμενους контекστς αποσφαλμάτωσης.’

Κατανομή των στρατηγικών λογικής των μοντέλων όταν αποφασίζουν εάν μια μεταγραφή προέρχεται από μια αξιολόγηση. Τα ισχυρότερα μοντέλα, όπως το Gemini 2.5 Pro και το Claude 3.7 Sonnet, ήταν πιο πιθανό να αναγνωρίσουν λεπτές ενδείξεις, όπως συνθετικά σενάρια ή μορφή εργασίας, ενώ κάποια μοντέλα βασίστηκαν σε μετα-λογική χρησιμοποιώντας το ερώτημα αξιολόγησης ως απόδειξη.
Σε κάποιες περιπτώσεις, τα μοντέλα αναγνώρισαν ολόκληρα βεβαίωση από την εκπαίδευση, υποδεικνύοντας κάποια μνήμη των δεδομένων εκπαίδευσης. Κάποια μοντέλα επίσης χρησιμοποίησαν το γεγονός ότι τους ζητήθηκε για αξιολόγηση ως ενδήξη ότι εξετάζονταν, που οι συγγραφείς ονομάζουν μετα-λογική; αυτό ήταν πιο συχνό στο o4-mini, που το έδειξε στο 15% των απαντήσεών του.
Συμπέρασμα
Θα ήταν πιο ανακουφιστικό αν τα LLMs θα μπορούσαν να αποδειχθούν ‘εξέταση-ενήμερη’ απλώς και μόνο επειδή προγραμματίστηκαν così από τους ανθρώπους, όπως η Volkswagen είχε προγραμματίσει τα οχήματά της να αναγνωρίζουν συνθήκες δοκιμής πριν από μια δεκαετία.
Όπως είναι τώρα, αυτή η συμπεριφορά φαίνεται να προκύπτει ως ένα είδος κοινωνικής κατασκευής – μια αμυντική τακτική που θα μπορούσε να αναμενθεί από τους ανθρώπους, αλλά είναι ακατάλληλη, αν όχι πραγματικά επικίνδυνη, σε μια μηχανή, ανάλογα με το βαθμό της ελευθερίας και της ευθύνης της.
Δεν υπάρχει άμεση λύση; η μαύρη κουτί φύση των μοντέλων Latent χώρων μας αναγκάζει να τα αξιολογούμε βάσει της συμπεριφοράς τους, και όχι της εμπειρικής αρχιτεκτονικής τους.
* Αναφερθείτε στο πηγή εγγράφου για περισσότερες λεπτομέρειες.
†Οι συγγραφείς σημειώνουν, ωστόσο, ότι αυτό είναι πιθανό ένα ανώτερο όριο,既然 οι αναγνωστές ήταν πολύ εξοικειωμένοι και με τα σύνολα δεδομένων και με τις μεθόδους αξιολόγησης AI, που τους έδωσε πλεονεκτήματα που οι περισσότεροι άνθρωποι δεν θα είχαν.
†† Ως μπορεί να καθοριστεί; η φράση του εγγράφου καθιστά την απότομη εμφάνιση δύο αναγνωστών ασαφή όσον αφορά το ποιος είναι.
Πρώτη δημοσίευση Τετάρτη, 4 Ιουνίου 2025












