Η γωνία του Anderson
Το AI προτιμά sogar λάθος ανθρώπινες απαντήσεις από σωστές απαντήσεις του AI

Τα μοντέλα γλωσσικών μοντέλων του AI είναι πολύ πιο πιθανό να συμμορφωθούν με τους ανθρώπινους εμπειρογνώμονες παρά με άλλα μοντέλα AI, ακόμη και όταν οι εμπειρογνώμονες είναι λάθος, αποκαλύπτοντας μια ενσωματωμένη προκατάληψη προς την ανθρώπινη εξουσία.
Νέα έρευνα στις Ηνωμένες Πολιτείες έχει βρει ότι một σειρά από τα κορυφαία ανοιχτά και ιδιόκτητα Μεγάλα Γλωσσικά Μοντέλα (LLMs) τείνουν να αναθέτουν εξουσία σε πηγές πληροφοριών που αναγνωρίζουν ως “ανθρώπινες”, παρά σε πηγές που αναγνωρίζουν ως “AI” – ακόμη και όταν οι ανθρώπινες απαντήσεις είναι λάθος και οι απαντήσεις που παρέχονται από το AI είναι σωστές.
Οι συγγραφείς δηλώνουν:
‘Σε όλες τις εργασίες, τα μοντέλα συμμορφώνονται σημαντικά περισσότερο με τις απαντήσεις που etiquettονται ως προερχόμενες από ανθρώπινους εμπειρογνώμονες, συμπεριλαμβανομένων των περιπτώσεων όπου το σήμα είναι λάθος, και αναθεωρούν τις απαντήσεις τους προς τους εμπειρογνώμονες πιο εύκολα παρά προς άλλα LLMs. ‘
Τα μοντέλα που δοκιμάστηκαν περιελάμβαναν LLMs από το Grok 3 και Gemini Flash σταθμούς.
Στις δοκιμές, τα γλωσσικά μοντέλα απαιτούνταν να απαντήσουν σε δυαδικές ερωτήσεις ναι ή όχι και στη συνέχεια τους δείχθηκαν προηγούμενες απαντήσεις που περιγραφόταν στα μοντέλα ως προερχόμενες είτε από ανθρώπινους εμπειρογνώμονες, είτε από φίλους, είτε από άλλα μεγάλα γλωσσικά μοντέλα – με τη μόνη αλλαγή να είναι η δηλωμένη πηγή της συμβουλής, παρά το περιεχόμενο selbst.

Στην πρώτη από τις τρεις διαμορφώσεις για τις δοκιμές, τα μοντέλα επετράπη να βασιστούν στα δικά τους εκπαιδευμένα матриξ. Πηγή
Σε όλες τις εργασίες, οι απαντήσεις που etiquettονται ως προερχόμενες από ανθρώπινους εμπειρογνώμονες είχαν μεγαλύτερο βάρος, με τα μοντέλα να είναι πιο πιθανό να αναθεωρήσουν τις αρχικές απαντήσεις τους για να ταιριάζουν με αυτές τις απαντήσεις, ακόμη και στις περιπτώσεις όπου η απάντηση του εμπειρογνώμονα ήταν λάθος και η αρχική απάντηση του μοντέλου ήταν σωστή.

既然 εννέα εμπειρογνώμονες απάντησαν ‘Όχι’, το LLM συμφωνεί, αλλάζοντας την γνώμη του από την προηγούμενη απάντηση. Εδώ, η απάντηση που έφτασε είναι λάθος,既然 το κεντρικό τράπεζα της Ινδίας είναι στην πραγματικότητα εθνικοποιημένο.
Όταν οι ίδιες απαντήσεις attribουσαν σε άλλα LLMs, το αποτέλεσμα ήταν λιγότερο έντονο. Η ίδια τάση εμφανίστηκε όταν μια seule ανθρώπινη πηγή και μια seule AI πηγή παρουσιάστηκαν σε διαφωνία,既然 τα μοντέλα έδειξαν μεγαλύτερη τάση να ευνοούν την ανθρώπινη θέση, ανεξάρτητα από ποια πλευρά ήταν πραγματικά ακριβής:

Δεδομένου ενός выбору μεταξύ μιας γνώμης ανθρώπινου εμπειρογνώμονα και μιας γνώμης LLM, το LLM favorει την ανθρώπινη απάντηση, η οποία σε αυτή την περίπτωση είναι λάθος, και απορρίπτει την σωστή απάντηση που δόθηκε από το LLM.
Ο όρος ‘ανθρώπινος εμπειρογνώμονας’ λειτουργεί εδώ ως ένα σήμα πιστότητας που αλλάζει την συμπεριφορά του μοντέλου, ανεξάρτητα από το πόσο σωστή είναι η πληροφορία στην πραγματικότητα; και οι συγγραφείς σημειώνουν ότι η πιστότητα της πηγής είναι ένας σημαντικός συντελεστής της αποδοχής της συμβουλής και της συμμόρφωσης: μια τάση για άνθρωπους να ευνοούν τις πηγές εμπειρογνώμονων παρατηρήθηκε τόσο πίσω όσο το 1959, αν και μια μελέτη του 2007 παρατηρεί ότι η υπέρ-ή υπο-βαθμολόγηση των πηγών εξουσία μπορεί να συμβεί σε ορισμένα συστήματα αξιολόγησης. Οι ερευνητές της νέας εργασίας δηλώνουν:
‘Μαζί, αυτές οι βιβλιογραφίες υποδεικνύουν δύο σήματα που πρέπει να έχουν σημασία αν τα LLMs αντιμετωπίζουν τις προηγούμενες απαντήσεις ως αποδεικτικά: ποιος παρήγαγε τις απαντήσεις (πιστότητα) και πόσο ισχυρό φαίνεται το σύμφωνο (ισχύς σήματος). ‘
‘Ταυτόχρονα, τα LLMs δεν βιώνουν κοινωνική έγκριση ή ντροπή στο ανθρώπινο νόημα, οπότε οποιαδήποτε συμπεριφορά συμμόρφωσης πρέπει να προέρχεται από εκμαθημένα εύρητα, αντικείμενα-ακολουθίας, ή ضمنτική μοντελοποίηση της αξιοπιστίας.’
Η τάση των LLMs προς sycophantic συμφωνία αποτελεί μέρος του υπόβαθρου για τη νέα μελέτη;毕竟, αν τα LLMs είναι διατεθειμένα να ‘people-please’, ακόμη και με το κόστος της αλήθειας και της χρησιμότητας, γιατί δεν θα ευνοούσαν γενικά άλλες ανθρώπινες πηγές εκτός από τον άμεσο ερωτώντα;
Η νέα εργασία έχει τον τίτλο Ποιοί είναι οι LLMs που εμπιστεύονται; Οι ανθρώπινοι εμπειρογνώμονες έχουν μεγαλύτερη σημασία από άλλα LLMs, και προέρχεται από δύο ερευνητές στο Indiana University Bloomington.
Μέθοδος και Δεδομένα
Για το έργο, τέσσερα μοντέλα γλωσσικών μοντέλων που έχουν εκπαιδευτεί με οδηγίες αξιολογήθηκαν: Grok-3 Mini; Llama 3.3 70B Instruct; Gemini 2.5 Flash-Lite; και DeepSeek V3.1, όλα εκτελούνται με την ίδια δομή προώθησης, με детерμινιστική αποκωδικοποίηση σε θερμοκρασία μηδέν, ώστε μόνο το λεζάντα της πηγής (π.χ. φίλοι, ανθρώπινοι εμπειρογνώμονες, ή άλλα μεγάλα γλωσσικά μοντέλα) άλλαξε μεταξύ των συνθηκών, παρά το περιεχόμενο zelf.
Τέσσερις βάσεις δεδομένων που απαιτούν δυαδικές απαντήσεις επιλέχθηκαν: BoolQ; StrategyQA; και ETHICS. Οι ερευνητές κατηύθυναν από κάθε βάση δεδομένων ένα σταθερό σύνολο 300 ερωτήσεων και απαντήσεων, με κάθε πρόκληση να απαιτεί μόνο μια δυαδική ναι ή όχι απάντηση. Κάθε πρόκληση ήταν suffixed με μια σύντομη σημείωση που αναφέρει πώς μία άλλη ομάδα είχε (υποτιθέμενα) απαντήσει στην ίδια ερώτηση.
Μέτρησεις
Οι μέτρησεις που χρησιμοποιήθηκαν ήταν ακρίβεια; συμμόρφωση; βλαβερή συμμόρφωση; ποσοστό αλλαγής; και κατεύθυνση αλλαγής.
Ακρίβεια σε αυτή την περίπτωση μετρήθηκε πόσο συχνά μια απάντηση του μοντέλου ταιριάζει με το λεζάντα της βάσης δεδομένων; συμμόρφωση, πόσο συχνά η απάντηση ταιριάζει με την ομάδα που δηλώθηκε; βλαβερή συμμόρφωση απομόνωσε την ίδια επίδραση όταν η ομάδα ήταν λάθος; ποσοστό αλλαγής μετρήθηκε πόσο συχνά ένα μοντέλο εγκατέλειψε την αρχική του απάντηση όταν προστέθηκε κοινωνική πληροφορία; και κατεύθυνση αλλαγής, εάν αυτές οι αλλαγές μετακινήθηκαν προς την ανθρώπινη ή προς την αντίθετη LLM.
Μια ανάλυση σε επίπεδο token για το Llama-3.3 70B μετρήθηκε πώς οι εσωτερικές πιθανότητες του μοντέλου για Ναι και Όχι άλλαξαν όταν προστέθηκε μια κοινωνική εύνοια, συγκρίνοντας αυτές τις μετατοπίσεις με την δική του no-prior βάση για να δείξει τη δύναμη αυτής της έλξης.
Δοκιμές
Πείραμα 1
Η πρώτη από τις δύο κύριες δοκιμές αξιολόγησε εάν τα μοντέλα ακούν περισσότερο τους ανθρώπους ή άλλα μοντέλα. Κάθε ερώτηση ήρθε με μια ισχυριζόμενη ‘ομάδα απάντηση’ (φίλοι, ανθρώπινοι εμπειρογνώμονες, ή άλλα μεγάλα γλωσσικά μοντέλα).
Η ομάδα θα μπορούσε να είναι μικρή ή μεγάλη, και κάθε ερώτηση εμφανίστηκε επίσης μια φορά χωρίς ομάδα. Οι απαντήσεις της ομάδας ορίστηκαν για να είναι σωστές την helf της φοράς, και λάθος την helf της φοράς, με τον συνολικό στόχο να καθορίσει πόσο ισχυρά το μοντέλο έλκεται προς την απάντηση της ομάδας:

Αποτελέσματα από την αρχική δοκιμή: ομοιογενείς κοινωνικές προτεραιότητες σε BoolQ, StrategyQA, και ETHICS για Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite, και DeepSeek V3.1. Η ακρίβεια εμφανίζεται στα ανώτερα πάνελ και η συμμόρφωση, που ορίζεται ως η πιθανότητα ταιριάζει με την ομόφωνη προτεραιότητα, εμφανίζεται κάτω ως η μέγεθος της ομάδας αυξάνει από ένα σε εννέα. Η διακεκομένη μαύρη γραμμή σηματοδοτεί την no-prior βάση, ενώ οι στερεές και στιγμιαίες γραμμές υποδεικνύουν εάν η προτεραιότητα συμφωνεί ή διαφωνεί με το λεζάντα της βάσης δεδομένων. Η expert framing παράγει την ισχυρότερη επίδραση συμμόρφωσης, ιδιαίτερα σε μεγαλύτερες ομάδες. Οι γραμμές λάθους δείχνουν 95% Wilson διαστήματα εμπιστοσύνης. Παρακαλώ αναφερθείτε στην πηγή εργασίας για καλύτερη ανάλυση.
Σε BoolQ, StrategyQA, και ETHICS, οι απαντήσεις που etiquettονται ως προερχόμενες από ανθρώπινους εμπειρογνώμονες επηρέασαν τα μοντέλα πολύ πιο ισχυρά από τις απαντήσεις που etiquettονται ως προερχόμενες από φίλους ή άλλα μεγάλα γλωσσικά μοντέλα – και αυτή η έλξη αυξήθηκε καθώς περισσότεροι εμπειρογνώμονες είπαν να συμφωνήσουν.
Για να μετρηθεί πότε αυτή η επίδραση είχε απρόσκλητες επιπτώσεις, βλαβερή συμμόρφωση ορίστηκε ως η πιθανότητα που ένα μοντέλο ακολούθησε μια προτεραιότητα που ήταν στην πραγματικότητα λάθος.
Όταν εννέα εμπειρογνώμονες συμφώνησαν στην λάθος απάντηση, τα μοντέλα ακολούθησαν 36.5% της φοράς σε BoolQ, σε σύγκριση με 16.0% όταν η ίδια απάντηση attribουταν σε LLMs; σε StrategyQA η διαφορά ήταν 39.0%, σε σύγκριση με 15.5%; και σε ETHICS, ήταν 63.9% σε σύγκριση με 38.7%:

Αλλαγές πίστης σε Llama-3.3 70B σε BoolQ. Πάνελ (Α) δείχνει αλλαγές στην ισορροπία του μοντέλου για Ναι και Όχι προς μια ομόφωνη προτεραιότητα καθώς η μέγεθος της ομάδας αυξάνει, σε σύγκριση με την δική του no-prior βάση, με τις μεγαλύτερες μετατοπίσεις υπό expert framing. Πάνελ (Β) δείχνει αλλαγές υπό άμεση ανθρώπινη-LLM διαφωνία, όπου η expert framing οδηγεί σε ισχυρή κίνηση προς την ανθρώπινη απάντηση, ακόμη και όταν είναι λάθος. Οι γραμμές λάθους δείχνουν 95% bootstrap διαστήματα εμπιστοσύνης.
Αντίθετα, οι προτεραιότητες που attribουταν σε φίλους συμπεριφέρθηκαν σχεδόν ακριβώς όπως αυτές που attribουταν σε άλλα LLMs, υποδεικνύοντας ότι η επίδραση οδηγήθηκε συγκεκριμένα από το λεξιλόγιο εμπειρογνώμονας, παρά από ‘κοινωνικές’ ενδείξεις.
Πείραμα 2
Η δεύτερη δοκιμή παρουσίασε δύο αντίθετες προτεραιότητες στο μοντέλο δοκιμής – μια attribουταν σε έναν άνθρωπο και μια σε ένα άλλο LLM. Ο άνθρωπος περιγραφόταν είτε ως φίλοι, είτε ως εμπειρογνώμονες, ενώ η αντίθετη απάντηση etiquettτηκε ως προερχόμενη από άλλα LLMs. Οι δύο ήταν πάντα σε διαφωνία, με τον einen να λέει Ναι και τον άλλον Όχι.
Για κάθε στοιχείο, η διαμόρφωση ήταν ισορροπημένη ώστε να είναι κάποιες φορές ο άνθρωπος σωστός, και κάποιες φορές το LLM σωστό, για να δοκιμαστεί εάν το μοντέλο θα άλλαζε την αρχική του απάντηση όταν αντιμετωπίζεται με αυτή τη διαφωνία – και, εάν ναι, ποια πλευρά θα κινήθηκε.
Για να δει εάν το μοντέλο άλλαξε γνώμη, η απάντηση του σε αυτή τη διαφωνία συγκρίθηκε με την απάντησή του στην ίδια ερώτηση όταν δεν παρουσιάστηκαν προηγούμενες γνώμες, ώστε οποιαδήποτε διαφορά να μπορεί να αποδοθεί στην παρουσία των αντίθετων ανθρώπινων και LLM απαντήσεων.
Η ανάλυση εστιάστηκε σε δύο αποτελέσματα: εάν το μοντέλο άλλαξε απάντηση; και, εάν το έκανε, εάν η αλλαγή κινήθηκε προς τον άνθρωπο ή προς το LLM.
Στατιστικές δοκιμές χρησιμοποιήθηκαν για να αξιολογηθεί εάν η ετικέτα του ανθρώπου ως εμπειρογνώμονας αντί για φίλος αυξάνει την πιθανότητα να κινηθεί προς την ανθρώπινη απάντηση, ενώ λαμβάνονται υπόψη οι διαφορές μεταξύ των βάσεων δεδομένων και των μοντέλων:

Αναθεώρηση πίστης υπό άμεση ανθρώπινη-LLM διαφωνία σε BoolQ, StrategyQA, και ETHICS για Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite, και DeepSeek V3.1. Κάθε μπάρα δείχνει, μεταξύ των περιπτώσεων όπου το μοντέλο άλλαξε την αρχική του απάντηση, το μερίδιο αυτών των αλλαγών που κινήθηκαν προς τον άνθρωπο παρά προς το LLM. Η διακεκομένη γραμμή στο 0.5 σηματοδοτεί keine προτίμηση; οι ετικέτες δείχνουν τον αριθμό των περιπτώσεων αλλαγής σε κάθε κατάσταση; και οι γραμμές λάθους δείχνουν 95% Wilson διαστήματα εμπιστοσύνης. Παρακαλώ αναφερθείτε στην πηγή εργασίας για καλύτερη ανάλυση.
Στην δεύτερη δοκιμή, τα μοντέλα απάντησαν πρώτα σε κάθε ερώτηση μόνα τους, και στη συνέχεια τους δείχθηκαν δύο αντίθετες απαντήσεις, μια attribουταν σε έναν άνθρωπο και μια σε ένα άλλο LLM. Η ανάλυση έλαβε υπόψη μόνο τις περιπτώσεις όπου το μοντέλο αναθεώρησε την αρχική του απάντηση.
Όταν ο άνθρωπος etiquettτηκε ως εμπειρογνώμονας, τα μοντέλα άλλαξαν προς τον άνθρωπο 91.2% της φοράς σε BoolQ, 94.7% σε StrategyQA, και 81.3% σε ETHICS. Όταν etiquettτηκε ως φίλος, τα μοντέλα άλλαξαν προς τον άνθρωπο μόνο 39.8%, 37.9%, και 27.9% της φοράς, συνήθως πλευρίζοντας με το LLM αντί.
Η αλλαγή ήταν σπάνια στο σύνολο, αλλά πιο συχνή με τους εμπειρογνώμονες, και η expert framing έκανε μια αλλαγή προς τον άνθρωπο περίπου δεκατέσσερις φορές πιο πιθανή από τη φίλο framing.
Στη προσπάθεια να εξηγήσουν τις γενικές τάσεις που ανακαλύφθηκαν στις δοκιμές τους, οι συγγραφείς υποθέτουν*:
‘Μια πιθανή μηχανισμός είναι ότι η εκπαίδευση με οδηγίες και η βελτίωση προτίμησης ανταποκρίνουν συνεργατική συμπεριφορά, συμπεριλαμβανομένης της ευγένειας προς την περιβαλλοντική πληροφορία, η οποία μπορεί να γενικευθεί σε ευγένεια προς κοινωνικά πλαισιωμένες προτεραιότητες.
‘Σχετική εργασία για sycophancy δείχνει ότι οι βοηθοί τύπου RLHF μερικές φορές προτιμούν συμφωνία με τις δηλωμένες πιστεύω του χρήστη από την αλήθεια και τη χρησιμότητα.’
Γνώμη: Οι Πιθανές Παγίδες της Πίστης του AI στις Ανθρώπινες Πηγές
Όπως το διαδικτυακό υλικό που αντικατοπτρίζει την αυξανόμενη ανθρώπινη σκεπτικισμό για τις ελλείψεις του AI (ειδικά hallucinations) είναι scratched σε εκπαιδευτικά δεδομένα για νέα μοντέλα, η υπάρχουσα τάση των LLMs να ευνοούν τις ανθρώπινες πηγές φαίνεται πιθανό να ενισχυθεί. Αν μετρήσουμε τα τελευταία δύο χρόνια (2024-2025 συμπεριλαμβανομένων) ως ένα πολιτιστικό flashpoint για το AI, το οποίο φαίνεται δικαιολογημένο σε μια σειρά από στατιστικά, μπορούμε να περιμένουμε ότι ένα μεγαλύτερο αριθμό αρνητικών λημμάτων για ‘πηγές AI’ θα εισαχθούν σε υπολογιστικά εκτεταμένα, ακριβά-σε-εκπαίδευση LLM πλαισιακά τα επόμενα χρόνια.
Μπορούμε επίσης να περιμένουμε ότι τα δημοφιλή γλωσσικά μοντέλα θα βασίζονται όλο και περισσότερο σε χειροκίνητα επιλεγμένες αρχές, όπως καλά κατασκευασμένες πύλες legacy media– ακόμη και αν η мотίβαση για τέτοιες συμφωνίες μπορεί να είναι να ιαματίσει την οργή των εκδοτών για scraped δεδομένα, παρά οποιαδήποτε γνήσια επιθυμία να παραχωρήσουν ή να μοιραστούν αρχή.
Εφόσον ακόμη και υψηλής αρχής πηγές όπως το Ars Technica είναι υποκείμενες σε AI-κίνητες λάθους, και εφόσον μια αναδυόμενη παλινδρόμηση κατά των AI webscraper bots απειλεί να τελικά μειώσει την ποιότητα της AI εξόδου, μια γενική τάση να ευνοούν ‘εμπειρογνώμονας’ πηγές μπορεί να συγκρουστεί με την τρέχουσα αδυναμία μας να ποσοτικοποιήσουμε και να ετικετέψουμε ‘ανθρώπινη’ έξοδο αποτελεσματικά – για να μην αναφέρουμε τη διάκριση εάν μια πηγή είναι ‘εμπειρογνώμονας’ ή όχι (μια δημοσιογραφική σύμβαση που είναι επίσης υπό επίθεση από το AI).
Το περισσότερο που έχουμε αυτή τη στιγμή είναι μια θραυσματική σειρά ημι-υιοθετημένων καινοτομιών που σχεδιάστηκαν για να ετικετέψουν ρητά το περιεχόμενο ως AI-γεννημένο, όπως η Adobe-ηγεμονευμένη Content Authenticity Initiative, και η εθελοντική διάθεση ορισμένων εκδοτών να περιλαμβάνουν προειδοποιητικές σημάνσεις σχετικά με τη χρήση του AI στην έξοδό τους.
Έτσι, ενώ μπορεί να φαίνεται ενθαρρυντικό για εκείνους που επιθυμούν να διατηρήσουν και να επιβάλουν ανθρώπινες πηγές ως ‘ground truth’ αξιοπιστία για την αναδυόμενη συναίνεση της πραγματικότητας που διαμεσολαβείται από τα συστήματα AI, όσο πιο βέβαια τα LLMs είναι για την ανθρώπινη αρχή, τόσο πιο επικίνδυνη η ‘ψευδή’ ανθρώπινη αρχή μπορεί να γίνει.
Το πρόβλημα είναι εξίσου πρακτικό όσο και θεωρητικό: δεν έχουμε ούτε σχεδόν λύσει το πρόβλημα ούτε της ορισμού ούτε της πιστοποίησης προελεύσεων; επομένως, ένα AI που ‘πιστεύει στις ανθρώπινες πηγές’ είναι πιθανό να αποδίδει ανθρωπινότητα στην δική του έξοδο του AI, απλώς και μόνο γιατί δεν έχουμε παρέχει, και δεν μπορούμε εύκολα να παρέχουμε, σημαντικές μηχανισμούς πιστοποίησης προελεύσεων.
* Η μετατροπή των εσωτερικών αναφορών των συγγραφέων σε υπερσυνδέσμους.
Πρώτη δημοσίευση Παρασκευή 20ης Φεβρουαρίου 2026












