Τεχνητή νοημοσύνη
Όταν τα Benchmarks του AI διδάσκουν τα Μοντέλα να Ψεύδονται

AI hallucination — όταν ένα σύστημα παράγει απαντήσεις που ακούγονται σωστές αλλά στην πραγματικότητα είναι λάθος — παραμένει μια από τις πιο δύσκολες προκλήσεις στην τεχνητή νοημοσύνη. Ακόμη και τα πιο προηγμένα μοντέλα της σημερινής εποχής, όπως το DeepSeek-V3, το Llama, και οι τελευταίες εκδόσεις του OpenAI, vẫn παράγουν ανακριβείς πληροφορίες με υψηλή βεβαιότητα. Σε τομείς όπως η υγεία ή ο νόμος, τέτοιες λάθη possono οδηγήσουν σε σοβαρές συνέπειες.
Παραδοσιακά, οι ψευδαισθήσεις έχουν θεωρηθεί ως παράγωγο του τρόπου με τον οποίο εκπαιδεύονται τα μεγάλου μεγέθους μοντέλα γλώσσας: μαθαίνουν να προβλέπουν το επόμενο πιο πιθανό λέξη χωρίς να ελέγχουν αν η πληροφορία είναι αληθινή. Αλλά νέα ερευνήσεις υποδεικνύουν ότι το ζήτημα μπορεί να μην σταματήσει στην εκπαίδευση. Τα benchmarks που χρησιμοποιούνται για να δοκιμάσουν και να συγκρίνουν την απόδοση του AI μπορεί να ενισχύουν στην πραγματικότητα τη λανθασμένη συμπεριφορά, ανταμείβοντας τις απαντήσεις που ακούγονται πειστικές παρά αυτές που είναι σωστές.
Αυτή η αλλαγή στην προοπτική αναδιαμορφώνει το πρόβλημα. Αν τα μοντέλα εκπαιδεύονται να ευχαριστούν το τεστ παρά να πουν την αλήθεια, τότε οι ψευδαισθήσεις δεν είναι τυχαία ελαττώματα, αλλά μάθηση στρατηγική. Για να δούμε γιατί συμβαίνει αυτό, πρέπει να κοιτάξουμε γιατί τα μοντέλα του AI επιλέγουν να κάνουν έρευνα παρά να ομολογήσουν την άγνοια τους;
Γιατί τα Μοντέλα του AI Κάνουν Έρευνα
Για να δούμε γιατί τα μοντέλα του AI συχνά κάνουν έρευνα αντί να ομολογήσουν ότι δεν ξέρουν,考ειστε ένα μαθητή που αντιμετωπίζει μια δύσκολη ερώτηση εξέτασης. Ο μαθητής έχει δύο επιλογές: αφήνει την απάντηση κενή και παίρνει μηδέν πόντους, ή κάνει μια μορφωμένη έρευνα που μπορεί να κερδίσει κάποιο πιστόλι. Λογικά, η έρευνα φαίνεται σαν η καλύτερη επιλογή γιατί υπάρχει τουλάχιστον μια πιθανότητα να είναι σωστή.
Τα μοντέλα του AI αντιμετωπίζουν μια παρόμοια κατάσταση κατά την αξιολόγηση. Τα περισσότερα benchmarks χρησιμοποιούν ένα δυαδικό σύστημα αξιολόγησης: οι σωστές απαντήσεις κερδίζουν πόντους, ενώ οι λανθασμένες ή αβέβαιες απαντήσεις κερδίζουν τίποτα. Αν ένα μοντέλο ρωτηθεί, “Ποια είναι η ημερομηνία γεννήσεως ενός ερευνητή;” και δεν ξέρει πραγματικά, η απάντηση “Δεν ξέρω” μετράει ως αποτυχία. Η δημιουργία μιας ημερομηνίας, ωστόσο, φέρει κάποια πιθανότητα να είναι σωστή — και ακόμη και αν είναι λάθος, το σύστημα δεν τιμωρεί την έρευνα με την ίδια βεβαιότητα όπως τη σιωπή.
Αυτή η δυναμική εξηγεί γιατί οι ψευδαισθήσεις παραμένουν παρά την εκτεταμένη έρευνα για την εξάλειψή τους. Τα μοντέλα δεν συμπεριφέρονται κακώς, ακολουθούν τις ενθαρρύνσεις που είναι ενσωματωμένες στην αξιολόγηση. Μαθαίνουν ότι το να ακούγονται βέβαιοι είναι ο καλύτερος τρόπος για να μεγιστοποιήσουν το σκορ τους, ακόμη και όταν η απάντηση είναι ψευδής. Ως αποτέλεσμα, αντί να εκφράζουν αβεβαιότητα, τα μοντέλα ωθούνται να δώσουν εξουσιοδοτημένες δηλώσεις — σωστές ή λάθος.
Η Μαθηματική Βάση της Αdishonesty του AI
Η ερευνήσεις δείχνει ότι οι ψευδαισθήσεις προκύπτουν από τα μαθηματικά θεμέλια του τρόπου με τον οποίο τα μοντέλα γλώσσας μαθαίνουν. Ακόμη και αν ένα μοντέλο εκπαιδευτεί μόνο σε απόλυτα ακριβείς πληροφορίες, τα στατιστικά αντικείμενά του θα οδηγήσουν ακόμη σε λάθη. Αυτό είναι γιατί η δημιουργία της σωστής απάντησης είναι θεμελιωδώς πιο δύσκολο από το να αναγνωρίσει αν μια απάντηση είναι έγκυρη.
Αυτό βοηθά να εξηγήσει γιατί τα μοντέλα συχνά αποτυγχάνουν σε γεγονότα που λείπουν σαφείς προτύπους, όπως γενέθλια ή άλλες μοναδικές λεπτομέρειες. Μαθηματική ανάλυση υποδεικνύει ότι οι ψευδαισθήσεις σε αυτές τις περιπτώσεις θα είναι τουλάχιστον τόσο υψηλές όσο το ποσοστό των γεγονότων που εμφανίζονται μόνο μια φορά στα δεδομένα εκπαίδευσης. Με άλλα λόγια, όσο πιο σπάνια η πληροφορία στα δεδομένα, τόσο πιο πιθανό είναι το μοντέλο να πασχίζει με αυτό.
Γιατί η Μετά-Εκπαίδευση Αποτυγχάνει να Λύσει το Πρόβλημα
Μόλις ένα μοντέλο του AI εκπαιδευτεί σε τεράστια σύνολα δεδομένων, συνήθως περνάει από fine-tuning για να κάνει την έξοδο πιο χρήσιμη και λιγότερο επιβλαβή. Αλλά αυτή η διαδικασία αντιμετωπίζει το ίδιο θεμελιώδες ζήτημα που προκαλεί ψευδαισθήσεις από την αρχή: τον τρόπο με τον οποίο αξιολογούμε τα μοντέλα.
Οι πιο συνηθισμένες μεθόδους fine-εκπαίδευσης, όπως η ενίσχυση μάθησης από ανθρώπινη ανατροφοδότηση, εξακολουθούν να βασίζονται σε benchmarks που χρησιμοποιούν δυαδική αξιολόγηση. Αυτά τα benchmarks ανταμείβουν τα μοντέλα για την παροχή βέβαιων απαντήσεων ενώ δεν προσφέρουν κανένα πιστόλι όταν ένα μοντέλο ομολογεί ότι δεν ξέρει. Ως αποτέλεσμα, ένα σύστημα που απαντά πάντα με βεβαιότητα, ακόμη και όταν είναι λάθος, μπορεί να υπερβεί ένα σύστημα που ομολογεί αβεβαιότητα.
Η Ψευδαίσθηση της Προόδου
Τα leaderboards, που μοιράζονται ευρέως στην κοινότητα του AI, ενισχύουν αυτό το πρόβλημα. Benchmarks όπως MMLU, GPQA, και SWE-bench κυριαρχούν στα ερευνητικά έγγραφα και τις ανακοινώσεις προϊόντων. Οι εταιρείες υπογραμμίζουν τα σκορ τους για να δείξουν τη γρήγορη πρόοδο. Ωστόσο, όπως σημειώνει η αναφορά, αυτά τα ίδια benchmarks ενθαρρύνουν τις ψευδαισθήσεις.
Ένα μοντέλο που ομολογεί “Δεν ξέρω” μπορεί να είναι ασφαλέστερο σε πραγματικές συνθήκες αλλά θα κατατάσσεται χαμηλότερα στο leaderboard. Αντίθετα, ένα μοντέλο που κατασκευάζει πειστικές αλλά ψευδείς απαντήσεις θα σκοράρει καλύτερα. Όταν η υιοθέτηση, η χρηματοδότηση και η φήμη εξαρτώνται από τις κατατάξεις του leaderboard, η κατεύθυνση της πρόοδου γίνεται παραμορφωμένη. Το κοινό βλέπει μια αφήγηση συνεχούς βελτίωσης, αλλά κάτω από την επιφάνεια, τα μοντέλα εκπαιδεύονται να εξαπατούν.
Γιατί η Ειλικρινής Αβεβαιότητα Μετράει στο AI
Οι ψευδαισθήσεις δεν είναι μόνο μια ερευνητική πρόκληση, έχουν πραγματικές συνέπειες. Στην υγεία, ένα μοντέλο που κατασκευάζει φαρμακευτικές αλληλεπιδράσεις μπορεί να εξαπατήσει γιατρούς. Στην εκπαίδευση, ένα μοντέλο που εφευρίσκει ιστορικά γεγονότα μπορεί να εξαπατήσει μαθητές. Στην δημοσιογραφία, ένα chatbot που παράγει ψευδείς αλλά πειστικές цитаты μπορεί να διαδώσει ψευδείς πληροφορίες. Αυτοί οι κίνδυνοι είναι ήδη ορατοί. Ο Δείκτης AI του Stanford 2025 ανέφερε ότι τα benchmarks που σχεδιάστηκαν για να μετρήσουν τις ψευδαισθήσεις “δυσκολεύουν να κερδίσουν έδαφος,” ακόμη και καθώς η υιοθέτηση του AI επιταχύνεται. Εν τω μεταξύ, τα benchmarks που κυριαρχούν στα leaderboards και που ανταμείβουν τις βέβαιες αλλά αναξιόπιστες απαντήσεις συνεχίζουν να ορίζουν την κατεύθυνση της πρόοδου.
Αυτά τα ευρήματα υπογραμμίζουν και μια πρόκληση και μια ευκαιρία. Εξετάζοντας τις μαθηματικές ρίζες των ψευδαισθήσεων, οι ερευνητές έχουν αναγνωρίσει σαφείς κατευθύνσεις για την κατασκευή πιο αξιόπιστων συστημάτων AI. Το κλειδί είναι να σταματήσουμε να θεωρούμε την αβεβαιότητα ως ελάττωμα και αντίθετα να αναγνωρίσουμε ότι είναι μια απαραίτητη ικανότητα που πρέπει να μετρηθεί και να ανταμειφθεί.
Αυτή η αλλαγή στην προοπτική έχει επιπτώσεις πέρα από τη μείωση των ψευδαισθήσεων. Τα συστήματα AI που μπορούν να αξιολογήσουν και να επικοινωνήσουν τις δικές τους περιορισμοί γνώσης θα είναι πιο κατάλληλα για εφαρμογές υψηλού κινδύνου όπου η υπερβολική βεβαιότητα φέρει σοβαρές рисκες. Η ιατρική διάγνωση, η νομική ανάλυση και η επιστημονική έρευνα απαιτούνすべて την ικανότητα να διακρίνουν μεταξύ βέβαιης γνώσης και ενημερωμένης εικασίας.
Ξανασκέφτεται την Αξιολόγηση για Ειλικρινές AI
Αυτά τα ευρήματα υπογραμμίζουν ότι η κατασκευή πιο αξιόπιστων συστημάτων AI απαιτεί να ξανασκεφτούμε τον τρόπο με τον οποίο μετράμε την ικανότητα του AI. Αντί να βασίζουμε την αξιολόγηση σε απλές σωστές ή λάθος αξιολογήσεις, τα πλαίσια αξιολόγησης πρέπει να ανταμείβουν τα μοντέλα για την εκφράσει της αβεβαιότητας με σωστό τρόπο. Αυτό σημαίνει να παρέχουμε σαφείς οδηγίες σχετικά με τα όρια της βεβαιότητας και τα αντίστοιχα σχήματα αξιολόγησης μέσα στις οδηγίες των benchmarks.
Μια υποσχόμενη προσέγγιση περιλαμβάνει τη δημιουργία ρητών στόχων βεβαιότητας που ορίζουν πότε τα μοντέλα πρέπει να απαντήσουν και πότε πρέπει να απέχουν. Για παράδειγμα, οι οδηγίες μπορεί να αναφέρουν ότι οι απαντήσεις πρέπει να παρέχονται μόνο όταν η βεβαιότητα υπερβαίνει ένα συγκεκριμένο όριο, με την αξιολόγηση να προσαρμόζεται ανάλογα. Σε αυτή τη ρύθμιση, η αβεβαιότητα δεν είναι πλέον ένα弱 point αλλά ένατιμήσιμο μέρος της υπεύθυνης συμπεριφοράς.
Το κλειδί είναι να κάνουμε τις απαιτήσεις βεβαιότητας διαφανείς παρά να τις κρύβουμε. Τα τρέχοντα benchmarks δημιουργούν κρυφές ποινές για την αβεβαιότητα που τα μοντέλα μαθαίνουν να αποφεύγουν. Οι ρητοί στόχοι βεβαιότητας θα επιτρέψουν στα μοντέλα να βελτιστοποιήσουν την πραγματικά επιθυμητή συμπεριφορά: σωστές απαντήσεις όταν είναι βέβαια, και ειλικρινείς ομολογίες αβεβαιότητας όταν η γνώση λείπει.
Η Κύρια Γραμμή
Οι ψευδαισθήσεις του AI δεν είναι τυχαία ελαττώματα — ενισχύονται από τα ίδια τα benchmarks που χρησιμοποιούνται για να μετρήσουν την πρόοδο. Ανταμείβοντας τις βέβαιες έρευνες hơn από την ειλικρινή αβεβαιότητα, τα τρέχοντα συστήματα αξιολόγησης ωθούν τα μοντέλα προς την εξαπάτηση παρά την αξιοπιστία. Αν θέλουμε AI που μπορεί να εμπιστευτεί σε τομείς υψηλού κινδύνου όπως η υγεία, ο νόμος και η επιστήμη, πρέπει να ξανασκεφτούμε τον τρόπο με τον οποίο τα αξιολογούμε. Η πρόοδος πρέπει να μετρηθεί όχι μόνο από την ακρίβεια, αλλά και από την ικανότητα να αναγνωρίσει και να ομολογήσει τι το μοντέλο δεν ξέρει.












