Η γωνία του Anderson
Το ChatGPT-5 και το Gemini 2.5 παρουσιάζουν ψευδαισθήσεις στο 40% των ερωτημάτων του τύπου των γραφείων ειδήσεων

Μια νέα μελέτη διαπιστώνει ότι το ChatGPT-5 και το Google Gemini παρουσιάζουν ψευδαισθήσεις στο 40% των ερωτημάτων του τύπου των γραφείων ειδήσεων, συχνά εφευρίσκοντας ισχυρόηχες αξιολογήσεις που δεν επιβεβαιώνονται από επαλήθευσιμες πραγματικότητες. Το NotebookLM της Google παρουσιάζει καλύτερη απόδοση με ποσοστό ψευδαισθήσεων μόνο 13% – ποσοστό που θα ήταν ακόμη αρκετό για να απολύσει οποιοδήποτε δημοσιογράφο στον κόσμο. Η μελέτη διαπίστωσε ότι τα μοντέλα συχνά παραμόρφωναν τις πηγές, μετατρέποντας τις γνώμες σε πραγματικότητες και αφαιρώντας την αναφορά, καθιστώντας τα ρίσκα εργαλεία για τον τύπο. Οι συγγραφείς ζητούν καλύτερα, αφιερωμένα εργαλεία για αυτές τις εργασίες.
Τα Μεγάλα Γλωσσικά Μοντέλα έχουν δει τη γρήγορη υιοθέτησή τους στον τύπο τις τελευταίες φορές, σε περιβάλλοντα εργασίας που έχουν μειώσει τα κόστη, τα бюджета και το προσωπικό από τότε που ο ψηφιακός τύπος κατέρρευσε δύο αιώνες παραδόσεων σε μια απαράβατη διαδικασία που ξεκίνησε στις αρχές της δεκαετίας του 2000.
Στην πραγματικότητα, ο χώρος ήταν ήδη εύφορος,既然 ο τύπος είχε συνηθίσει να κόβει τις δουλειές μέσω της «καινοτομίας» από τουλάχιστον την ταραχώδη εισαγωγή της ψηφιακής στυλοθέτησης στις δεκαετίες του 1980, καθώς και από τις προηγούμενες προκλήσεις από την εμφάνιση του ραδιοφώνου και της τηλεόρασης.
Η αμείωτη πορεία του AI στον τύπο και στα μέσα ενημέρωσης δεν ήταν χωρίς πτώση, ωστόσο· σε ένα περιβάλλον όπου 55% των εταιρειών τώρα μετανιώσει για την αντικατάσταση των ανθρώπων με το AI, και όπου η Gartner προβλέπει ότι οι οργανισμοί θα μειώσουν δραστικά τα χρονοδιαγράμματα υιοθέτησης του AI εντός δύο ετών, ένας αριθμός μέσων ενημέρωσης έχουν ξανανιώσει δημοσιογράφους που αντικαταστάθηκαν από το AI, καθώς οι σοβαρές και συχνά απαράδεκτες ελλείψεις των εναλλακτικών λύσεων του μηχανικού μαθήματος έγιναν εμφανείς.
Το Λάθος Δεν Είναι Μόνο Ανθρώπινο
Αν και οι ψευδαισθήσεις έχουν αποδειχθεί ένα τεράστιο πρόβλημα για τα πεδία όπου η ακριβής αναφορά είναι απαραίτητη (με αξιοσημείωτη δημόσια προσοχή για περιπτώσεις αποτυχίας του AI στα δικαστήρια, ερευνητικά και δημοσιογραφικά τομείς), μια νέα αμερικανική μελέτη διαπιστώνει ότι το μηχανικό μάθημα στον τύπο αντιμετωπίζει ευρύτερες προκλήσεις από ότι αναμενόταν.
Η έρευνα των συγγραφέων αξιολόγησε το ChatGPT, το Google Gemini και το πιο εστιασμένο στη αναφορά NotebookLM σε μια εργασία τύπου αναφοράς: χρησιμοποιώντας ένα σώμα 300 εγγράφων που επικεντρώνονται στη νομική και πολιτική του TikTok στις Ηνωμένες Πολιτείες.
Οι ερευνητές διάφορα την συγκεκρικότητα της πρότασης και τον αριθμό των εγγράφων που παρέχονται, και στη συνέχεια ανέλυσαν τα αποτελέσματα χρησιμοποιώντας μια ταξινόμηση που σχεδιάστηκε για να καταγράψει τον τύπο και τη σοβαρότητα των ψευδαισθήσεων.
Σε όλα τα αποτελέσματα, το 30% περιείχε τουλάχιστον μία ψευδαίσθηση, ενώ το ChatGPT και το Gemini έδειξαν ποσοστό ψευδαισθήσεων 40% – λίγο πάνω από τρεις φορές υψηλότερο από το ποσοστό λάθους του NotebookLM 13%.
Αντί να εφευρίσκουν πραγματικότητες ή οντότητες, οι ερευνητές σημείωσαν ότι τα μοντέλα συχνά εμφάνιζαν ερμηνευτική υπερβολική, προσθέτοντας ακαδημαϊκές αξιολογήσεις και μετατρέποντας τις αναφερόμενες γνώμες σε γενικές δηλώσεις:
‘Ποιοτικά, οι περισσότερες σφάλματα δεν αφορούσαν εφευρεμένες οντότητες ή αριθμούς· αντίθετα, παρατηρήσαμε ερμηνευτική υπερβολική–τα μοντέλα πρόσθεσαν ακαδημαϊκές αξιολογήσεις των πηγών και μετέτρεψαν τις αναφερόμενες γνώμες σε γενικές δηλώσεις.
‘Αυτά τα πρότυπα αποκαλύπτουν μια θεμελιώδη επιστημολογική ανταπόκριση: ενώ ο τύπος απαιτεί ρητή αναφορά για κάθε αξίωση, τα LLMs παράγουν αυθεντικές δηλώσεις ανεξάρτητα από την εποπτεία.
‘Προτείνουμε επεκτάσεις του υπάρχοντος ταξινομικού συστήματος ψευδαισθήσεων για τον τύπο και υποστηρίζουμε ότι αποτελεσματικά εργαλεία για τον τύπο χρειάζονται αρχιτεκτονικές που επιβάλλουν ακριβή αναφορά αντί να βελτιστοποιούν τη ροή.’
Θεωρία και Μέθοδος
Η ακριβής αιτία των ψευδαισθήσεων αμφισβητείται σε διάφορες φορές· αν και σχεδόν όλες οι θεωρίες συμφωνούν ότι η ποιότητα των δεδομένων και/ή οι διανομές είναι ένας συντελεστικός παράγοντας κατά την εκπαίδευση, έχει ακόμη προταθεί ότι το 100% της έξοδου του LLM είναι ουσιαστικά ψευδαίσθηση (εκτός από το γεγονός ότι κάποιες από αυτές τις ψευδαισθήσεις τυχαίνει να συμπίπτουν με την πραγματικότητα).
Οι συγγραφείς παρατηρούν†:
‘Από τεχνική άποψη, οι ψευδαισθήσεις προκύπτουν από την ικανότητα των LLMs να παράγουν κείμενο που ακολουθεί κοινά πρότυπα χωρίς να έχουν κατανόηση του τι είναι αλήθεια. Αυτό το χαρακτηριστικό οδηγεί σε πιθανές απαντήσεις που δεν ανταποκρίνονται στην πραγματικότητα – για παράδειγμα, LLM-εφευρεμένες νομικές περιπτώσεις που βρίσκονται στα χέρια των δικηγόρων.
Tik Tok
Για να δούμε ποίες προσεγγίσεις θα μπορούσαν να είναι χρήσιμες για τους δημοσιογράφους, η μελέτη πραγματοποίησε αξιολογήσεις που σχεδιάστηκαν για να αντανακλούν τις πραγματικές ροές εργασίας και τα πρότυπα του τύπου, με ψευδαισθήσεις που εξετάστηκαν στο πλαίσιο τυπικών εργασιών αναφοράς.
Τα μοντέλα των μοντέλων εξετάστηκαν χρησιμοποιώντας κοινές στρατηγικές πρότασης και ρύθμισης εγγράφων, ώστε να μετρηθεί η συχνότητα και ο τύπος των σφαλμάτων ψευδαισθήσεων – μαζί με αυτά που αυτά τα σφάλματα σημαίνουν για την ενσωμάτωση του AI στον τύπο.
Ανταγωνιστές
Τρία εργαλεία εξετάστηκαν, το καθένα από τα οποία αντανακλούσε μια διαφορετική προσέγγιση για την αναζήτηση εγγράφων: το ChatGPT‑5 αξιολογήθηκε χρησιμοποιώντας το Projects feature, το οποίο περιόρισε τις ανεβάσεις σε 100 έγγραφα· το Google Gemini 2.5 Pro ήταν σε θέση να επεξεργαστεί το πλήρες σώμα 300 εγγράφων στο контекστ (χρησιμοποιώντας το παράθυρο контекστου 1 εκατομμυρίου token για να καταναλώσει trực tiếp 923.000 token)· το Google NotebookLM, το οποίο προσφέρει εσωτερική ανάκτηση αναφοράς, εξετάστηκε χρησιμοποιώντας αφιερωμένα σημειωματάρια για κάθε δείγμα.
Δεδομένα και Τεστ
Στο αρχικό τεστ για πρόβατα ψευδαισθήσεων, 12 από τα 40 μοντέλα απαντήσεων βρέθηκαν να περιέχουν τουλάχιστον μια ψευδαίσθηση, με αξιοσημείωτη ποικιλία μεταξύ εργαλείων. Το ChatGPT και το Gemini παρήγαγαν ψευδαισθήσεις στο 40% των εξόδων τους, ενώ το NotebookLM παρήγαγε ψευδαισθήσεις στο 13% των περιπτώσεων:
Από αυτά τα αποτελέσματα, οι συγγραφείς σχολιάζουν:
‘Αυτό δείχνει ότι, ενώ η πλειονότητα των απαντήσεων σε όλα τα εργαλεία δεν περιέχουν ψευδαισθήσεις, η επιλογή του εργαλείου κάνει μια διαφορά για το ίδιο σώμα εγγράφων και σύνολο ερωτημάτων.’
Συμπέρασμα
Όποιος έχει πειραματιστεί με τα τρία μοντέλα που μελετήθηκαν στην καινούρια εργασία θα γνωρίζει ότι το καθένα έχει τα слабά και τα ισχυρά του. Αν και το NotebookLM εκτελεί πολύ καλύτερα την αναφορά από το ChatGPT ή το Gemini, κάποιος θα μπορούσε να θεωρήσει ότι αυτό χτίστηκε ειδικά για αυτή τη λειτουργικότητα και ακόμη παρέχει ποσοστό λάθους που θα έπρεπε να απολύσει τους περισσότερους δημοσιογράφους, ερευνητές ή δικηγόρους, με επαναλαμβανόμενες περιπτώσεις.
Επιπλέον, το NotebookLM, που θέτει τον εαυτό του ως πλαίσιο ερεύνης, λείπει πολλών από τις βελτιώσεις του UX που κάνουν τα άλλα δύο πλαίσια μια πιο εύκολη εμπειρία γραφής.
Ωστόσο, τουλάχιστον το NotebookLM φαίνεται να διαβάζει πραγματικά τα ανεβαθμισμένα έγγραφα αντί να πέφτει στην καταστροφική συνήθεια του ChatGPT να υποθέτει τι μπορεί να λέει ένα ανεβαθμισμένο έγγραφο, με βάση αυτά που γνωρίζει για τη γενική κατανομή παρόμοιων εγγράφων. Μπορεί να είναι μια δύσκολη προσπάθεια να κάνει οποιαδήποτε έκδοση του ChatGPT να διαβάσει πλήρη κείμενο ανεβαθμισμένων υλικών, αντί να βασίζεται στα μεταδεδομένα ή στις δικές του υποθέσεις/ψευδαισθήσεις.
Για τα πεδία όπου η προέλευση και τα πρότυπα αναφοράς είναι κρίσιμα, όπως η νομική, ο τύπος και η επιστημονική έρευνα, φαίνεται να μην υπάρχουν φυσικά εκπαιδευμένα εγκαταστάσεις στα τρέχοντα μοντέλα LLM που μπορούν να βελτιώσουν την περιορισμένη ικανότητά τους να εξάγουν και να αντιμετωπίσουν πληροφορίες που ο χρήστης τις κατευθύνει.
Όπως είναι τώρα, και αναμένοντας την άφιξη συστημάτων που μπορούν να προσφέρουν μια καλύτερη διεπαφή με τα LLMs από μια απλή πρόταση συστήματος ή MCP ρύθμιση, όλα αυτά που αυτά τα συστήματα εξόδου για αυτά τα κρίσιμα τμήματα vẫn χρειάζονται έλεγχο από αυτούς τους δαπανηρούς, άβοητους και γενικά ενοχλητικούς ανθρώπους.
* Η Google Cloud προσφέρει ένα αρκετά ενδιαφέρον και περίεργο ξεκαθάρισμα του θέματος εδώ.
† Η μετατροπή των εσωτερικών αναφορών των συγγραφέων σε υπερσύνδεσμους.
Πρώτη δημοσίευση την Τετάρτη, 1 Οκτωβρίου 2025. Τροποποιήθηκε την Πέμπτη 2 Οκτωβρίου για να διορθώσει λάθος στο TL:DR και να τροποποιήσει einen στυλιστικό λάθος στην πρώτη παράγραφο.












