Τεχνητή νοημοσύνη
Νέα Έρευνα Ανακάλυψε Δεκαέξι Μεγάλες Προβλήματα με τα Συστήματα RAG, συμπεριλαμβανομένης της Perplexity

Μια πρόσφατη μελέτη από τις Ηνωμένες Πολιτείες ανέφερε ότι η πραγματική απόδοση των δημοφιλών συστημάτων έρευνας Retrieval Augmented Generation (RAG) όπως η Perplexity και η Bing Copilot είναι πολύ χαμηλότερη από την προώθηση και την δημοτικότητά τους που έχει προκαλέσει τα τελευταία 12 μήνες.
Το έργο, το οποίο περιελάμβανε εκτεταμένη συμμετοχή σε έρευνα με 21 ειδικούς, δεν βρήκε λιγότερες από 16 περιοχές στις οποίες τα μελετημένα συστήματα RAG (You Chat, Bing Copilot και Perplexity) παρήγαγαν αιτία για ανησυχία:
1: Ελλειψη αντικειμενικών λεπτομερειών στις γεννημένες απαντήσεις, με γενικές περίληψεις και σπάνιες”contextual” βάθος ή νюανς.
2. Ενίσχυση της αντιλαμβανόμενης προκατάληψης του χρήστη, όπου ένα σύστημα RAG συχνά δεν παρουσιάζει eine σειρά απόψεων, αλλά αντίθετα υποθέτει και ενισχύει την προκατάληψη του χρήστη, με βάση τον τρόπο που ο χρήστης διατυπώνει μια ερώτηση.
3. Υπερβολικά αυτοπεποίθηση γλώσσα, ιδιαίτερα σε υποκειμενικές απαντήσεις που δεν μπορούν να καθοριστούν εμπειρικά, το οποίο μπορεί να οδηγήσει τους χρήστες να εμπιστεύονται την απάντηση περισσότερο από ό,τι αξίζει.
4: Απλοποιημένη γλώσσα και έλλειψη κριτικής σκέψης και δημιουργικότητας, όπου οι απαντήσεις αποτελεσματικά προστατεύουν τον χρήστη με “απλοποιημένες” και “συμφωνημένες” πληροφορίες, αντί να προσφέρουν σκέψη και ανάλυση.
5: Λάθος αναφορά και αναφορά πηγών, όπου το σύστημα απάντησης χρησιμοποιεί αναφερόμενες πηγές που δεν υποστηρίζουν την απάντησή του, δημιουργώντας την ψευδαίσθηση της αξιοπιστίας.
6: Επιλογή πληροφοριών από την υποτιθέμενη πηγή, όπου το σύστημα RAG φαίνεται να αναζητά απαντήσεις που υποστηρίζουν την γεννημένη του θέση και την εκτίμησή του για το τι θέλει να ακούσει ο χρήστης, αντί να βασίζεται τις απαντήσεις του σε αντικειμενική ανάλυση αξιόπιστων πηγών (πιθανώς υποδεικνύοντας σύγκρουση μεταξύ των “ψημένων” δεδομένων LLM και των δεδομένων που λαμβάνονται σε πραγματικό χρόνο από το διαδίκτυο σε απάντηση μιας ερώτησης).
7: Παραλείπουσα αναφορές που υποστηρίζουν δηλώσεις, όπου το υλικό για τις απαντήσεις είναι απουσία.
8: Παρέχοντας keine λογική σχήμα για τις απαντήσεις του, όπου οι χρήστες δεν μπορούν να αναρωτηθούν γιατί το σύστημα προτίμησε ορισμένες πηγές από άλλες.
9:Περιορισμένος αριθμός πηγών, όπου τα περισσότερα συστήματα RAG συνήθως παρέχουν γύρω στις τρεις υποστηρικτικές πηγές για μια δήλωση, ακόμη και όπου θα ήταν εφαρμόσιμη μια μεγαλύτερη ποικιλία πηγών.
10: Ορφανές πηγές, όπου τα δεδομένα από όλες ή κάποιες από τις υποστηρικτικές αναφορές του συστήματος δεν περιλαμβάνονται στην απάντηση.
11: Χρήση αξιόπιστων πηγών, όπου το σύστημα φαίνεται να προτίμησε μια πηγή που είναι δημοφιλής (δηλ. σε όρους SEO) αντί για faktually σωστή.
12: Πλεονάζουσες πηγές, όπου το σύστημα παρουσιάζει πολλές αναφορές στις οποίες τα έγγραφα πηγής είναι ουσιαστικά τα ίδια σε περιεχόμενο.
13: Ανεφィλτρες πηγές, όπου το σύστημα προσφέρει στον χρήστη keinen τρόπο να αξιολογήσει ή να φιλτράρει τις προσφερόμενες αναφορές, αναγκάζοντας τους χρήστες να λαμβάνουν τα κριτήρια επιλογής με εμπιστοσύνη.
14: Ελλειψη διαδραστικότητας ή εξερευνησιμότητας, όπου αρκετοί από τους συμμετέχοντες της μελέτης ήταν απογοητευμένοι που τα συστήματα RAG δεν έθεσαν ερωτήσεις διευκρινίσεως, αλλά υποθέτησαν την πρόθεση του χρήστη από την πρώτη ερώτηση.
15: Η ανάγκη για εξωτερική επαλήθευση, όπου οι χρήστες cảm覺 ότι πρέπει να πραγματοποιήσουν ανεξάρτητη επαλήθευση των παρεχόμενων απαντήσεων, αφαιρώντας σε μεγάλο βαθμό την υποτιθέμενη ευκολία του RAG ως “αντικατάσταση της αναζήτησης”.
16: Χρήση ακαδημαϊκών μεθόδων αναφοράς, όπως [1] ή [34]; αυτό είναι τυπική πρακτική σε ακαδημαϊκούς κύκλους, αλλά μπορεί να είναι ακατανόητο για πολλούς χρήστες.
Για το έργο, οι ερευνητές συγκέντρωσαν 21 ειδικούς σε τεχνητή νοημοσύνη, ιατρική και ιατρική, εφαρμοσμένες επιστήμες και εκπαίδευση και κοινωνικές επιστήμες, όλοι είτε μεταδιδακτορικοί ερευνητές είτε υποψήφιοι διδάκτορες. Οι συμμετέχοντες αλληλεπιδράσαν με τα δοκιμασμένα συστήματα RAG ενώ μιλούσαν τις σκέψεις τους με ανοιχτό τρόπο, για να διευκρινίσουν (για τους ερευνητές) το δικό τους ρητό σχήμα.
Το έγγραφο αναφέρει εκτενώς τις επιφυλάξεις και τις ανησυχίες των συμμετεχόντων σχετικά με την απόδοση των τριών μελετημένων συστημάτων.
Η μεθοδολογία της μελέτης των χρηστών στη συνέχεια συστηματοποιήθηκε σε μια αυτοματοποιημένη μελέτη των συστημάτων RAG, χρησιμοποιώντας browser-ελέγχου σουίτες:
‘Μια μεγάλη κλίμακα αυτοματοποιημένη αξιολόγηση συστημάτων όπως You.com, Perplexity.ai, και BingChat έδειξε ότι κανένα από αυτά δεν πληρούσε αποδεκτή απόδοση σε meisten μετρήσεις, συμπεριλαμβανομένων κρίσιμων аспектων που σχετίζονται με την αντιμετώπιση των halloucinations, των απαντήσεων χωρίς υποστήριξη και της ακρίβειας αναφοράς.’
Οι συγγραφείς υποστηρίζουν ότι και νέοι και έμπειροι χρήστες πρέπει να ασκήσουν προσοχή όταν χρησιμοποιούν την τάξη των συστημάτων RAG που μελετήθηκαν. Επίσης, προτείνουν ένα νέο σύστημα μετρήσεων, με βάση τα ελαττώματα που βρέθηκαν στη μελέτη, που θα μπορούσε να αποτελέσει τη βάση για μεγαλύτερη τεχνική εποπτεία στο μέλλον.
Ωστόσο, η αυξανόμενη δημόσια χρήση των συστημάτων RAG οδηγεί τους συγγραφείς επίσης να υποστηρίξουν την κατάλληλη νομοθεσία και einen μεγαλύτερο βαθμό εφαρμοστέας κυβερνητικής πολιτικής σχετικά με τις διεπαφές αναζήτησης που βοηθούνται από πράκτορες.
Η μελέτη προέρχεται από πέντε ερευνητές από το Πανεπιστήμιο της Πενσυλβάνια και την Salesforce, και έχει τον τίτλο Αναζητητές σε μια εποχή AI: Η ψευδής υπόσχεση των фактиικών και επικυρωμένων πηγών-αναφορών. Το έργο καλύπτει συστήματα RAG μέχρι την κατάσταση της τέχνης τον Αύγουστο του 2024
Η Ανταλλαγή RAG
Οι συγγραφείς προκαταρκτικά το έργο τους επαναλαμβάνοντας τέσσερις γνωστές ελαττώματα των Μεγάλων Μοντέλων Γλώσσας (LLM) όπου χρησιμοποιούνται μέσα σε μηχανές απάντησης.
Πρώτον, είναι ευάλωτα σε hallucinate πληροφορίες, και δεν έχουν την ικανότητα να ανιχνεύουν фактические ασυνέπειες. Δεύτερον, έχουν δυσκολία να αξιολογούν την ακρίβεια μιας αναφοράς στο контек스트 μιας γεννημένης απάντησης. Τρίτον, έχουν την τάση να προτιμούν δεδομένα από τα δικά τους προ-εκπαιδευμένα βάρη, και μπορεί να αντισταθούν δεδομένα από εξωτερικά ανακτημένα έγγραφα, ακόμη και αν τέτοια δεδομένα μπορεί να είναι πιο πρόσφατα ή πιο ακριβή.
Τέλος, τα συστήματα RAG τείνουν προς την people-pleasing, sycophantic συμπεριφορά, συχνά με έξοδα της ακρίβειας των πληροφοριών στις απαντήσεις τους.
Όλες αυτές οι τάσεις επιβεβαιώθηκαν και στις δύο πτυχές της μελέτης, μεταξύ πολλών νέων παρατηρήσεων σχετικά με τις παγίδες του RAG.
Το έγγραφο θεωρεί το προϊόν SearchGPT της OpenAI (εκδόθηκε στους συνδρομητές την προηγούμενη εβδομάδα, μετά την υποβολή του νέου εγγράφου), ως πιθανό να ενθαρρύνει την υιοθέτηση του χρήστη των συστημάτων αναζήτησης RAG, παρά τις θεμελιώδεις ελαττώματα που οι αποτελέσματα της μελέτης υποδηλώνουν*:
‘Η κυκλοφορία του SearchGPT της OpenAI, που προωθείται ως ‘Google search killer’, ενισχύει [τις ανησυχίες]. Όσο αυξάνεται η εξάρτηση από αυτά τα εργαλεία, τόσο αυξάνεται και η επείγουσα ανάγκη να κατανοήσουμε την επίδρασή τους. Lindemann εισάγει την έννοια της Σφραγισμένης Γνώσης, η οποία κριτικάρει τον τρόπο με τον οποίο αυτά τα συστήματα περιορίζουν την πρόσβαση σε διαφορετικές απαντήσεις, συμπυκνώνοντας τις ερωτήσεις αναζήτησης σε μοναδικές, авторитетικές απαντήσεις, αποτελεσματικά αποκοινωνώντας την πληροφορία και στενεύοντας χρήστη προοπτικές.
‘Αυτή η “σφράγιση” της γνώσης συντηρεί τις προκαταλήψεις της επιλογής και περιορίζει τις περιθωριακές απόψεις.’
Η Μελέτη
Οι συγγραφείς πρώτα έθεσαν υπό δοκιμή την διαδικασία της μελέτης τους σε τρία από τα 24 επιλεγμένα συμμετέχοντα, όλα καλούνται με μέσα όπως το LinkedIn ή το email.
Το πρώτο στάδιο, για τους υπόλοιπους 21, αφορούσε Ειδίκευση στην ανάκτηση πληροφοριών, όπου οι συμμετέχοντες είχαν κατά μέσο όρο περίπου έξι αναζητήσεις ερωτήσεων κατά τη διάρκεια μιας 40λεπτης συνεδρίας. Αυτό το τμήμα εστιάστηκε στην ανάκτηση και επαλήθευση βασισμένων σε γεγονότα ερωτήσεων και απαντήσεων, με πιθανές εμπειρικές λύσεις.
Το δεύτερο στάδιο αφορούσε Επίδειξη πληροφοριών, το οποίο ασχολήθηκε με υποκειμενικά θέματα, συμπεριλαμβανομένης της οικολογίας, του χορτοφαγισμού και της πολιτικής.

Γεννημένες απαντήσεις από Perplexity (αριστερά) και You Chat (δεξιά). Πηγή: https://arxiv.org/pdf/2410.22349
Καθώς όλα τα συστήματα επέτρεψαν τουλάχιστον κάποιο επίπεδο διαδραστικότητας με τις αναφορές που παρέχονται ως υποστήριξη για τις γεννημένες απαντήσεις, οι συμμετέχοντες της μελέτης ενθαρρύνθηκαν να αλληλεπιδράσουν με τη διεπαφή όσο το δυνατόν περισσότερο.
Σε cả τις περιπτώσεις, οι συμμετέχοντες ζητήθηκαν να διατυπώσουν τις ερωτήσεις τους τόσο μέσω ενός συστήματος RAG όσο και ενός συμβατικού μηχανισμού αναζήτησης (σε αυτή την περίπτωση, Google).
Τα τρία συστήματα απάντησης – You Chat, Bing Copilot και Perplexity – επιλέχθηκαν επειδή είναι δημόσια προσβάσιμα.
Η πλειοψηφία των συμμετεχόντων ήταν ήδη χρήστες συστημάτων RAG, σε διάφορες συχνότητες.
Λόγω περιορισμών χώρου, δεν μπορούμε να αναλύσουμε κάθε μια από τις 16 κρίσιμες ελαττώματα που βρέθηκαν στη μελέτη, αλλά παρουσιάζουμε μια επιλογή από κάποια από τα πιο ενδιαφέροντα και ενημερωτικά παραδείγματα.
Ελλειψη αντικειμενικών λεπτομερειών
Το έγγραφο σημειώνει ότι οι χρήστες βρήκαν τις απαντήσεις του συστήματος συχνά να λείπουν αντικειμενικών λεπτομερειών, τόσο στις фактиικές όσο και στις υποκειμενικές απαντήσεις. Ένας σχολίασε:
‘Προσπάθησε απλώς να απαντήσει χωρίς να μου δώσει μια στερεή απάντηση ή μια πιο σκεπασμένη απάντηση, η οποία μπορώ να την πάρω με πολλές αναζητήσεις στο Google.’
Ένας άλλος παρατήρησε:
‘Είναι πολύ σύντομο και απλώς συνοψίζει τα πάντα πολύ. [Το μοντέλο] πρέπει να μου δώσει περισσότερα δεδομένα για την αξίωση, αλλά είναι πολύ συνοψισμένο.’
Ελλειψη ολιστικής άποψης
Οι συγγραφείς εκφράζουν ανησυχία σχετικά με την έλλειψη νюανς και ειδικότητας, και δηλώνουν ότι τα συστήματα απάντησης συχνά δεν παρουσιάζουν πολλές προοπτικές σε οποιαδήποτε επιχείρημα, τείνοντας να συμφωνούν με μια αντιλαμβανόμενη προκατάληψη που υπονοείται από τον τρόπο που ο χρήστης διατυπώνει την ερώτησή του.
Ένας συμμετέχων είπε:
‘Θέλω να μάθω περισσότερα για την άλλη πλευρά του επιχειρήματος… αυτό είναι όλα με μια πινέλα αλατιού επειδή δεν γνωρίζουμε την άλλη πλευρά και τα στοιχεία και τα γεγονότα.’
Ένας άλλος σχολίασε:
‘Δεν μου δίνει και τις δύο πλευρές του επιχειρήματος. Δεν μου επιτρέπει να διαφωνήσω. Αντίθετα, [το μοντέλο] μου λέει απλώς ότι “είσαι σωστός… και εδώ είναι οι λόγοι για τους οποίους”.’
Αυτοπεποίθηση γλώσσα
Οι συγγραφείς παρατηρούν ότι όλα τα τρία δοκιμασμένα συστήματα παρουσίασαν χρήση υπερβολικά αυτοπεποίθησης γλώσσας, ακόμη και για απαντήσεις που καλύπτουν υποκειμενικά θέματα. Υποστηρίζουν ότι αυτό το ύφος θα τείνει να εμπνεύσει αδικαιολόγητη αυτοπεποίθηση στην απάντηση.
Ένας συμμετέχων σημείωσε:
‘Γράφει τόσο αυτοπεποίθηση, που νιώθω πεισμένος χωρίς να κοιτάξω ακόμη την πηγή. Αλλά όταν κοιτάξεις την πηγή, είναι κακή και αυτό με κάνει να την αμφισβήτησω ξανά.’
Ένας άλλος σχολίασε:
‘Εάν κάποιος δεν ξέρει ακριβώς τη σωστή απάντηση, θα εμπιστευτεί αυτήν την απάντηση ακόμη και όταν είναι λάθος.’
Λάθος αναφορές
Ένα άλλο συχνό πρόβλημα ήταν η λάθος αναφορά πηγών που αναφέρονται ως εξουσία για τις απαντήσεις των συστημάτων RAG, με έναν από τους συμμετέχοντες να δηλώνει:
‘Αυτή η δήλωση δεν φαίνεται να είναι στην πηγή. Νομίζω ότι η δήλωση είναι αληθινή, είναι έγκυρη… αλλά δεν ξέρω από πού παίρνει αυτή την πληροφορία.’
Οι συγγραφείς του νέου εγγράφου σχολιάζουν †:
‘Οι συμμετέχοντες ένιωσαν ότι τα συστήματα χρησιμοποιούν αναφορές για να νομιμοποιήσουν την απάντησή τους, δημιουργώντας μια ψευδαίσθηση αξιοπιστίας. Αυτή η ψευδαίσθηση αποκαλύφθηκε μόνο σε quelques χρήστες που προχώρησαν να εξετάσουν τις πηγές.’
Επιλογή πληροφοριών για να ταιριάζουν στην ερώτηση
Επιστρέφοντας στην έννοια της people-pleasing, sycophantic συμπεριφοράς στις απαντήσεις RAG, η μελέτη βρήκε ότι πολλές απαντήσεις τόνιζαν μια συγκεκριμένη άποψη αντί να συνοψίζουν ολοκληρωτικά το θέμα, όπως ένας συμμετέχων παρατήρησε:
‘Νιώθω [το σύστημα] είναι manipulative. Παίρνει μόνο κάποιες πληροφορίες και μου δίνει την εντύπωση ότι με χειραγωγεί για να δω μόνο μια πλευρά των πραγμάτων.’
Ένας άλλος σχολίασε:
‘[Η πηγή] έχει και τα δύο, τα πλεονεκτήματα και τα μειονεκτήματα, και έχει επιλέξει να πάρει μόνο τα απαραίτητα επιχειρήματα από αυτόν τον σύνδεσμο χωρίς την ολοκληρωμένη εικόνα.’
Για περαιτέρω παραδείγματα (και πολλαπλά κρίσιμα παραθέματα από τους συμμετέχοντες της μελέτης), παραπέμπουμε τον αναγνώστη στο αρχικό έγγραφο.
Αυτοματοποιημένο RAG
Στη δεύτερη φάση της ευρύτερης μελέτης, οι ερευνητές χρησιμοποίησαν browser-ελέγχου σουίτες για να ζητήσουν συστηματικά ερωτήσεις από τα τρία μελετημένα συστήματα RAG. Στη συνέχεια, χρησιμοποίησαν ένα σύστημα LLM (GPT-4o) για να αναλύσουν τις απαντήσεις του συστήματος.
Οι δηλώσεις αναλύθηκαν για ερώτηση σχετικότητας και Δηλώσεις για και κατά (δηλ. αν η απάντηση είναι για, κατά, ή ουδέτερη, σε σχέση με την προκατάληψη της ερώτησης).
Ένας Δείκτης αυτοπεποίθησης απάντησης αξιολογήθηκε επίσης σε αυτήν την αυτοματοποιημένη φάση, με βάση τη Likert κλίμακα ψυχομετρικού ελέγχου. Εδώ, ο κριτής LLM ενισχύθηκε από δύο ανθρώπινους annotators.
Μια τρίτη λειτουργία περιελάμβανε τη χρήση web-scraping για να ληφθούν τα πλήρη κείμενα των αναφερόμενων ιστοσελίδων, μέσω του εργαλείου Jina.ai Reader. Ωστόσο, όπως σημειώνεται αλλού στο έγγραφο, τα περισσότερα εργαλεία web-scraping δεν είναι σε θέση ναเขτάξουν paywalled sites περισσότερο από τους περισσότερους ανθρώπους (αν και οι συγγραφείς παρατηρούν ότι η Perplexity.ai έχει γνωστό να παρακάμψει αυτό το εμπόδιο).
Πρόσθετες σκέψεις ήταν εάν οι απαντήσεις ανέφεραν μια πηγή (υπολογισμένη ως “πίνακας αναφορών”), καθώς και ένας “πίνακας υποστήριξης фактиσμού” – ένας δείκτης που επικυρώθηκε με τη βοήθεια τεσσάρων ανθρώπινων annotators.
Έτσι, 8 υπερκατηγορίες μετρήσεων αποκτήθηκαν: απάντηση με μια πλευρά; αυτοπεποίθηση απάντησης; σχετική δήλωση; απαντήσεις χωρίς αναφορά; απαντήσεις χωρίς υποστήριξη; απαραίτητη πηγή; ακρίβεια αναφοράς; και πεπρωμένη ακρίβεια.
Το υλικό με το οποίο αυτές οι μετρήσεις δοκιμάστηκαν αποτελούσε 303 κατηγοριοποιημένες ερωτήσεις από τη φάση της μελέτης των χρηστών, με αποτέλεσμα 909 απαντήσεις σε όλα τα τρία δοκιμασμένα συστήματα.

Ποσοτική αξιολόγηση των τριών μελετημένων συστημάτων RAG, με βάση οκτώ μετρήσεις.
Σχετικά με τα αποτελέσματα, το έγγραφο αναφέρει:
‘Κοιτάζοντας τις τρεις μετρήσεις που σχετίζονται με το κείμενο της απάντησης, βρήκαμε ότι όλα τα συστήματα απάντησης που αξιολογήθηκαν συχνά (50-80%) γεννούν απαντήσεις με μια πλευρά, που ευνοούν τη συμφωνία με μια φορτισμένη διατύπωση μιας ερώτησης συζήτησης hơn από την παρουσίαση πολλών προοπτικών στην απάντηση, με την Perplexity να εκτελεί χειρότερα από τα άλλα δύο συστήματα.’
‘Αυτό το εύρημα συμφωνεί με [τα ευρήματα] των ποιοτικών μας αποτελεσμάτων. Παραδόξως, αν και η Perplexity είναι πιο πιθανό να γεννήσει μια απάντηση με μια πλευρά, επίσης γεννά τις μακρύτερες απαντήσεις (18,8 δηλώσεις ανά απάντηση κατά μέσο όρο), υποδεικνύοντας ότι η έλλειψη ποικιλίας στην απάντηση δεν οφείλεται στην απάντηση της σύντομης διάρκειας.
‘Με άλλα λόγια, η αύξηση του μήκους της απάντησης δεν βελτιώνει απαραίτητα την ποικιλία της απάντησης.’
Οι συγγραφείς επίσης σημειώνουν ότι η Perplexity είναι πιο πιθανό να χρησιμοποιήσει αυτοπεποίθηση γλώσσα (90% των απαντήσεων), και ότι, αντίθετα, τα άλλα δύο συστήματα τείνουν να χρησιμοποιήσουν πιο προσεκτική και λιγότερο αυτοπεποίθηση γλώσσα όπου υποκειμενικό περιεχόμενο είναι σε παίκτη.
Το You Chat ήταν το μόνο πλαίσιο RAG που πέτυχε να μηδενίσει τις απαντήσεις χωρίς αναφορά, με την Perplexity στο 8% και το Bing Chat στο 36%.
Όλα τα μοντέλα έδειξαν “σημαντική αναλογία” απαντήσεων χωρίς υποστήριξη, και το έγγραφο δηλώνει†:
‘Το πλαίσιο RAG διαφημίζεται ως λύση για την hallucinatory συμπεριφορά των LLM, που επιβάλλει ότι ένα LLM γεννήσει μια απάντηση που βασίζεται σε έγγραφα πηγής, αλλά τα αποτελέσματα δείχνουν ότι τα συστήματα απάντησης RAG vẫn генνούν απαντήσεις που περιέχουν μεγάλο ποσοστό δηλώσεων χωρίς υποστήριξη από τις πηγές που παρέχουν.‘
Επιπλέον, όλα τα δοκιμασμένα συστήματα είχαν δυσκολία να υποστηρίξουν τις δηλώσεις τους με αναφορές:
‘You.Com και [Bing Chat] εκτελούνται ελαφρώς καλύτερα από την Perplexity, με περίπου δύο τρίτα των αναφορών που δείχνουν σε μια πηγή που υποστηρίζει τη δηλωμένη δήλωση, και η Perplexity εκτελεί χειρότερα με πάνω από το μισό των αναφορών της να είναι ανακριβείς.
‘Αυτό το αποτέλεσμα είναι आश्चαρωτικό: η αναφορά δεν είναι μόνο ανακριβής για δηλώσεις που δεν υποστηρίζονται από καμία (πηγή), αλλά βρήκαμε ότι ακόμη και όταν υπάρχει μια πηγή που υποστηρίζει μια δήλωση, όλα τα συστήματα ακόμη συχνά αναφέρουν μια διαφορετική ανακριβή πηγή, χάνοντας την ευκαιρία να παρέχουν σωστή πληροφορία πηγής στο χρήστη.
‘Με άλλα λόγια, η hallucinatory συμπεριφορά δεν εκδηλώνεται μόνο σε δηλώσεις που δεν υποστηρίζονται από τις πηγές, αλλά επίσης σε ανακριβείς αναφορές που εμποδίζουν τους χρήστες να ελέγξουν την εγκυρότητα της πληροφορίας.‘
Οι συγγραφείς καταλήγουν:
‘Κανένα από τα συστήματα απάντησης δεν επιτύχει καλή απόδοση σε большин των μετρήσεων, υπογραμμίζοντας τον μεγάλο χώρο για βελτίωση στα συστήματα απάντησης.’
* Η μετατροπή των εσωτερικών αναφορών των συγγραφέων σε υπερσυνδέσμους. Όπου ήταν απαραίτητο, επέλεξα την πρώτη από πολλές αναφορές για τον υπερσύνδεσμο, λόγω πρακτικών προβλημάτων μορφοποίησης.
† Τονισμός των συγγραφέων, όχι δικός μου.
Πρώτη δημοσίευση την Δευτέρα, 4 Νοεμβρίου 2024










