Τεχνητή νοημοσύνη
Less Is More: Γιατί η ανάκτηση λιγότερων εγγράφων μπορεί να βελτιώσει τις απαντήσεις AI

Ανάκτηση-αυξημένη γενιά (RAG) είναι μια προσέγγιση για την κατασκευή συστημάτων AI που συνδυάζει ένα γλωσσικό μοντέλο με μια εξωτερική πηγή γνώσης. Με απλά λόγια, το AI αναζητά πρώτα σχετικά έγγραφα (όπως άρθρα ή ιστοσελίδες) που σχετίζονται με το ερώτημα ενός χρήστη και στη συνέχεια χρησιμοποιεί αυτά τα έγγραφα για να δημιουργήσει μια πιο ακριβή απάντηση. Αυτή η μέθοδος έχει αναγνωριστεί για τη βοήθεια μεγάλα γλωσσικά μοντέλα (LLM) παραμείνετε πραγματικοί και μειώστε τις παραισθήσεις στηρίζοντας τις απαντήσεις τους σε πραγματικά δεδομένα.
Διαισθητικά, μπορεί κανείς να σκεφτεί ότι όσο περισσότερα έγγραφα ανακτά ένα AI, τόσο καλύτερα ενημερωμένη θα είναι η απάντησή του. Ωστόσο, πρόσφατη έρευνα προτείνει μια εκπληκτική ανατροπή: όταν πρόκειται για την παροχή πληροφοριών σε μια τεχνητή νοημοσύνη, μερικές φορές λιγότερο είναι περισσότερο.
Λιγότερα έγγραφα, καλύτερες απαντήσεις
A νέα μελέτη από ερευνητές στο Εβραϊκό Πανεπιστήμιο της Ιερουσαλήμ διερεύνησαν πώς το αριθμός των εγγράφων που δίνονται σε ένα σύστημα RAG επηρεάζει την απόδοσή του. Κυρίως, διατήρησαν σταθερό τη συνολική ποσότητα κειμένου – που σημαίνει ότι εάν παρείχαν λιγότερα έγγραφα, αυτά τα έγγραφα διευρύνονταν ελαφρώς ώστε να έχουν το ίδιο μήκος με πολλά έγγραφα. Με αυτόν τον τρόπο, τυχόν διαφορές απόδοσης θα μπορούσαν να αποδοθούν στην ποσότητα των εγγράφων και όχι απλώς στη συντομότερη εισαγωγή.
Οι ερευνητές χρησιμοποίησαν ένα σύνολο δεδομένων απάντησης ερωτήσεων (MuSiQue) με ερωτήσεις trivia, καθεμία αρχικά σε συνδυασμό με 20 παραγράφους της Wikipedia (μόνο μερικές από τις οποίες περιέχουν στην πραγματικότητα την απάντηση, με τις υπόλοιπες να αποσπούν την προσοχή). Μειώνοντας τον αριθμό των εγγράφων από 20 σε μόλις 2-4 πραγματικά σχετικά – και συμπληρώνοντας αυτά με λίγο επιπλέον πλαίσιο για να διατηρηθεί μια σταθερή έκταση – δημιούργησαν σενάρια όπου η τεχνητή νοημοσύνη είχε λιγότερα κομμάτια υλικού για εξέταση, αλλά και πάλι τις ίδιες περίπου λέξεις προς ανάγνωση.
Τα αποτελέσματα ήταν εντυπωσιακά. Στις περισσότερες περιπτώσεις, τα μοντέλα AI απάντησαν με μεγαλύτερη ακρίβεια όταν τους δόθηκαν λιγότερα έγγραφα παρά το πλήρες σετ. Η απόδοση βελτιώθηκε σημαντικά – σε ορισμένες περιπτώσεις έως και 10% στην ακρίβεια (βαθμολογία F1) όταν το σύστημα χρησιμοποίησε μόνο τα λίγα δικαιολογητικά αντί για μια μεγάλη συλλογή. Αυτή η αντίθετη ώθηση παρατηρήθηκε σε πολλά διαφορετικά μοντέλα γλώσσας ανοιχτού κώδικα, συμπεριλαμβανομένων παραλλαγών του Meta's Llama και άλλων, υποδεικνύοντας ότι το φαινόμενο δεν συνδέεται με ένα μόνο μοντέλο τεχνητής νοημοσύνης.
Ένα μοντέλο (Qwen-2) ήταν μια αξιοσημείωτη εξαίρεση που χειριζόταν πολλά έγγραφα χωρίς πτώση στη βαθμολογία, αλλά σχεδόν όλα τα δοκιμασμένα μοντέλα είχαν καλύτερη απόδοση με λιγότερα έγγραφα συνολικά. Με άλλα λόγια, η προσθήκη περισσότερου υλικού αναφοράς πέρα από τα βασικά σχετικά κομμάτια βλάπτει την απόδοσή τους πιο συχνά παρά βοήθησε.

Πηγή: Levy et al.
Γιατί είναι αυτή η έκπληξη; Συνήθως, τα συστήματα RAG σχεδιάζονται με την παραδοχή ότι η ανάκτηση μιας ευρύτερης δέσμης πληροφοριών μπορεί να βοηθήσει μόνο την τεχνητή νοημοσύνη – σε τελική ανάλυση, αν η απάντηση δεν βρίσκεται στα πρώτα έγγραφα, μπορεί να είναι στο δέκατο ή το εικοστό.
Αυτή η μελέτη ανατρέπει αυτό το σενάριο, αποδεικνύοντας ότι η αδιάκριτη συσσώρευση επιπλέον εγγράφων μπορεί να έχει μπούμερανγκ. Ακόμη και όταν το συνολικό μήκος του κειμένου διατηρήθηκε σταθερό, η απλή παρουσία πολλών διαφορετικών εγγράφων (το καθένα με το δικό του πλαίσιο και τις ιδιορρυθμίες του) έκανε την εργασία της απάντησης σε ερωτήσεις πιο δύσκολη για την τεχνητή νοημοσύνη. Φαίνεται ότι πέρα από ένα ορισμένο σημείο, κάθε πρόσθετο έγγραφο εισήγαγε περισσότερο θόρυβο παρά σήμα, μπερδεύοντας το μοντέλο και μειώνοντας την ικανότητά του να εξάγει τη σωστή απάντηση.
Γιατί Less Can Be More στο RAG
Αυτό το αποτέλεσμα «λιγότερο είναι περισσότερο» είναι λογικό αφού σκεφτούμε πώς τα μοντέλα γλώσσας AI επεξεργάζονται πληροφορίες. Όταν σε μια τεχνητή νοημοσύνη δίνονται μόνο τα πιο σχετικά έγγραφα, το πλαίσιο που βλέπει είναι εστιασμένο και απαλλαγμένο από περισπασμούς, όπως ένας μαθητής στον οποίο έχουν παραδοθεί ακριβώς οι κατάλληλες σελίδες για μελέτη.
Στη μελέτη, τα μοντέλα απέδωσαν σημαντικά καλύτερα όταν δόθηκαν μόνο τα δικαιολογητικά, με αφαίρεση άσχετου υλικού. Το υπόλοιπο πλαίσιο δεν ήταν μόνο πιο σύντομο αλλά και πιο καθαρό – περιείχε γεγονότα που έδειχναν άμεσα την απάντηση και τίποτα άλλο. Με λιγότερα έγγραφα για ταχυδακτυλουργία, το μοντέλο θα μπορούσε να αφιερώσει την πλήρη προσοχή του στις σχετικές πληροφορίες, καθιστώντας λιγότερο πιθανό να παραπλανηθεί ή να μπερδευτεί.
Από την άλλη πλευρά, όταν ανακτήθηκαν πολλά έγγραφα, η τεχνητή νοημοσύνη έπρεπε να εξετάσει ένα μείγμα σχετικού και άσχετου περιεχομένου. Συχνά αυτά τα επιπλέον έγγραφα ήταν «παρόμοια αλλά άσχετα» – μπορεί να μοιράζονται ένα θέμα ή λέξεις-κλειδιά με το ερώτημα, αλλά στην πραγματικότητα να μην περιέχουν την απάντηση. Ένα τέτοιο περιεχόμενο μπορεί να παραπλανήσει το μοντέλο. Η τεχνητή νοημοσύνη μπορεί να σπαταλήσει προσπάθεια προσπαθώντας να συνδέσει κουκκίδες σε έγγραφα που στην πραγματικότητα δεν οδηγούν σε σωστή απάντηση, ή χειρότερα, μπορεί να συγχωνεύσει εσφαλμένα πληροφορίες από πολλές πηγές. Αυτό αυξάνει τον κίνδυνο παραισθήσεων – περιπτώσεις όπου η τεχνητή νοημοσύνη δημιουργεί μια απάντηση που ακούγεται εύλογη αλλά δεν βασίζεται σε καμία πηγή.
Ουσιαστικά, η τροφοδοσία πολλών εγγράφων στο μοντέλο μπορεί να μειώσει τις χρήσιμες πληροφορίες και να εισάγει αντικρουόμενες λεπτομέρειες, καθιστώντας πιο δύσκολο για την τεχνητή νοημοσύνη να αποφασίσει τι είναι αλήθεια.
Είναι ενδιαφέρον ότι οι ερευνητές διαπίστωσαν ότι εάν τα επιπλέον έγγραφα ήταν προφανώς άσχετα (για παράδειγμα, τυχαίο άσχετο κείμενο), τα μοντέλα ήταν καλύτερα να τα αγνοήσουν. Το πραγματικό πρόβλημα προέρχεται από δεδομένα που αποσπούν την προσοχή που φαίνονται σχετικά: όταν όλα τα ανακτημένα κείμενα αφορούν παρόμοια θέματα, η τεχνητή νοημοσύνη υποθέτει ότι θα πρέπει να τα χρησιμοποιήσει όλα και μπορεί να δυσκολεύεται να πει ποιες λεπτομέρειες είναι πραγματικά σημαντικές. Αυτό ευθυγραμμίζεται με την παρατήρηση της μελέτης ότι Οι τυχαίοι διασπαστές προκάλεσαν λιγότερη σύγχυση από ό,τι οι ρεαλιστικοί αποσπούν την προσοχή στην είσοδο. Η τεχνητή νοημοσύνη μπορεί να φιλτράρει κραυγαλέα ανοησίες, αλλά οι ανεπαίσθητες πληροφορίες εκτός θέματος είναι μια γλαφυρή παγίδα – εισχωρεί κρυφά με το πρόσχημα της συνάφειας και εκτροχιάζει την απάντηση. Μειώνοντας τον αριθμό των εγγράφων μόνο στα πραγματικά απαραίτητα, αποφεύγουμε να τοποθετήσουμε αυτές τις παγίδες εξαρχής.
Υπάρχει επίσης ένα πρακτικό όφελος: η ανάκτηση και η επεξεργασία λιγότερων εγγράφων μειώνει την υπολογιστική επιβάρυνση για ένα σύστημα RAG. Κάθε έγγραφο που τραβιέται πρέπει να αναλυθεί (ενσωματωθεί, διαβάσει και παρακολουθήσει το μοντέλο), το οποίο χρησιμοποιεί χρόνο και υπολογιστικούς πόρους. Η εξάλειψη των περιττών εγγράφων καθιστά το σύστημα πιο αποτελεσματικό – μπορεί να βρει απαντήσεις πιο γρήγορα και με χαμηλότερο κόστος. Σε σενάρια όπου η ακρίβεια βελτιώθηκε εστιάζοντας σε λιγότερες πηγές, έχουμε ένα win-win: καλύτερες απαντήσεις και μια πιο λιτή, πιο αποτελεσματική διαδικασία.

Πηγή: Levy et al.
Επανεξετάζοντας το RAG: Future Directions
Αυτή η νέα απόδειξη ότι η ποιότητα συχνά ξεπερνά την ποσότητα στην ανάκτηση έχει σημαντικές επιπτώσεις για το μέλλον των συστημάτων τεχνητής νοημοσύνης που βασίζονται στην εξωτερική γνώση. Προτείνει ότι οι σχεδιαστές συστημάτων RAG θα πρέπει να δίνουν προτεραιότητα στο έξυπνο φιλτράρισμα και την κατάταξη των εγγράφων σε σχέση με τον τεράστιο όγκο. Αντί να φέρετε 100 πιθανά αποσπάσματα και να ελπίζετε ότι η απάντηση είναι θαμμένη κάπου εκεί, ίσως είναι πιο σοφό να φέρετε μόνο τα κορυφαία πολύ σχετικά.
Οι συγγραφείς της μελέτης τονίζουν την ανάγκη για μεθόδους ανάκτησης για να «επιτυγχάνουν μια ισορροπία μεταξύ συνάφειας και διαφορετικότητας» στις πληροφορίες που παρέχουν σε ένα μοντέλο. Με άλλα λόγια, θέλουμε να παρέχουμε αρκετή κάλυψη του θέματος για να απαντήσουμε στην ερώτηση, αλλά όχι τόσο ώστε τα βασικά γεγονότα να πνίγονται σε μια θάλασσα ξένου κειμένου.
Προχωρώντας προς τα εμπρός, οι ερευνητές είναι πιθανό να εξερευνήσουν τεχνικές που βοηθούν τα μοντέλα τεχνητής νοημοσύνης να χειρίζονται πολλαπλά έγγραφα με μεγαλύτερη χάρη. Μια προσέγγιση είναι η ανάπτυξη καλύτερων συστημάτων ανάκτησης ή ανακατατάξεων που μπορούν να προσδιορίσουν ποια έγγραφα προσθέτουν πραγματικά αξία και ποια εισάγουν μόνο σύγκρουση. Μια άλλη οπτική γωνία είναι η βελτίωση των ίδιων των γλωσσικών μοντέλων: εάν ένα μοντέλο (όπως το Qwen-2) κατάφερε να αντιμετωπίσει πολλά έγγραφα χωρίς να χάσει την ακρίβεια, η εξέταση του τρόπου εκπαίδευσης ή δομής του θα μπορούσε να προσφέρει ενδείξεις για να γίνουν άλλα μοντέλα πιο ισχυρά. Ίσως τα μελλοντικά μεγάλα γλωσσικά μοντέλα θα ενσωματώσουν μηχανισμούς για να αναγνωρίζουν πότε δύο πηγές λένε το ίδιο πράγμα (ή έρχονται σε αντίθεση μεταξύ τους) και να εστιάζουν ανάλογα. Ο στόχος θα ήταν να επιτραπεί στα μοντέλα να χρησιμοποιήσουν μια πλούσια ποικιλία πηγών χωρίς να πέσουν θύματα σύγχυσης – να πάρουν αποτελεσματικά το καλύτερο και από τους δύο κόσμους (εύρος πληροφοριών και σαφήνεια εστίασης).
Αξίζει επίσης να σημειωθεί ότι καθώς Τα συστήματα AI αποκτούν μεγαλύτερα παράθυρα περιβάλλοντος (η δυνατότητα ανάγνωσης περισσότερων κειμένων ταυτόχρονα), η απλή απόρριψη περισσότερων δεδομένων στην προτροπή δεν είναι ασήμαντη κουκκίδα. Μεγαλύτερο πλαίσιο δεν σημαίνει αυτόματα καλύτερη κατανόηση. Αυτή η μελέτη δείχνει ότι ακόμα κι αν μια τεχνητή νοημοσύνη μπορεί τεχνικά να διαβάσει 50 σελίδες κάθε φορά, η παροχή 50 σελίδων πληροφοριών μικτής ποιότητας μπορεί να μην έχει καλό αποτέλεσμα. Το μοντέλο εξακολουθεί να επωφελείται από το ότι έχει επιμελημένο, σχετικό περιεχόμενο για να δουλέψει, παρά από μια αδιάκριτη χωματερή. Στην πραγματικότητα, η έξυπνη ανάκτηση μπορεί να γίνει ακόμη πιο σημαντική στην εποχή των γιγάντων παραθύρων περιβάλλοντος – για να διασφαλιστεί ότι η επιπλέον χωρητικότητα χρησιμοποιείται για πολύτιμες γνώσεις και όχι για θόρυβο.
Τα ευρήματα από “Περισσότερα έγγραφα, ίδιο μήκος” (η εργασία με εύστοχα τίτλο) ενθαρρύνει την επανεξέταση των υποθέσεων μας στην έρευνα της τεχνητής νοημοσύνης. Μερικές φορές, η τροφοδοσία ενός AI με όλα τα δεδομένα που έχουμε δεν είναι τόσο αποτελεσματική όσο νομίζουμε. Εστιάζοντας στις πιο σχετικές πληροφορίες, όχι μόνο βελτιώνουμε την ακρίβεια των απαντήσεων που δημιουργούνται από την τεχνητή νοημοσύνη, αλλά και κάνουμε τα συστήματα πιο αποτελεσματικά και πιο εύκολα στην εμπιστοσύνη. Είναι ένα άγνωστο μάθημα, αλλά με συναρπαστικές προεκτάσεις: τα μελλοντικά συστήματα RAG μπορεί να είναι και πιο έξυπνα και πιο λιτά επιλέγοντας προσεκτικά λιγότερα, καλύτερα έγγραφα για ανάκτηση.