Prompt engineering

Αντιμετώπιση των παραισθήσεων στα Μεγάλα Μοντέλα Γλώσσας: Μια Επισκόπηση των Τελευταίων Τεχνικών

Published January 19, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Τα μεγάλα μοντέλα γλώσσας (LLMs) όπως το GPT-4, PaLM και Llama έχουν ξεκλειδώσει εξαιρετικές προόδους στις ικανότητες γεννήσεων φυσικής γλώσσας. Ωστόσο, μια διαρκή πρόκληση που περιορίζει την αξιοπιστία και την ασφαλή ανάπτυξή τους είναι η τάση τους να παραισθάνονται – να παράγουν περιεχόμενο που φαίνεται συνεκτικό αλλά είναι faktually λανθασμένο ή αδικαιολόγητο από το контекστό εισόδου.

Καθώς τα LLMs συνεχίζουν να μεγαλώνουν σε δύναμη και να γίνονται πιο πανταχού παρόντα σε πραγματικές εφαρμογές, η αντιμετώπιση των παραισθήσεων γίνεται απαραίτητη. Αυτό το άρθρο παρέχει μια綜οδική επισκόπηση των τελευταίων τεχνικών που έχουν εισαχθεί από ερευνητές για την ανίχνευση, ποσοτικοποίηση και μείωση των παραισθήσεων στα LLMs.

Κατανόηση των Παραισθήσεων στα LLMs

Η παραισθήση αναφέρεται σε фактиικές ανακρίβειες ή κατασκευές που παράγονται από τα LLMs και δεν βασίζονται στη πραγματικότητα ή στο контекστό που παρέχεται. Ορισμένα παραδείγματα περιλαμβάνουν:

Εφεύρεση βιογραφικών λεπτομερειών ή συμβάντων που δεν τεκμηριώνονται σε πηγές υλικού όταν παράγεται κείμενο για ένα πρόσωπο.
Παροχή ελαττωματικών ιατρικών συμβουλών με την κατασκευή παρενέργειων φαρμάκων ή διαδικασιών θεραπείας.
Συσκέψη μη υπαρχουσών δεδομένων, μελετών ή πηγών για την υποστήριξη μιας αξίωσης.

Το φαινόμενο αυτό προκύπτει επειδή τα LLMs εκπαιδεύονται σε τεράστιες ποσότητες διαδικτυακού κειμένου. Ενώ αυτό τους επιτρέπει να αποκτήσουν ισχυρές ικανότητες μοντελοποίησης γλώσσας, σημαίνει επίσης ότι μαθαίνουν να εξαγάγουν πληροφορίες, να κάνουν λογικές υπερβάσεις και να γεμίσουν κενά με τρόπο που φαίνεται πειστικός αλλά μπορεί να είναι παραπλανητικός ή λανθασμένος.

Ορισμένα βασικά στοιχεία που ευθύνονται για τις παραισθήσεις περιλαμβάνουν:

Γενίκευση προτύπων – Τα LLMs αναγνωρίζουν και επεκτείνουν πρότυπα στα δεδομένα εκπαίδευσης που μπορεί να μην γενικευτούν καλά.
Παλιά γνώση – Η στατική προ-εκπαίδευση εμποδίζει την ενσωμάτωση νέων πληροφοριών.
Αμφισημία – Ασαφείς προτροπές επιτρέπουν χώρο για λανθασμένες υποθέσεις.
Συμπαράκτηση – Τα μοντέλα διαιωνίζουν και ενισχύουν τις προκατειλημμένες προοπτικές.
Ανεπαρκής εναρμόνιση – Η έλλειψη κατανόησης και συλλογισμού σημαίνει ότι τα μοντέλα παράγουν περιεχόμενο που δεν κατανοούν πλήρως.

Η αντιμετώπιση των παραισθήσεων είναι κρίσιμη για την αξιοπιστία και την ασφαλή ανάπτυξη σε ευαίσθητες περιοχές όπως η ιατρική, ο νόμος, η οικονομία και η εκπαίδευση, όπου η παραγωγή λανθασμένων πληροφοριών μπορεί να οδηγήσει σε ζημιά.

Ταξινόμηση Τεχνικών Αντιμετώπισης Parrαισθήσεων

Οι ερευνητές έχουν εισαγάγει διάφορες τεχνικές για την καταπολέμηση των παραισθήσεων στα LLMs, οι οποίες μπορούν να ταξινομηθούν σε:

1. Μηχανική Προτροπής

Αυτό περιλαμβάνει την προσεκτική κατασκευή προτροπών για την παροχή контекστού και την οδήγηση του LLM προς πραγματικές και εναρμονισμένες απαντήσεις.

Επίκτηση αναπτύξεως – Ανακτώντας εξωτερικές αποδείξεις για την εναρμόνιση του περιεχομένου.
Βρόχοι ανατροφής – Παρέχοντας ανατροφοδότηση για την βελτίωση των απαντήσεων.
Ρύθμιση προτροπής – Ρυθμίζοντας τις προτροπές κατά τη διάρκεια της εκπαίδευσης για επιθυμητές συμπεριφορές.

2. Ανάπτυξη Μοντέλου

Δημιουργία μοντέλων που είναι εγγενώς λιγότερο ευάλωτα σε παραισθήσεις μέσω αρχιτεκτονικών αλλαγών.

Στρατηγικές αποκωδικοποίησης – Παραγωγή κειμένου με τρόπους που αυξάνουν την πιστότητα.
Εναρμόνιση γνώσης – Ενσωμάτωση εξωτερικών βάσεων γνώσης.
Νέες συναρτήσεις απώλειας – Βελτιστοποίηση για πιστότητα κατά τη διάρκεια της εκπαίδευσης.
Επικουρική εκπαίδευση – Χρήση ανθρώπινων ετικετών δεδομένων για την ενίσχυση της πραγματικότητας.

Επόμενο, επιθεωρούμε τις εξέχουσες τεχνικές κάτω από κάθε προσέγγιση.

Εξέχουσες Τεχνικές Αντιμετώπισης Parrαισθήσεων

Επίκτηση Αναπτύξεως

Η επίκτηση αναπτύξεως ενισχύει τα LLMs ανακτώντας και συνδέοντας την παραγωγή κειμένου με εξωτερικές αποδείξεις, αντί να βασίζεται αποκλειστικά στη σιωπηρή γνώση του μοντέλου. Αυτό εναρμονίζει το περιεχόμενο με ενημερωμένες, επαλήθευτες πληροφορίες, μειώνοντας τις παραισθήσεις.

Εξέχουσες τεχνικές περιλαμβάνουν:

RAG – Χρήση eines ανακτόρα που παρέχει σχετικές περικοπές για ένα μοντέλο seq2seq να γεννήσει από. Και τα δύο συστατικά εκπαιδεύονται σε σύνολο.
RARR – Απασχολεί LLMs για έρευνα ανεπίσημων αξιώσεων στο γεννημένο κείμενο και αναθεωρεί τις για να συμμορφωθούν με τις ανακτημένες αποδείξεις.
Επίκτηση Γνώσης – Επιβεβαιώνει τις αμφιβολίες γεννήσεων χρησιμοποιώντας ανακτημένες γνώσεις πριν από την παραγωγή κειμένου.
LLM-Augmenter – Αναζητάει επαναληπτικά γνώσεις για την κατασκευή αλυσίδων αποδείξεων για προτροπές LLM.

Ανατροφοδότηση και Συλλογισμός

Η利用ητική ανατροφοδότηση ή ο αυτο-συλλογισμός επιτρέπει στα LLMs να βελτιώσουν και να αναθεωρήσουν τις αρχικές εξόδους τους, μειώνοντας τις παραισθήσεις.

CoVe χρησιμοποιεί μια τεχνική αλυσίδας επαλήθευσης. Το LLM πρώτα διατυπώνει μια απάντηση στην ερώτηση του χρήστη. Στη συνέχεια, γεννάει πιθανές ερωτήσεις επαλήθευσης για να ελέγξει την απάντησή του, βασισμένο στη σιγουριά του σε διάφορες δηλώσεις που έγιναν. Για παράδειγμα, για μια απάντηση που περιγράφει μια νέα ιατρική θεραπεία, το CoVe μπορεί να γεννήσει ερωτήσεις όπως “Τι είναι ο βαθμός αποτελεσματικότητας της θεραπείας;”, “Έχει λάβει ρυθμιστική έγκριση;”, “Ποίες είναι οι πιθανές παρενέργειες;”. Κρίσιμο, το σύστημα στη συνέχεια προσπαθεί να απαντήσει αυτές τις ερωτήσεις επαλήθευσης ανεξάρτητα από την αρχική απάντησή του. Αν οι απαντήσεις στις ερωτήσεις επαλήθευσης αντίρρησαν ή δεν μπορούσαν να υποστηρίξουν δηλώσεις στην αρχική απάντηση, το σύστημα αναγνωρίζει αυτές ως πιθανές παραισθήσεις και αναθεωρεί την απάντηση πριν την παρουσιάσει στον χρήστη.

DRESS εστιάζει στην ρύθμιση των LLMs για να συμμορφωθούν καλύτερα με τις ανθρώπινες προτιμήσεις μέσω φυσικής γλώσσας ανατροφοδότησης. Η προσέγγιση επιτρέπει στους μη-ειδικούς χρήστες να παρέχουν ελεύθερες κριτικές για τις γεννήσεις του μοντέλου, όπως “Οι παρενέργειες που αναφέρθηκαν φαίνονται υπερβολικές” ή οδηγίες βελτίωσης όπως “Παρακαλώ, συζητήστε επίσης την οικονομική αποτελεσματικότητα”. Το DRESS χρησιμοποιεί ενισχυτική μάθηση για να εκπαιδεύσει τα μοντέλα να γεννήσουν απαντήσεις που συνδέονται με τέτοιες ανατροφοδότησεις που συμμορφώνονται καλύτερα με τις ανθρώπινες προτιμήσεις. Αυτό βελτιώνει την αλληλεπίδραση ενώ μειώνει τις μη-πραγματικές ή ατελείς δηλώσεις.

MixAlign αντιμετωπίζει τις περιπτώσεις όπου οι χρήστες κάνουν ερωτήσεις που δεν αντιστοιχούν απευθείας με τις περικοπές που ανακτώνται από το σύστημα. Για παράδειγμα, ένας χρήστης μπορεί να ρωτήσει “Θα χειροτερέψει η ρύπανση στην Κίνα;” ενώ οι ανακτημένες περικοπές συζητούν τις τάσεις ρύπανσης παγκοσμίως. Για να αποφευχθεί η παραισθήση με ελλιπή контекστό, το MixAlign εξηγήσει ρητά στον χρήστη όταν είναι αβέβαιο για το πώς να συσχετίσει την ερώτησή του με τις ανακτημένες πληροφορίες. Αυτή η ανθρώπινη-στο-βρόχο μηχανισμός επιτρέπει την απόκτηση ανατροφοδότησης για να εναρμονίσει και να δώσει контекστό στις αποδείξεις, αποτρέποντας αδικαιολόγητες απαντήσεις.

Η τεχνική Αυτο-Αναστοχασμός εκπαιδεύει τα LLMs να αξιολογούν, να παρέχουν ανατροφοδότηση και να αναθεωρούν τις δικές τους απαντήσεις χρησιμοποιώντας μια πολυ-εργασία. Για παράδειγμα, δεδομένης μιας απάντησης που γεννήθηκε για μια ιατρική ερώτηση, το μοντέλο μαθαίνει να βαθμολογεί την фактиτική ακρίβεια, να αναγνωρίζει τυχόν αντίθετες ή ατελείς δηλώσεις και να τις επεξεργάζεται ανακτώντας σχετικές γνώσεις. Διδάσκοντας τα LLMs αυτό το βρόχο ανατροφοδότησης για να ελέγξουν, να κριτικάρουν και να αναθεωρήσουν τις δικές τους εξόδους, η προσέγγιση μειώνει τις τυφλές παραισθήσεις.

Ρύθμιση Προτροπής

Η ρύθμιση προτροπής επιτρέπει την ρύθμιση των προτροπών που παρέχονται στα LLMs κατά τη διάρκεια της εκπαίδευσης για επιθυμητές συμπεριφορές.

Η μέθοδος SynTra χρησιμοποιεί μια συνθετική εργασία περίληψης για να ελαχιστοποιήσει τις παραισθήσεις πριν από τη μεταφορά του μοντέλου σε πραγματικές εργασίες περίληψης. Η συνθετική εργασία παρέχει εισαγωγικές περικοπές και ζητά από τα μοντέλα να τις περιλάβουν μέσω ανακτώντας μόνο, χωρίς αφαίρεση. Αυτό εκπαιδεύει τα μοντέλα να βασίζονται αποκλειστικά στο πηγή περιεχόμενο αντί να παραισθάνονται νέες πληροφορίες κατά τη διάρκεια της περίληψης. Η SynTra έχει δείξει ότι μειώνει τα προβλήματα παραισθήσεων όταν τα μοντέλα που έχουν εκπαιδευτεί μεταφέρονται σε στόχους εργασιών.

UPRISE εκπαιδεύει einen καθολικό ανακτόρα προτροπής που παρέχει την ιδανική μαλακή προτροπή για την εκπαίδευση σε λίγες ερωτήσεις σε μη-εμφανισμένες εργασίες. Ανακτώντας αποτελεσματικές προτροπές που έχουν ρυθμιστεί σε μια ποικιλία εργασιών, το μοντέλο μαθαίνει να γενικεύει και να προσαρμόζεται σε νέες εργασίες όπου λείπουν παραδείγματα εκπαίδευσης. Αυτό ενισχύει την απόδοση χωρίς να απαιτεί εργασία-ειδική ρύθμιση.

Νέες Αρχιτεκτονικές Μοντέλων

FLEEK είναι ένα σύστημα που επικεντρώνεται στην υποστήριξη ανθρώπινων ελεγκτών και επικυρωτών. Αυτόματα αναγνωρίζει πιθανές ελεγξιμές фактиικές αξίωσεις που γίνονται σε ένα δεδομένο κείμενο. Το FLEEK μετατρέπει αυτές τις αξίωσεις σε ερωτήσεις, ανακτά σχετικές αποδείξεις από βάσεις γνώσης και παρέχει αυτές τις πληροφορίες σε ανθρώπινους επικυρωτές για να επικυρώσουν αποτελεσματικά την ακρίβεια του εγγράφου και τις ανάγκες αναθεώρησης.

Η προσέγγιση CAD μειώνει τις παραισθήσεις στη γεννήση γλώσσας μέσω της συνειδητής αποκωδικοποίησης. Συγκεκριμένα, το CAD ενισχύει τις διαφορές μεταξύ της κατανομής εξόδου του LLM όταν συνδέεται με ένα контекστό έναντι της ανεξάρτητης γεννήσεως. Αυτό αποθαρρύνει την αντίρρηση του контεκστού αποδείξεων, οδηγώντας το μοντέλο προς εναρμονισμένες γεννήσεις.

DoLA μετριάζει τις фактиικές παραισθήσεις αντίθετα με τα λογαριασμούς από διαφορετικά στρώματα δικτύων μετασχηματισμού.既然 οι фактиικές γνώσεις τείνουν να είναι τοπικές σε ορισμένα μεσαία στρώματα, η ενίσχυση των σημάτων από αυτά τα στρώματα μέσω του DoLA μειώνει τις λανθασμένες фактиικές γεννήσεις.

Το THAM εισάγει einen όρο κανονικοποίησης κατά τη διάρκεια της εκπαίδευσης για να ελαχιστοποιήσει την αμοιβαία πληροφορία μεταξύ εισόδων και παραισθήσεων εξόδου. Αυτό βοηθά στην αύξηση της εξάρτησης του μοντέλου από το δεδομένο контекστό εισόδου αντί για την αδέσποτη φαντασία, μειώνοντας τις τυφλές παραισθήσεις.

Εναρμόνιση Γνώσης

Η εναρμόνιση των γεννήσεων LLM σε δομημένες γνώσεις αποτρέπει την αχαλίνωτη φαντασία και κατασκευή.

Το RHO μοντέλο αναγνωρίζει οντότητες σε einen διαλογικό контекστό και τις συνδέει με ένα γράφο γνώσης. Σχετικές πληροφορίες και σχέσεις για αυτές τις οντότητες ανακτώνται από τον γράφο γνώσης και συνδυάζονται στην αναπαράσταση контεκστού που παρέχεται στο LLM. Αυτή η γνώση-πλουσιότερη αναπαράσταση контεκστού οδηγεί τις απαντήσεις να παραμείνουν συνδεδεμένες με εναρμονισμένες фактиτικές πληροφορίες για τις αναφερόμενες οντότητες/γεγονότα.

HAR δημιουργεί συνθετικά δεδομένα εκπαίδευσης που περιέχουν παραισθήσεις μοντέλων για να διδάξει καλύτερα την εναρμόνιση. Δεδομένης μιας фактиικής περικοπής, τα μοντέλα προτρέπονται να εισαγάγουν παραισθήσεις ή να διαστρέψουν την περικοπή, δημιουργώντας μια μεταλλαγμένη αντί-πραγματικότητα. Η εκπαίδευση σε αυτά τα δεδομένα αναγκάζει τα μοντέλα να εναρμονίσουν το περιεχόμενο με τις αρχικές фактиικές πηγές, μειώνοντας την αυθαιρεσία.

Επικουρική Εκπαίδευση

Coach – Διαδραστικό πλαίσιο που απαντά σε ερωτήσεις χρηστών αλλά και ζητά διορθώσεις για βελτίωση.
R-Tuning – Αποφυγή-ειδημένη ρύθμιση που αρνείται τις ατελείς ερωτήσεις που αναγνωρίζονται μέσω των κενών γνώσης στα δεδομένα εκπαίδευσης.
TWEAK – Μέθοδος αποκωδικοποίησης που βαθμολογεί τις γεννήσεις με βάση το πόσο καλά υποστηρίζουν τις πραγματικές πληροφορίες εισόδου.

Προκλήσεις και Περιορισμοί

Παρά την υποσχόμενη πρόοδο, ορισμένες κρίσιμες προκλήσεις παραμένουν στην αντιμετώπιση των παραισθήσεων:

Οι τεχνικές συχνά ανταλλάσσουν ποιότητα, συνεκτικότητα και δημιουργικότητα για αλήθεια.
Δυσκολία στη ριζική αξιολόγηση πέρα από περιορισμένα домένια. Οι μετρήσεις δεν καταγράφουν όλες τις νюανς.
Πολυάριθμες μέθοδοι είναι υπολογιστικά δαπανηρές, απαιτώντας εκτεταμένες ανακτήσεις ή αυτο-συλλογισμό.
Εξαρτώνται βαθιά από την ποιότητα των δεδομένων εκπαίδευσης και τις εξωτερικές πηγές γνώσης.
Δύσκολο να εγγυηθούν την γενικευσιμότητα σε διαφορετικά домένια και модαλίτες.
Οι θεμελιώδεις ρίζες των παραισθήσεων όπως η υπερ-εξάπλωση παραμένουν ανεπίλυτες.

Η αντιμετώπιση αυτών των προκλήσεων πιθανότατα απαιτεί μια πολυ-επίπεδη προσέγγιση που συνδυάζει την ενίσχυση των δεδομένων εκπαίδευσης, τις βελτιώσεις της αρχιτεκτονικής του μοντέλου, τις απώλειες που αυξάνουν την πιστότητα και τις τεχνικές χρόνου εύρεσης.

Ο Δρόμος Εμπρός

Η αντιμετώπιση των παραισθήσεων για τα LLMs παραμένει ένα ανοιχτό ερευνητικό πρόβλημα με ενεργό πρόοδο. Ορισμένες υποσχόμενες μελλοντικές κατευθύνσεις περιλαμβάνουν:

Υβριδικές τεχνικές: Συνδυασμός συμπληρωματικών προσεγγίσεων όπως ανακτήσεις, εναρμόνιση γνώσης και ανατροφοδότηση.
Μοντελοποίηση αιτίου: Βελτίωση της κατανόησης και του συλλογισμού.
Ενσωμάτωση γνώσης online: Διατήρηση της παγκόσμιας γνώσης ενημερωμένης.
Φορμαλική επαλήθευση: Παρέχοντας μαθηματικές εγγυήσεις για τις συμπεριφορές του μοντέλου.
Ερμηνευσιμότητα: Κατασκευή διαφάνειας στις τεχνικές αντιμετώπισης.

Καθώς τα LLMs συνεχίζουν να εξαπλώνονται σε κρίσιμες περιοχές, η ανάπτυξη ισχυρών λύσεων για την αντιμετώπιση των παραισθήσεων θα είναι κλειδί για την ασφαλή, ηθική και αξιόπιστη ανάπτυξή τους. Οι τεχνικές που επιθεωρήθηκαν σε αυτό το άρθρο παρέχουν μια επισκόπηση των τεχνικών που έχουν προταθεί μέχρι τώρα, όπου περισσότερες ανοιχτές ερευνητικές προκλήσεις παραμένουν. Γενικά, υπάρχει μια θετική τάση προς την ενίσχυση της πραγματικότητας του μοντέλου, αλλά η συνεχής πρόοδος απαιτεί την αντιμετώπιση των περιορισμών και την εξερεύνηση νέων κατευθύνσεων όπως η αιτιοκρατία, η επαλήθευση και οι υβριδικές μέθοδοι. Με τις επιμελείς προσπάθειες των ερευνητών σε διάφορα πεδία, το όνειρο των ισχυρών και αξιόπιστων LLMs μπορεί να μεταφραστεί σε πραγματικότητα.

Aayush Mittal

Έχω περάσει τα τελευταία πέντε χρόνια βυθισμένος στον fascinující κόσμο της Μηχανικής Μάθησης και της Βαθιάς Μάθησης. Η αγάπη και η εξειδίκευσή μου έχουν οδηγήσει στην συμβολή μου σε πάνω από 50 διαφορετικά projects μηχανικής λογισμικού, με ιδιαίτερη έμφαση στο AI/ML. Η συνεχής περιέργεια μου έχει επίσης τραβήξει την προσοχή μου προς την Επεξεργασία Φυσικής Γλώσσας, ένα πεδίο που είμαι πρόθυμος να εξερευνήσω περαιτέρω.