Τεχνητή νοημοσύνη

Αξιολόγηση Μεγάλων Μοντέλων Γλώσσας: Ένας Τεχνικός Οδηγός

Published January 29, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Τα μεγάλα μοντέλα γλώσσας (LLMs) όπως το GPT-4, το Claude και το LLaMA έχουν εκραγεί σε δημοτικότητα. Χάρη στην ικανότητά τους να παράγουν εντυπωσιακά ανθρώπινα κείμενα, αυτά τα συστήματα AI χρησιμοποιούνται τώρα για όλα, από τη δημιουργία περιεχομένου μέχρι τους chatbots εξυπηρέτησης πελατών.

Αλλά πώς γνωρίζουμε αν αυτά τα μοντέλα είναι πραγματικά καλά; Με νέα LLMs να ανακοινώνονται συνεχώς, όλα ισχυρίζονται ότι είναι μεγαλύτερα και καλύτερα, πώς αξιολογούμε και συγκρίνουμε την απόδοσή τους;

Σε αυτόν τον ολοκληρωμένο οδηγό, θα εξερευνήσουμε τις κορυφαίες τεχνικές για την αξιολόγηση μεγάλων μοντέλων γλώσσας. Θα εξετάσουμε τα πλεονεκτήματα και τα μειονεκτήματα κάθε προσεγγίσεως, πότε εφαρμόζονται καλύτερα και πώς μπορείτε να τα εκμεταλλευτείτε στην δική σας δοκιμή LLM.

Μετρήσεις Ειδικών Καθηκόντων

Ένας από τους πιο απλούς τρόπους για την αξιολόγηση ενός LLM είναι να το δοκιμάσετε σε καθιερωμένα καθήκοντα NLP χρησιμοποιώντας стандαρδισμένες μετρήσεις. Για παράδειγμα:

Σύνοψη

Για καθήκοντα σύνοψης, μετρήσεις όπως το ROUGE (Recall-Oriented Understudy for Gisting Evaluation) χρησιμοποιούνται συχνά. Το ROUGE συγκρίνει τη σύνοψη που παράγεται από το μοντέλο με μια ανθρώπινη “αναφορά” σύνοψη, μετρώντας την επικάλυψη των λέξεων ή φράσεων.

Υπάρχουν कई εκδοχές του ROUGE, κάθε μια με τα δικά της πλεονεκτήματα και μειονεκτήματα:

ROUGE-N: Συγκρίνει την επικάλυψη των n-γραμματίων (σειρών από N λέξεις). Το ROUGE-1 χρησιμοποιεί μονογράμματα (μονές λέξεις), το ROUGE-2 χρησιμοποιεί δίγραμμα, κ.λπ. Το πλεονέκτημα είναι ότι καταγράφει τη σειρά των λέξεων, αλλά μπορεί να είναι πολύ αυστηρό.
ROUGE-L: Βασίζεται στη μακρύτερη κοινή υποσειρά (LCS). Πιο ευέλικτο στη σειρά των λέξεων, αλλά επικεντρώνεται στα κύρια σημεία.
ROUGE-W: Βαρύνει τις LCS αντιστοιχίσεις με τη σημασία τους. Προσπαθεί να βελτιώσει το ROUGE-L.

Γενικά, οι μετρήσεις ROUGE είναι γρήγορες, αυτόματες και λειτουργούν καλά για την κατάταξη των συνοπτικών συστημάτων. Ωστόσο, δεν μετρούν τη συνάφεια ή τη σημασία. Μια σύνοψη μπορεί να πάρει υψηλό σκορ ROUGE και να είναι ακόμα ανοησία.

Η формуλή για το ROUGE-N είναι:

$ROUGE-N = \sum ^{s \in {Reference Summaries}} \sum ^{g r a m n \in s} C o u n t ( g r a m ^{n} ) \sum ^{s \in {Reference Summaries}} \sum ^{g r a m n \in s} C o u n t ^{ma t c h} ( g r a m ^{n} )$

Όπου:

Count_{match}(gram_n) είναι ο αριθμός των n-γραμματίων και στις δύο γεννημένες και αναφορικές συνοψίσεις.
Count(gram_n) είναι ο αριθμός των n-γραμματίων στην αναφορική σύνοψη.

Για παράδειγμα, για το ROUGE-1 (μονογράμματα):

Γεννημένη σύνοψη: “Το γάτο καθόταν.”
Αναφορική σύνοψη: “Το γάτο καθόταν στο χαλί.”
Επικαλυπτόμενα μονογράμματα: “Το”, “γάτο”, “καθόταν”
Σκορ ROUGE-1 = 3/5 = 0,6

Το ROUGE-L χρησιμοποιεί τη μακρύτερη κοινή υποσειρά (LCS). Είναι πιο ευέλικτο στη σειρά των λέξεων. Η формуλή είναι:

$ROUGE-L = max(length(generated), length(reference)) L CS ( generated , reference )$

Όπου LCS είναι το μήκος της μακρύτερης κοινής υποσειράς.

Το ROUGE-W βαρύνει τις LCS αντιστοιχίσεις. Λαμβάνει υπόψη τη σημασία κάθε αντιστοίχισης στην LCS.

Μετάφραση

Για καθήκοντα μηχανικής μετάφρασης, το BLEU (Bilingual Evaluation Understudy) είναι μια δημοφιλής μετρική. Το BLEU μετρά τη συσχέτιση μεταξύ της μετάφρασης που παράγεται από το μοντέλο και των επαγγελματικών ανθρώπινων μεταφράσεων, χρησιμοποιώντας την ακρίβεια των n-γραμματίων και μια ποινή σύντομης μετάφρασης.

Κλειδιά για το πώς λειτουργεί το BLEU:

Συγκρίνει τις επικαλύψεις των n-γραμματίων για n μέχρι 4 (μονογράμματα, δίγραμμα, τρίγραμμα, 4-γράμματα).
Υπολογίζει το γεωμετρικό μέσο των ακριβειών των n-γραμματίων.
Εφαρμόζει μια ποινή σύντομης μετάφρασης εάν η μετάφραση είναι πολύ μικρότερη από την αναφορά.
Γενικά κυμαίνεται από 0 έως 1, με 1 να είναι η τέλεια αντιστοίχηση στην αναφορά.

Το BLEU συσχετίζεται λογικά καλά με τις κρίσεις των ανθρώπων για την ποιότητα της μετάφρασης. Αλλά έχει ακόμα περιορισμούς:

Μετρά μόνο την ακρίβεια έναντι των αναφορών, όχι την ανάκληση ή το F1.
Δυσκολεύεται με δημιουργικές μεταφράσεις που χρησιμοποιούν διαφορετική ορολογία.
Είναι ευάλωτο σε “παίγνια” με τεχνάσματα μετάφρασης.

Άλλες μετρήσεις μετάφρασης όπως το METEOR και το TER προσπαθούν να βελτιώσουν τις αδυναμίες του BLEU. Αλλά γενικά, οι αυτόματες μετρήσεις δεν καταγράφουν πλήρως την ποιότητα της μετάφρασης.

Άλλα Καθήκοντα

Εκτός από τη σύνοψη και τη μετάφραση, μετρήσεις όπως το F1, η ακρίβεια, το MSE και πολλά άλλα μπορούν να χρησιμοποιηθούν για την αξιολόγηση της απόδοσης του LLM σε καθήκοντα όπως:

Κατηγοριοποίηση κειμένου
Εξαγωγή πληροφοριών
Απάντηση σε ερωτήσεις
Ανάλυση συναισθήματος
Ανίχνευση γραμματικών λαθών

Το πλεονέκτημα των μετρήσεων ειδικών καθηκόντων είναι ότι η αξιολόγηση μπορεί να γίνει πλήρως αυτοματοποιημένη χρησιμοποιώντας стандαρδισμένα σύνολα δεδομένων όπως το SQuAD για την απάντηση σε ερωτήσεις και το GLUE benchmark για μια σειρά από καθήκοντα. Τα αποτελέσματα μπορούν εύκολα να παρακολουθούνται με την πάροδο του χρόνου καθώς τα μοντέλα βελτιώνονται.

Ωστόσο, αυτές οι μετρήσεις είναι στενά επικεντρωμένες και δεν μπορούν να μετρήσουν την整ική ποιότητα της γλώσσας. Τα LLM που εκτελούν καλά στις μετρήσεις για ένα μόνο καθήκον μπορεί να αποτύχουν στο να παράγουν συνεκτικά, λογικά, χρήσιμα κείμενα γενικά.

Επιστημονικές Βάσεις

Ένας δημοφιλής τρόπος για την αξιολόγηση των LLM είναι να τα δοκιμάσετε σε ευρείες επιστημονικές βάσεις που καλύπτουν ποικίλους τομείς και δεξιότητες. Αυτές οι βάσεις επιτρέπουν στα μοντέλα να δοκιμαστούν γρήγορα σε κλίμακα.

Ορισμένες γνωστές βάσεις περιλαμβάνουν:

SuperGLUE – Προκλητική σειρά από 11 διαφορετικά γλωσσικά καθήκοντα.
GLUE – Συλλογή από 9 καθήκοντα κατανόησης προτάσεων. Λιγότερο προκλητικό από το SuperGLUE.
MMLU – 57 διαφορετικά καθήκοντα STEM, κοινωνικών επιστημών και ανθρωπιστικών επιστημών. Δοκιμάζει τη γνώση και την ικανότητα συλλογισμού.
Winograd Schema Challenge – Προβλήματα επίλυσης αντωνυμιών που απαιτούν κοινή λογική.
ARC – Προκλητικά καθήκοντα φυσικής λογικής.
Hellaswag – Κοινή λογική για καταστάσεις.
PIQA – Φυσικές ερωτήσεις που απαιτούν διαγράμματα.

Αξιολογώντας σε βάσεις όπως αυτές, οι ερευνητές μπορούν να δοκιμάσουν γρήγορα τα μοντέλα στην ικανότητά τους να εκτελούν μαθηματικά, λογική, συλλογισμό, κωδικοποίηση, κοινή λογική και πολλά άλλα. Το ποσοστό των σωστά απαντημένων ερωτήσεων γίνεται μια μετρική βάσης για την σύγκριση των μοντέλων.

Ωστόσο, ένα σημαντικό ζήτημα με τις βάσεις είναι η μολύβδωση των δεδομένων εκπαίδευσης. Πολλές βάσεις περιέχουν παραδείγματα που είχαν ήδη δει τα μοντέλα κατά την προ-εκπαίδευση. Αυτό επιτρέπει στα μοντέλα να “θυμούνται” τις απαντήσεις σε συγκεκριμένα ερωτήματα και να εκτελούν καλύτερα από τις πραγματικές τους ικανότητες.

Γίνονται προσπάθειες για να “καθαρίσουν” τις βάσεις αφαιρώντας τις επικαλυπτόμενες περιπτώσεις. Αλλά αυτό είναι μια προκλητική εργασία, ιδιαίτερα όταν τα μοντέλα μπορεί να έχουν δει παραφρασμένες ή μεταφρασμένες εκδοχές των ερωτημάτων.

Έτσι, ενώ οι βάσεις μπορούν να δοκιμάσουν μια ευρεία σειρά από δεξιότητες αποτελεσματικά, δεν μπορούν να μετρήσουν αξιόπιστα τις πραγματικές ικανότητες συλλογισμού ή να αποφύγουν την πληθωρική βαθμολογία λόγω μολύβδωσης. Απαιτούνται συμπληρωματικές μεθόδους αξιολόγησης.

Αυτοαξιολόγηση LLM

Μια ενδιαφέρουσα προσέγγιση είναι να έχει ένα LLM να αξιολογεί τις εξόδους ενός άλλου LLM. Η ιδέα είναι να εκμεταλλευτεί την “ευκολότερη” έννοια του καθήκοντος:

Η παραγωγή μιας υψηλής ποιότητας εξόδου μπορεί να είναι δύσκολο για ένα LLM.
Αλλά η καθορισμός εάν μια δεδομένη έξοδος είναι υψηλής ποιότητας μπορεί να είναι ένα ευκολότερο καθήκον.

Για παράδειγμα, ενώ ένα LLM μπορεί να δυσκολευτεί να γεννήσει ένα фактиτικό, συνεκτικό παράγραφο από το μηδέν, μπορεί να κρίνει πιο εύκολα εάν μια δεδομένη παράγραφος έχει λογική σημασία και ταιριάζει στο контέκστ.

Έτσι, η διαδικασία είναι:

Περάστε την είσοδο πρότασης στο πρώτο LLM για να γεννήσει έξοδο.
Περάστε την είσοδο πρότασης + γεννημένη έξοδο στο δεύτερο “αξιολογητή” LLM.
Ζητήστε από το αξιολογητή LLM μια ερώτηση για να αξιολογήσει την ποιότητα της εξόδου. π.χ. “Η παραπάνω απάντηση έχει λογική σημασία;”

Αυτή η προσέγγιση είναι γρήγορη να υλοποιηθεί και αυτοματοποιεί την αξιολόγηση του LLM. Αλλά υπάρχουν κάποια προκλήματα:

Η απόδοση εξαρτάται πολύ από την επιλογή του αξιολογητή LLM και τη φράση της πρότασης.
Περιορίζεται από τη δυσκολία του αρχικού καθήκοντος. Η αξιολόγηση του σύνθετου συλλογισμού είναι ακόμα δύσκολο για τα LLM.
Μπορεί να είναι υπολογιστικά ακριβό εάν χρησιμοποιούνται API-βασισμένα LLM.

Η αυτοαξιολόγηση είναι ιδιαίτερα υποσχόμενη για την αξιολόγηση της ανακτημένης πληροφορίας σε RAG (retrieval-augmented generation) συστήματα. Πρόσθετες ερωτήσεις LLM μπορούν να επικυρώσουν εάν η ανακτημένη πηγή χρησιμοποιείται σωστά.

Συνολικά, η αυτοαξιολόγηση δείχνει πολλά υποσχόμενα αλλά απαιτεί προσοχή στην υλοποίηση. Συμπληρώνει, αντί να αντικαθιστά, την ανθρώπινη αξιολόγηση.

Ανθρώπινη Αξιολόγηση

Δεδομένων των περιορισμών των αυτόματων μετρήσεων και των βάσεων, η ανθρώπινη αξιολόγηση είναι ακόμα ο χρυσός κανόνας για την αυστηρή αξιολόγηση της ποιότητας του LLM.

Εξπέρ peuvent να παρέχουν λεπτομερείς ποιοτικές αξιολογήσεις για:

Ακρίβεια και фактиική ορθότητα
Λογική, συλλογισμός και κοινή λογική
Συνέχεια, σταθερότητα και αναγνωσιμότητα
Καταλληλότητα του τόνου, του στυλ και της φωνής
Γραμματική και ροή
Δημιουργικότητα και νюανς

Για να αξιολογήσετε ένα μοντέλο, οι άνθρωποι λαμβάνουν ένα σύνολο εισόδων και τις LLM-γεννημένες απαντήσεις. Αξιολογούν την ποιότητα των απαντήσεων, συχνά χρησιμοποιώντας κλίμακες βαθμολογίας και rubrics.

Το μειονέκτημα είναι ότι η χειροκίνητη ανθρώπινη αξιολόγηση είναι ακριβή, αργή και δύσκολο να κλιμακωθεί. Απαιτεί επίσης την ανάπτυξη стандαρδισμένων κριτηρίων και την εκπαίδευση των αξιολογητών να τα εφαρμόσουν συνεπώς.

Ορισμένοι ερευνητές έχουν εξερευνήσει δημιουργικές τρόπους για να crowdfund ανθρώπινες αξιολογήσεις LLM χρησιμοποιώντας τουρνουά-στυλ συστήματα όπου οι άνθρωποι στοιχηματίζουν και κρίνουν τους αγώνες μεταξύ μοντέλων. Αλλά η κάλυψη είναι ακόμα περιορισμένη σε σύγκριση με πλήρεις χειροκίνητες αξιολογήσεις.

Για επιχειρηματικές περιπτώσεις όπου η ποιότητα έχει περισσότερη σημασία από την κλίμακα, η chuyênική ανθρώπινη δοκιμή παραμένει ο χρυσός κανόνας παρά τους κόστους. Αυτό είναι ιδιαίτερα αλήθεια για τις πιο ριψοκίνδυνες εφαρμογές των LLM.

Συμπέρασμα

Η πλήρης αξιολόγηση των μεγάλων μοντέλων γλώσσας απαιτεί τη χρήση ενός διαφορετικού εργαλείου από συμπληρωματικές μεθόδους, αντί να βασίζεται σε οποιαδήποτε μεμονωμένη τεχνική.

Συμπεριλαμβάνοντας αυτόματες προσεγγίσεις για ταχύτητα με αυστηρή ανθρώπινη επιτήρηση για ακρίβεια, μπορούμε να αναπτύξουμε αξιόπιστες μεθόδους δοκιμής για τα μεγάλα μοντέλα γλώσσας. Με ρομπούς αξιολόγησης, μπορούμε να ξεκλειδώσουμε το τεράστιο δυναμικό των LLM ενώ διαχειριζόμαστε τους κινδύνους τους υπεύθυνα.

Aayush Mittal

Έχω περάσει τα τελευταία πέντε χρόνια βυθισμένος στον fascinující κόσμο της Μηχανικής Μάθησης και της Βαθιάς Μάθησης. Η αγάπη και η εξειδίκευσή μου έχουν οδηγήσει στην συμβολή μου σε πάνω από 50 διαφορετικά projects μηχανικής λογισμικού, με ιδιαίτερη έμφαση στο AI/ML. Η συνεχής περιέργεια μου έχει επίσης τραβήξει την προσοχή μου προς την Επεξεργασία Φυσικής Γλώσσας, ένα πεδίο που είμαι πρόθυμος να εξερευνήσω περαιτέρω.

Unite.AI