Ηγέτες σκέψης

Βελτιστοποίηση για LLMs

Published August 28, 2024

Updated April 27, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

Κατανοήστε τον ρόλο και τους περιορισμούς των βελτιστοποιήσεων στην αξιολόγηση της απόδοσης των LLM. Εξερευνήστε τις τεχνικές για την ανάπτυξη ισχυρών LLM.

Τα Μεγάλα Μοντέλα Γλώσσας έχουν κερδίσει τεράστια δημοτικότητα τα τελευταία χρόνια. Ναι, το έχετε δει. Η εξαιρετική ικανότητα των LLM να κατανοούν τις εντολές της ανθρώπινης γλώσσας τους έκανε την απόλυτα τέλεια ενσωμάτωση για τις επιχειρήσεις, υποστηρίζοντας κρίσιμες ροές εργασιών και αυτοματοποιώντας τις εργασίες σε μέγιστη αποδοτικότητα. Επίσης, πέρα από την κατανόηση του μέσου χρήστη, υπάρχουν πολλά περισσότερα που μπορούν να κάνουν τα LLM. Και καθώς η εξάρτησή μας από αυτά αυξάνεται, πρέπει πραγματικά να δώσουμε περισσότερη προσοχή στα μέτρα για να διασφαλίσουμε την αναγκαία ακρίβεια και αξιοπιστία. Αυτό είναι ένα παγκόσμιο έργο που αφορά ολόκληρες ιδρύματα, αλλά στον τομέα των επιχειρήσεων υπάρχουν τώρα několik βελτιστοποιήσεων που μπορούν να χρησιμοποιηθούν για την αξιολόγηση της απόδοσης των LLM σε διάφορους τομείς. Αυτά μπορούν να δοκιμάσουν τις ικανότητες του μοντέλου σε κατανόηση, λογική構築, μαθηματικά και così weiter, και τα αποτελέσματα καθορίζουν εάν ένα LLM είναι έτοιμο για επιχειρησιακή ανάπτυξη.

Σε αυτό το άρθρο, έχω συγκεντρώσει μια綜合τική λίστα με τις πιο δημοφιλείς βελτιστοποιήσεις για την αξιολόγηση των LLM. Θα συζητήσουμε κάθε βελτιστοποίηση σε λεπτομέρειες και θα δούμε πώς διαφορετικά LLM αντιμετωπίζουν τα κριτήρια αξιολόγησης. Αλλά πρώτα, ας κατανοήσουμε την αξιολόγηση των LLM σε περισσότερες λεπτομέρειες.

Τι είναι η Αξιολόγηση των LLM;

Όπως και άλλα μοντέλα AI, τα LLM χρειάζονται επίσης να αξιολογηθούν με βάση συγκεκριμένες βελτιστοποιήσεις που αξιολογούν διάφορες πτυχές της απόδοσης του μοντέλου γλώσσας: γνώση, ακρίβεια, αξιοπιστία και συνεπής. Ο τυπικός κανόνας περιλαμβάνει:

Κατανόηση των ερωτημάτων του χρήστη: Αξιολόγηση της ικανότητας του μοντέλου να κατανοήσει και να ερμηνεύσει ένα ευρύ φάσμα εισόδων του χρήστη.
Επαλήθευση εξόδου: Επαλήθευση των απαντήσεων που παράγονται από το AI έναντι μιας αξιόπιστης βάσης γνώσεων για να διασφαλιστεί ότι είναι σωστές και σχετικές.
Ρομποτική: Μέτρηση πόσο καλά το μοντέλο εκτελείται με αμφίβολες, непλήρες ή θορυβώδεις εισόδους.

Η αξιολόγηση των LLM δίνει στους dévelopπερs τη δύναμη να αναγνωρίσουν και να αντιμετωπίσουν τους περιορισμούς αποτελεσματικά, ώστε να μπορέσουν να βελτιώσουν την συνολική εμπειρία του χρήστη. Εάν ένα LLM αξιολογηθεί πλήρως, θα είναι ακριβές και ρομποτικό αρκετά για να χειριστεί διάφορες πραγματικές εφαρμογές, ακόμη και εκείνες με αμφίβολες ή απρόβλεπτες εισόδους.

Βελτιστοποιήσεις

Τα LLM είναι ένα από τα πιο σύνθετα τεχνολογικά έργα μέχρι σήμερα και μπορούν να ενεργοποιήσουν ακόμη και τις πιο δυσκολές εφαρμογές. Έτσι, η διαδικασία αξιολόγησης απλά πρέπει να είναι εξίσου σύνθετη, βάζοντας την σκέψη και την τεχνική ακρίβεια σε δοκιμασία.

Μια βελτιστοποίηση χρησιμοποιεί συγκεκριμένα σύνολα δεδομένων, μετρήσεις και εργασίες αξιολόγησης για να δοκιμάσει την απόδοση των LLM, και επιτρέπει τη σύγκριση διαφορετικών LLM και τη μέτρηση της ακρίβειάς τους, που με τη σειρά της οδηγεί την πρόοδο στη βιομηχανία μέσω της βελτιωμένης απόδοσης.

Εδώ είναι μερικές από τις πιο τυπικές πτυχές της απόδοσης των LLM:

Γνώση: Η γνώση του μοντέλου πρέπει να δοκιμαστεί σε διάφορους τομείς. Αυτό είναι το γνώση βελτιστοποίηση. Αξιολογεί πώς αποτελεσματικά το μοντέλο μπορεί να ανακαλέσει πληροφορίες από διάφορους τομείς, όπως Φυσική, Προγραμματισμός, Γεωγραφία, κ.λπ.
Λογική συλλογισμός: Σημαίνει δοκιμή της ικανότητας του μοντέλου να «σκέφτεται» βήμα προς βήμα και να εξάγει einen λογικό συμπέρασμα, συνήθως περιλαμβάνει σενάρια όπου το μοντέλο πρέπει να επιλέξει την πιο πιθανή συνέχεια ή εξήγηση με βάση την καθημερινή γνώση και λογική συλλογισμό.
Κατανόηση ανάγνωσης: Τα μοντέλα πρέπει να είναι εξαιρετικά καλά στην ερμηνεία της φυσικής γλώσσας και στη συνέχεια να παράγουν απαντήσεις ανάλογα. Η δοκιμή μοιάζει με την απάντηση σε ερωτήσεις με βάση περικοπές για να μετρήσει την κατανόηση, την εύνοια και τη διατήρηση λεπτομερειών. Όπως μια σχολική δοκιμή ανάγνωσης.
Κατανόηση κώδικα: Αυτό χρειάζεται για να μετρηθεί η ικανότητα του μοντέλου να κατανοήσει, να γράψει και να διορθώσει κώδικα. Αυτές οι βελτιστοποιήσεις δίνουν στο μοντέλο εργασίες κωδικοποίησης ή προβλήματα που το μοντέλο πρέπει να λύσει ακριβώς, συχνά καλύπτοντας eine σειρά από γλώσσες προγραμματισμού και παραδείγματα.
Γνώση του κόσμου: Για να αξιολογήσει την κατανόηση του μοντέλου για γενικές γνώσεις για τον κόσμο. Αυτά τα σύνολα δεδομένων έχουν συνήθως ερωτήσεις που χρειάζονται ευρεία, εγκυκλοπαιδική γνώση για να απαντηθούν σωστά, που τα κάνει διαφορετικά από πιο συγκεκριμένες και εξειδικευμένες βελτιστοποιήσεις γνώσης.

«Γνώση» Βελτιστοποιήσεις

MMLU (Πολυμεσογειακή Κατανόηση Γλώσσας)

Αυτή η βελτιστοποίηση είναι σχεδιασμένη για να δοκιμάσει την κατανόηση του LLM σε фактиικές γνώσεις σε διάφορους τομείς όπως οι ανθρωπιστικές επιστήμες, οι κοινωνικές επιστήμες, η ιστορία, η επιστήμη υπολογιστών και ακόμη και το δίκαιο. 57 ερωτήσεις και 15k εργασίες όλες κατευθυνόμενες προς το να βεβαιωθούμε ότι το μοντέλο έχει μεγάλη ικανότητα συλλογισμού. Αυτό κάνει την MMLU ένα καλό εργαλείο για να αξιολογήσει την фактиκή γνώση και τον συλλογισμό του LLM σε διάφορους τομείς.

Πρόσφατα έγινε ένα κλειδί βελτιστοποίηση για την αξιολόγηση των LLM για τους παραπάνω αναφερθέντες τομείς. Οι dévelopπερs πάντα θέλουν να βελτιώσουν τα μοντέλα τους για να ξεπεράσουν τα άλλα σε αυτή τη βελτιστοποίηση, που την κάνει ένα de facto πρότυπο για την αξιολόγηση προηγμένων συλλογισμών και γνώσης σε LLM. Μεγάλα μοντέλα επιχειρηματικού επιπέδου έχουν δείξει εντυπωσιακά σκορ σε αυτή τη βελτιστοποίηση, συμπεριλαμβανομένων των GPT-4-omni στο 88.7%, Claude 3 Opus στο 86.8%, Gemini 1.5 Pro στο 85.9% και Llama-3 70B στο 82%. Τα μικρά μοντέλα συνήθως δεν εκτελούνται τόσο καλά σε αυτή τη βελτιστοποίηση, συνήθως δεν ξεπερνούν το 60-65%, αλλά η πρόσφατη απόδοση του Phi-3-Small-7b στο 75.3% είναι κάτι που πρέπει να σκεφτούμε.

Ωστόσο, η MMLU δεν είναι χωρίς μειονεκτήματα: έχει γνωστά προβλήματα όπως αμφίβολες ερωτήσεις, λανθασμένες απαντήσεις και έλλειψη контекστού. Και, πολλοί πιστεύουν ότι κάποιες από τις εργασίες της είναι πολύ εύκολες για την κατάλληλη αξιολόγηση των LLM.

Θα ήθελα να το κάνω σαφές ότι βελτιστοποιήσεις όπως η MMLU δεν απεικονίζουν πάντα πραγματικές σενάρια. Εάν ένα LLM επιτύχει ένα μεγάλο σκορ σε αυτή, δεν σημαίνει πάντα ότι έχει γίνει ένας ειδικός σε κάποιο αντικείμενο. Οι βελτιστοποιήσεις είναι πραγματικά khá περιορισμένες σε εύρος και συχνά βασίζονται σε ερωτήσεις με πολλαπλές επιλογές, οι οποίες δεν μπορούν ποτέ να απεικονίσουν πλήρως τη σύνθετη και контекστού πραγματικών αλληλεπιδράσεων. Η αληθινή κατανόηση χρειάζεται να γνωρίζουμε γεγονότα και να εφαρμόζουμε αυτή τη γνώση δυναμικά και αυτό περιλαμβάνει κρίσιμη σκέψη, επίλυση προβλημάτων και κατανόηση контекστού. Για αυτούς τους λόγους, τα LLM πρέπει συνεχώς να αναπτύσσονται και να ενημερώνονται ώστε το μοντέλο να διατηρεί τη σχετικότητα και την αποτελεσματικότητα της βελτιστοποίησης.

GPQA (Βελτιστοποίηση Ερωτήσεων και Απαντήσεων για Προχωρημένους)

Αυτή η βελτιστοποίηση αξιολογεί τα LLM στη λογική συλλογισμό χρησιμοποιώντας ένα σύνολο δεδομένων με 448 ερωτήσεις. Οι ειδικοί τομέα ανέπτυξαν αυτό και καλύπτει θέματα στη βιολογία, φυσική και χημεία.

Κάθε ερώτηση περνάει από την ακόλουθη διαδικασία επαλήθευσης:

Ένας ειδικός στον ίδιο τομέα απαντά στην ερώτηση και παρέχει λεπτομερή σχόλια.
Ο συγγραφέας της ερώτησης αναθεωρεί την ερώτηση με βάση αυτά τα σχόλια.
Ένας δεύτερος ειδικός απαντά στην αναθεωρημένη ερώτηση.

Αυτή η διαδικασία μπορεί πραγματικά να διασφαλίσει ότι οι ερωτήσεις είναι αντικειμενικές, ακριβείς και απαιτητικές για ένα μοντέλο γλώσσας. Ακόμη και έμπειροι PhD φοιτητές επιτύχουν μόνο ακρίβεια 65% σε αυτές τις ερωτήσεις, ενώ το GPT-4-omni φτάνει μόνο στο 53.6%, υπογραμμίζοντας το χάσμα μεταξύ ανθρώπινης και μηχανικής νοημοσύνης.

Λόγω των υψηλών απαιτήσεων, το σύνολο δεδομένων είναι στην πραγματικότητα khá μικρό, το οποίο περιορίζει κάπως την στατιστική του δύναμη για τη σύγκριση της ακρίβειας, και απαιτεί μεγάλες επιδράσεις. Οι ειδικοί που δημιούργησαν και επαλήθευσαν αυτές τις ερωτήσεις προέρχονταν από το Upwork, οπότε πιθανότατα εισήγαγαν προκαταλήψεις με βάση την εμπειρία και τους τομείς που καλύπτονταν.

Βελτιστοποιήσεις Κώδικα

HumanEval

164 προβλήματα προγραμματισμού, μια πραγματική δοκιμασία για τις ικανότητες κωδικοποίησης των LLM. Είναι HumanEval. Σχεδιάστηκε για να δοκιμάσει τις βασικές ικανότητες κωδικοποίησης των μεγάλων μοντέλων γλώσσας. Χρησιμοποιεί το μετρήσιμο pass@k για να κρίνει την λειτουργική ακρίβεια του κώδικα που παράγεται, το οποίο εξόδους την πιθανότητα τουλάχιστον ενός από τα κορυφαία k LLM-παραγόμενα δείγματα κώδικα να περάσουν τις δοκιμαστικές περιπτώσεις.

Ενώ το σύνολο δεδομένων HumanEval περιλαμβάνει υπογραφές συναρτήσεων, docstrings, σώματα κώδικα και πολλές μονάδες δοκιμών, δεν περιλαμβάνει το πλήρες φάσμα πραγματικών προβλημάτων προγραμματισμού, τα οποία δεν θα δοκιμάσουν επαρκώς την ικανότητα του μοντέλου να παράγει σωστό κώδικα για διάφορες περιπτώσεις.

MBPP (Πολυμεσογειακό Πρόγραμμα Προγραμματισμού)

Mbpp βελτιστοποίηση αποτελείται από 1.000 προβλήματα προγραμματισμού Python. Αυτά είναι προβλήματα εισαγωγικού επιπέδου και επικεντρώνονται στις θεμελιώδεις ικανότητες προγραμματισμού. Χρησιμοποιεί μια few-shot και fine-tuning προσεγγίσεις για να αξιολογήσει την απόδοση του μοντέλου, με μεγαλύτερα μοντέλα που τυπικά εκτελούνται καλύτερα σε αυτό το σύνολο δεδομένων. Ωστόσο, επειδή το σύνολο δεδομένων περιλαμβάνει κυρίως προβλήματα εισαγωγικού επιπέδου, δεν αντιπροσωπεύει πλήρως τις сложότητες και τις προκλήσεις των πραγματικών εφαρμογών.

Βελτιστοποιήσεις Μαθηματικών

Ενώ τα περισσότερα LLM είναι khá καλά στη δομή τυπικών απαντήσεων, η μαθηματική συλλογισμό είναι ένα πολύ μεγαλύτερο πρόβλημα για αυτά. Γιατί; Επειδή απαιτεί ικανότητες που σχετίζονται με την κατανόηση ερωτημάτων, μια βήμα-προς-βήμα λογική συλλογισμό με μαθηματική συλλογισμό και την εξαγωγή της σωστής απάντησης.

Η μέθοδος “Συλλογισμός Σκέψης” (CoT) έχει σχεδιαστεί για να αξιολογήσει τα LLM στα μαθηματικά-σχετικά βελτιστοποιήσεις, περιλαμβάνει την προώθηση των μοντέλων να εξηγήσουν τη διαδικασία συλλογισμού τους βήμα προς βήμα όταν λύνουν ένα πρόβλημα. Υπάρχουν πολλά πλεονεκτήματα σε αυτό. Κάνει τη διαδικασία συλλογισμού πιο διαφανή, βοηθά στην αναγνώριση ελαττωμάτων στη λογική του μοντέλου και επιτρέπει μια πιο λεπτομερή αξιολόγηση των ικανοτήτων επίλυσης προβλημάτων. Βάζοντας σύνθετα προβλήματα σε μια σειρά από απλούστερα βήματα, η CoT μπορεί να βελτιώσει την απόδοση του μοντέλου στα μαθηματικά βελτιστοποιήσεις και να παρέχει πιο sâuστόχαστες εντυπώσεις για τις ικανότητες συλλογισμού του.

GSM8K: Μια Δημοφιλής Μαθηματική Βελτιστοποίηση

Μια από τις γνωστές βελτιστοποιήσεις για την αξιολόγηση των μαθηματικών ικανοτήτων των LLM είναι το σύνολο δεδομένων GSM8K. Το GSM8K αποτελείται από 8.5k μαθηματικά προβλήματα μεσαίου επιπέδου, τα οποία απαιτούν quelques βήματα για να λυθούν, και οι λύσεις τους περιλαμβάνουν κυρίως την εκτέλεση μιας σειράς από στοιχειώδεις υπολογισμούς. Τυπικά, μεγαλύτερα μοντέλα ή αυτά που έχουν εκπαιδευτεί ειδικά για μαθηματική συλλογισμό τείνουν να εκτελούνται καλύτερα σε αυτή τη βελτιστοποίηση, π.χ. τα μοντέλα GPT-4 έχουν σκορ 96.5%, ενώ το DeepSeekMATH-RL-7B είναι πίσω στο 88.2%.

Ενώ το GSM8K είναι χρήσιμο για την αξιολόγηση της ικανότητας του μοντέλου να χειρίζεται προβλήματα μαθηματικών του δημοτικού, μπορεί να μην απεικονίσει πλήρως την ικανότητα του μοντέλου να λύσει πιο προηγμένα ή διάφορα μαθηματικά προβλήματα, οπότε περιορίζει την αποτελεσματικότητά του ως綜合τική μέτρηση μαθηματικών ικανοτήτων.

Το Μαθηματικό Σύνολο Δεδομένων: Μια綜合τική Εναλλακτική

Το μαθηματικό σύνολο δεδομένων αντιμετωπίζει τα ελαττώματα βελτιστοποιήσεων όπως το GSM8K. Αυτό το σύνολο δεδομένων είναι πιο εκτενές, καλύπτοντας από στοιχειώδη αριθμητική μέχρι προβλήματα μαθηματικών του λυκείου και ακόμη και του πανεπιστημίου. Συγκρίνεται επίσης με ανθρώπινες επιδόσεις, με ένα φοιτητή υπολογιστικών συστημάτων που δεν του αρέσουν τα μαθηματικά να επιτυγχάνει ακρίβεια 40% και ένα χρυσοί медαλίστα να επιτυγχάνει ακρίβεια 90%.

Παρέχει μια πιο綜合τική αξιολόγηση των μαθηματικών ικανοτήτων των LLM. Βεβαιώνει ότι το μοντέλο είναι ικανό σε βασική αριθμητική και ικανό σε σύνθετους τομείς όπως η άλγεβρα, η γεωμετρία και η ανάλυση. Ωστόσο, η αυξημένη σύνθετη και ποικιλία των προβλημάτων μπορεί να κάνει δύσκολο για τα μοντέλα να επιτύχουν υψηλή ακρίβεια, ιδιαίτερα αυτά που δεν έχουν εκπαιδευτεί ρητά σε ένα ευρύ φάσμα μαθηματικών εννοιών. Επίσης, η ποικιλία των μορφών προβλημάτων στο Μαθηματικό Σύνολο Δεδομένων μπορεί να εισαγάγει ασυνέπεια στην απόδοση του μοντέλου, καθιστώντας το πιο δύσκολο να βγάλουμε οριστικά συμπεράσματα για τις μαθηματικές ικανότητες του μοντέλου.

Η χρήση της μεθόδου Συλλογισμού Σκέψης με το Μαθηματικό Σύνολο Δεδομένων μπορεί να ενισχύσει την αξιολόγηση γιατί αποκαλύπτει τις ικανότητες συλλογισμού των LLM σε ένα ευρύ φάσμα μαθηματικών προκλήσεων. Μια συνδυαστική προσέγγιση όπως αυτή διασφαλίζει μια πιο ρομποτική και λεπτομερή αξιολόγηση των πραγματικών μαθηματικών ικανοτήτων των LLM.

Βελτιστοποιήσεις Κατανόησης Ανάγνωσης

Μια αξιολόγηση κατανόησης ανάγνωσης αξιολογεί την ικανότητα του μοντέλου να κατανοήσει και να επεξεργαστεί σύνθετο κείμενο, το οποίο είναι ιδιαίτερα θεμελιώδες για εφαρμογές όπως η υποστήριξη πελατών, η δημιουργία περιεχομένου και η ανάκτηση πληροφοριών. Υπάρχουν μερικές βελτιστοποιήσεις που έχουν σχεδιαστεί για να αξιολογήσουν αυτή την ικανότητα, κάθε μια με μοναδικά χαρακτηριστικά που συμβάλλουν σε μια綜合τική αξιολόγηση των ικανοτήτων του μοντέλου.

RACE (Σύνολο Δεδομένων Κατανόησης Ανάγνωσης από Εξετάσεις)

Το RACE περιλαμβάνει σχεδόν 28.000 περικοπές και 100.000 ερωτήσεις που συλλέχθηκαν από τις αγγλικές εξετάσεις για μαθητές του δημοτικού και του γυμνασίου στην Κίνα, ηλικίας 12 έως 18 ετών. Δεν περιορίζει τις ερωτήσεις και τις απαντήσεις να εξαχθούν από τις δοθείσες περικοπές, καθιστώντας τις εργασίες ακόμη πιο απαιτητικές.

Καλύπτει ένα ευρύ φάσμα θεμάτων και τύπων ερωτήσεων, που καθιστά την αξιολόγηση綜合τική και περιλαμβάνει ερωτήσεις σε διάφορα επίπεδα δυσκολίας. Επίσης, οι ερωτήσεις στο RACE είναι ειδικά σχεδιασμένες για να δοκιμάσουν τις ικανότητες ανάγνωσης των ανθρώπων και έχουν αναπτυχθεί από ειδικούς τομέα.

Ωστόσο, η βελτιστοποίηση έχει κάποια μειονεκτήματα. Επειδή έχει αναπτυχθεί με βάση υλικό από κινεζικές εκπαιδευτικές υλικές, είναι ευάλωτο σε εισαγωγή πολιτισμικών προκαταλήψεων που δεν αντανακλούν einen παγκόσμιο контекστο. Επίσης, το υψηλό επίπεδο δυσκολίας σε κάποιες ερωτήσεις δεν είναι στην πραγματικότητα αντιπροσωπευτικό των τυπικών πραγματικών εργασιών. Έτσι, οι αξιολογήσεις απόδοσης μπορεί να μην είναι τόσο ακριβείς.

DROP (Διακριτός Συλλογισμός Υπέρ Περικοπών)

Μια άλλη σημαντική προσέγγιση είναι το DROP (Διακριτός Συλλογισμός Υπέρ Περικοπών), το οποίο προκαλεί τα μοντέλα να εκτελέσουν διακριτό συλλογισμό υπέρ περικοπών. Περιλαμβάνει 96.000 ερωτήσεις για να δοκιμάσει τις ικανότητες συλλογισμού των LLM και οι ερωτήσεις εξάγονται από το Βικιπαίδεια και έχουν συλλεχθεί από το Amazon Mechanical Turk. Οι ερωτήσεις του DROP συχνά απαιτούν από τα LLM να εκτελέσουν μαθηματικές εργασίες όπως πρόσθεση, αφαίρεση και σύγκριση με βάση πληροφορίες που διασκορπίζονται σε μια περικοπή.

Οι ερωτήσεις είναι απαιτητικές. Απαιτούν από τα LLM να εντοπίσουν πολλαπλά νούμερα στην περικοπή και να τα προσθέσουν ή να τα αφαιρέσουν για να λάβουν την τελική απάντηση. Μεγάλα μοντέλα όπως το GPT-4 και το palm επιτύγχανον 80% και 85%, ενώ οι άνθρωποι επιτύγχανον 96% στο σύνολο δεδομένων DROP.

Βελτιστοποιήσεις Κοινής Λογικής

Η αξιολόγηση της κοινής λογικής στα μοντέλα γλώσσας είναι ένα ενδιαφέρον αλλά και κρίσιμο ζήτημα, επειδή αξιολογεί την ικανότητα του μοντέλου να κάνει κρίσεις και συλλογισμούς που συμφωνούν με την ανθρώπινη λογική. Σε αντίθεση με τους ανθρώπους, οι οποίοι αναπτύσσουν ένα綜合τικό μοντέλο του κόσμου μέσω πρακτικών εμπειριών, τα μοντέλα γλώσσας εκπαιδεύονται σε τεράστια σύνολα δεδομένων χωρίς να κατανοούν πραγματικά τον контекστο. Αυτό σημαίνει ότι τα μοντέλα δυσκολεύονται με εργασίες που απαιτούν μια ενστικτική κατανόηση καθημερινών καταστάσεων, λογική συλλογισμό και πρακτικές γνώσεις, οι οποίες είναι πολύ σημαντικές για ρομποτικές και αξιόπιστες εφαρμογές AI.

HellaSwag (Δυσκολότερες Λήξεις, Μακρύτερες Περικοπές και Λογικές Δραστηριότητες για Καταστάσεις με Αντιπαλές Γεννήσεις)

Το HellaSwag έχει αναπτυχθεί από τον Rowan Zellers και τους συναδέλφους του στο Πανεπιστήμιο του Washington και το Ινστιτούτο Τεχνητής Νοημοσύνης Allen. Σχεδιάστηκε για να δοκιμάσει την ικανότητα του μοντέλου να προβλέψει την πιο πιθανή συνέχεια ενός δεδομένου σεναρίου. Αυτή η βελτιστοποίηση έχει κατασκευαστεί χρησιμοποιώντας την Adversarial Filtering (AF), όπου μια σειρά από διακρίτες επέλεξαν αντιπαλές μηχανικά-παραγμένες λανθασμένες απαντήσεις. Αυτή η μέθοδος δημιουργεί ένα σύνολο δεδομένων με εύκολες για τους ανθρώπους αλλά απαιτητικές για τα μοντέλα ερωτήσεις, οδηγώντας σε μια “Goldilocks” ζώνη δυσκολίας.

Ενώ το HellaSwag ήταν απαιτητικό για τα προηγούμενα μοντέλα, τα μοντέλα της τελευταίας γενιάς όπως το GPT-4 έχουν επιτύχει επίπεδα απόδοσης κοντά στην ανθρώπινη ακρίβεια, υπογραμμίζοντας σημαντική πρόοδο στον τομέα. Ωστόσο, αυτά τα αποτελέσματα δείχνουν την ανάγκη για συνεχώς εξελισσόμενες βελτιστοποιήσεις για να跟παθούν τις προόδους στις ικανότητες του AI.

Openbook

Το σύνολο δεδομένων Openbook αποτελείται από 5957 πολλαπλών επιλογών ερωτήσεις μαθηματικών του δημοτικού. Οι ερωτήσεις έχουν συλλεχθεί από ανοιχτές εξετάσεις και έχουν αναπτυχθεί για να αξιολογήσουν την κατανόηση του ανθρώπινου υποκειμένου.

Η βελτιστοποίηση Openbook απαιτεί ικανότητα συλλογισμού πέρα από την ανάκτηση πληροφοριών. Το GPT-4 επιτύγχανον την υψηλότερη ακρίβεια 95.9% μέχρι τώρα.

Το OpenbookQA έχει αναπτυχθεί με βάση ανοιχτές εξετάσεις και αποτελείται από 5.957 πολλαπλών επιλογών ερωτήσεις μαθηματικών του δημοτικού. Αυτές οι ερωτήσεις έχουν σχεδιαστεί για να διερευνήσουν την κατανόηση 1.326 βασικών μαθηματικών γεγονότων και την εφαρμογή τους σε νέες καταστάσεις.

Παρόμοια με το HellaSwag, τα προηγούμενα μοντέλα βρήκαν το OpenbookQA απαιτητικό, αλλά τα μοντέλα της τελευταίας γενιάς όπως το GPT-4 έχουν επιτύχει επίπεδα απόδοσης κοντά στην ανθρώπινη ακρίβεια. Αυτή η πρόοδος υπογραμμίζει τηνimportance της ανάπτυξης ακόμη πιο σύνθετων και νюανσικών βελτιστοποιήσεων για να συνεχίσει να ωθεί τα όρια της κατανόησης του AI.

Είναι οι Βελτιστοποιήσεις Ικανές για την Αξιολόγηση της Απόδοσης των LLM;

Ναι, ενώ παρέχουν μια τυποποιημένη προσέγγιση για την αξιολόγηση της απόδοσης των LLM, μπορούν επίσης να είναι παραπλανητικές. Η Οργάνωση Μεγάλων Μοντέλων λέει ότι μια καλή βελτιστοποίηση για LLM πρέπει να είναι ανεξάρτητη, ικανή να αξιολογεί νέα μοντέλα με σχετικά λίγες δοκιμές, και να παρέχει μια μοναδική σειρά για όλα τα μοντέλα. Αλλά, υπάρχουν λόγοι για τους οποίους μπορεί να μην είναι assez. Εδώ είναι μερικοί:

Διαρροή Βελτιστοποίησης

Αυτό είναι ένα συνηθισμένο ζήτημα, και συμβαίνει όταν τα δεδομένα εκπαίδευσης перекrýονται με τα δεδομένα δοκιμών, κάνοντας μια παραπλανητική αξιολόγηση. Εάν ένα μοντέλο έχει ήδη συναντήσει κάποιες από τις ερωτήσεις δοκιμών κατά την εκπαίδευση, το αποτέλεσμά του μπορεί να μην αντανακλούν ακριβώς τις πραγματικές του ικανότητες. Αλλά μια ιδανική βελτιστοποίηση πρέπει να ελαχιστοποιήσει την απομνημόνευση και να αντανακλούν πραγματικές σενάρια.

Προκατάληψη Αξιολόγησης

Οι κατατάξεις των LLM χρησιμοποιούνται για να συγκρίνουν την απόδοση των LLM σε διάφορες εργασίες. Ωστόσο, η εξάρτηση από αυτές τις κατατάξεις για την σύγκριση των μοντέλων μπορεί να είναι παραπλανητική. Απλές αλλαγές στις δοκιμαστικές ερωτήσεις, όπως η αλλαγή της σειράς των ερωτήσεων, μπορεί να μετατοπίσει την κατάταξη των μοντέλων μέχρι και οκτώ θέσεις. Επίσης, τα LLM μπορεί να εκτελούνται διαφορετικά ανάλογα με τις μεθόδους σκορ, υπογραμμίζοντας τηνimportance της考虑 προκαταλήψεων αξιολόγησης.

Ανοιχτότητα

Η πραγματική αλληλεπίδραση με τα LLM περιλαμβάνει το σχεδιασμό προωθήσεων για να παράγει η επιθυμητή AI-εξόδους. Τα LLM-εξόδους εξαρτώνται από την αποτελεσματικότητα των προωθήσεων, και οι βελτιστοποιήσεις έχουν σχεδιαστεί για να δοκιμάσουν την κατανόηση контекστού των LLM. Ενώ οι βελτιστοποιήσεις έχουν σχεδιαστεί για να δοκιμάσουν την κατανόηση контекστού των LLM, δεν μεταφράζονται πάντα直接 στην πραγματική απόδοση. Για παράδειγμα, ένα μοντέλο που επιτυγχάνει 100% σκορ σε ένα σύνολο δεδομένων βελτιστοποίησης, όπως το LSAT, δεν εγγυάται το ίδιο επίπεδο ακρίβειας σε πρακτικές εφαρμογές. Αυτό υπογραμμίζει τηνimportance της考虑 της ανοιχτής φύσης των πραγματικών εργασιών στην αξιολόγηση των LLM.

Εфективική Αξιολόγηση για Ρομποτικά LLM

Έτσι, τώρα ξέρετε ότι οι βελτιστοποιήσεις δεν είναι πάντα η καλύτερη επιλογή επειδή δεν μπορούν πάντα να γενικεύσουν σε όλα τα προβλήματα. Αλλά, υπάρχουν άλλοι τρόποι.

Προσαρμοσμένες Βελτιστοποιήσεις

Αυτές είναι ιδανικές για το δοκιμασμό συγκεκριμένων συμπεριφορών και λειτουργιών σε εργασίες-ειδικές σενάρια. Π.χ., εάν ένα LLM έχει σχεδιαστεί για ιατρικούς αξιωματούχους, τα δεδομένα που συλλέγονται από ιατρικούς χώρους θα αντιπροσωπεύουν αποτελεσματικά πραγματικές σενάρια. Αυτές οι προσαρμοσμένες βελτιστοποιήσεις μπορούν να επικεντρωθούν σε γλωσσική κατανόηση, απόδοση και μοναδικές απαιτήσεις контекστού. Βάζοντας τις βελτιστοποιήσεις σε συμφωνία με πραγματικές σενάρια, μπορείτε να διασφαλίσετε ότι το LLM εκτελείται καλά γενικά και excels στις συγκεκριμένες εργασίες για τις οποίες έχει σχεδιαστεί. Αυτό μπορεί να βοηθήσει στην αναγνώριση και αντιμετώπιση τυχόν κενών ή αδυναμιών στις ικανότητες του μοντέλου από νωρίς.

Πipeline Ανίχνευσης Διαρροής Δεδομένων

Εάν θέλετε οι αξιολογήσεις σας να «δείχνουν» ακεραιότητα, είναι πολύ σημαντικό να έχετε μια διαρροή-ελεύθερη βελτιστοποίηση-πipeline. Η διαρροή δεδομένων συμβαίνει όταν τα δεδομένα εκπαίδευσης περιλαμβάνονται στο σύνολο δεδομένων δοκιμών, οδηγώντας σε τεχνητά υψηλά σκορ απόδοσης. Για να αποφευχθεί αυτό, οι βελτιστοποιήσεις πρέπει να αναζητούνται σε σχέση με τα δεδομένα εκπαίδευσης. Επίσης, βήματα για να αποφευχθεί οποιαδήποτε προηγουμένως vista πληροφορία. Αυτό μπορεί να περιλαμβάνει την χρήση ιδιωτικών ή νεο-σχεδιασμένων συνόλων δεδομένων που διατηρούνται ξεχωριστά από την πορεία εκπαίδευσης του μοντέλου – αυτό θα διασφαλίσει ότι τα μετρικά απόδοσης που λαμβάνετε αντανακλούν την ικανότητα του μοντέλου να γενικεύει καλά.

Αξιολόγηση Ανθρώπων

Οι αυτοματοποιημένες μετρήσεις από μόνες τους δεν μπορούν να καταγράψουν το πλήρες φάσμα της απόδοσης του μοντέλου, ιδιαίτερα όταν πρόκειται για πολύ νюανσικές και υποκειμενικές πτυχές της γλωσσικής κατανόησης και γεννήτριας. Εδώ, η αξιολόγηση ανθρώπων παρέχει μια πολύ καλύτερη αξιολόγηση:

Εργασία Επαγγελματιών που μπορούν να παρέχουν λεπτομερείς και αξιόπιστες αξιολογήσεις, ιδιαίτερα για εξειδικευμένους τομείς.
Κρα우ντσορσινγκ! Πλατφόρμες όπως το Amazon Mechanical Turk επιτρέπουν να συλλέγουν ποικίλες ανθρώπινες κρίσεις γρήγορα και με χαμηλό κόστος.
Κοινότητα Ανατροφοδότησης: Χρησιμοποιώντας πλατφόρμες όπως το LMSYS leaderboard arena, όπου οι χρήστες μπορούν να ψηφίσουν και να συγκρίνουν μοντέλα, προσθέτει ένα επιπλέον επίπεδο εντυπώσεων. Το LMSYS Chatbot Arena Hard, για παράδειγμα, είναι ιδιαίτερα αποτελεσματικό στο να υπογραμμίζει τις λεπτές διαφορές μεταξύ κορυφαίων μοντέλων μέσω άμεσων αλληλεπιδράσεων και ψηφοφοριών χρηστών.

Συμπέρασμα

Χωρίς αξιολόγηση και βελτιστοποίηση, δεν θα είχαμε τρόπο να γνωρίζουμε εάν η ικανότητα των LLM να χειρίζονται πραγματικές εργασίες είναι τόσο ακριβής και εφαρμόσιμη όσο νομίζουμε. Αλλά, όπως είπα, οι βελτιστοποιήσεις δεν είναι πάντα ο καλύτερος τρόπος για να ελέγξουμε αυτό, μπορεί να οδηγήσουν σε κενά στην απόδοση των LLM. Αυτό μπορεί επίσης να επιβραδύνει την ανάπτυξη των LLM που είναι πραγματικά ρομποτικά για εργασία.

Αυτό είναι πώς θα πρέπει να είναι σε ένα ιδανικό κόσμο. Τα LLM κατανοούν τα ερωτήματα του χρήστη, αναγνωρίζουν λάθη στις προωθήσεις, ολοκληρώνουν εργασίες όπως οδηγούνται, και παράγουν αξιόπιστα εξόδους. Τα αποτελέσματα είναι ήδη μεγάλα αλλά όχι ιδανικά. Αυτό είναι όπου οι εργασίες-ειδικές βελτιστοποιήσεις αποδεικνύονται πολύ χρήσιμες, όπως και η αξιολόγηση ανθρώπων και η ανίχνευση διαρροής βελτιστοποίησης. Χρησιμοποιώντας αυτές, έχουμε την ευκαιρία να παράγουμε πραγματικά ρομποτικά LLM.

Irina Barskaya, PhD, Head Data Scientist at Yandex

Η Irina Barskaya, PhD, είναι μια διακεκριμένη επιστήμονας δεδομένων με πάνω από μια δεκαετία εμπειρίας, που περιλαμβάνει τόσο την ανάλυση προϊόντων όσο και την ανάλυση για τεχνολογίες αιχμής. Ηγήθηκε της δημιουργίας και της ανάλυσης για την Yasmina, την πρώτη πλήρως λειτουργική τοπικαλισμένη AI-βασισμένη φωνητική βοηθό για τη Σαουδική Αραβία, που χειρίζεται σύνθετα δεδομένα τοπικοποίησης και ετικέτας για τη Σύγχρονη Τυποποιημένη Αραβική και τις διαλέκτους της Σαουδικής Αραβίας. Hiện, η Irina ηγείται της ποιότητας ανάλυσης στο Yandex, οδηγώντας τις προόδους στις τεχνολογίες AI.