Ηγέτες σκέψης
Η Αποτυχία των LLMs στις Μαθηματικές Επιστήμες και Πώς να την Επιλύσουμε
Τα μαθηματικά έχουν πάντα αποτελέσει μια σημαντική πρόκληση για τα μοντέλα AI. Η εξοικείωση με τα μαθηματικά απαιτεί σύνθετες ικανότητες συλλογισμού, και για τα AI, αυτή η εργασία δεν είναι καθόλου απλή. Αυτό δημιουργεί ένα τεράστιο πρόβλημα, δεδομένης της σημασίας της μαθηματικής επάρκειας για επαγγελματική, προσωπική και ακαδημαϊκή επιτυχία.
Παρά τις εξαιρετικές ικανότητές τους, τα μεγάλου όγκου γλωσσικά μοντέλα (LLMs) συχνά δυσκολεύονται με σύνθετες μαθηματικές εργασίες, όπως η γεωμετρία, που απαιτούν προηγμένες ικανότητες συλλογισμού. Αυτό μας οδηγεί στην κρίσιμη ερώτηση: πόσο από τις μαθηματικές ικανότητες ενός μοντέλου AI προέρχεται από γνήσιο συλλογισμό έναντι απλής ανάκλησης των δεδομένων εκπαίδευσης;
Πρόσφατα ευρήματα από την Apple δείχνουν ότι ακόμη και όταν επικεντρωθούν στα προβλήματα μαθηματικών του δημοτικού, τα πιο εξελιγμένα μοντέλα δεν οδηγούνται αποκλειστικά από «συλλογισμό».
Πηγαίνοντας ένα βήμα παραπέρα, η ομάδα έρευνας και ανάπτυξης στο MathGPT.ai έδωσε νέα έμφαση σε περιοχές των αλγεβρικών έως των μαθηματικών του λογισμού που απαιτούν την μεγαλύτερη βελτίωση.
Αυτά τα δεδομένα εξέτασαν πώς οι παραλλαγές του контекstu και της γλώσσας επηρεάζουν την απόδοση του μοντέλου σε διαφορετικά LLMs, συμπεριλαμβανομένων των τελευταίων μοντέλων o1-preview και o1-mini της OpenAI. Τα ευρήματα αποκάλυψαν μια ανησυχητική τάση: η ακρίβεια έπεφτε συνεχώς καθώς τα προβλήματα απομακρύνθηκαν από τις αρχικές ερωτήσεις που ήταν διαθέσιμες στα δεδομένα εκπαίδευσης των LLMs, με την απόδοση να πέφτει απότομα σε πιο απαιτητικά μαθηματικά πρότυπα πάνω από το επίπεδο των μαθηματικών του δημοτικού.
Η Δίλημμα Ανακλησης και Συλλογισμού
Η έρευνα εστιάστηκε σε τρεις κρίσιμους παράγοντες:
- Χρήση πιο απαιτητικών μαθηματικών προτύπων από τα μαθηματικά του δημοτικού
- Εξέταση ενός «1-shot prompt» με εξαιρετική ομοιότητα με το πρόβλημα του τεστ
- Εφαρμογή μιας στρατηγικής “best of n” για n προσπάθειες στο ίδιο πρόβλημα – αποτελεσματικά, μια ψηφοφορία της πλειοψηφίας για την εξάλειψη στατιστικών ανωμαλιών, κατά την время της εύρεσης.
Τα αποτελέσματα ήταν και ενδιαφέροντα και ανησυχητικά. Τα όρια της παραλλαγής του προβλήματος επεκτάθηκαν, δείχνοντας μια συνεχής πτώση της απόδοσης του μοντέλου AI καθώς οι μαθηματικές εξισώσεις έγιναν πιο σύνθετες.
Η Πρόκληση του Συνόλου MATH
Το συνόλου MATH αναπτύχθηκε, γνωστό για τα απαιτητικά προβλήματα του γυμνασίου, σε αντίθεση με το συνόλου Grade School Math 8K, το οποίο περιέχει 8.500 γλωσσικά διαφορετικά προβλήματα στο επίπεδο του δημοτικού. Το συνόλου MATH παρουσιάζει πιο απαιτητικά προβλήματα του γυμνασίου για να εξεταστεί η απόδοση του μοντέλου σε διαφορετικά επίπεδα δυσκολίας, από την προαλγεβρα μέχρι τη θεωρία αριθμών. Αυτή η επιλογή επέτρεψε στο MathGPT.ai να εξετάσει καλύτερα την απόδοση του μοντέλου σε διαφορετικά επίπεδα δυσκολίας.
Στις δοκιμές, ενώ οι αριθμητικές τιμές και οι τελικές απαντήσεις παρέμειναν αμετάβλητες, μεταβάλαμε τη γλώσσα, τις μεταβλητές και το контέκστ του προβλήματος. Για παράδειγμα, ένα σενάριο «σκύλου που περπατά» μπορεί να μετατραπεί σε ένα πρόβλημα «πλυντηρίου». Αυτή η μέθοδος βοήθησε να μετριαστεί η αυξημένη πολυπλοκότητα του συνόλου MATH, ενώ ακόμη προκάλεισε τις ικανότητες συλλογισμού του μοντέλου.
Αποκαλύπτοντας τα Αποτελέσματα
Τα αποτελέσματα ήταν εντυπωσιακά. Ακόμη και τα πιο εξελιγμένα μοντέλα δυσκολεύτηκαν όταν αντιμετώπισαν παραλλαγές προβλημάτων που είχαν πιθανότατα συναντήσει στη διαδικασία εκπαίδευσής τους. Για παράδειγμα, η ακρίβεια του μοντέλου o1-mini έπεσε από 93,66% στις αρχικές ερωτήσεις σε 88,54% στην πιο απαιτητική παραλλαγή. Το μοντέλο o1-preview experienced μια παρόμοια πτώση, πέφτοντας από 91,22% σε 82,93% – μια απότομη πτώση που υπογραμμίζει κρίσιμες лакκώσεις στη ρομποřenότητά τους.
Αυτά τα ευρήματα συμφωνούν και επεκτείνουν την προηγούμενη έρευνα της Apple, δείχνοντας ότι οι περιορισμοί του AI στη μαθηματική συλλογιστική γίνονται πιο εμφανείς καθώς τα προβλήματα γίνονται πιο σύνθετα και απαιτούν βαθύτερη κατανόηση παρά αναγνώριση προτύπων.
Ο Δρόμος Εμπρός
Καθώς συνεχίζουμε να ωθούμε τα όρια του συλλογισμού των LLMs, είναι κρίσιμο να αναγνωρίσουμε τόσο το απίστευτο δυναμικό τους όσο και τα τρέχοντα περιορισμοί. Νέα έρευνα υπογραμμίζει την ανάγκη για συνεχείς καινοτομίες στην ανάπτυξη μοντέλων AI που μπορούν να κινηθούν πέρα από την αναγνώριση προτύπων και να επιτύχουν πιο ρομπορικές και γενικευμένες ικανότητες επίλυσης προβλημάτων.
Αυτό συμβαίνει σε μια κρίσιμη στιγμή, ιδιαίτερα στην ανώτερη εκπαίδευση, όπου το AI χρησιμοποιείται όλο και περισσότερο ως βοήθημα του εκπαιδευτικού στην τάξη, ενώ ταυτόχρονα τα σχολεία συνεχίζουν να βλέπουν υψηλούς ποσοστούς αποτυχίας μεταξύ των μαθηματικών που δεν είναι προετοιμασμένοι για τα μαθήματα.
Η επίτευξη ανθρώπινου-όμοιων γνωστικών ικανοτήτων ή γενικής νοημοσύνης στο AI απαιτεί όχι μόνο τεχνολογικές προόδους αλλά και μια νανο-κατανόηση του πώς να γεφυρώσουμε το χάσμα μεταξύ ανάκλησης και γνήσιου συλλογισμού.
Εάν είμαστε επιτυχημένοι σε αυτόν τον δρόμο, είμαι βέβαιος ότι μπορούμε να αλλάξουμε τη ζωή εκατομμυρίων μαθητών και ακόμη και επαγγελματιών, τοποθετώντας τις ζωές τους σε ένα εντελώς νέο траекторία.












