Τεχνητή νοημοσύνη
Η Google κάνει την εκπαίδευση του AI 28% πιο γρήγορη χρησιμοποιώντας SLMs ως δασκάλους

Η εκπαίδευση μεγάλων μοντέλων γλώσσας (LLMs) έχει γίνει απρόσιτη για την πλειοψηφία των οργανισμών. Με κόστη που φτάνουν σε εκατομμύρια και απαιτήσεις υπολογιστικών πόρων που θα κάνουν έναν υπερυπολογιστή να ιδρώσει, η ανάπτυξη του AI έχει παραμείνει κλειδωμένη πίσω από τις πόρτες των τεχνολογικών γιγάντων. Αλλά η Google μόλις ανατράπηκε αυτή η ιστορία με μια προσέγγιση τόσο απλή που σας κάνει να αναρωτιέστε γιατί κανείς δεν σκέφτηκε να το κάνει νωρίτερα: χρησιμοποιώντας μικρότερα μοντέλα AI ως δασκάλους.
Πώς λειτουργεί το SALT: Μια νέα προσέγγιση για την εκπαίδευση μοντέλων AI
Σε một πρόσφατο ερευνητικό έγγραφο με τίτλο “A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs,” η Google Research και η DeepMind εισήγαγαν το SALT (Small model Aided Large model Training). Αυτή είναι η καινοτόμος μέθοδος που προκλήθηκε η παραδοσιακή μας προσέγγιση για την εκπαίδευση LLMs.
Γιατί αυτή η έρευνα είναι σημαντική; Τώρα, η εκπαίδευση μεγάλων μοντέλων AI είναι σαν να προσπαθείτε να διδάξετε κάποιον όλα όσα χρειάζεται να ξέρει για ένα θέμα από την αρχή – είναι ανεφάρμοστη, ακριβή και συχνά περιορισμένη σε οργανισμούς με τεράστιους υπολογιστικούς πόρους. Το SALT ακολουθεί διαφορετικό δρόμο, εισάγοντας μια διπλή διαδικασία εκπαίδευσης που είναι καινοτόμος και πρακτική.
Αναλύοντας πώς λειτουργεί το SALT:
Στάδιο 1: Απόσταξη Γνώσεων
- Ένα μικρότερο μοντέλο γλώσσας (SLM) ενεργεί ως δάσκαλος, μοιράζοντας την κατανόησή του με το μεγαλύτερο μοντέλο
- Το μικρότερο μοντέλο επικεντρώνεται στη μεταφορά της “αποκτηθείσας γνώσης” του μέσω του όρου “soft labels” που χρησιμοποιούν οι ερευνητές
- Σκεφτείτε το σαν ένα βοηθό δάσκαλο που χειρίζεται θεμελιώδεις έννοιες πριν ο μαθητής προχωρήσει σε προηγμένα θέματα
- Αυτό το στάδιο είναι ιδιαίτερα αποτελεσματικό σε “εύκολες” περιοχές μάθησης – περιοχές όπου το μικρότερο μοντέλο έχει ισχυρή προβλεπτική εμπιστοσύνη
Στάδιο 2: Αυτο-επιτηρούμενη Μάθηση
- Το μεγαλύτερο μοντέλο μεταβαίνει σε ανεξάρτητη μάθηση
- Επικεντρώνεται στο να κατακτήσει σύνθετα μοτίβα και απαιτητικά καθήκοντα
- Αυτό είναι το σημείο όπου το μοντέλο αναπτύσσει ικανότητες πέρα από αυτά που θα μπορούσε να παρέχει ο “δάσκαλος” του
- Η μετάβαση μεταξύ των σταδίων χρησιμοποιεί προσεκτικά σχεδιασμένες στρατηγικές, συμπεριλαμβανομένης της γραμμικής μείωσης και της γραμμικής αναλογικής μείωσης του βάρους της απώλειας απόσταξης
Σε μη τεχνικούς όρους, φανταστείτε το μικρότερο μοντέλο AI σαν ένα χρήσιμο βοηθό που οδηγεί το μεγαλύτερο μοντέλο στις αρχικές φάσεις της εκπαίδευσης. Αυτός ο βοηθός παρέχει πρόσθετη πληροφορία μαζί με τις απαντήσεις του, υποδεικνύοντας πόσο βέβαιος είναι για κάθε απάντηση. Αυτή η πρόσθετη πληροφορία, γνωστή ως “soft labels”, βοηθά το μεγαλύτερο μοντέλο να μάθει πιο γρήγορα και αποτελεσματικά.
- Γραμμική Μείωση: Είναι σαν να μειώνετε σιγά-σιγά την ένταση της φωνής του βοηθού. Η οδηγία του βοηθού γίνεται λιγότερο προεξέχουσα με κάθε βήμα, επιτρέποντας στο μεγαλύτερο μοντέλο να επικεντρωθεί περισσότερο στη μάθηση από τα ακατέργαστα δεδομένα.
- Γραμμική Αναλογική Μείωση: Αυτή είναι σαν να điều chỉnhετε την ισορροπία μεταξύ της συμβουλής του βοηθού και του πραγματικού καθήκοντος. Καθώς προχωρά η εκπαίδευση, η έμφαση μεταφέρεται περισσότερο στο αρχικό καθήκον, ενώ η εισφορά του βοηθού γίνεται λιγότερο κυρίαρχη.
Τα αποτελέσματα είναι πειστικά. Όταν οι ερευνητές της Google ε-tested το SALT χρησιμοποιώντας ένα SLM 1,5 δισεκατομμυρίων παραμέτρων για την εκπαίδευση ενός LLM 2,8 δισεκατομμυρίων παραμέτρων στο σύνολο δεδομένων Pile, είδαν:
- Μια μείωση 28% στο χρόνο εκπαίδευσης σε σύγκριση με τις παραδοσιακές μεθόδους
- Σημαντικές βελτιώσεις απόδοσης μετά την εκπαίδευση:
- Η ακρίβεια των μαθηματικών προβλημάτων αυξήθηκε στο 34,87% (σε σύγκριση με 31,84% βασική γραμμή)
- Η κατανόηση ανάγνωσης έφτασε στο 67% ακρίβεια (από 63,7%)
Αλλά αυτό που κάνει το SALT πραγματικά καινοτόμο είναι το θεωρητικό του πλαίσιο. Οι ερευνητές ανακάλυψαν ότι ακόμη και ένα “αδύναμο” μοντέλο δασκάλου μπορεί να βελτιώσει την απόδοση του μαθητή επιτυγχάνοντας αυτό που ονομάζουν “ευνοϊκή ανταλλαγή μεροληπτικής και διασποράς”. Σε απλούστερους όρους, το μικρότερο μοντέλο βοηθά το μεγαλύτερο να μάθει θεμελιώδεις μοτίβα πιο αποτελεσματικά, δημιουργώντας μια ισχυρότερη βάση για προηγμένη μάθηση.
Γιατί το SALT θα μπορούσε να αναμορφώσει το πεδίο της ανάπτυξης του AI
Θυμάστε όταν η υπολογιστική στο cloud μετέβαλε ποιος θα μπορούσε να ξεκινήσει μια τεχνολογική εταιρεία; Το SALT μπορεί να κάνει το ίδιο για την ανάπτυξη του AI.
Ακολουθώ τις καινοτομίες στην εκπαίδευση του AI για χρόνια, και οι περισσότερες επιτυχίες έχουν ωφελήσει κυρίως τους τεχνολογικούς γίγαντες. Αλλά το SALT είναι διαφορετικό.
Αυτό που θα μπορούσε να σημαίνει για το μέλλον:
Για Οργανισμούς με Περιορισμένους Πόρους:
- Πιθανότατα δεν θα χρειαστείτε πλέον τεράστιους υπολογιστικούς πόρους για την ανάπτυξη ικανοποιητικών μοντέλων AI
- Μικρότεροι ερευνητικοί χώροι και εταιρείες θα μπορούσαν να πειραματιστούν με την ανάπτυξη προσαρμοσμένων μοντέλων
- Η μείωση 28% στο χρόνο εκπαίδευσης μεταφράζεται直接 σε χαμηλότερο κόστος υπολογιστικών πόρων
- Πιο σημαντικά, θα μπορούσατε να ξεκινήσετε με μετριοπαθείς υπολογιστικούς πόρους και να επιτύχετε ακόμα επαγγελματικά αποτελέσματα
Για το Τοπίο της Ανάπτυξης του AI:
- Περισσότεροι παίκτες θα μπορούσαν να εισέλθουν στο πεδίο, οδηγώντας σε πιο ποικιλόμορφες και εξειδικευμένες λύσεις AI
- Πανεπιστήμια και ερευνητικά ιδρύματα θα μπορούσαν να διεξάγουν περισσότερα πειράματα με τους υπάρχοντες πόρους
- Το εμπόδιο εισόδου για την έρευνα του AI μειώνεται σημαντικά
- Μπορούμε να δούμε νέες εφαρμογές σε πεδία που προηγουμένως δεν μπορούσαν να αντέξουν την ανάπτυξη του AI
Τι σημαίνει αυτό για το μέλλον
Χρησιμοποιώντας μικρότερα μοντέλα ως δασκάλους, δεν κάνουμε μόνο την εκπαίδευση του AI πιο αποτελεσματική – αλλά αλλάζουμε επίσης θεμελιωδώς ποιος συμμετέχει στην ανάπτυξη του AI. Οι επιπτώσεις πηγαίνουν πολύ πέρα από τις τεχνικές βελτιώσεις.
Κύριες σημειώσεις για να θυμάστε:
- Η μείωση 28% στο χρόνο εκπαίδευσης είναι η διαφορά μεταξύ της έναρξης ενός προγράμματος AI και της σκέψης ότι είναι απρόσιτο
- Οι βελτιώσεις απόδοσης (34,87% στα μαθηματικά, 67% στις δραστηριότητες ανάγνωσης) δείχνουν ότι η προσιτότητα δεν σημαίνει πάντα συμβιβασμός στην ποιότητα
- Η προσέγγιση του SALT αποδεικνύει ότι μερικές φορές οι καλύτερες λύσεις προέρχονται από την ανασκόπηση των θεμελίων παρά από την προσθήκη περισσότερης υπολογιστικής ισχύος
Τι να παρακολουθήσετε:
- Παρακολουθήστε μικρότερες οργανώσεις που ξεκινούν να αναπτύσσουν προσαρμοσμένα μοντέλα AI
- Παρακολουθήστε νέες εφαρμογές σε πεδία που προηγουμένως δεν μπορούσαν να αντέξουν την ανάπτυξη του AI
- Παρακολουθήστε τις καινοτομίες στη χρήση μικρότερων μοντέλων για εξειδικευμένα καθήκοντα
Θυμάστε: Η πραγματική αξία του SALT έγκειται στο πώς μπορεί να αναμορφώσει ποιος καινοτομεί στο AI. Ανεξάρτητα από το αν διευθύνετε ένα ερευνητικό εργαστήριο, διαχειρίζεστε μια τεχνολογική ομάδα ή απλώς ενδιαφέρεστε για την ανάπτυξη του AI, αυτή η καινοτομία θα μπορούσε να κάνει την επόμενη μεγάλη ιδέα σας δυνατή.
Μaybe σκεφτείτε το πρόγραμμα AI που σκέφτηκατε ότι ήταν απρόσιτο. Μπορεί να είναι πιο δυνατό από ό,τι φανταζόσασταν.












