Τεχνητή νοημοσύνη
Sapient Intelligence Παρουσιάζει το HRM-Text, Ένα Μοντέλο Νοημοσύνης Ενεργημένο από τον Εγκέφαλο, Κατασκευασμένο για να Ανταγωνιστεί τον Αγώνα για την Κλίμακα

Καθώς η βιομηχανία του AI συνεχίζει να επενδύει δισεκατομμύρια σε μεγαλύτερα και μεγαλύτερα μοντέλα γλωσσών και ολοένα και πιο τεράστιους κέντρους δεδομένων, η εταιρεία έρευνας AI με έδρα τη Σιγκαπούρη, Sapient Intelligence, ακολουθεί μια πολύ διαφορετική προσέγγιση.
Η εταιρεία έχει ανακοινώσει το HRM-Text, ένα νέο μοντέλο γλωσσών 1 δισεκατομμυρίου παραμέτρων που σχεδιάζεται γύρω από μια ιεραρχική ανακυκλική αρχιτεκτονική που εμπνέεται από τον τρόπο με τον οποίο ο εγκέφαλος διαχωρίζει την αργή, προσεκτική σκέψη από την ταχεία, χαμηλότερου επιπέδου επεξεργασία.
Αντί να προσπαθήσει να κερδίσει μέσω της καθαρής κλίμακας, η Sapient θέτει το HRM-Text ως απόδειξη ότι το βάθος της σκέψης και η υπολογιστική αποτελεσματικότητα μπορεί να γίνουν πιο σημαντικά από τις сыρές μετρήσεις παραμέτρων στη nächste φάση της ανάπτυξης του AI.
Η εκκίνηση συνεχίζει μια ευρύτερη τάση που εμφανίζεται σε όλη τη βιομηχανία του AI: αυξανόμενη σκεπτικισμός ότι η απλή κλίμακα των μετασχηματιστών απεριόριστα θα είναι αρκετή για την επίτευξη πιο γενικών μορφών νοημοσύνης.
Κινούμενοι Πέρα από το Βιβλίο του Μετασχηματιστή
Τα περισσότερα σύγχρονα μεγάλα μοντέλα γλωσσών βασίζονται σε αρχιτεκτονικές Μετασχηματιστών που επεξεργάζονται τις πληροφορίες μέσω ενός κυρίως feed-forward συστήματος που επικεντρώνεται στην πρόβλεψη του επόμενου token. Η αρχιτεκτονική HRM της Sapient εισαγάγει μια ιεραρχική ανακυκλική δομή όπου πολλαπλά στρώματα σκέψης αλληλεπιδρούν εσωτερικά πριν από την παραγωγή οποιασδήποτε έξοδου.
Η εταιρεία περιγράφει την αρχιτεκτονική ως λειτουργία μέσω δύο διασυνδεδεμένων συστημάτων: ενός υψηλότερου επιπέδου “αργού ελεγκτή” που είναι υπεύθυνος για την αφηρημένη σχεδίαση και σκέψη, και ενός χαμηλότερου επιπέδου “γρήγορου εργάτη” που χειρίζεται τις λεπτομερείς υπολογισμούς.
Αυτό διαφέρει από τις μεθόδους αλυσίδας σκέψης που χρησιμοποιούνται ευρέως στα τρέχοντα συστήματα AI, όπου η σκέψη εκφράζεται μέσω μακρών ορατών ακολουθιών κειμένου. Το HRM-Text πραγματοποιεί μεγάλο μέρος της σκέψης του εσωτερικά στο.latent χώρο πριν από την παραγωγή απαντήσεων.
Η Sapient υποστηρίζει ότι αυτή η δομή επιτρέπει σε μικρότερα συστήματα να thực hiện πιο σύνθετη πολλαπλή σκέψη χωρίς να βασίζονται σε τεράστιες μετρήσεις μοντέλων ή τεράστιους κόστους συλλογής.
Σύμφωνα με τα αποτελέσματα των μετρήσεων που παρέχονται από την εταιρεία, το HRM-Text πέτυχε 56,2% στο MATH, 81,9% στο ARC-Challenge, 82,2% στο DROP και 60,7% στο MMLU παρά την tương đối μικρή του αποτύπωση.
Η Αποτελεσματικότητα Γίνεται Ένα Στρατηγικό Πεδίο Μάχης του AI
Η εκκίνηση έρχεται σε μια στιγμή όταν οι ανησυχίες γύρω από τα κόστη της υποδομής του AI, την κατανάλωση ενέργειας και τη διαθεσιμότητα υπολογισμού γίνονται κεντρικά βιομηχανικά ζητήματα.
Η εκπαίδευση και η ανάπτυξη συστημάτων AI στην κατάσταση της τέχνης τώρα συχνά απαιτούν τεράστιους GPU cluster, υπερκλίμακες κέντρους δεδομένων και επίπεδα κατανάλωσης ενέργειας που ελέγχονται ολοένα και περισσότερο από κυβερνήσεις και παρόχους υποδομής. Η Sapient υποστηρίζει ότι οι μελλοντικές επιτυχίες μπορεί να προέλθουν όχι από την κλίμακα μεγαλύτερων συστημάτων, αλλά από την επανεξέταση της αρχιτεκτονικής του εαυτού.
Η εταιρεία ισχυρίζεται ότι το HRM-Text μπορεί να εκπαιδευτεί σε περίπου μια μέρα χρησιμοποιώντας 16 GPUs σε δύο μηχανές με κόστος περίπου 1.000 δολαρίων. Σε σύγκριση, τα μοντέλα γλωσσών της πρώτης γραμμής μπορούν να απαιτούν προϋπολογισμούς εκπαίδευσης που φτάνουν στα εκατομμύρια δολάρια.
Το προφίλ ανάπτυξης του μοντέλου είναι επίσης αξιοσημείωτο. Σε quantization int4, το HRM-Text αναφέρθηκε ότι καταλαμβάνει περίπου 0,6 GiB, καθιστώντας τη τοπική ανάπτυξη σε smartphones και edge συσκευές θεωρητικά δυνατή.
Αυτή η εστίαση σε μικρότερα, πιο αναπτυσσόμενα συστήματα μπορεί να γίνει ολοένα και πιο σημαντική καθώς οι επιχειρήσεις πιέζουν προς την ανάπτυξη AI σε συσκευές, την ευαίσθητη στην ιδιωτικότητα συλλογή και τα συστήματα σκέψης εκτός σύνδεσης που δεν εξαρτώνται αποκλειστικά από την υποδομή του cloud.
Η Ευρύτερη Ωθήση προς την Νοημοσύνη Ενεργημένη από τον Εγκέφαλο
Η δουλειά της Sapient αντανακλά μια ευρύτερη κίνηση εντός της έρευνας του AI που εξερευνά εναλλακτικές λύσεις στην παραδοσιακή κλίμακα των μετασχηματιστών.
Η αρχιτεκτονική HRM της εταιρείας βασίζεται σε έννοιες της νευροεπιστήμης όπως η ιεραρχική επεξεργασία, η χρονική διάκριση και η ανακυκλική υπολογισμός.
Στην ιστοσελίδα της, η Sapient περιγράφει τον μακροπρόθεσμο στόχο της ως την αναζήτηση της Τεχνητής Γενικής Νοημοσύνης μέσω αρχιτεκτονικών που είναι ικανές για σκέψη, σχεδίαση και προσαρμοστική μάθηση αντί να βασίζονται πρωτίστως στην στατιστική μνήμη.
Η ερευνητική ομάδα της εταιρείας περιλαμβάνει πρώην συνεισφέροντες από οργανισμούς όπως η DeepMind, η DeepSeek και η xAI, μαζί με ερευνητές που συνδέονται με ιδρύματα όπως το MIT, το Πανεπιστήμιο Carnegie Mellon, το Πανεπιστήμιο Tsinghua και το Πανεπιστήμιο του Cambridge.
Προηγούμενες εκδόσεις του Ιεραρχικού Μοντέλου Σκέψης της Sapient είχαν ήδη προσελκύσει την προσοχή στα κύκλους έρευνας του AI για την επίτευξη ισχυρής απόδοσης σκέψης χρησιμοποιώντας δραματικά μικρότερες μετρήσεις παραμέτρων από τις συμβατικές LLM.
Μια Μετατόπιση στο Πώς Μετράται η Πρόοδος του AI
Εάν αρχιτεκτονικές όπως το HRM θα ανταγωνιστούν τελικά τα μεγαλύτερα μοντέλα της πρώτης γραμμής, παραμένει ένα ανοιχτό ζήτημα. Η βιομηχανία του AI έχει επανειλημμένα δει υποσχόμενες εναλλακτικές να xuất hiện πριν από την υπέρβαση από την αμείλικτη οικονομία της κλίμακας.
Ωστόσο, η εκκίνηση της Sapient έρχεται σε μια στιγμή όταν η βιομηχανία αντιμετωπίζει ολοένα και περισσότερο τα όρια της βίαιης επέκτασης. Οι ελλείψεις GPU, οι συνωστισμοί ισχύος, τα κόστη συλλογής και η μειωμένη απόδοση από μεγαλύτερες βάσεις δεδομένων αναγκάζουν τους ερευνητές να αναθεωρήσουν τις υποθέσεις που κυριαρχούν στην ανάπτυξη του AI τα τελευταία χρόνια.
Εάν συστήματα όπως το HRM-Text συνεχίσουν να βελτιώνονται, θα μπορούσαν να μετασχηματίσουν τον τρόπο με τον οποίο μετράται η πρόοδος του AI — μεταφέροντας την προσοχή μακριά από τις μετρήσεις παραμέτρων και προς την αποτελεσματικότητα, το βάθος της σκέψης και την προσαρμοστικότητα.
Η εταιρεία έχει πλήρως ανοίξει το HRM-Text μέσω του GitHub ως μέρος της εκκίνησης.












