Sztuczna inteligencja

Sapient Intelligence prezentuje HRM-Text, model sztucznej inteligencji inspirowany mózgiem, zaprojektowany w celu wyzwania w wyścigu skali

mm

Ponieważ branża sztucznej inteligencji nadal inwestuje miliardy w coraz większe modele językowe i ogromne centra danych, singapurska firma badawcza sztucznej inteligencji Sapient Intelligence przyjęła całkowicie odmienny podejście.

Firma ogłosiła HRM-Text, nowy model językowy o 1 miliardzie parametrów, zaprojektowany wokół hierarchicznej architektury rekurencyjnej inspirowanej tym, jak mózg rozdziela powolne, przemyślane rozumowanie od szybkiego, niskopoziomowego przetwarzania.

Zamiast próbować wygrać dzięki czystej skali, Sapient prezentuje HRM-Text jako dowód, że głębokość rozumowania i wydajność obliczeniowa mogą stać się ważniejsze niż surowe liczby parametrów w następnej fazie rozwoju sztucznej inteligencji.

Uruchomienie kontynuuje szerszy trend pojawiający się w sektorze sztucznej inteligencji: rosnące sceptycyzm, że proste skalowanie transformatorów nie wystarczy, aby osiągnąć bardziej ogólne formy inteligencji.

Przekraczanie granic podręcznika transformatora

Większość nowoczesnych dużych modeli językowych opiera się na architekturach transformatora, które przetwarzają informacje za pomocą w dużej mierze systemu feed-forward skoncentrowanego na predykcji następnego tokenu. Ramowa architektura HRM Sapienta wprowadza strukturę hierarchiczną, w której wiele warstw rozumowania wewnętrznie oddziałuje przed wygenerowaniem jakiegokolwiek wyjścia.

Firma opisuje architekturę jako działającą za pomocą dwóch połączonych systemów: wyższego poziomu „wolnego kontrolera” odpowiedzialnego za abstrakcyjne planowanie i rozumowanie oraz niższego poziomu „szybkiego pracownika”, który zajmuje się szczegółowymi obliczeniami.

To różni się od metod łańcucha myśli powszechnie stosowanych w obecnych systemach sztucznej inteligencji, gdzie rozumowanie jest wyrażane za pomocą długich widocznych sekwencji tekstu. HRM-Text wykonuje natomiast większość swojego rozumowania wewnętrznie w przestrzeni latentnej przed generowaniem odpowiedzi.

Sapient twierdzi, że ta struktura pozwala mniejszym systemom wykonywać bardziej złożone wieloetapowe rozumowanie bez polegania na ogromnych rozmiarach modelu lub ogromnych kosztach inferencji.

Zgodnie z wynikami testów podanymi przez firmę, HRM-Text osiągnął 56,2% w MATH, 81,9% w ARC-Challenge, 82,2% w DROP i 60,7% w MMLU, pomimo swojej względnie małej śladu.

Wydajność staje się strategicznym polem bitwy sztucznej inteligencji

Uruchomienie następuje w momencie, gdy obawy dotyczące kosztów infrastruktury sztucznej inteligencji, zużycia energii i dostępności obliczeń stają się centralnymi problemami branży.

Szkolenie i wdrożenie najnowocześniejszych systemów sztucznej inteligencji wymaga obecnie często ogromnych klastrów GPU, hiperskali centra danych oraz poziomów zużycia energii, które są coraz bardziej poddawane kontroli przez rządy i dostawców infrastruktury. Argument Sapienta brzmi: przyszłe przełomy mogą nie pochodzić ze skalowania większych systemów, ale z fundamentalnej przebudowy samej architektury.

Firma twierdzi, że HRM-Text może być szkolony w ciągu około jednego dnia przy użyciu 16 GPU na dwóch maszynach, za koszt około 1000 dolarów. Dla porównania, modele językowe na granicy możliwości technologicznych mogą wymagać budżetów szkoleniowych sięgających setek milionów dolarów.

Profile wdrożeniowe modelu są również godne uwagi. Przy kwantyzacji int4 HRM-Text zajmuje około 0,6 GiB, co sprawia, że teoretycznie możliwe jest lokalne wdrożenie na smartfonach i urządzeniach edge.

To skupienie się na mniejszych, bardziej wdrożeniowych systemach może stać się coraz ważniejsze, gdy przedsiębiorstwa będą dążyć do sztucznej inteligencji na urządzeniach, wrażliwej na prywatność inferencji oraz systemów rozumowania w trybie offline, które nie zależą całkowicie od infrastruktury chmury.

Szerszy popych w kierunku sztucznej inteligencji inspirowanej mózgiem

Praca Sapienta odzwierciedla szerszy ruch w badaniach nad sztuczną inteligencją, który poszukuje alternatyw dla tradycyjnego skalowania transformatora.

Architektura HRM firmy Sapient czerpie silnie z pojęć z neurobiologii, takich jak przetwarzanie hierarchiczne, separacja czasowa i obliczenia rekurencyjne.

Na swojej stronie internetowej Sapient opisuje swój długoterminowy cel jako dążenie do sztucznej inteligencji ogólnej poprzez architektury zdolne do rozumowania, planowania i adaptacyjnego uczenia się, a nie polegające głównie na statystycznym zapamiętywaniu.

Zespół badawczy firmy składa się z byłych współpracowników organizacji takich jak DeepMind, DeepSeek i xAI, a także badaczy związanych z instytucjami, w tym MIT, Carnegie Mellon University, Tsinghua University i University of Cambridge.

Wcześniejsze wersje modelu Hierarchicznego Rozumowania Sapienta już wcześniej przyciągały uwagę w kręgach badawczych sztucznej inteligencji za osiąganie silnych wyników w rozumowaniu przy użyciu dramatycznie mniejszych liczb parametrów niż konwencjonalne LLM.

Zmiana w sposobie pomiaru postępu sztucznej inteligencji

Czy architektury takie jak HRM ostatecznie rywalizują z największymi modelami na granicy możliwości technologicznych, pozostaje otwarte pytanie. Branża sztucznej inteligencji wielokrotnie widziała pojawianie się obiecujących alternatyw, które później były wyprzedzane przez nieustanną ekonomię skali.

Nadal, uruchomienie Sapienta następuje w momencie, gdy branża coraz bardziej styka się z ograniczeniami rozszerzania się siłą. Brak GPU, wąskie gardła mocy, koszty inferencji i malejące zwroty z większych zbiorów danych zmuszają badaczy do ponownego rozważenia założeń, które dominowały w rozwoju sztucznej inteligencji w ciągu ostatnich kilku lat.

Jeśli systemy takie jak HRM-Text będą nadal się poprawiać, mogą zmienić sposób, w jaki mierzy się postęp w sztucznej inteligencji — przenosząc uwagę od liczb parametrów w kierunku wydajności, głębokości rozumowania i adaptacyjności.

Firma całkowicie otworzyła kod źródłowy HRM-Text na GitHub w ramach uruchomienia.

Antoine jest wizjonerskim liderem i współzałożycielem Unite.AI, z niezachwianą pasją do kształtowania i promowania przyszłości sztucznej inteligencji i robotyki. Jako serialowy przedsiębiorca, uważa, że sztuczna inteligencja będzie tak samo przełomowa dla społeczeństwa, jak elektryczność, i często zachwycany jest potencjałem technologie przełomowych i AGI. Jako futurysta, poświęca się badaniu, jak te innowacje ukształtują nasz świat. Ponadto jest założycielem Securities.io, platformy skupiającej się na inwestowaniu w najnowocześniejsze technologie, które przeobrażają przyszłość i zmieniają całe sektory.