Штучний інтелект
Розкриття Sapient Intelligence HRM-Text, мозково-інспірована модель штучного інтелекту, створена для виклику гонці за масштабованість

Як галузь штучного інтелекту продовжує вкладення мільярдів у все більші мовні моделі та дедалі більш масштабні центри даних, сингапурська компанія з досліджень штучного інтелекту Sapient Intelligence підходить до цього питання зовсім інакше.
Компанія оголосила про HRM-Text, нову мовну модель з 1 мільярдом параметрів, розроблену на основі ієрархічної рекурентної архітектури, яка черпає натхнення з того, як мозок розрізняє повільне, свідоме мислення та швидке, нижнє оброблення.
Натомість ніж намагатися перемогти за допомогою масштабування, Sapient позиціонує HRM-Text як доказ того, що глибина мислення та обчислювальна ефективність можуть стати більш важливими, ніж суцільна кількість параметрів у наступній фазі розвитку штучного інтелекту.
Запуск продовжує ширшу тенденцію, яка з’являється в галузі штучного інтелекту: зростаюча скептичність щодо того, що просте масштабування трансформерів нескінченно буде достатнім для досягнення більш загальних форм інтелекту.
Виходячи за межі трансформерної книги рецептів
Більшість сучасних великих мовних моделей покладаються на архітектуру трансформерів, яка обробляє інформацію через здебільшого фід-форвардну систему, орієнтовану на передбачення наступного токену. Архітектура HRM компанії Sapient замість цього вводить ієрархічну рекурентну структуру, у якій декілька шарів мислення взаємодіють внутрішньо, перш ніж буде сгенерований будь-який вивід.
Компанія описує архітектуру як систему, яка працює через дві взаємопов’язані системи: вищу “повільну систему управління”, яка відповідає за абстрактне планування та мислення, та нижню “швидку систему виконання”, яка займається деталями обчислень.
Це відрізняється від методів ланцюга мислення, які широко використовуються в поточних системах штучного інтелекту, де мислення виражається через довгі видимі текстові послідовності. HRM-Text замість цього здійснює більшу частину свого мислення внутрішньо у латентному просторі, перш ніж генерувати відповіді.
Компанія Sapient стверджує, що така структура дозволяє меншим системам здійснювати більш складне багатокрокове мислення без залежності від величезних розмірів моделей чи масштабних витрат на висновок.
Згідно з результатами бенчмарків, наданих компанією, HRM-Text досяг 56,2% на MATH, 81,9% на ARC-Challenge, 82,2% на DROP та 60,7% на MMLU, незважаючи на свою порівняно маленьку пам’ять.
Ефективність стає стратегічним полем битви штучного інтелекту
Запуск відбувається в момент, коли питання щодо витрат на інфраструктуру штучного інтелекту, споживання енергії та доступності обчислень стають центральними проблемами галузі.
Навчання та розгортання систем штучного інтелекту останнього покоління тепер часто вимагає величезних кластерів GPU, гіпермасштабних центрів даних та рівнів споживання енергії, які все більше піддаються перевірці урядами та постачальниками інфраструктури. Компанія Sapient стверджує, що майбутні прориви можуть бути досягнуті не за рахунок збільшення розмірів систем, а за рахунок фундаментальної зміни архітектури.
Компанія заявляє, що HRM-Text можна навчити приблизно за один день, використовуючи 16 GPU на двох машинах, за вартістю близько 1000 доларів. Для порівняння, мова моделі останнього покоління може вимагати бюджету навчання, який досягає сотень мільйонів доларів.
Компактний профіль розгортання моделі також є помітним. При квантуванні int4 HRM-Text займає близько 0,6 ГБ, що робить локальне розгортання на смартфонах та пристроях краю теоретично можливим.
Ця увага до менших, більш розгортаних систем може стати дедалі важливішою, оскільки підприємства рухаються до штучного інтелекту на пристроях, інференції, чутливої до конфіденційності, та систем мислення автономно, які не залежать повністю від інфраструктури хмари.
Ширша тенденція до мозково-інспірованих штучних інтелектів
Робота компанії Sapient відображає ширшу тенденцію в дослідженнях штучного інтелекту, яка полягає у вивченні альтернатив традиційному масштабуванню трансформерів.
Архітектура HRM компанії черпає натхнення з концепцій нейробіології, таких як ієрархічна обробка, тимчасове розділення та рекурентні обчислення.
На своєму сайті компанія Sapient описує свою довгострокову мету як розвиток штучного інтелекту загального призначення через архітектури, здатні до мислення, планування та адаптивного навчання, а не залежності в першу чергу від статистичної пам’яті.
Дослідницька команда компанії включає колишніх учасників організацій, таких як DeepMind, DeepSeek та xAI, а також дослідників, пов’язаних з інститутами, такими як Массачусетський технологічний інститут, Університет Карнегі-Меллона, Університет Цінхуа та Кембриджський університет.
Раніші версії ієрархічної моделі мислення компанії Sapient вже привернули увагу в колах досліджень штучного інтелекту завдяки досягненню сильної продуктивності мислення за допомогою драматично менших параметрів, ніж традиційні великі мовні моделі.
Зміна у вимірюванні прогресу штучного інтелекту
Чи архітектури типу HRM у кінцевому підсумку зможуть конкурувати з найбільшими моделями останнього покоління, залишається відкритим питанням. Галузь штучного інтелекту повторно бачила появу перспективних альтернатив, які згодом були обігнані безжалісною економікою масштабування.
Все ж таки, запуск компанії Sapient відбувається в момент, коли галузь все більше стикається з обмеженнями безрозмірного розширення. Дефіцит GPU, бутлянки потужності, витрати на висновок та зменшення віддачі від більших наборів даних змушують дослідників переглянути припущення, які домінували у розвитку штучного інтелекту за останні кілька років.
Якщо системи типу HRM-Text продовжать покращуватися, вони можуть змінити спосіб вимірювання прогресу в штучному інтелекті — зміщення уваги від кількості параметрів до ефективності, глибини мислення та адаптивності.
Компанія повністю відкрила джерело HRM-Text через GitHub у рамках запуску.












