Искусственный интеллект
Интеллект Sapient представил HRM-Text, модель искусственного интеллекта, вдохновленную мозгом, созданную для挑жения гонки за масштаб

Поскольку индустрия искусственного интеллекта продолжает вкладывать миллиарды долларов в все более крупные языковые модели и огромные центры данных, сингапурская компания по исследованию искусственного интеллекта Sapient Intelligence принимает совершенно другой подход.
Компания объявила о создании HRM-Text, новой модели рассуждения с 1 миллиардом параметров, разработанной на основе иерархической рекуррентной архитектуры, вдохновленной тем, как мозг отделяет медленные, обдуманные рассуждения от быстрых, низкоуровневых процессов.
Вместо того, чтобы попытаться выиграть за счет чистой масштабируемости, Sapient позиционирует HRM-Text как доказательство того, что глубина рассуждений и вычислительная эффективность могут стать более важными, чем сырые параметры в следующей фазе развития искусственного интеллекта.
Запуск также продолжает более широкую тенденцию, возникающую в секторе искусственного интеллекта: растущий скептицизм относительно того, что простое масштабирование трансформеров бесконечно будет достаточно для достижения более общих форм интеллекта.
Переход за пределы трансформерской книги
Большинство современных крупных языковых моделей полагаются на архитектуры трансформеров, которые обрабатывают информацию через в основном фидфорвардную систему, ориентированную на предсказание следующего токена. Фреймворк HRM от Sapient вместо этого вводит иерархическую рекуррентную структуру, в которой несколько слоев рассуждений взаимодействуют внутри себя, прежде чем будет сгенерирован любой вывод.
Компания описывает архитектуру как работающую через две взаимосвязанные системы: более высокий уровень “медленный контроллер”, ответственный за абстрактное планирование и рассуждения, и более низкий уровень “быстрый исполнитель”, который обрабатывает подробные вычисления.
Это отличается от методов цепочки рассуждений, широко используемых в текущих системах искусственного интеллекта, где рассуждения выражаются через длинные видимые текстовые последовательности. HRM-Text вместо этого выполняет большую часть своих рассуждений внутри латентного пространства, прежде чем генерировать ответы.
Sapient утверждает, что эта структура позволяет меньшим системам выполнять более сложные многоступенчатые рассуждения без зависимости от огромных размеров моделей или массовых затрат на вывод.
Согласно результатам бенчмарка, предоставленным компанией, HRM-Text достиг 56,2% на MATH, 81,9% на ARC-Challenge, 82,2% на DROP и 60,7% на MMLU, несмотря на свою относительно небольшую размерность.
Эффективность становится стратегическим полем битвы в искусственном интеллекте
Запуск происходит в момент, когда проблемы вокруг инфраструктуры искусственного интеллекта, потребления энергии и доступности вычислений становятся центральными проблемами отрасли.
Обучение и развертывание передовых систем искусственного интеллекта теперь часто требует огромных кластеров GPU, гипермасштабных центров данных и уровней потребления энергии, все чаще подвергающихся проверке со стороны правительств и поставщиков инфраструктуры. Аргумент Sapient заключается в том, что будущие прорывы могут прийти не от масштабирования более крупных систем, а от фундаментального пересмотра архитектуры.
Компания утверждает, что HRM-Text может быть обучен примерно за один день с использованием 16 GPU на двух машинах при стоимости примерно 1000 долларов. Для сравнения, передовые языковые модели могут требовать бюджетов на обучение, достигающих сотен миллионов долларов.
Компактный профиль развертывания модели также примечателен. При квантовании int4 HRM-Text, как сообщается, занимает около 0,6 ГиБ, что делает теоретически возможным локальное развертывание на смартфонах и устройстве края.
Эта направленность на более мелкие, более развертываемые системы может стать все более важной, поскольку предприятия толкают на устройство искусственного интеллекта, чувствительный к конфиденциальности вывод, и автономные системы рассуждений, которые не полагаются полностью на облачную инфраструктуру.
Более широкий толчок к искусственному интеллекту, вдохновленному мозгом
Работа Sapient отражает более широкое движение в исследованиях искусственного интеллекта, изучающее альтернативы традиционному масштабированию трансформеров.
Архитектура HRM компании сильно опирается на концепции нейробиологии, такие как иерархическая обработка, временное разделение и рекуррентные вычисления.
На своем сайте Sapient описывает свою долгосрочную цель как преследование искусственного общего интеллекта через архитектуры, способные к рассуждениям, планированию и адаптивному обучению, а не полагаться в первую очередь на статистическую меморизацию.
Исследовательская команда компании включает в себя бывших участников организаций, таких как DeepMind, DeepSeek и xAI, а также исследователей, связанных с учреждениями, такими как MIT, Университет Карнеги-Меллона, Университет Цинхуа и Кембриджский университет.
Ранее версии иерархической модели рассуждений Sapient уже привлекли внимание в кругах исследований искусственного интеллекта за достижение сильных результатов рассуждений с использованием значительно меньших параметров, чем традиционные БВМ.
Сдвиг в том, как измеряется прогресс в искусственном интеллекте
Остается открытым вопросом, будут ли архитектуры, такие как HRM, в конечном итоге соперничать с самыми крупными передовыми моделями. Индустрия искусственного интеллекта неоднократно видела обещающие альтернативы, которые возникали, прежде чем быть превзойденными неумолимой экономикой масштаба.
Тем не менее, запуск Sapient происходит в момент, когда отрасль все чаще сталкивается с пределами грубой экспансии. Нехватка GPU, энергетические бутылочные горлышки, затраты на вывод и снижение доходности от более крупных наборов данных заставляют исследователей пересмотреть предположения, которые доминировали в последние несколько лет развития искусственного интеллекта.
Если системы, такие как HRM-Text, продолжат улучшаться, они могут изменить то, как измеряется прогресс в искусственном интеллекте, смещая внимание от количества параметров к эффективности, глубине рассуждений и адаптивности.
Компания полностью открыла исходный код HRM-Text через GitHub в рамках запуска.












