Искусственный интеллект
Enfabrica представила Ethernet-основанную ткань памяти, которая может переопределить вывод AI в масштабе

Enfabrica, стартап из долины Кремния, поддержанный Nvidia, представила прорывный продукт, который может существенно изменить способ развертывания и масштабирования крупномасштабных рабочих нагрузок AI. Новая система Elastic Memory Fabric System (EMFASYS) компании является первым коммерчески доступным Ethernet-основанным тканью памяти, специально разработанным для решения основной проблемы вывода генеративного AI: доступа к памяти.
В то время, когда модели AI становятся более сложными, контекстно-зависимыми и постоянными, требуя огромных объемов памяти на каждую сессию пользователя, EMFASYS предлагает новый подход к разделению памяти и вычислений, позволяя центрам обработки данных AI существенно улучшить производительность, снизить затраты и повысить использование самых дорогих ресурсов: GPU.
Что такое ткань памяти — и почему она важна?
Традиционно память внутри центров обработки данных была тесно связана с сервером или узлом, в котором она находится. Каждый GPU или CPU имеет доступ только к высокой пропускной памяти, trực tiếp подключенной к нему — обычно HBM для GPU или DRAM для CPU. Эта архитектура работает хорошо, когда рабочие нагрузки небольшие и предсказуемые. Но генеративный AI изменил игру. LLM требуют доступа к большим контекстным окнам, истории пользователя и многопользовательской памяти — все это должно быть обработано быстро и без задержки. Эти требования к памяти часто превышают доступную емкость локальной памяти, создавая узкие места, которые блокируют ядра GPU и увеличивают затраты на инфраструктуру.
Ткань памяти решает эту проблему, превращая память в общий, распределенный ресурс — своего рода сеть, подключенную к пулу памяти, доступному для любого GPU или CPU в кластере. Представьте себе создание “облака памяти” внутри стойки центра обработки данных. Вместо того, чтобы реплицировать память на серверах или перегружать дорогую HBM, ткань позволяет памяти быть агрегированной, дезагрегированной и доступной по требованию через высокоскоростную сеть. Это позволяет рабочим нагрузкам вывода AI масштабироваться более эффективно без ограничений физической памяти отдельного узла.
Подход Enfabrica: Ethernet и CXL, вместе наконец
EMFASYS достигает этой архитектуры памяти на уровне стойки, сочетая две мощные технологии: RDMA через Ethernet и Compute Express Link (CXL). Первая обеспечивает сверхнизкую задержку, высокопроизводительную передачу данных через стандартные Ethernet-сети. Вторая позволяет памяти быть отсоединенной от CPU и GPU и объединенной в общий ресурс, доступный через высокоскоростные связи CXL.
В основе EMFASYS лежит чип ACF-S от Enfabrica, “SuperNIC” с пропускной способностью 3,2 терабита в секунду (Тб/с), который объединяет сетевое и память-контролирующее оборудование в одном устройстве. Этот чип позволяет серверам подключаться к огромным пулам коммодитизированной DDR5 DRAM — до 18 терабайт на узел — распределенным по стойке. Критически важно, что это делается с использованием стандартных Ethernet-портов, что позволяет операторам использовать существующую инфраструктуру центра обработки данных без инвестиций в проприетарные соединения.
Что делает EMFASYS особенно привлекательным, так это его способность динамически выгружать рабочие нагрузки, ограниченные памятью, с дорогой GPU-прикрепленной HBM на гораздо более доступную DRAM, сохраняя при этом задержку доступа на уровне микросекунд. Программный стек за EMFASYS включает в себя интеллектуальные механизмы кэширования и балансировки нагрузки, которые скрывают задержку и оркестрируют перемещение памяти способами, прозрачными для LLM, работающих на системе.
Последствия для отрасли AI
Это не просто умное решение — это представляет собой философский сдвиг в том, как строится и масштабируется инфраструктура AI. Когда генеративный AI переходит от новинки к необходимости, с миллиардами пользовательских запросов, обрабатываемых ежедневно, стоимость обслуживания этих моделей стала неустойчивой для многих компаний. GPU часто используются не полностью не из-за отсутствия вычислительной мощности, а потому, что они простаивают, ожидая памяти. EMFASYS решает эту дисбаланс напрямую.
Позволяя использовать пуленую, ткань-прикрепленную память, доступную через Ethernet, Enfabrica предлагает операторам центров обработки данных масштабируемую альтернативу постоянному покупанию дополнительных GPU или HBM. Вместо этого они могут увеличивать емкость памяти модульно, используя коммодитизированную DRAM и интеллектуальное сетевое оборудование, снижая общую площадь и улучшая экономику вывода AI.
Последствия выходят за рамки немедленных экономических выгод. Этот тип дезагрегированной архитектуры открывает путь для моделей памяти как услуги, где контекст, история и состояние агента могут сохраняться за пределами одной сессии или сервера, открывая двери для более интеллектуальных и персонализированных систем AI. Это также создает предпосылки для более устойчивых облаков AI, где рабочие нагрузки могут быть распределены эластично по всей стойке или центру обработки данных без жестких ограничений памяти.
Взгляд в будущее
Enfabrica’s EMFASYS в настоящее время находится на стадии выборочного тестирования с выбранными клиентами, и хотя компания не раскрыла, кто эти партнеры, Reuters сообщает, что крупные провайдеры облачных услуг AI уже тестируют систему. Это позиционирует Enfabrica не просто как поставщика компонентов, а как ключевого участника в следующем поколении инфраструктуры AI.
Разделив память и вычисления и сделав ее доступной через высокоскоростные, коммодитизированные Ethernet-сети, Enfabrica закладывает основу для новой эры архитектуры AI — той, где вывод может масштабироваться без компромиссов, где ресурсы больше не простаивают, а экономика развертывания крупномасштабных языковых моделей наконец начинает иметь смысл.
В мире, все больше определяемом контекстно-богатыми, многоагентными системами AI, память больше не является вспомогательным актером — она является сценой. И Enfabrica делает ставку на то, что тот, кто построит лучшую сцену, определит производительность AI на годы вперед.












