Connect with us

Enfabrica представляє Ethernet-основану тканину пам’яті, яка може змінити AI-інференс у великомасштабному застосуванні

Штучний інтелект

Enfabrica представляє Ethernet-основану тканину пам’яті, яка може змінити AI-інференс у великомасштабному застосуванні

mm

Enfabrica, стартап із Кремнієвої долини, який підтримується Nvidia, представив революційний продукт, який може суттєво змінити спосіб розгортання та масштабування великомасштабних завдань штучного інтелекту. Нова система Elastic Memory Fabric System (EMFASYS) компанії є першою комерційно доступною Ethernet-основаною тканиною пам’яті, спеціально розробленою для вирішення основної проблеми генерації штучного інтелекту: доступу до пам’яті.

У час, коли моделі штучного інтелекту стають все більш складними, контекстно-чутливими та тривалими – що вимагає величезної кількості пам’яті на одну сесію користувача – EMFASYS пропонує новий підхід до відокремлення пам’яті від обчислювальних ресурсів, що дозволяє центрам обробки даних суттєво покращити продуктивність, знизити витрати та збільшити використання своїх найбільш дорогих ресурсів: GPU.

Що таке тканина пам’яті — і чому вона важлива?

Традиційно пам’ять у центрах обробки даних була тісно пов’язана з сервером або вузлом, у якому вона розташована. Кожен GPU або CPU має доступ лише до високошвидкісної пам’яті, безпосередньо прикріпленої до нього – зазвичай HBM для GPU або DRAM для CPU. Ця архітектура працює добре, коли завдання є малими та передбачуваними. Але генерація штучного інтелекту змінила правила гри. LLM вимагають доступу до великих контекстних вікні, історії користувача та багатої пам’яті – tất cả це повинно бути оброблено швидко та без затримок. Ці вимоги до пам’яті часто перевищують наявну ємність локальної пам’яті, створюючи瓶ключення, які блокують ядра GPU та збільшують витрати на інфраструктуру.

Тканина пам’яті вирішує цю проблему, перетворюючи пам’ять у спільний, розподілений ресурс -一种 мережева пам’ять, доступна будь-якому GPU або CPU у кластері. Підумайте про це як створення “хмари пам’яті” всередині стійки центру обробки даних. Замість дублікування пам’яті на серверах або перевантаження дорогої HBM, тканина дозволяє пам’яті бути агрегованою, дезагрегованою та доступною на вимогу через високошвидкісну мережу. Це дозволяє завданням штучного інтелекту масштабуватися більш ефективно без обмежень фізичної пам’яті окремого вузла.

Підхід Enfabrica: Ethernet та CXL, разом нарешті

EMFASYS досягає цієї архітектури тканини пам’яті на рівні стійки, поєднуючи дві потужні технології: RDMA над Ethernet та Compute Express Link (CXL). Перша забезпечує наднизьку затримку та високий пропускний канал передачі даних через стандартні мережі Ethernet. Друга дозволяє пам’яті бути від’єднаною від CPU та GPU та об’єднаною у спільні ресурси, доступні через високошвидкісні зв’язки CXL.

У центрі EMFASYS знаходиться чіп ACF-S компанії Enfabrica, “SuperNIC” із швидкістю 3,2 терабіт на секунду (Тб/с), який об’єднує мережевий контроль та керування пам’яттю у одному пристрої. Цей чіп дозволяє серверам взаємодіяти з величезними пулами комодітної пам’яті DDR5 – до 18 терабайт на вузол – розподілених по стійці. Що найважливіше, це відбувається через стандартні порти Ethernet, що дозволяє операторам використовувати свою наявну інфраструктуру центру обробки даних без інвестицій у пропрієтарні інтерконекти.

Що робить EMFASYS особливо привабливим, це його здатність динамічно вивантажувати завдання, залежні від пам’яті, з дорогих GPU-прикріплених HBM у набагато більш доступну DRAM, зберігаючи при цьому мікросекундну затримку доступу. Програмний стек за EMFASYS включає інтелектуальні механізми кешування та балансування навантаження, які приховують затримку та оркеструють рух пам’яті способами, прозорими для LLM, що працюють на системі.

Вплив на галузь штучного інтелекту

Це не просто хитре апаратне рішення – це філософський зсув у тому, як інфраструктура штучного інтелекту будується та масштабується. Коли генерація штучного інтелекту переходить від новинки до необхідності, із мільярдами запитів користувачів, оброблюваних щодня, вартість обслуговування цих моделей стала недоцільною для багатьох компаній. GPU часто залишаються не використаними не через брак обчислювальних ресурсів, а через те, що вони чекають на пам’ять. EMFASYS вирішує цю дисбаланс безпосередньо.

Дозволяючи використовувати спільну, тканину-прикріплену пам’ять, доступну через Ethernet, Enfabrica пропонує операторам центрів обробки даних масштабовану альтернативу постійному придбаванню все більшої кількості GPU або HBM. Замість цього вони можуть збільшувати ємність пам’яті модульно, використовуючи стандартну DRAM та інтелектуальну мережеву інфраструктуру, знижуючи загальну витратність та покращуючи економіку інференсу штучного інтелекту.

Вплив виходить за рамки негайних економічних збережень. Цей вид деагрегованої архітектури відкриває шлях для моделей “пам’ять як послуга”, де контекст, історія та стан агента можуть зберігатися поза окремою сесією або сервером, відкриваючи двері до більш інтелектуальних та персоналізованих систем штучного інтелекту. Це також готує сцену для більш стійких хмар штучного інтелекту, де завдання можуть бути розподілені еластично по всій стійці чи центру обробки даних без жорстких обмежень пам’яті.

Погляд у майбутнє

Enfabrica’s EMFASYS зараз проходять вибіркові випробування у клієнтів, і хоча компанія не розкрила, хто ці партнери, Reuters повідомляє, що великі постачальники хмар штучного інтелекту вже тестують цю систему. Це позиціонує Enfabrica не просто як постачальника компонентів, а як ключового учасника у наступному поколінні інфраструктури штучного інтелекту.

Від’єднуючи пам’ять від обчислювальних ресурсів та роблячи її доступною через високошвидкісні, комодітні мережі Ethernet, Enfabrica закладає основу для нової ери архітектури штучного інтелекту – тієї, де інференс може масштабуватися без компромісів, де ресурси більше не блокуються, а економіка розгортання великих мовних моделей нарешті починає мати сенс.

У світі, який усе більше визначається контекстно-багатими, багатоїнтелектуальними системами штучного інтелекту, пам’ять вже не є допоміжним актором – це сцена. І Enfabrica робить ставку на те, що той, хто побудує найкращу сцену, визначить виступ штучного інтелекту на роки вперед.

Антуан є видним лідером і засновником Unite.AI, який рухає невпинною пристрастю до формування та просування майбутнього штучного інтелекту та робототехніки. Як серійний підприємець, він вважає, що штучний інтелект буде таким же революційним для суспільства, як і електрика, і часто захоплюється потенціалом деструктивних технологій та AGI.

Як футуролог, він присвячений дослідженню того, як ці інновації сформують наш світ. Крім того, він є засновником Securities.io, платформи, орієнтованої на інвестування в передові технології, які переінакшують майбутнє та змінюють цілі сектори.