Intelligenza Artificiale
Enfabrica presenta una struttura di memoria basata su Ethernet che potrebbe ridefinire l'inferenza dell'intelligenza artificiale su larga scala

Enfabrica, una startup con sede nella Silicon Valley supportata da Nvidia, ha presentato un prodotto rivoluzionario che potrebbe rivoluzionare significativamente il modo in cui i carichi di lavoro di intelligenza artificiale su larga scala vengono distribuiti e scalati. Il nuovo Elastic Memory Fabric System (EMFASYS) dell'azienda è il primo memory fabric basato su Ethernet disponibile in commercio, specificamente progettato per risolvere il principale collo di bottiglia dell'inferenza generativa dell'intelligenza artificiale: l'accesso alla memoria.
In un momento in cui i modelli di intelligenza artificiale stanno diventando più complessi, contestuali e persistenti, richiedendo enormi quantità di memoria per sessione utente, EMFASYS offre un approccio innovativo per disaccoppiare la memoria dal calcolo, consentendo ai data center di intelligenza artificiale di migliorare notevolmente le prestazioni, ridurre i costi e aumentare l'utilizzo delle risorse più costose: le GPU.
Cos'è un tessuto di memoria e perché è importante?
Tradizionalmente, la memoria all'interno dei data center è stata strettamente legata al server o al nodo in cui risiede. Ogni GPU o CPU ha accesso solo alla memoria ad alta larghezza di banda direttamente collegata, solitamente HBM per le GPU o DRAM per le CPU. Questa architettura funziona bene quando i carichi di lavoro sono piccoli e prevedibili. Ma l'intelligenza artificiale generativa ha cambiato le regole del gioco. I LLM richiedono l'accesso a ampie finestre di contesto, cronologia utente e memoria multi-agente, tutti dati che devono essere elaborati rapidamente e senza ritardi. Queste richieste di memoria spesso superano la capacità disponibile della memoria locale, creando colli di bottiglia che bloccano i core delle GPU e fanno aumentare i costi dell'infrastruttura.
A tessuto di memoria risolve questo problema trasformando la memoria in una risorsa condivisa e distribuita, una sorta di pool di memoria collegato alla rete accessibile da qualsiasi GPU o CPU nel cluster. Si può pensare a questo come alla creazione di un "cloud di memoria" all'interno del rack del data center. Invece di replicare la memoria tra server o sovraccaricare costosi HBM, un fabric consente di aggregare, disaggregare e accedere alla memoria on-demand tramite una rete ad alta velocità . Ciò consente ai carichi di lavoro di inferenza AI di scalare in modo più efficiente senza essere vincolati dai limiti di memoria fisica di un singolo nodo.
L'approccio di Enfabrica: Ethernet e CXL, finalmente insieme
EMFASYS realizza questa architettura di memoria su scala rack combinando due potenti tecnologie: RDMA su Ethernet e Compute Express Link (CXL)Il primo consente il trasferimento dati a bassissima latenza e ad alta velocità su reti Ethernet standard. Il secondo consente di separare la memoria da CPU e GPU e di raggrupparla in risorse condivise, accessibili tramite collegamenti CXL ad alta velocità .
Il cuore di EMFASYS è il chip ACF-S di Enfabrica, una "SuperNIC" da 3.2 terabit al secondo (Tbps) che fonde networking e controllo della memoria in un unico dispositivo. Questo chip consente ai server di interfacciarsi con enormi pool di DRAM DDR5 standard, fino a 18 terabyte per nodo, distribuiti sul rack. Fondamentalmente, ciò avviene utilizzando porte Ethernet standard, consentendo agli operatori di sfruttare l'infrastruttura del data center esistente senza investire in interconnessioni proprietarie.
Ciò che rende EMFASYS particolarmente interessante è la sua capacità di scaricare dinamicamente i carichi di lavoro legati alla memoria, passando dalla costosa HBM collegata alla GPU alla DRAM molto più economica, mantenendo al contempo una latenza di accesso nell'ordine dei microsecondi. Lo stack software alla base di EMFASYS include meccanismi intelligenti di caching e bilanciamento del carico che nascondono la latenza e orchestrano lo spostamento della memoria in modo trasparente per i LLM in esecuzione sul sistema.
Implicazioni per il settore dell’intelligenza artificiale
Questa è più di una semplice soluzione hardware intelligente: rappresenta un cambiamento filosofico nel modo in cui l'infrastruttura di intelligenza artificiale viene costruita e scalata. Con l'evoluzione dell'intelligenza artificiale generativa da novità a necessità , con miliardi di query utente elaborate quotidianamente, il costo di questi modelli è diventato insostenibile per molte aziende. Le GPU sono spesso sottoutilizzate non per mancanza di capacità di calcolo, ma perché rimangono inattive in attesa di memoria. EMFASYS affronta direttamente questo squilibrio.
Abilitando la memoria in pool collegata al fabric e accessibile tramite Ethernet, Enfabrica offre agli operatori di data center un'alternativa scalabile all'acquisto continuo di GPU o HBM. Possono invece aumentare la capacità di memoria in modo modulare, utilizzando DRAM standard e reti intelligenti, riducendo l'ingombro complessivo e migliorando l'economia dell'inferenza AI.
Le implicazioni vanno oltre il risparmio immediato sui costi. Questo tipo di architettura disaggregata apre la strada a modelli di memoria come servizio, in cui contesto, cronologia e stato dell'agente possono persistere oltre una singola sessione o server, aprendo le porte a sistemi di intelligenza artificiale più intelligenti e personalizzati. Inoltre, pone le basi per cloud di intelligenza artificiale più resilienti, in cui i carichi di lavoro possono essere distribuiti in modo elastico su un rack o su un intero data center senza rigide limitazioni di memoria.
Uno sguardo al futuro
Di Enfabrica EMFASYS sta attualmente effettuando dei campionamenti con clienti selezionati e, sebbene la società non abbia rivelato chi siano questi partner, Rapporti di Reuters che i principali fornitori di cloud AI stanno già sperimentando il sistema. Questo posiziona Enfabrica non solo come fornitore di componenti, ma come un fattore chiave per la prossima generazione di infrastrutture AI.
Disaccoppiando la memoria dal calcolo e rendendola disponibile su reti Ethernet ad alta velocità e comuni, Enfabrica sta gettando le basi per una nuova era dell'architettura dell'intelligenza artificiale, in cui l'inferenza può essere scalata senza compromessi, in cui le risorse non sono più bloccate e in cui gli aspetti economici dell'implementazione di grandi modelli linguistici iniziano finalmente ad avere senso.
In un mondo sempre più definito da sistemi di intelligenza artificiale multi-agente e ricchi di contesto, la memoria non è più un attore secondario, ma un palcoscenico. Ed Enfabrica scommette che chiunque costruisca il palcoscenico migliore definirà le prestazioni dell'intelligenza artificiale per gli anni a venire.