Connect with us

Enfabrica Dezvăluie o Stofă de Memorare pe Baza Ethernet care Ar Putea Redefini Inferența IA la Scară

Inteligență artificială

Enfabrica Dezvăluie o Stofă de Memorare pe Baza Ethernet care Ar Putea Redefini Inferența IA la Scară

mm

Enfabrica, o companie startup din Silicon Valley, sprijinită de Nvidia, a prezentat un produs revoluționar care ar putea schimba radical modul în care sunt implementate și scalate sarcinile de lucru IA la scară largă. Noul sistem de stofă de memorare elastic (EMFASYS) al companiei este primul sistem comercial de stofă de memorare pe bază de Ethernet, special proiectat pentru a aborda blocajul principal al inferenței IA generative: accesul la memorie.

Într-un moment în care modelele de IA devin tot mai complexe, conștiente de context și persistente, necesitând cantități uriașe de memorie pe sesiune de utilizator, EMFASYS oferă o abordare inovatoare pentru decuplarea memoriei de calcul, permițând centrelor de date IA să îmbunătățească dramatic performanța, să reducă costurile și să crească utilizarea resurselor lor cele mai scumpe: GPU-urile.

Ce este o stofă de memorare și de ce este importantă?

În mod tradițional, memoria din centrele de date a fost strâns legată de serverul sau nodul în care se află. Fiecare GPU sau CPU are acces numai la memoria de înaltă viteză direct atașată – de obicei HBM pentru GPU-uri sau DRAM pentru CPU-uri. Această arhitectură funcționează bine atunci când sarcinile de lucru sunt mici și previzibile. Dar IA generativă a schimbat jocul. LLM-urile necesită acces la ferestre de context mari, istoric de utilizator și memorie multi-agent – toate acestea trebuie procesate rapid și fără întârziere. Aceste cerințe de memorie adesea depășesc capacitatea disponibilă a memoriei locale, creând blocaje care izolează nucleele GPU și inflamează costurile infrastructurii.

O stofă de memorare rezolvă acest lucru prin transformarea memoriei într-o resursă partajată, distribuită – o fel de memorie conectată la rețea, accesibilă de orice GPU sau CPU din cluster. Gândiți-vă la aceasta ca la crearea unui “nor de memorie” în interiorul raftului de centre de date. În loc de a replica memoria pe servere sau de a supraîncărca memoria HBM scumpă, o stofă permite memoriei să fie agregată, dezagregată și accesată la cerere prin intermediul unei rețele de mare viteză. Acest lucru permite sarcinilor de lucru de inferență IA să se scaleze mai eficient, fără a fi încătușate de limitele fizice de memorie ale unui nod.

Abordarea Enfabrica: Ethernet și CXL, Împreună în Final

EMFASYS realizează această arhitectură de stofă de memorare la scară de raft prin combinarea a două tehnologii puternice: RDMA pe Ethernet și Compute Express Link (CXL). Primul permite transferul de date de mare viteză și cu latență foarte mică prin rețelele Ethernet standard. Al doilea permite decuplarea memoriei de CPU-uri și GPU-uri și gruparea în resurse partajate, accesibile prin intermediul legăturilor CXL de mare viteză.

La nucleul EMFASYS se află chipul ACF-S al Enfabrica, un “SuperNIC” de 3,2 terabiți pe secundă (Tbps) care combină controlul rețelei și al memoriei într-un singur dispozitiv. Acest chip permite serverelor să se interfeceze cu cantități masive de memorie DRAM de tip commodity – până la 18 terabiți pe nod – distribuite pe raft. În mod crucial, acest lucru se realizează utilizând porturi Ethernet standard, permițând operatorilor să valorifice infrastructura de centre de date existentă fără a investi în interconecte proprii.

Ceea ce face EMFASYS deosebit de atractiv este capacitatea sa de a descărca dinamic sarcinile de lucru legate de memorie de la memoria HBM scumpă atașată GPU-urilor la memoria DRAM mult mai ieftină, menținând în același timp o latență de acces la nivel de microsecunde. Stiva de software din spatele EMFASYS include mecanisme de caching inteligente și de echilibrare a sarcinilor care ascund latența și orchestrează mișcarea memoriei în mod transparent pentru LLM-urile care rulează pe sistem.

Implicații pentru industria IA

Acesta nu este doar o soluție hardware ingenioasă – reprezintă o schimbare filosofică în modul în care se construiesc și se scalează infrastructurile IA. Pe măsură ce IA generativă trece de la o noutate la o necesitate, cu miliarde de întrebări ale utilizatorilor procesate zilnic, costul servirii acestor modele a devenit insuportabil pentru multe companii. GPU-urile sunt adesea subutilizate nu din cauza lipsei de calcul, ci pentru că stau în așteptare, așteptând memoria. EMFASYS abordează direct acest dezechilibru.

Prin oferirea unei memorii partajate, conectate la stofă, accesibile prin Ethernet, Enfabrica oferă operatorilor de centre de date o alternativă scalabilă la cumpărarea continuă de GPU-uri sau HBM. În schimb, ei pot crește capacitatea de memorie în mod modular, utilizând memoria DRAM de tip commodity și rețele inteligente, reducând astfel amprenta generală și îmbunătățind economia inferenței IA.

Implicațiile merg dincolo de economiile imediate. Această arhitectură dezagregată deschide calea pentru modelele de memorie ca serviciu, în care contextul, istoricul și starea agentului pot persista dincolo de o singură sesiune sau server, deschizând ușa către sisteme IA mai inteligente și personalizate. Acesta pregătește, de asemenea, scena pentru nori de IA mai rezistenți, în care sarcinile de lucru pot fi distribuite elastic pe un raft sau pe întregul centru de date, fără limitări rigide de memorie.

Privind înainte

Enfabrica EMFASYS este în prezent în fază de testare cu clienți selectați, iar deși compania nu a dezvăluit cine sunt acești parteneri, Reuters raportează că principalii furnizori de nori IA sunt deja în curs de testare a sistemului. Acest lucru poziționează Enfabrica nu doar ca furnizor de componente, ci și ca un factor cheie în următoarea generație de infrastructură IA.

Prin decuplarea memoriei de calcul și prin faptul că o face disponibilă pe rețele de mare viteză, de tip commodity, Ethernet, Enfabrica pune bazele unei noi ere de arhitectură IA – una în care inferența poate fi scalată fără compromis, în care resursele nu mai sunt irosite și în care economia implementării modelelor de limbaj mare în sfârșit începe să aibă sens.

Într-o lume din ce în ce mai definită de sistemele IA bogate în context și multi-agente, memoria nu mai este un actor secundar – este scena. Și Enfabrica pariază că cel care construiește cea mai bună scenă va defini performanța IA pentru ani de zile.

Antoine este un lider vizionar și partener fondator al Unite.AI, condus de o pasiune neclintita pentru a da forma și a promova viitorul inteligenței artificiale și al roboticii. Un antreprenor serial, el crede că inteligența artificială va fi la fel de disruptivă pentru societate ca și electricitatea, și este adesea prins vorbind cu entuziasm despre potențialul tehnologiilor disruptive și al inteligenței artificiale generale.

Ca futurist, el este dedicat explorării modului în care aceste inovații vor modela lumea noastră. În plus, el este fondatorul Securities.io, o platformă axată pe investiții în tehnologii de ultimă generație care redefinesc viitorul și reshapă întregi sectoare.