Connect with us

Enfabrica avduker Ethernet-basert minnevev som kan omdefinere AI-inferens i stor skala

Kunstig intelligens

Enfabrica avduker Ethernet-basert minnevev som kan omdefinere AI-inferens i stor skala

mm

Enfabrica, et Silicon Valley-basert startup selskap støttet av Nvidia, har avduket et gjennombruddsprodukt som kan omdefinere hvordan store AI-arbeidsbyrder deployes og skaleres. Selskapets nye Elastic Memory Fabric System (EMFASYS) er det første kommersielt tilgjengelige Ethernet-baserte minnevev som er spesifikt designet for å løse den sentrale flaskehalsen for generativ AI-inferens: minneadgang.

I en tid når AI-modellene blir mer komplekse, kontekstbevisste og varige – og krever store mengder minne per brukersesjon – leverer EMFASYS en ny tilnærming til å kopple minne fra beregning, og lar AI-datacenter dramatisk forbedre ytelse, senke kostnader og øke utnyttelsen av deres dyreste ressurser: GPUer.

Hva er en minnevev – og hvorfor er det viktig?

Tradisjonelt har minne innenfor datacenter vært tett knyttet til serveren eller noden det bor i. Hver GPU eller CPU har bare tilgang til høyhastighetsminnet som er direkte koblet til det – vanligvis HBM for GPUer eller DRAM for CPUer. Denne arkitekturen fungerer godt når arbeidsbyrdene er små og forutsigbare. Men generativ AI har endret spillereglene. LLM-er krever tilgang til store kontekstvinduer, brukerhistorikk og multi-agent minne – alt sammen må prosesseres raskt og uten forsinkelse. Disse minnekrevende krever ofte mer enn den tilgjengelige kapasiteten til lokal minne, og skaper flaskehalser som strander GPU-kjerner og øker infrastrukturkostnader.

En minnevev løser dette ved å omgjøre minne til en felles, distribuert ressurs – en slags nettverkskoblet minnepool som er tilgjengelig for hver GPU eller CPU i clusteret. Tenk på det som å skape en “minne-sky” innenfor datacenter-hylken. I stedet for å replikere minne over servere eller overbelaste dyre HBM, lar en vev minne bli aggregert, desaggregert og aksessert på forespørsel over et høyhastighetsnettverk. Dette lar AI-inferens-arbeidsbyrdene skaleres mer effektivt uten å bli låst av de fysiske minnebegrensningene til en enkelt node.

Enfabricas tilnærming: Ethernet og CXL, sammen for første gang

EMFASYS oppnår denne rack-skala minnearkitekturen ved å kombinere to kraftfulle teknologier: RDMA over Ethernet og Compute Express Link (CXL). Den første muliggjør ultralav-forsinkelse, høyhastighets dataoverføring over standard Ethernet-nettverk. Den andre lar minne bli koblet fra CPUer og GPUer og pølt i felles ressurser, tilgjengelig via høyhastighets CXL-lenkjer.

I kjernen av EMFASYS ligger Enfabricas ACF-S-chip, en 3,2 terabits-per-sekund (Tbps) “SuperNIC” som kombinerer nettverks- og minnekontroll i en enkelt enhet. Denne chipen lar servere kommunisere med massive mengder kommodity DDR5 DRAM – opptil 18 terabyte per node – distribuert over hylken. Kritisk er at den gjør dette ved å bruke standard Ethernet-porter, og lar operatører utnytte sin eksisterende datacenter-infrastruktur uten å investere i proprietære koblinger.

Hva gjør EMFASYS spesielt interessant er evnen til å dynamisk avlaste minne-bundne arbeidsbyrdene fra dyre GPU-tilknyttede HBM til mye billigere DRAM, samtidig som den opprettholder mikrosekund-nivå aksess-forsinkelse. Programvare-staken bak EMFASYS inkluderer intelligente caching- og last-balanseringsmekanismer som skjuler forsinkelse og orkestrerer minnebevegelser på måter som er gjennomsiktige for LLM-ene som kjører på systemet.

Konsekvenser for AI-industrien

Dette er mer enn bare en intelligent maskinløsning – det representerer en filosofisk skifte i hvordan AI-infrastruktur bygges og skaleres. Mens generativ AI går fra nyskaping til nødvendighet, med milliarder av brukerspørsmål som prosesseres daglig, har kostnaden av å betjene disse modellene blitt uholdbar for mange selskaper. GPUer er ofte underutnyttet ikke på grunn av manglende beregningskraft, men fordi de sitter inaktive og venter på minne. EMFASYS løser denne ubalansen direkte.

Ved å aktivere pølt, vev-tilknyttet minne som er tilgjengelig via Ethernet, tilbyr Enfabrica datacenter-operatører en skalerbar alternativ til å kjøpe mer GPUer eller HBM. I stedet kan de øke minnekapasiteten modulært, ved å bruke standard DRAM og intelligent nettverking, og redusere den totale fotavtrykk og forbedre økonomien til AI-inferens.

Konsekvensene går utenfor umiddelbare kostnadsbesparelser. Denne type desaggregert arkitektur åpner vei for minne-som-en-tjeneste-modeller, hvor kontekst, historikk og agent-tilstand kan bestå utover en enkelt sesjon eller server, og åpner døren for mer intelligente og personlige AI-systemer. Det setter også scenen for mer resilient AI-skyer, hvor arbeidsbyrdene kan distribueres elastisk over en hylke eller et helt datacenter uten faste minnebegrensninger.

Se fremover

Enfabricas EMFASYS er for tiden sampling med utvalgte kunder, og selv om selskapet ikke har avslørt hvem disse partnere er, Reuters rapporterer at store AI-skytjenesteleverandører allerede tester systemet. Dette stiller Enfabrica ikke bare som en komponentleverandør, men som en nøkkelaktør i den neste generasjonen av AI-infrastruktur.

Ved å kopple minne fra beregning og gjøre det tilgjengelig over høyhastighets, kommodity Ethernet-nettverk, legger Enfabrica grunnlaget for en ny æra av AI-arkitektur – en hvor inferens kan skaleres uten kompromiss, hvor ressurser ikke lenger er strandet, og hvor økonomien av å deployere store språkmodeller endelig begynner å få mening.

I en verden som stadig defineres av kontekst-rike, multi-agent AI-systemer, er minne ikke lenger en støttende skuespiller – det er scenen. Og Enfabrica satser på at den som bygger den beste scenen, vil definere AI-ytelsen i årevis til kommer.

Antoine er en visjonær leder og grunnleggende partner i Unite.AI, drevet av en urokkelig lidenskap for å forme og fremme fremtiden for AI og robotikk. En seriegründer, han tror at AI vil være like disruptiv for samfunnet som elektrisitet, og blir ofte tatt i å tale om potensialet for disruptiv teknologi og AGI.
Som en futurist, er han dedikert til å utforske hvordan disse innovasjonene vil forme vår verden. I tillegg er han grunnleggeren av Securities.io, en plattform som fokuserer på å investere i banebrytende teknologier som omdefinerer fremtiden og omformer hele sektorer.