Connect with us

Enfabrica præsenterer Ethernet-baseret Memory Fabric, der kan omdefinere AI-inferens i stor skala

Kunstig intelligens

Enfabrica præsenterer Ethernet-baseret Memory Fabric, der kan omdefinere AI-inferens i stor skala

mm

Enfabrica, en Silicon Valley-baseret startup med støtte fra Nvidia, har præsenteret et gennembrudsværk, der kan ændre, hvordan store AI-arbejdsbelastninger udvikles og skaleres. Selskabets nye Elastic Memory Fabric System (EMFASYS) er den første kommercielt tilgængelige Ethernet-baserede memory fabric, der specifikt er designet til at løse det centrale flaskenhal i generativ AI-inferens: adgang til hukommelse.

I en tid, hvor AI-modeller bliver mere komplekse, kontekstbevidste og varige – og kræver enorme mængder hukommelse per brugersession – leverer EMFASYS en ny tilgang til at frigøre hukommelse fra beregning, hvilket giver AI-datacentre mulighed for dramatisk at forbedre ydeevnen, reducere omkostningerne og øge udnyttelsen af deres dyreste ressourcer: GPU’er.

Hvad er en Memory Fabric – og hvorfor er det vigtigt?

Traditionelt har hukommelse inden for datacentre været tæt knyttet til serveren eller noden, det befinder sig i. Hver GPU eller CPU har kun adgang til den højhastigheds-hukommelse, der er direkte tilknyttet den – normalt HBM for GPU’er eller DRAM for CPU’er. Denne arkitektur fungerer godt, når arbejdsbelastningerne er små og forudsigelige. Men generativ AI har ændret spillet. LLM’er kræver adgang til store kontekstvinduer, brugerhistorik og multi-agent-hukommelse – alt sammen skal behandles hurtigt og uden forsinkelse. Disse hukommelseskrav overskrider ofte den tilgængelige kapacitet af lokal hukommelse, hvilket skaber flaskenhal, der strander GPU-kerner og forhøjer infrastrukturkostningerne.

En memory fabric løser dette ved at omdanne hukommelse til en fælles, distribueret ressource – en slags netværks-tilknyttet hukommelsespulje, der er tilgængelig for enhver GPU eller CPU i clusteret. Tænk på det som at oprette en “hukommelses-sky” inden for datacenter-racken. I stedet for at replikere hukommelse på tværs af servere eller overbelaste dyre HBM giver en fabric mulighed for at aggregere, frigøre og få adgang til hukommelse påkrævet over et højhastighedsnetværk. Dette giver AI-inferens-arbejdsbelastninger mulighed for at skala mere effektivt uden at være låst fast af den fysiske hukommelsesbegrænsning af en enkelt node.

Enfabricas tilgang: Ethernet og CXL, sammen til sidst

EMFASYS opnår denne rack-skala-hukommelsesarkitektur ved at kombinere to kraftfulde teknologier: RDMA over Ethernet og Compute Express Link (CXL). Den første giver mulighed for ultra-lav-forsinkelses-, høj-gennemstrømnings-dataoverførsel over standard-Ethernet-netværk. Den sidste giver mulighed for at frigøre hukommelse fra CPU’er og GPU’er og samle den i fælles ressourcer, der er tilgængelige via højhastigheds-CXL-forbindelser.

I centrum af EMFASYS er Enfabricas ACF-S-chip, en 3,2 terabits-pr-sekund (Tbps) “SuperNIC”, der kombinerer netværks- og hukommelseskontrol i en enkelt enhed. Denne chip giver servere mulighed for at interface med massive puljer af commodity DDR5 DRAM – op til 18 terabyte pr. node – fordelt over racken. Afgørende er, at det sker ved hjælp af standard-Ethernet porte, hvilket giver operatørerne mulighed for at udnytte deres eksisterende datacenter-infrastruktur uden at investere i proprietære interconnects.

Det, der gør EMFASYS særligt overbevisende, er dets evne til dynamisk at offloade hukommelsesbundne arbejdsbelastninger fra dyre GPU-tilknyttede HBM til langt mere overkommelige DRAM, samtidig med at det opretholder mikrosekund-niveau-adgangs-forsinkelse. Software-stakken bag EMFASYS inkluderer intelligente cachelagring- og belastningsfordelingsmekanismer, der skjuler forsinkelse og orkestrerer hukommelsesbevægelse på måder, der er gennemsigtige for LLM’erne, der kører på systemet.

Konsekvenser for AI-industrien

Dette er mere end bare en clever hardware-løsning – det repræsenterer en filosofisk skift i, hvordan AI-infrastruktur bygges og skaleres. Da generativ AI bevæger sig fra nytten til nødvendigheden, med milliarder af brugerforespørgsler, der behandles dagligt, er omkostningerne ved at betjene disse modeller blevet uholdbare for mange virksomheder. GPU’er er ofte underudnyttede, ikke på grund af mangel på beregningskraft, men fordi de sidder inaktive og venter på hukommelse. EMFASYS løser denne ubalance direkte.

Ved at aktivere puljer af hukommelse, der er tilknyttet fabric, og som er tilgængelige via Ethernet, giver Enfabrica datacenter-operatørerne en skalerbar alternativ til at købe mere GPU’er eller HBM. I stedet kan de øge hukommelseskapaciteten modulært, ved hjælp af standard-DRAM og intelligent netværksudstyr, hvilket reducerer den samlede fodaftryk og forbedrer økonomien i AI-inferens.

Konsekvenserne går ud over de umiddelbare omkostningsbesparelser. Denne type af frigjort arkitektur baner vejen for hukommelses-til-en-service-modeller, hvor kontekst, historik og agenttilstand kan bestå længere end en enkelt session eller server, og åbner døren for mere intelligente og personlige AI-systemer. Det sætter også scenen for mere robuste AI-skyer, hvor arbejdsbelastninger kan distribueres elastisk på tværs af et rack eller et helt datacenter uden faste hukommelsesbegrænsninger.

Udsigten

Enfabricas EMFASYS er i øjeblikket under sampling med udvalgte kunder, og selvom selskabet ikke har offentliggjort, hvem disse partnere er, Reuters rapporterer, at større AI-cloud-leverandører allerede tester systemet. Dette positionerer Enfabrica ikke kun som en komponentleverandør, men som en nøgleaktør i den næste generation af AI-infrastruktur.

Ved at frigøre hukommelse fra beregning og gøre det tilgængeligt over højhastigheds-, standard-Ethernet-netværk, lægger Enfabrica grunden til en ny æra af AI-arkitektur – en, hvor inferens kan skala uden kompromis, hvor ressourcer ikke længere er låst fast, og hvor økonomien ved at udvikle store sprogmodeller endelig begynder at give mening.

I en verden, der i stigende grad defineres af kontekst-rige, multi-agent AI-systemer, er hukommelse ikke længere en sekundær rolle – det er scenen. Og Enfabrica satser på, at den, der bygger den bedste scene, vil definere AI’s præstation i årevis.

Antoine er en visionær leder og medstifter af Unite.AI, drevet af en urokkelig passion for at forme og fremme fremtiden for AI og robotteknologi. En serieiværksætter, han tror, at AI vil være lige så omvæltende for samfundet som elektricitet, og bliver ofte fanget i at tale begejstret om potentialet for omvæltende teknologier og AGI.

Som en futurist, er han dedikeret til at udforske, hvordan disse innovationer vil forme vores verden. Derudover er han grundlægger af Securities.io, en platform, der fokuserer på at investere i skærende teknologier, der gendefinerer fremtiden og omformer hele sektorer.