Connect with us

Infineon Technologies og d-Matrix samarbeider om lav-forsinkelses AI-infrastruktur

Partnerskap

Infineon Technologies og d-Matrix samarbeider om lav-forsinkelses AI-infrastruktur

mm

Infineon Technologies har annonsert et samarbeid med d-Matrix med fokus på å forbedre ytelsen og energieffektiviteten til AI-inferenssystemer som brukes i moderne datacenter. Samarbeidet handler om d-Matrix’ Corsair AI-inferensakseleratorplattform og Infineons OptiMOS dual-fase kraftmoduler, som er designet for å støtte høytetthets beregningsmiljøer for interaktive AI-arbeidsbelastninger.

Annonsen fremhever en voksende endring innen AI-hardwareindustrien. Mens mye av infrastrukturboomen de siste årene har fokusert på å trene stadig større AI-modeller, utvider industrien nå raskt inn i inferens — prosessen med å kjøre modeller i virkelige applikasjoner som chatbots, agente AI-systemer, copiloter, søk, finansiell analyse og beslutningsstøtte for helse. Disse arbeidsbelastningene stiller andre krav til hardware, spesielt når det gjelder forsinkelse, respons og energiforbruk.

Hvorfor AI-inferens blir et større slagfelt for hardware

AI-inferens har oppstått som ett av de raskest voksende segmentene av AI-infrastrukturmarkedet fordi interaktive AI-systemer krever svar på millisekundnivå snarere enn sekunder. d-Matrix har posisjonert Corsair spesielt for disse arbeidsbelastningene, med vekt på ultra-lav forsinkelse og energieffektiv inferens for store språkmodeller og AI-agenter.

Ifølge d-Matrix ble Corsair designet rundt en digital i-minne-beregningarkitektur som skulle redusere minnehemsningene som ofte bremser ned generativ AI-inferens. Selskapet hevder at plattformen kan betydelig senke forsinkelsen og forbedre gjennomstrømmingen sammenlignet med tradisjonelle GPU-sentriske inferenssystemer, spesielt for interaktive applikasjoner.

Samarbeidet med Infineon løser en annen stadig mer kritisk utfordring: kraftlevering.

Ettersom AI-tjenere øker i tetthet, har effektiv kraftlevering til akseleratorer blitt en begrensning for å skalerer infrastruktur. Infineons OptiMOS TDM2254xx-moduler er designet for vertikale kraftleveringsarkitekturer som hjelper med å redusere elektriske tap og forbedre krafttetthet inni kompakte serversystemer.

Endringen mot sanntids AI-systemer

Selskapene rammet samarbeidet rundt oppblomstringen av “interaktiv AI”, hvor inferenssystemer må kontinuerlig generere utgaver med ekstremt lav forsinkelse. Dette inkluderer konversasjons AI, AI-agenter, sanntids resonneringssystemer og applikasjoner som krever rask token-generering fra store språkmodeller.

d-Matrix-gründer og CEO Sid Sheth sa at arkitekturen bak Corsair ble bygget spesielt for under-2 millisekund token-forsinkelse, en måling som har blitt stadig viktigere ettersom bedrifter flytter AI-systemer fra eksperimentering til kunde-orienterte miljøer.

Den bredere AI-industrien begynner også å erkjenne at inferens-infrastruktur kan utvikle seg annerledes enn trenings-infrastruktur. Mens GPU-kluster dominerte den første fasen av generativ AI-utvidelse, belønner inferens stadig arkitekturer som er optimert rundt minne-båndbredde, forsinkelse, nettverk og energieffektivitet snarere enn ren beregning alene.

Krafteffektivitet blir sentral for AI-skalerings

En av de største begrensningene som hyperskalerte og AI-skytjenesteleverandører møter, er strømforbruk. AI-inferens-arbeidsbelastninger kan kjøre kontinuerlig over millioner av forespørsler per dag, og operasjonell effektivitet er kritisk for driftskostnader.

Infineon har utvidet sin posisjon innen AI-infrastruktur gjennom halvlederteknologier basert på silisium, silisiumkarbid (SiC) og galliumnitrid (GaN). Selskapet har stadig fokusert på å forsyne kraftleveringslaget under AI-akseleratorer og server-infrastruktur.

Samarbeidet med d-Matrix reflekterer hvordan halvlederfirmaer blir tettere integrert med AI-akselerator-startups ettersom industrien søker etter alternativer til konvensjonelle GPU-tunge arkitekturer.

AI-infrastruktur utvider seg utenfor tradisjonelle GPU-er

Samarbeidet kommer også under en større bølge av eksperimentering i AI-hardware. En voksende rekke startups utvikler spesialiserte akseleratorer som er fokusert spesielt på inferens, minne-sentrert beregning eller AI-nettverk.

d-Matrix har differensiert seg gjennom sin vekt på beregning-i-minne-teknologier og lav-forsinkelses inferenssystemer tilpasset generativ AI. Selskapet har også utvidet sin infrastrukturstrategi utenfor akselerator-chip alene, nylig vektlegger nettverk, komponibel infrastruktur og fullsystem-optimisering for inferens-kluster.

Ettersom AI-applikasjoner blir stadig mer agente og interaktive, forventes infrastruktur-leverandører å legge større vekt på å redusere forsinkelse, senke energiforbruk og forbedre systemnivå-effektivitet over hele datacenters-stabler snarere enn å fokusere bare på ren beregningskraft.

Antoine er en visjonær leder og grunnleggende partner i Unite.AI, drevet av en urokkelig lidenskap for å forme og fremme fremtiden for AI og robotikk. En seriegründer, han tror at AI vil være like disruptiv for samfunnet som elektrisitet, og blir ofte tatt i å tale om potensialet for disruptiv teknologi og AGI.
Som en futurist, er han dedikert til å utforske hvordan disse innovasjonene vil forme vår verden. I tillegg er han grunnleggeren av Securities.io, en plattform som fokuserer på å investere i banebrytende teknologier som omdefinerer fremtiden og omformer hele sektorer.