Partnerschappen
Infineon Technologies en d-Matrix gaan samenwerken aan lage-latentie-AI-infrastructuur
Infineon Technologies heeft aangekondigd een samenwerking met d-Matrix gericht op het verbeteren van de prestaties en energiedoeltreffendheid van AI-inferentiesystemen die in moderne datacenters worden gebruikt. De samenwerking draait om d-Matrix’s Corsair AI-inferentieversnellerplatform en Infineon’s OptiMOS dual-phase vermogenseenheden, die zijn ontworpen om hoge-dichtheid rekeneenheden voor interactieve AI-werklasten te ondersteunen.
De aankondiging benadrukt een groeiende verschuiving binnen de AI-hardwareindustrie. Terwijl een groot deel van de infrastructuurstijging in de afgelopen jaren zich richtte op het trainen van steeds grotere AI-modellen, breidt de industrie zich nu snel uit naar inferentie – het proces van het daadwerkelijk uitvoeren van modellen in real-worldtoepassingen zoals chatbots, agente AI-systemen, copilots, zoekopdrachten, financiële analyses en besluitvorming in de gezondheidszorg. Deze werklasten stellen andere eisen aan hardware, met name op het gebied van latentie, responsiviteit en energieverbruik.
Waarom AI-inferentie een belangrijk slagveld voor hardware wordt
AI-inferentie is een van de snelst groeiende segmenten van de AI-infrastructuurmarkt geworden, omdat interactieve AI-systemen antwoorden in milliseconden nodig hebben in plaats van seconden. d-Matrix heeft Corsair specifiek voor deze werklasten gepositioneerd, met de nadruk op ultra-lage latentie en energiedoeltreffende inferentie voor grote taalmodellen en AI-agents.
Volgens d-Matrix is Corsair ontworpen rond een digitale in-geheugenserverarchitectuur die bedoeld is om de geheugensnelheidsbeperkingen te verminderen die vaak de inferentie van generatieve AI vertragen. Het bedrijf beweert dat het platform de latentie aanzienlijk kan verlagen en de doorvoer kan verbeteren in vergelijking met traditionele GPU-georiënteerde inferentiesystemen, met name voor interactieve toepassingen.
De samenwerking met Infineon richt zich op een andere steeds kritieker wordende uitdaging: stroomlevering.
Aangezien AI-servers in dichtheid toenemen, is het efficiënt leveren van stroom aan versnellers een beperkende factor geworden voor het schalen van infrastructuur. Infineon’s OptiMOS TDM2254xx-modules zijn ontworpen voor verticale stroomleveringsarchitecturen die helpen om elektrische verliezen te verminderen en de stroomdichtheid in compacte serversystemen te verbeteren.
De verschuiving naar real-time AI-systemen
De bedrijven hebben de samenwerking geframed rond de opkomst van “interactieve AI”, waarbij inferentiesystemen continu uitvoer moeten genereren met extreem lage vertraging. Dat omvat conversational AI, AI-agents, real-time redeneringssystemen en toepassingen die snelle token generatie van grote taalmodellen vereisen.
d-Matrix-oprichter en CEO Sid Sheth zei dat de architectuur achter Corsair specifiek is gebouwd voor sub-2 milliseconde tokenlatentie, een meting die steeds belangrijker wordt naarmate ondernemingen AI-systemen van experimenten naar klantgerichte omgevingen verplaatsen.
De bredere AI-industrie begint ook te erkennen dat inferentie-infrastructuur mogelijk anders evolueert dan trainingsinfrastructuur. Terwijl GPU-clusters de eerste fase van generatieve AI-uitbreiding domineerden, beloont inferentie steeds vaker architecturen die zijn geoptimaliseerd voor geheugensnelheid, latentie, netwerken en energiedoeltreffendheid in plaats van alleen brute rekenkracht.
Energiedoeltreffendheid wordt centraal voor AI-schalen
Een van de grootste beperkingen waarmee hyperscalers en AI-cloudproviders worden geconfronteerd, is het elektriciteitsverbruik. AI-inferentiewerklasten kunnen continu draaien over miljoenen verzoeken per dag, waardoor operationele efficiëntie kritiek is voor implementatiekosten.
Infineon heeft zijn positie binnen AI-infrastructuur agressief uitgebreid via halfgeleidertechnologieën op basis van silicium, siliciumcarbide (SiC) en galliumnitride (GaN). Het bedrijf heeft zich steeds meer gericht op het leveren van de stroomleveringslaag onder AI-versnellers en servers.
De samenwerking met d-Matrix weerspiegelt hoe halfgeleiderbedrijven steeds nauwer geïntegreerd raken met AI-versnellerstartups, terwijl de industrie op zoek is naar alternatieven voor conventionele GPU-zware architecturen.
AI-infrastructuur breidt zich uit voorbij traditionele GPUs
De samenwerking komt ook tijdens een bredere golf van experimenten in AI-hardware. Een groeiend aantal startups ontwikkelt gespecialiseerde versnellers die specifiek zijn gericht op inferentie, geheugenserverarchitectuur of AI-netwerken.
d-Matrix heeft zich onderscheiden door zijn nadruk op compute-in-geheugentechnologieën en lage-latentie-inferentiesystemen die zijn aangepast voor generatieve AI. Het bedrijf heeft zijn infrastructuurstrategie ook uitgebreid voorbij alleen versnellerchips, met recente nadruk op netwerken, composable infrastructuur en volledige systeemoptimalisatie voor inferentieclusters.
Naarmate AI-toepassingen steeds interactiever en agenter worden, zullen infrastructuurproviders naar verwachting meer nadruk leggen op het verlagen van latentie, het verlagen van energieverbruik en het verbeteren van systeemniveau-efficiëntie over hele datacenterstacks, in plaats van zich alleen te richten op brute rekenkracht.












