Connect with us

Infineon Technologies og d-Matrix samarbejder om lav-forsinkelses AI-infrastruktur

Partnerskaber

Infineon Technologies og d-Matrix samarbejder om lav-forsinkelses AI-infrastruktur

mm

Infineon Technologies har meddelt et samarbejde med d-Matrix med fokus på at forbedre ydeevnen og energiens effektivitet i AI-inferenssystemer, der bruges i moderne datacentre. Samarbejdet drejer sig om d-Matrix’ Corsair AI-inferensacceleratorplatform og Infineons OptiMOS dual-fase effektmodule, der er designede til at understøtte højtdensitets beregningsmiljøer til interaktive AI-arbejdslaster.

Meddelelsen fremhæver en voksende skift i AI-hardwareindustrien. Mens meget af infrastrukturboomet de seneste år har fokuseret på at træne stadig større AI-modeller, udvider industrien nu hurtigt til inferens – processen med at køre modeller i virkelige anvendelser som chatbots, agente AI-systemer, copilots, søgning, finansielle analyser og sundhedsbeslutningsstøtte. Disse arbejdslaster stiller andre krav til hardware, især omkring forsinkelse, respons og energiforbrug.

Hvorfor AI-inferens bliver et stort hardware-slagmark

AI-inferens er blevet en af de hurtigst voksende segmenter af AI-infrastrukturmarkedet, fordi interaktive AI-systemer kræver svar på millisekunder snarere end sekunder. d-Matrix har positioneret Corsair specifikt til disse arbejdslaster, med fokus på ultra-lav forsinkelse og energivenlig inferens for store sprogmodeller og AI-agenter.

Ifølge d-Matrix blev Corsair designede omkring en digital i-hukommelse-beregningarkitektur, der er ment til at reducere hukommelsesbottleneck’er, der ofte langsommelser generative AI-inferens. Selskabet hævder, at platformen kan betydeligt reducere forsinkelsen og forbedre gennemstrømningen i forhold til traditionelle GPU-centriske inferenssystemer, især for interaktive anvendelser.

Samarbejdet med Infineon adresseer en anden stadig mere kritisk udfordring: effektlevering.

Da AI-servere fortsætter med at øge i tæthed, er effektiv effektlevering til acceleratore blevet en begrænsning for skalerbarhed af infrastruktur. Infineons OptiMOS TDM2254xx-module er designede til vertikale effektleveringsarkitekturer, der hjælper med at reducere elektriske tab og forbedre effektdensiteten inde i kompakte serversystemer.

Skiftet mod realtids AI-systemer

Selskaberne rammer samarbejdet om opkomsten af “interaktiv AI”, hvor inferenssystemer må kontinuerligt generere output med ekstremt lav forsinkelse. Det inkluderer konversations AI, AI-agenter, realtids resonanssystemer og anvendelser, der kræver hurtig token-generering fra store sprogmodeller.

d-Matrix’ grundlægger og administrerende direktør Sid Sheth sagde, at arkitekturen bag Corsair blev bygget specifikt til sub-2 millisekunders token-forsinkelse, en metrik, der er blevet stadig mere vigtig, da virksomheder flytter AI-systemer fra eksperimenter til kundeorienterede miljøer.

Den bredere AI-industri begynder også at erkende, at inferens-infrastruktur kan udvikle sig anderledes end trænings-infrastruktur. Mens GPU-kluster dominerede den første fase af generativ AI-udvidelse, belønner inferens stadig mere arkitekturer, der er optimeret til hukommelsesbåndbredde, forsinkelse, netværk og energivenlighed snarere end raw beregning alene.

Effekteffektivitet bliver central for AI-skalerbarhed

En af de største begrænsninger, der står over for hyperscalers og AI-cloud-udbydere, er elforbrug. AI-inferens-arbejdslaster kan køre kontinuerligt over millioner af anmodninger om dagen, hvilket gør operations-effektivitet kritisk for implementeringsomkostninger.

Infineon har været aggressivt udvidende sin position inden for AI-infrastruktur gennem halvlederteknologier baseret på silicium, siliciumkarbid (SiC) og galliumnitrid (GaN). Selskabet har stadig mere fokuseret på at forsyne effektleveringslaget under AI-acceleratorer og server-infrastruktur.

Samarbejdet med d-Matrix reflekterer, hvordan halvlederfirmaer bliver mere tæt integreret med AI-accelerator-startups, da industrien søger efter alternativer til konventionelle GPU-tunge arkitekturer.

AI-infrastruktur udvider sig beyond traditionelle GPU’er

Samarbejdet kommer også under en bredere bølge af eksperimenter i AI-hardware. En voksende antal startups udvikler specialiserede acceleratore fokuseret specifikt på inferens, hukommelsescentreret beregning eller AI-netværk.

d-Matrix har differentieret sig selv gennem sin fokus på compute-in-memory-teknologier og lav-forsinkelses inferenssystemer tilpasset generativ AI. Selskabet har også udvidet sin infrastrukturstrategi beyond acceleratortransistorer alene, og har nylig understreget netværk, komponerbar infrastruktur og fuld-systemoptimering for inferens-kluster.

Som AI-anvendelser bliver stadig mere agente og interaktive, forventes infrastruktur-udbydere at lægge større vægt på at reducere forsinkelse, sænke energiforbrug og forbedre systemniveau-effektivitet på tværs af hele datacenter-stakke snarere end at fokusere kun på raw beregningskraft.

Antoine er en visionær leder og medstifter af Unite.AI, drevet af en urokkelig passion for at forme og fremme fremtiden for AI og robotteknologi. En serieiværksætter, han tror, at AI vil være lige så omvæltende for samfundet som elektricitet, og bliver ofte fanget i at tale begejstret om potentialet for omvæltende teknologier og AGI.

Som en futurist, er han dedikeret til at udforske, hvordan disse innovationer vil forme vores verden. Derudover er han grundlægger af Securities.io, en platform, der fokuserer på at investere i skærende teknologier, der gendefinerer fremtiden og omformer hele sektorer.