Partnership

Infineon Technologies e d-Matrix collaborano su infrastrutture AI a bassa latenza

mm

Infineon Technologies ha annunciato una collaborazione con d-Matrix focalizzata sul miglioramento delle prestazioni e dell’efficienza energetica dei sistemi di inferenza AI utilizzati nei moderni data center. La partnership si concentra sulla piattaforma di accelerazione dell’inferenza AI Corsair di d-Matrix e sui moduli di alimentazione duale OptiMOS di Infineon, progettati per supportare ambienti di calcolo ad alta densità per carichi di lavoro AI interattivi.

L’annuncio evidenzia un crescente spostamento all’interno dell’industria dell’hardware AI. Mentre gran parte del boom delle infrastrutture negli ultimi anni si è concentrata sull’addestramento di modelli AI sempre più grandi, l’industria si sta ora rapidamente espandendo verso l’inferenza – il processo di esecuzione dei modelli in applicazioni del mondo reale come chatbot, sistemi AI agente, copiloti, ricerca, analisi finanziarie e supporto alle decisioni sanitarie. Questi carichi di lavoro pongono diverse richieste all’hardware, in particolare intorno alla latenza, alla risposta e al consumo di energia.

Perché l’inferenza AI sta diventando un importante campo di battaglia dell’hardware

L’inferenza AI è emersa come uno dei segmenti di crescita più rapida del mercato delle infrastrutture AI, poiché i sistemi AI interattivi richiedono risposte in millisecondi piuttosto che in secondi. d-Matrix ha posizionato Corsair specificamente per questi carichi di lavoro, sottolineando la latenza ultra-bassa e l’inferenza efficiente in termini di energia per grandi modelli linguistici e agenti AI.

Secondo d-Matrix, Corsair è stato progettato intorno a un’architettura di calcolo digitale in memoria progettata per ridurre le bottiglie di collo che spesso rallentano l’inferenza generativa AI. L’azienda afferma che la piattaforma può ridurre significativamente la latenza e migliorare la velocità di elaborazione rispetto ai sistemi di inferenza tradizionali basati su GPU, in particolare per le applicazioni interattive.

La partnership con Infineon affronta un’altra sfida sempre più critica: la consegna di energia.

Man mano che i server AI continuano ad aumentare in densità, la consegna efficiente di energia agli accelerator è diventata un fattore limitante per la scalabilità delle infrastrutture. I moduli OptiMOS TDM2254xx di Infineon sono progettati per architetture di consegna di energia verticali che aiutano a ridurre le perdite elettriche migliorando la densità di potenza all’interno di sistemi server compatti.

Lo spostamento verso sistemi AI in tempo reale

Le aziende hanno inquadrato la collaborazione intorno all’ascesa dell’“AI interattiva”, dove i sistemi di inferenza devono generare continuamente output con ritardi estremamente bassi. Ciò include AI conversazionale, agenti AI, sistemi di ragionamento in tempo reale e applicazioni che richiedono la generazione rapida di token da grandi modelli linguistici.

Il fondatore e CEO di d-Matrix, Sid Sheth, ha affermato che l’architettura dietro Corsair è stata costruita specificamente per una latenza di token inferiore a 2 millisecondi, una metrica che è diventata sempre più importante poiché le aziende spostano i sistemi AI dall’esperimentazione agli ambienti di produzione.

L’industria AI più ampia sta anche iniziando a riconoscere che le infrastrutture di inferenza potrebbero evolversi diversamente dalle infrastrutture di addestramento. Mentre i cluster di GPU hanno dominato la prima fase dell’espansione dell’AI generativa, l’inferenza premia sempre più le architetture ottimizzate intorno alla larghezza di banda della memoria, alla latenza, alla rete e all’efficienza energetica piuttosto che al solo calcolo grezzo.

L’efficienza energetica sta diventando centrale per la scalabilità AI

Una delle maggiori limitazioni che affrontano i fornitori di servizi cloud e i provider di servizi AI è la domanda di energia elettrica. I carichi di lavoro di inferenza AI possono essere eseguiti in modo continuo su milioni di richieste al giorno, rendendo l’efficienza operativa critica per i costi di distribuzione.

Infineon ha ampliato in modo aggressivo la sua posizione all’interno delle infrastrutture AI attraverso tecnologie semiconduttrici basate su silicio, carburo di silicio (SiC) e nitruro di gallio (GaN). L’azienda si è sempre più concentrata sul fornire lo strato di consegna di energia sotto gli accelerator AI e le infrastrutture dei server.

La collaborazione con d-Matrix riflette come le aziende di semiconduttori stanno diventando più strettamente integrate con le startup di accelerator AI, poiché l’industria cerca alternative alle architetture convenzionali basate su GPU.

Le infrastrutture AI si stanno espandendo oltre le tradizionali GPU

La partnership arriva anche durante un’onda più ampia di sperimentazione nell’hardware AI. Un numero crescente di startup sta sviluppando accelerator specializzati specificamente per l’inferenza, il calcolo centrato sulla memoria o l’elaborazione della rete AI.

d-Matrix si è distinta attraverso la sua enfasi sulle tecnologie di calcolo nella memoria e sui sistemi di inferenza a bassa latenza progettati per l’AI generativa. L’azienda ha anche ampliato la sua strategia di infrastrutture oltre i soli chip di accelerazione, sottolineando recentemente la rete, le infrastrutture componibili e l’ottimizzazione del sistema per i cluster di inferenza.

Man mano che le applicazioni AI diventano sempre più agente e interattive, i fornitori di infrastrutture sono tenuti a porre maggiore enfasi sulla riduzione della latenza, sulla riduzione del consumo di energia e sul miglioramento dell’efficienza del sistema a livello di sistema su tutto lo stack del data center, piuttosto che concentrarsi solo sulla potenza di elaborazione grezza.

Antoine Γ¨ un leader visionario e socio fondatore di Unite.AI, guidato da una passione incrollabile per plasmare e promuovere il futuro dell'AI e della robotica. Un imprenditore seriale, crede che l'AI sarΓ  altrettanto rivoluzionario per la societΓ  quanto l'elettricitΓ , e spesso si lascia trasportare dall'entusiasmo per il potenziale delle tecnologie innovative e dell'AGI.

Come futurista, Γ¨ dedicato a esplorare come queste innovazioni plasmeranno il nostro mondo. Inoltre, Γ¨ il fondatore di Securities.io, una piattaforma focalizzata sugli investimenti in tecnologie all'avanguardia che stanno ridefinendo il futuro e riplasmando interi settori.