Leader di pensiero
Il Segreto per un AI più Veloce non sono più GPU, ma una Rete più Intelligente

L’AI sta ridefinendo ciò che è possibile in vari settori, tra cui sanità, finanza, produzione e retail. Ma con un potenziale promettente, porta anche enormi richieste di infrastrutture.
Le organizzazioni in tutto il mondo stanno investendo in GPU a una scala senza precedenti per accelerare l’addestramento e l’inferenza dell’AI. Entro il 2028, Gartner prevede che la spesa IT per l’AI generativa supererà i 1 trilione di dollari. Hyperion Research prevede che la spesa totale del mercato HPC supererà i 100 miliardi di dollari nello stesso periodo. Eppure, nonostante gli investimenti in acceleratori all’avanguardia, molti CIO continuano a vedere le GPU inattive, con un utilizzo che si aggira intorno al 35% o inferiore. Ciò non solo comporta prestazioni insufficienti, ma anche sprechi di energia e costi gonfiati.
Mentre molti progetti di AI si bloccano, non è perché mancano di GPU o potenza di calcolo, ma perché la rete non può stare al passo, richiedendo un nuovo approccio alla progettazione per l’AI su larga scala.
Il Costo Nascosto dei Colli di Bottiglia della Rete
Quando le reti non possono fornire dati abbastanza velocemente per mantenere le GPU costantemente impegnate, le organizzazioni sperimentano diversi impatti critici:
- GPU e CPU non utilizzate a causa di trasferimenti di dati bloccati: le GPU sono progettate per calcoli paralleli massicci, ma possono elaborare dati solo alla velocità a cui vengono consegnati. Se il tessuto di rete non può stare al passo, le GPU rimangono inattive in attesa di dati invece di eseguire calcoli. Le CPU possono anche bloccarsi poiché coordinano attività e spostano dati attraverso il flusso di lavoro, con un utilizzo basso nonostante la disponibilità di hardware costoso.
- Prestazioni di inferenza inconsistenti a causa di una rete inefficiente: le inefficienze di rete creano flussi di dati irregolari, facendo oscillare le GPU tra stati di piena velocità e inattività. Ciò produce prestazioni di inferenza imprevedibili che possono paralizzare le applicazioni di AI in produzione.
- Cicli di addestramento più lunghi, ritardando il time-to-market: l’addestramento di modelli di AI richiede lo spostamento di enormi set di dati tra server, GPU e archiviazione. I colli di bottiglia di rete rallentano questo processo, quindi le GPU trascorrono meno tempo ad addestrare e più tempo ad aspettare. Ciò rallenta direttamente gli sviluppi e i piani di distribuzione dei prodotti.
- Aumento dei costi di energia e operativi: anche quando sono inattive, le GPU e l’infrastruttura circostante consumano ancora una quantità significativa di energia. Se le GPU sono non utilizzate a causa di inefficienze di rete, le organizzazioni pagano per un alto consumo di energia senza ottenere prestazioni proporzionali. I costi operativi aumentano perché le strutture devono supportare i picchi di energia e di raffreddamento, anche se il throughput di calcolo è artificialmente limitato.
Le imprese possono continuare a investire denaro in più GPU, ma senza gli adeguati miglioramenti di rete, possono solo aggravare questi colli di bottiglia e inefficienze.
Rete come Acceleratore: un Cambiamento di Paradigma
La soluzione richiede di ripensare l’architettura di rete nel suo complesso. Introducendo un modello che utilizza la rete come acceleratore, capovolge il pensiero tradizionale sulle prestazioni di HPC e AI per sbloccare nuove capacità.
Invece di concentrarsi principalmente sull’aggiunta di più calcolo tramite GPU e CPU, l’approccio “rete come acceleratore” tratta il tessuto di interconnessione come un moltiplicatore di prestazioni. Di conseguenza, la rete può meglio supportare il calcolo ad alta densità e accelerare il ROI eliminando i colli di bottiglia, scalando per soddisfare le richieste di calcolo e ottimizzando gli investimenti in hardware. Abilitando un calcolo maggiore senza rallentamenti, le organizzazioni possono eseguire carichi di lavoro più grandi in meno spazio, ottenere risultati più velocemente e evitare di sprecare denaro in hardware extra.
Come Funziona il Modello “Rete come Acceleratore”
Quindi, come funziona questo modello in modo che le organizzazioni possano trasformare la loro rete da mero spostatore di dati in un abilitatore attivo di calcolo e iniziare a realizzare i benefici? Fornisce quattro capacità chiave che le reti tradizionali mancano:
- Consegna garantita a livello hardware: le reti tradizionali gravano su CPU e GPU con l’onere della tracciabilità dei pacchetti, della ritrasmissione e del riordinamento. Ciò consuma cicli di calcolo che potrebbero essere dedicati all’addestramento o all’inferenza. Con un tessuto di rete che garantisce la consegna a livello hardware, questi compiti vengono spostati lontano dai nodi di calcolo, risultando in un sovraccarico ridotto di CPU e GPU, prestazioni prevedibili e coerenti e scalabilità che semplifica la programmazione e l’orchestrazione del cluster.
- Routing dinamico intelligente: il routing convenzionale si basa su percorsi fissi o subottimali, che possono lasciare parti della rete non utilizzate o creare colli di bottiglia dove volumi di dati massicci fluiscono simultaneamente. Il routing intelligente sfrutta dinamicamente tutti i percorsi disponibili per ottimizzare il flusso di traffico. Ciò consente un throughput più alto con più percorsi attivi che bilanciano il traffico, una latenza inferiore tramite la selezione del percorso ottimale e una maggiore resilienza poiché il traffico di rete si rerouting automaticamente intorno a link o nodi di failure. Ciò riduce i tempi di inattività e mantiene le GPU completamente alimentate con dati.
- Ritento automatico a livello di link: quando i pacchetti vengono persi o corrotti, le reti standard dipendono dal livello di calcolo per rilevare e rinviare, introducendo una significativa latenza e interrompendo il flusso di calcolo. Un tessuto con capacità di ritento automatico a livello di link gestisce le ritrasmissioni all’interno della rete stessa. Ciò consente una affidabilità quasi trasparente poiché la perdita di pacchetti diventa invisibile ai nodi di calcolo, riducendo l’impatto della latenza poiché i ritenti avvengono localmente al link, non in tutta la pila di rete. Ciò elimina anche la necessità di gestione degli errori a livello di applicazione complessa. Le capacità di ritento automatico garantiscono un calcolo distribuito efficiente e senza interruzioni, importante quando si scala su migliaia di GPU.
- Calcolo in rete: mentre i tessuti di rete tradizionali si occupano principalmente di spostare dati, il calcolo in rete consente alla rete di diventare un co-processore eseguendo direttamente alcune operazioni all’interno del tessuto. NVIDIA SHARP è un esempio primario – consente riduzioni che avvengono sugli stessi switch di rete. Ciò consente operazioni distribuite accelerate, riduce la latenza poiché i dati vengono aggregati mentre attraversano la rete e aumenta l’efficienza poiché i nodi di calcolo vengono liberati dall’esecuzione di compiti di aggregazione, lasciando più cicli per l’addestramento e la simulazione.
Nel complesso, queste capacità sono ciò che rende il “calcolo guidato dalla rete” fondamentale per la scalabilità degli ambienti di AI e HPC di prossima generazione. Un approccio centrato sulla rete fornisce ritorni tangibili che includono un utilizzo più alto delle GPU che elimina la fame di dati, un tempo più veloce per ottenere insight che riduce i cicli di addestramento e stabilizza le prestazioni di inferenza, una maggiore efficienza delle risorse e un minor costo totale di proprietà.
Scopri il Vero Potere della Rete
L’AI su larga scala non è solo un problema di calcolo – è una sfida di ingegneria a livello di sistema, con la rete al centro. Trattare la rete come un acceleratore la trasforma in un moltiplicatore di prestazioni per il calcolo, consentendo ai centri di dati di HPC e AI di scalare in densità senza sacrificare le prestazioni. Fornisce un ROI misurabile più velocemente estraendo il massimo valore dall’infrastruttura esistente prima di investire in più silicio.
Eliminando i colli di bottiglia, aumentando l’utilizzo e fornendo prestazioni prevedibili, una rete più intelligente consente team di AI più produttivi, un miglior ROI sull’infrastruttura di GPU e un tempo più veloce per ottenere insight, innovazione e leadership di mercato. Ciò consente alle organizzazioni di scoprire cosa possa realmente fare la loro rete e di sfruttare il potere dell’AI in modi nuovi.












