Lideri de opinie

Secretul pentru o Inteligență Artificială Mai Rapidă Nu Este reprezentat de Mai Multe GPU, Ci de o Rețea Mai Inteligentă

Published September 5, 2025

Updated May 18, 2026

Nishant Lodha, Senior Director of AI Networking, Cornelis Networks

Inteligența Artificială (IA) redefinește ceea ce este posibil în diverse industrii, inclusiv sănătate, finanțe, producție și retail. Dar, odată cu potențialul promițător, vine și o cerere masivă de infrastructură.

Organizațiile din întreaga lume investesc în GPU-uri la o scară fără precedent pentru a accelera antrenamentul și inferența IA. Până în 2028, Gartner estimează că cheltuielile IT pentru IA generativă vor depăși 1 trilion de dolari. Hyperion Research preconizează că piața HPC va depăși 100 de miliarde de dolari în același interval de timp. Cu toate acestea, în ciuda investițiilor în acceleratoare de ultimă generație, mulți directori IT continuă să vadă GPU-uri inactivi, cu o utilizare de 35% sau mai mică. Acest lucru nu numai că duce la o performanță scăzută, dar și la o irosire de energie și la costuri inflaționate.

În timp ce multe proiecte IA se blochează, nu este pentru că le lipsește GPU-uri sau putere de calcul, ci pentru că rețeaua nu poate ține pasul, necesitând o abordare nouă pentru proiectarea IA la scară.

Costul Ascuns al Blocajelor de Rețea

Când rețelele nu pot furniza date suficient de repede pentru a menține GPU-urile constant ocupate, organizațiile experimentează mai multe impacturi critice:

GPU-uri și CPU-uri subutilizate din cauza transferurilor de date blocate: GPU-urile sunt proiectate pentru calcule paralele masive, dar pot procesa date doar atât de repede cât sunt livrate. Dacă rețeaua nu poate ține pasul, GPU-urile stau inactivi, așteptând date în loc de a face calcule. CPU-urile pot fi, de asemenea, blocate, deoarece coordonează sarcini și mută date prin conductă, rezultând o utilizare scăzută, în ciuda disponibilității hardware-ului scump.
Performanță de inferență inconsistentă din cauza rețelei ineficiente: Ineficiențele rețelei creează fluxuri de date neuniforme, făcând ca GPU-urile să fluctueze între starea de funcționare la viteza maximă și starea de inactivitate. Acest lucru produce o performanță de inferență imprevizibilă care poate paraliza aplicațiile IA în producție.
Ciclu de antrenament mai lung, întârziind timpul de lansare pe piață: Antrenamentul modelelor IA necesită mutarea unor seturi masive de date între servere, GPU-uri și stocare. Blocajele rețelei strangulează acest proces, astfel încât GPU-urile petrec mai puțin timp cu antrenamentul și mai mult timp așteptând. Acest lucru încetinește direct programul de dezvoltare și lansare a produsului.
Costuri de energie și operaționale în creștere: Chiar și atunci când sunt inactivi, GPU-urile și infrastructura înconjurătoare consumă o cantitate semnificativă de energie. Dacă GPU-urile sunt subutilizate din cauza ineficiențelor rețelei, organizațiile plătesc pentru o utilizare ridicată a energiei fără a obține o performanță proporțională. Costurile operaționale cresc, deoarece facilitățile trebuie să susțină încărcăturile maxime de energie și răcire, chiar dacă debitul de calcul este artificial limitat.

Întreprinderile pot continua să investească bani în mai multe GPU-uri, dar fără îmbunătățirile rețelei corespunzătoare, vor complica doar aceste blocaje și ineficiențe.

Rețeaua ca Accelerator: O Schimbare de Paradigmă

Soluția necesită o reevaluare completă a arhitecturii rețelei. Introducerea unui model care utilizează rețeaua ca accelerator inversează gândirea tradițională despre performanța HPC și IA pentru a debloca noi capacități.

În loc de a se concentra în primul rând pe adăugarea de mai multă putere de calcul prin GPU-uri și CPU-uri, abordarea “rețeaua ca accelerator” tratează țesătura de interconectare ca un multiplicator de performanță. Ca urmare, rețeaua poate susține mai bine computerele de înaltă densitate și poate accelera ROI prin eliminarea blocajelor, scalarea pentru a satisface cerințele de calcul și dimensionarea corectă a investițiilor în hardware. Permițând o mai mare putere de calcul fără întârzieri, organizațiile pot rula sarcini mai mari într-un spațiu mai mic, pot obține rezultate mai rapide și pot evita cheltuielile excesive pentru hardware suplimentar.

Cum Funcționează Modelul “Rețeaua ca Accelerator”

Așadar, cum funcționează acest model, astfel încât organizațiile să poată transforma rețeaua lor de la a fi un simplu mutator de date într-un activator de calcul și să înceapă să beneficieze de avantaje? Acesta oferă patru capacități cheie pe care rețelele tradiționale nu le au:

Livrare garantată la nivel de hardware: Rețelele tradiționale încarcă CPU-urile și GPU-urile cu supravegherea pachetelor, retransmiterea și rearanjarea, ceea ce consumă cicluri de calcul care ar putea fi dedicate antrenamentului sau inferenței. Cu o țesătură de rețea care garantează livrarea la nivel de hardware, aceste sarcini sunt transferate de la nodurile de calcul, rezultând o reducere a suprasarcinii CPU și GPU, o performanță previzibilă și consistentă și o scalabilitate care simplifică programarea și orchestrarea clusterului.
Rutare dinamică inteligentă: Rutarea convențională se bazează pe rute fixe sau suboptimale, care pot lăsa părți ale rețelei subutilizate sau pot crea blocaje acolo unde volume masive de date curg simultan. Rutarea inteligentă utilizează dinamic toate rutele disponibile pentru a optimiza fluxul de trafic. Acest lucru permite o rată de transfer mai mare cu multiple rute active care echilibrează traficul, o latență mai mică prin selectarea optimă a rutei și o reziliență îmbunătățită, deoarece traficul rețelei se reroutează automat în jurul eșecurilor de legătură sau nod. Acest lucru reduce timpul de inactivitate și menține GPU-urile complet alimentate cu date.
Reîncercare automată la nivel de legătură: Când pachetele sunt pierdute sau deteriorate, rețelele standard se bazează pe stratul de calcul pentru a detecta și a retransmite, ceea ce introduce o latență semnificativă și întrerupe fluxul de calcul. O țesătură de rețea cu capacități de reîncercare automată la nivel de legătură gestionează retransmisiile în interiorul rețelei însăși. Acest lucru permite o fiabilitate aproape transparentă, deoarece pierderea de pachete devine invizibilă pentru nodurile de calcul, în timp ce reduce impactul latenței, deoarece reîncercările au loc local, la nivel de legătură, și nu pe întreaga stivă de rețea. Acest lucru elimină, de asemenea, nevoia de manipulare a erorilor la nivel de aplicație complexă. Capacitățile de reîncercare automată asigură un calcul distribuit eficient și neîntrerupt, ceea ce este important atunci când se scalează peste mii de GPU-uri.
Calcul în rețea: În timp ce țesăturile de rețea tradiționale se concentrează în principal pe mutarea datelor, calculul în rețea permite rețelei să devină un coprocesor prin efectuarea anumitor operațiuni direct în țesătură. NVIDIA SHARP este un exemplu primar – permite reduceri care au loc pe comutatoarele rețelei însăși. Acest lucru permite operații distribuite accelerate, reduce latența, deoarece datele sunt agregate pe măsură ce traversează rețeaua, și crește eficiența, deoarece nodurile de calcul sunt eliberate de la efectuarea sarcinilor de agregare, lăsând mai multe cicluri pentru antrenament și simulare.

În ansamblu, aceste capacități sunt ceea ce face “calculul condus de rețea” fundamental pentru scalarea mediilor IA și HPC de ultimă generație. O abordare centrată pe rețea oferă returnări tangibile, care includ o utilizare mai mare a GPU-urilor, eliminând înfometarea cu date, un timp mai scurt pentru obținerea insight-urilor, reducerea ciclurilor de antrenament și stabilizarea performanței de inferență, o eficiență a resurselor îmbunătățită și un cost total de proprietate mai mic.

Descoperiți Adevărata Putere a Rețelei

IA la scară nu este doar o problemă de calcul – este o provocare de inginerie la nivel de sistem, cu rețeaua în centrul său. Tratarea rețelei ca accelerator o transformă într-un multiplicator de forță pentru calcul, permițând centrelor de date HPC și IA să scaleze în densitate fără a sacrifica performanța. Acest lucru livrează un ROI măsurabil mai rapid, extrăgând valoarea maximă din infrastructura existentă înainte de a investi în mai mult siliciu.

Prin eliminarea blocajelor, creșterea utilizării și livrarea unei performanțe previzibile, o rețea mai inteligentă permite echipe de IA mai productive, un ROI mai bun pe infrastructura GPU și un timp mai scurt pentru obținerea insight-urilor, inovației și leadershipului pe piață. Acest lucru permite organizațiilor să descopere ce poate fi cu adevărat rețeaua lor și să valorifice puterea IA în moduri noi, îmbunătățind utilizarea, livrând performanță previzibilă și oferind o mai bună productivitate a echipelor de IA, un ROI mai bun pe infrastructura GPU și un timp mai scurt pentru obținerea insight-urilor, inovației și leadershipului pe piață, permițând organizațiilor să descopere ce poate fi cu adevărat rețeaua lor și să valorifice puterea IA în moduri noi, boosting utilizarea, livrând performanță previzibilă și oferind o mai bună productivitate a echipelor de IA, un ROI mai bun pe infrastructura GPU și un timp mai scurt pentru obținerea insight-urilor, inovației și leadershipului pe piață.

Nishant Lodha, Senior Director of AI Networking, Cornelis Networks

Nishant Lodha este director senior de rețele AI la Cornelis Networks. Înainte de a se alătura Cornelis, Nishant a ocupat funcții de director la Intel Corporation și Marvell. El are peste 25 de ani de experiență în tehnologii de rețele de centre de date, stocare și calcul în roluri care acoperă marketing de produs, soluții și marketing tehnic, și inginer de rețea. El este stabilit în Silicon Valley.

Unite.AI

Secretul pentru o Inteligență Artificială Mai Rapidă Nu Este reprezentat de Mai Multe GPU, Ci de o Rețea Mai Inteligentă

Costul Ascuns al Blocajelor de Rețea

Rețeaua ca Accelerator: O Schimbare de Paradigmă

Cum Funcționează Modelul “Rețeaua ca Accelerator”

Descoperiți Adevărata Putere a Rețelei

You may like