Connect with us

Het Geheim van Snellere AI Isn’t Meer GPUs, Het Is Slimmer Netwerken

Thought leaders

Het Geheim van Snellere AI Isn’t Meer GPUs, Het Is Slimmer Netwerken

mm

AI herdefinieert wat mogelijk is in verschillende industrieën, waaronder gezondheidszorg, financiën, fabricage en detailhandel. Maar met veelbelovend potentieel brengt het ook enorme infrastructuurvereisten met zich mee.

Organisaties over de hele wereld investeren op ongekende schaal in GPUs om AI-training en -inference te versnellen. Volgens een prognose van Gartner zal de IT-uitgaven voor generatieve AI tegen 2028 meer dan 1 biljoen dollar bedragen. Hyperion Research voorspelt dat de totale HPC-marktuitgaven in dezelfde periode meer dan 100 miljard dollar zullen bedragen. Ondanks investeringen in cutting-edge accelerators zien veel CIO’s nog steeds idling GPUs, met een utilisatie die op 35% of lager ligt. Dit resulteert niet alleen in onderprestaties, maar ook in verspilde energie en opgeblazen kosten.

Veel AI-projecten stagneren, niet omdat ze geen GPUs of rekenkracht hebben, maar omdat het netwerk niet kan bijhouden, waardoor een nieuwe aanpak nodig is om te ontwerpen voor AI op grote schaal.

De Verborgen Kosten van Netwerkknelpunten

Wanneer netwerken geen gegevens snel genoeg kunnen leveren om GPUs consistent bezig te houden, ondervinden organisaties verschillende kritische gevolgen:

  • Onderbenutte GPUs en CPUs vanwege gebotteldekte gegevensoverdrachten: GPUs zijn ontworpen voor massale parallelle berekeningen, maar ze kunnen alleen gegevens verwerken zo snel als ze worden geleverd. Als het netwerk niet kan bijhouden, zitten GPUs stil en wachten op gegevens in plaats van berekeningen uit te voeren. CPUs kunnen ook stilvallen omdat ze taken coördineren en gegevens door de pijplijn verplaatsen, waardoor de utilisatie laag is ondanks de beschikbaarheid van dure hardware.
  • Onvoorspelbare inference-prestaties vanwege een inefficiënt netwerk: Netwerkinefficiënties creëren onevenwichtige gegevensstromen, waardoor GPUs schakelen tussen volle snelheid en stilstand. Dit produceert onvoorspelbare inference-prestaties die AI-toepassingen in productie kunnen lamleggen.
  • Lengere trainingscycli, waardoor de tijd tot markt wordt vertraagd: Het trainen van AI-modellen vereist het verplaatsen van enorme datasets over servers, GPUs en opslag. Netwerkknelpunten vertragen dit proces, zodat GPUs minder tijd besteden aan trainen en meer tijd aan wachten. Dit vertraagt rechtstreeks de productontwikkeling en -implementatie.
  • Stijgende energiekosten en operationele kosten: Zelfs wanneer ze stil staan, verbruiken GPUs en de omliggende infrastructuur nog steeds aanzienlijk veel energie. Als GPUs onderbenut zijn vanwege netwerkinefficiënties, betalen organisaties voor hoge energieverbruik zonder evenredige prestaties te krijgen. Operationele kosten stijgen omdat faciliteiten piekenergie- en koellasten moeten ondersteunen, zelfs als de rekenprestaties kunstmatig worden beperkt.

Bedrijven kunnen blijven investeren in meer GPUs, maar zonder de juiste netwerkverbeteringen zullen ze alleen maar deze knelpunten en inefficiënties verergeren.

Netwerk als Versneller: Een Paradigmaverschuiving

De oplossing vereist een volledige heroverweging van de netwerkarchitectuur. Het introduceren van een model dat het netwerk als versneller gebruikt, keert de traditionele manier van denken over HPC- en AI-prestaties om en ontgrendelt nieuwe mogelijkheden.

In plaats van zich te concentreren op het toevoegen van meer rekenkracht via GPUs en CPUs, behandelt de “netwerk als versneller”-aanpak de interconnectstof als een prestatievermenigvuldiger. Als gevolg kan het netwerk beter hoge dichtheid rekenen ondersteunen en de ROI versnellen door knelpunten te elimineren, om te schalen om rekenvereisten te vervullen en hardware-investeringen goed te dimensioneren. Door meer rekenkracht mogelijk te maken zonder vertragingen, kunnen organisaties grotere workloads in minder ruimte uitvoeren, sneller resultaten behalen en overspending op extra hardware voorkomen.

Hoe het ‘Netwerk als Versneller’-model Werkt

Hoe werkt dit model, zodat organisaties hun netwerk kunnen transformeren van een passieve dataverplaatsing naar een actieve versneller van rekenkracht en de voordelen kunnen realiseren? Het levert vier belangrijke mogelijkheden die traditionele netwerken missen:

  • Garantie van levering op hardwareniveau: Traditionele netwerken belasten CPUs en GPUs met pakkettracking-, heruitzending- en herschikkingskosten. Dit verbruikt reken_cycles die aan training of inference kunnen worden besteed. Met een netwerkstof die levering op hardwareniveau garandeert, worden deze taken weggehaald bij de rekenknooppunten, waardoor CPU- en GPU-overhead worden verminderd, voorspelbare en consistente prestaties en schaalbaarheid die programmering en clusterorkestratie vereenvoudigen.
  • Intelligente dynamische routing: Conventionele routing vertrouwt op vaste of suboptimale paden, die delen van het netwerk onderbenut kunnen laten of knelpunten kunnen creëren waar grote hoeveelheden gegevens tegelijkertijd stromen. Intelligente routing maakt dynamisch gebruik van alle beschikbare paden om verkeersstroom te optimaliseren. Het maakt hogere doorvoer mogelijk met meerdere actieve routes die verkeer balanceren, lagere latentie via optimale padselectie en verbeterde veerkracht, aangezien netwerkverkeer automatisch wordt omgeleid rond link- of knooppuntfalen. Dit vermindert idle tijden en houdt GPUs volledig gevoed met gegevens.
  • Linkniveau-autoretry: Wanneer pakketten verloren of beschadigd raken, vertrouwen standaardnetwerken op de rekenlaag om ze te detecteren en opnieuw te verzenden, wat aanzienlijke latentie introduceert en de rekenstroom onderbreekt. Een stof met ingebouwde linkniveau-autoretry-mogelijkheden behandelt heruitzendingen binnen het netwerk zelf. Het maakt near-transparante betrouwbaarheid mogelijk, aangezien pakketverlies onzichtbaar wordt voor rekenknooppunten, terwijl de latentie-impact wordt verminderd, aangezien heruitzendingen lokaal op het linkniveau gebeuren, niet over de hele netwerkstack. Het elimineert ook de noodzaak voor complexe toepassingsniveau-foutafhandeling. Autoretry-mogelijkheden garanderen ononderbroken, efficiënte gedistribueerde berekening, wat belangrijk is bij het schalen over duizenden GPUs.
  • Netwerkberekeningen: Terwijl traditionele netwerkstoffen voornamelijk gegevens verplaatsen, maakt netwerkberekeningen het mogelijk voor het netwerk om een co-processor te worden door bepaalde bewerkingen rechtstreeks in de stof uit te voeren. NVIDIA SHARP is een voorbeeld – het maakt het mogelijk om reducties uit te voeren op de netwerkschakelaars zelf. Dit maakt versnelde gedistribueerde bewerkingen mogelijk, vermindert latentie omdat gegevens worden geaggregeerd terwijl ze door het netwerk stromen en verhoogt efficiëntie omdat rekenknooppunten worden bevrijd van aggregatietaken, waardoor meer cycli voor training en simulatie overblijven.

Al met al zijn deze mogelijkheden wat “netwerkgeleide berekening” fundamenteler maakt voor het schalen van volgende generatie AI- en HPC-omgevingen. Een netwerkcentrische aanpak levert meetbare ROI sneller op door de maximale waarde te halen uit bestaande infrastructuur voordat er meer silicium wordt geïnvesteerd.

Ontdek de Ware Netwerkkracht

AI op grote schaal is niet alleen een rekenprobleem – het is een systeemniveau-engineeringuitdaging, met netwerken in het centrum. Het behandelen van het netwerk als een versneller maakt het tot een multiplicator voor rekenkracht, waardoor HPC- en AI-datacenters kunnen schalen in dichtheid zonder prestaties te offeren. Het levert meetbare ROI sneller op door de maximale waarde te halen uit bestaande infrastructuur voordat er meer silicium wordt geïnvesteerd.

Door knelpunten te elimineren, utilisatie te verhogen en voorspelbare prestaties te leveren, maakt slimmer netwerken AI-teams productiever, biedt het een betere ROI op GPU-infrastructuur en snellere tijd tot inzicht, innovatie en marktleiderschap. Het stelt organisaties in staat om te ontdekken wat hun netwerk echt kan zijn en de kracht van AI op nieuwe manieren te benutten.

Nishant Lodha is senior directeur van AI-netwerken bij Cornelis Networks. Voordat hij bij Cornelis kwam, had Nishant directeursfuncties bij Intel Corporation en Marvell. Hij heeft meer dan 25 jaar ervaring in datacenter-netwerken, opslag en compute-technologieën in functies die productmarketing, oplossingen en technische marketing en netwerkengineer omvatten. Hij is gevestigd in Silicon Valley.