Vernetzen Sie sich mit uns

Vordenker

Das Geheimnis schnellerer KI liegt nicht in mehr GPUs, sondern in einer intelligenteren Vernetzung

mm

KI definiert die Möglichkeiten in verschiedenen Branchen wie dem Gesundheitswesen, dem Finanzwesen, der Fertigung und dem Einzelhandel neu. Neben dem vielversprechenden Potenzial bringt sie jedoch auch enorme Anforderungen an die Infrastruktur mit sich.

Unternehmen weltweit investieren in beispiellosem Umfang in GPUs, um KI-Training und -Inferenz zu beschleunigen. Gartner prognostiziert bis 2028 Projekte Die IT-Ausgaben für generative KI werden 1 Billion US-Dollar übersteigen. Hyperion Research Prognosen Die Gesamtausgaben im HPC-Markt dürften im gleichen Zeitraum 100 Milliarden US-Dollar übersteigen. Trotz Investitionen in hochmoderne Beschleuniger beobachten viele CIOs weiterhin ungenutzte GPUs, deren Auslastung bei 35 % oder weniger liegt. Dies führt nicht nur zu Leistungseinbußen, sondern auch zu Energieverschwendung und überhöhten Kosten.

Viele KI-Projekte geraten zwar ins Stocken, doch liegt das nicht daran, dass es ihnen an GPUs oder Rechenleistung mangelt, sondern daran, dass das Netzwerk nicht mithalten kann und daher ein neuer Ansatz für die Entwicklung von KI im großen Maßstab erforderlich ist.

Die versteckten Kosten von Netzwerkengpässen

Wenn Netzwerke die Daten nicht schnell genug übertragen können, um die GPUs ständig auszulasten, sind für Unternehmen mehrere kritische Auswirkungen zu erwarten:

  • Unterausgelastete GPUs und CPUs aufgrund von Engpässen bei der Datenübertragung: GPUs sind für massiv parallele Berechnungen konzipiert, können Daten jedoch nur so schnell verarbeiten, wie sie geliefert werden. Wenn die Netzwerkstruktur nicht mithalten kann, warten GPUs untätig auf Daten, anstatt Zahlen zu verarbeiten. Auch CPUs können ins Stocken geraten, da sie Aufgaben koordinieren und Daten durch die Pipeline bewegen, was trotz der Verfügbarkeit teurer Hardware zu einer geringen Auslastung führt.
  • Inkonsistente Inferenzleistung aufgrund eines ineffizienten Netzwerks: Netzwerkineffizienzen führen zu ungleichmäßigen Datenflüssen, wodurch GPUs zwischen Volllast und Leerlauf schwanken. Dies führt zu einer unvorhersehbaren Inferenzleistung, die KI-Anwendungen in der Produktion beeinträchtigen kann.
  • Längere Schulungszyklen verzögern die Markteinführungszeit: Das Training von KI-Modellen erfordert die Übertragung riesiger Datensätze zwischen Servern, GPUs und Speichermedien. Netzwerkengpässe bremsen diesen Prozess, sodass GPUs weniger Zeit mit dem Training und mehr mit dem Warten verbringen. Dies verlangsamt die Produktentwicklung und die Bereitstellungspläne unmittelbar.
  • Steigende Strom- und Betriebskosten: Selbst im Leerlauf verbrauchen GPUs und die umgebende Infrastruktur erheblich Strom. Werden GPUs aufgrund von Netzwerkineffizienzen nicht ausreichend genutzt, zahlen Unternehmen für den hohen Stromverbrauch, ohne die entsprechende Leistung zu erhalten. Die Betriebskosten steigen, da die Anlagen Spitzenlasten und Kühllasten bewältigen müssen, obwohl der Rechendurchsatz künstlich begrenzt ist.

Unternehmen können weiterhin Geld in mehr investieren GPUs, aber ohne die richtigen Netzwerkverbesserungen werden diese Engpässe und Ineffizienzen nur noch verstärkt.

Netzwerk als Beschleuniger: Ein Paradigmenwechsel

Die Lösung erfordert ein völlig neues Konzept der Netzwerkarchitektur. Die Einführung eines Modells, das das Netzwerk als Beschleuniger nutzt, stellt das traditionelle Denken über HPC- und KI-Leistung auf den Kopf und erschließt neue Möglichkeiten.

Anstatt sich primär auf die Steigerung der Rechenleistung über GPUs und CPUs zu konzentrieren, nutzt der Ansatz „Netzwerk als Beschleuniger“ die Interconnect-Struktur als Leistungsmultiplikator. Dadurch kann das Netzwerk hochdichte Rechenleistung besser unterstützen und den ROI beschleunigen, indem es Engpässe beseitigt, die Skalierung an den Rechenbedarf anpasst und die Hardwareinvestitionen optimal dimensioniert. Durch die Ermöglichung höherer Rechenleistung ohne Verlangsamungen können Unternehmen größere Workloads auf weniger Platz ausführen, schneller Ergebnisse erzielen und übermäßige Ausgaben für zusätzliche Hardware vermeiden.

So funktioniert das Modell „Netzwerk als Beschleuniger“

Wie funktioniert dieses Modell, damit Unternehmen ihr Netzwerk von einem passiven Datenvermittler in einen aktiven Rechner verwandeln und die Vorteile nutzen können? Es bietet vier wichtige Funktionen, die herkömmlichen Netzwerken fehlen:

  • Garantierte Lieferung auf Hardwareebene: Herkömmliche Netzwerke belasten CPUs und GPUs mit Paketverfolgung, Neuübertragung und Neuordnung. Dies verbraucht Rechenzyklen, die für Training oder Inferenz genutzt werden könnten. Mit einer Netzwerkstruktur, die die Bereitstellung auf Hardwareebene garantiert, werden diese Aufgaben von den Rechenknoten weg verlagert. Dies führt zu einem geringeren CPU- und GPU-Overhead, vorhersehbarer und konsistenter Leistung sowie Skalierbarkeit, die die Programmierung und Cluster-Orchestrierung vereinfacht.
  • Intelligentes dynamisches Routing: Herkömmliches Routing basiert auf festen oder suboptimalen Pfaden. Dadurch können Teile des Netzwerks nicht ausgelastet sein oder es können Engpässe entstehen, wenn große Datenmengen gleichzeitig fließen. Intelligentes Routing nutzt dynamisch alle verfügbaren Pfade, um den Datenfluss zu optimieren. Es ermöglicht einen höheren Durchsatz durch mehrere aktive Routen, die den Datenverkehr ausgleichen, geringere Latenzzeiten durch optimale Pfadwahl und verbesserte Ausfallsicherheit, da der Netzwerkverkehr automatisch um Verbindungs- oder Knotenausfälle herumgeleitet wird. Dies reduziert Leerlaufzeiten und sorgt dafür, dass die GPUs stets mit Daten versorgt sind.
  • Automatische Wiederholung auf Linkebene: Wenn Pakete verloren gehen oder beschädigt werden, sind Standardnetzwerke darauf angewiesen, dass die Rechenschicht diese erkennt und erneut sendet. Dies führt zu erheblichen Latenzen und unterbricht den Rechenfluss. Ein Fabric mit integrierten automatischen Wiederholungsfunktionen auf Link-Ebene verarbeitet Wiederholungen innerhalb des Netzwerks. Dies ermöglicht nahezu transparente Zuverlässigkeit, da Paketverluste für Rechenknoten unsichtbar werden. Gleichzeitig werden die Auswirkungen auf die Latenz reduziert, da Wiederholungen lokal am Link und nicht über den gesamten Netzwerkstapel erfolgen. Außerdem entfällt die Notwendigkeit einer komplexen Fehlerbehandlung auf Anwendungsebene. Automatische Wiederholungsfunktionen gewährleisten unterbrechungsfreie, effiziente verteilte Berechnungen, was bei der Skalierung über Tausende von GPUs wichtig ist.
  • In-Network-Computing: Während herkömmliche Netzwerkstrukturen in erster Linie Daten übertragen, ermöglicht In-Network-Computing dem Netzwerk, zum Co-Prozessor zu werden, indem bestimmte Operationen direkt innerhalb der Struktur ausgeführt werden. NVIDIA SHARP ist ein Paradebeispiel – es ermöglicht Reduzierungen auf den Netzwerk-Switches selbst. Dies ermöglicht beschleunigte verteilte Operationen, verringert die Latenz, da Daten beim Durchlaufen des Netzwerks aggregiert werden, und steigert die Effizienz, da Rechenknoten von der Durchführung von Aggregationsaufgaben befreit werden und mehr Zyklen für Training und Simulation zur Verfügung stehen.

Zusammengenommen machen diese Funktionen „netzwerkbasiertes Computing“ zur Grundlage für die Skalierung von KI- und HPC-Umgebungen der nächsten Generation. Ein netzwerkzentrierter Ansatz liefert greifbare Vorteile, darunter eine höhere GPU-Auslastung, die Datenmangel verhindert, schnellere Erkenntnisse, die Trainingszyklen verkürzen und die Inferenzleistung stabilisieren, verbesserte Ressourceneffizienz und niedrigere Gesamtbetriebskosten.

Entdecken Sie die wahre Netzwerkleistung

KI im großen Maßstab ist nicht nur ein Rechenproblem, sondern eine technische Herausforderung auf Systemebene, bei der die Vernetzung im Mittelpunkt steht. Die Nutzung des Netzwerks als Beschleuniger macht es zu einem Kraftmultiplikator für die Rechenleistung. Dadurch können HPC- und KI-Rechenzentren ihre Dichte ohne Leistungseinbußen skalieren. Dies führt zu einem schnelleren, messbaren ROI, indem der maximale Nutzen aus der vorhandenen Infrastruktur gezogen wird, bevor in zusätzliche Chips investiert wird.

Durch die Beseitigung von Engpässen, die Steigerung der Auslastung und die Bereitstellung vorhersehbarer Leistung ermöglicht intelligentere Vernetzung produktivere KI-Teams, einen besseren ROI der GPU-Infrastruktur und schnellere Erkenntnisse, Innovationen und Marktführerschaft. Unternehmen können so das wahre Potenzial ihres Netzwerks entdecken und die Leistungsfähigkeit von KI auf neue Weise nutzen.

Nishant Lodha ist Senior Director für KI-Netzwerke bei Cornelis-NetzwerkeVor seinem Eintritt bei Cornelis war Nishant in leitenden Positionen bei Intel Corporation und Marvell tätig. Er verfügt über mehr als 25 Jahre Erfahrung in den Bereichen Rechenzentrumsnetzwerke, Speicher- und Computertechnologien in den Bereichen Produktmarketing, Lösungen und technisches Marketing sowie Netzwerktechnik. Er lebt im Silicon Valley.