Connect with us

Das Geheimnis für schnellere KI liegt nicht in mehr GPUs, sondern in intelligenteren Netzwerken

Vordenker

Das Geheimnis für schnellere KI liegt nicht in mehr GPUs, sondern in intelligenteren Netzwerken

mm

KI definiert über verschiedene Branchen hinweg, einschließlich Gesundheitswesen, Finanzen, Fertigung und Einzelhandel, das Machbare neu. Doch mit vielversprechendem Potenzial bringt sie auch massive Infrastrukturanforderungen mit.

Organisationen weltweit investieren in GPUs im bisher nicht dagewesenen Umfang, um die KI-Schulung und -Ableitung zu beschleunigen. Bis 2028 prognostiziert Gartner, dass der IT-Ausgaben für generative KI 1 Billion Dollar übersteigen wird. Hyperion Research prognostiziert, dass der gesamte HPC-Markt bis zu diesem Zeitpunkt 100 Milliarden Dollar übersteigen wird. Trotz Investitionen in hochmoderne Beschleuniger sehen viele CIOs weiterhin brachliegende GPUs, wobei die Auslastung bei 35 % oder niedriger liegt. Dies führt nicht nur zu einer geringeren Leistung, sondern auch zu verschwendeter Energie und höheren Kosten.

Während viele KI-Projekte ins Stocken geraten, liegt dies nicht daran, dass sie keine GPUs oder Rechenleistung haben, sondern dass das Netzwerk nicht mithalten kann, was einen neuen Ansatz für die Gestaltung von KI im großen Maßstab erfordert.

Die versteckten Kosten von Netzwerkengpässen

Wenn Netzwerke Daten nicht schnell genug liefern können, um GPUs kontinuierlich auszulasten, erleben Organisationen mehrere kritische Auswirkungen:

  • Unterauslastete GPUs und CPUs aufgrund von Datenübertragungsengpässen: GPUs sind für massiv parallele Berechnungen konzipiert, können aber nur so schnell Daten verarbeiten, wie sie geliefert werden. Wenn das Netzwerk nicht mithalten kann, verharren GPUs im Leerlauf und warten auf Daten anstelle von Berechnungen. CPUs können ebenfalls ins Stocken geraten, da sie Aufgaben koordinieren und Daten durch die Pipeline bewegen, was zu einer geringen Auslastung trotz der Verfügbarkeit teurer Hardware führt.
  • Inkonsistente Ableitungsleistung aufgrund eines ineffizienten Netzwerks: Netzwerkineffizienzen erzeugen ungleichmäßige Datenflüsse, was dazu führt, dass GPUs zwischen Volllast und Leerlauf schwanken. Dies produziert unvorhersehbare Ableitungsleistungen, die KI-Anwendungen in der Produktion behindern können.
  • Längere Schulungszyklen, die den Zeitpunkt der Markteinführung verzögern: Das Training von KI-Modellen erfordert das Verschieben von großen Datensätzen über Server, GPUs und Speicher. Netzwerkengpässe drosseln diesen Prozess, so dass GPUs weniger Zeit mit dem Training und mehr Zeit mit dem Warten verbringen. Dies verlangsamt direkt die Produktentwicklung und -einführung.
  • Steigende Strom- und Betriebskosten: Sogar wenn sie im Leerlauf sind, verbrauchen GPUs und die umgebende Infrastruktur noch immer erheblichen Strom. Wenn GPUs aufgrund von Netzwerkineffizienzen unterausgestattet sind, zahlen Organisationen für hohen Stromverbrauch, ohne eine proportionale Leistung zu erhalten. Die Betriebskosten steigen, da Einrichtungen Spitzenstrom und -kühlung unterstützen müssen, obwohl die Rechenleistung künstlich eingeschränkt ist.

Unternehmen können weiterhin Geld in mehr GPUs investieren, aber ohne die richtigen Netzwerkerweiterungen werden sie nur diese Engpässe und Ineffizienzen verschärfen.

Netzwerk als Beschleuniger: Ein Paradigmenwechsel

Die Lösung erfordert eine vollständige Neukonzeption der Netzwerkinfrastruktur. Die Einführung eines Modells, das das Netzwerk als Beschleuniger nutzt, dreht das herkömmliche Denken über HPC- und KI-Leistung um und schaltet neue Fähigkeiten frei.

Anstatt sich primär auf die Hinzufügung von Rechenleistung über GPUs und CPUs zu konzentrieren, behandelt der Ansatz “Netzwerk als Beschleuniger” die Verbindungsstruktur als Leistungsmultiplikator. Als Ergebnis kann das Netzwerk die Hochleistungsrechnung besser unterstützen und die Rentabilität beschleunigen, indem es Engpässe eliminiert, sich an die Rechenanforderungen anpasst und die Hardwareinvestitionen richtig dimensioniert. Durch die Ermöglichung einer höheren Rechenleistung ohne Verzögerungen können Organisationen größere Arbeitslasten in weniger Raum ausführen, Ergebnisse schneller erhalten und überschießende Ausgaben für zusätzliche Hardware vermeiden.

Wie das “Netzwerk als Beschleuniger”-Modell funktioniert

Wie funktioniert also dieses Modell, damit Organisationen ihr Netzwerk von einem passiven Datenmover in einen aktiven Rechenbeschleuniger umwandeln und die Vorteile realisieren können? Es liefert vier Schlüsselfähigkeiten, die traditionelle Netzwerke nicht haben:

  • Zugestellte Lieferung auf Hardwareebene: Traditionelle Netzwerke belasten CPUs und GPUs mit Paketnachverfolgung, erneuter Übertragung und Neusortierung. Dies verbraucht Rechenzyklen, die für Schulung oder Ableitung verwendet werden könnten. Mit einer Netzwerkstruktur, die die Lieferung auf Hardwareebene garantiert, werden diese Aufgaben von den Recheneinheiten wegverlagert, was zu reduziertem CPU- und GPU-Overhead, vorhersehbarer und konsistenter Leistung und Skalierbarkeit führt, die die Programmierung und Clusterorchestrierung vereinfacht.
  • Intelligente dynamische Routing: Konventionelles Routing verlässt sich auf feste oder suboptimale Pfade, die Teile des Netzwerks unterausgestattet lassen oder Engpässe erzeugen können, wenn massive Datenmengen gleichzeitig fließen. Intelligente Routing nutzt dynamisch alle verfügbaren Pfade, um den Datenfluss zu optimieren. Es ermöglicht höhere Durchsatzraten mit mehreren aktiven Routen, die den Datenfluss ausgleichen, niedrigere Latenz durch optimale Pfadwahl und verbesserte Widerstandsfähigkeit, da Netzwerkverkehr automatisch um Link- oder Knotenfehler herumgeleitet wird. Dies reduziert Leerzeiten und hält GPUs kontinuierlich mit Daten beschäftigt.
  • Link-ebene Auto-Wiederholung: Wenn Pakete verloren oder korrupt sind, verlassen sich Standardnetzwerke auf die Rechenschicht, um sie zu erkennen und erneut zu senden, was erhebliche Latenz einführt und den Rechenfluss unterbricht. Eine Struktur mit eingebauten, link-ebenen Auto-Wiederholungsfähigkeiten behandelt Wiederholungen innerhalb des Netzwerks selbst. Es ermöglicht nahezu transparente Zuverlässigkeit, da Paketverlust für Recheneinheiten unsichtbar wird, während die Latenzwirkung reduziert wird, da Wiederholungen lokal am Link und nicht über den gesamten Netzwerkstapel erfolgen. Es eliminiert auch die Notwendigkeit für komplexe Anwendungsfehlerbehandlung. Auto-Wiederholungsfähigkeiten gewährleisten ununterbrochene, effiziente verteilte Berechnungen, was wichtig ist, wenn über Tausende von GPUs skaliert wird.
  • Rechnen im Netzwerk: Während traditionelle Netzwerkstrukturen hauptsächlich Daten bewegen, ermöglicht Rechnen im Netzwerk, dass das Netzwerk zu einem Co-Prozessor wird, indem bestimmte Operationen direkt innerhalb der Struktur durchgeführt werden. NVIDIA SHARP ist ein prominentes Beispiel – es ermöglicht Reduktionen direkt auf den Netzwerkswitches. Dies ermöglicht beschleunigte verteilte Operationen, reduziert die Latenz, da Daten während des Netzwerkdurchlaufs aggregiert werden, und erhöht die Effizienz, da Recheneinheiten von der Durchführung von Aggregationaufgaben befreit werden, wodurch mehr Zyklen für Schulung und Simulation verfügbar sind.

Insgesamt sind diese Fähigkeiten es, was “netzwerkbasiertes Rechnen” für die Skalierung von Next-Gen-KI- und HPC-Umgebungen grundlegend macht. Ein netzwerkzentrierter Ansatz liefert greifbare Rückkehr, die höhere GPU-Auslastung umfasst, die Datenmangel eliminiert, schnellere Zeit bis zum Erkenntnisgewinn, der Schulungszyklen reduziert und die Ableitungsleistung stabilisiert, verbesserte Ressourceneffizienz und geringere Gesamtbetriebskosten.

Entdecken Sie die wahre Netzwerkleistung

KI im großen Maßstab ist nicht nur ein Rechenproblem – es ist eine systemweite Ingenieurherausforderung, bei der das Netzwerk im Mittelpunkt steht. Das Netzwerk als Beschleuniger zu behandeln, macht es zu einem Leistungsmultiplikator für die Rechenleistung, wodurch HPC- und KI-Rechenzentren in der Dichte skaliert werden können, ohne die Leistung zu beeinträchtigen. Es liefert messbare ROI schneller, indem es den maximalen Wert aus der bestehenden Infrastruktur extrahiert, bevor in mehr Silizium investiert wird.

Durch die Beseitigung von Engpässen, die Auslastung und die Lieferung vorhersehbarer Leistung ermöglicht intelligenteres Netzwerken produktivere KI-Teams, bessere ROI auf GPU-Infrastruktur und schnelleren Zeitpunkt bis zum Erkenntnisgewinn, zur Innovation und zur Marktführerschaft. Es ermöglicht Organisationen, zu entdecken, was ihr Netzwerk wirklich leisten kann, und die Macht von KI auf neue Weise zu nutzen.

Nishant Lodha ist Senior Director von AI-Netzwerken bei Cornelis Networks. Vor seinem Eintritt bei Cornelis hatte Nishant leitende Positionen bei Intel Corporation und Marvell inne. Er verfügt über mehr als 25 Jahre Erfahrung in den Bereichen Rechenzentrumsnetzwerke, Speicher und Computertechnologien in Funktionen, die Produktmarketing, Lösungen und technisches Marketing sowie Netzwerktechnik umfassen. Er ist im Silicon Valley ansässig.