Vordenker
Der kommende Wandel in der AI-Infrastruktur: Programmierbarkeit jenseits von Silizium

Während die ganze Welt immer mehr von künstlicher Intelligenz (KI) und all ihren Anwendungen begeistert ist, gibt es einige sehr reale Barrieren, die ihren vollen Erfolg behindern. Nehmen wir beispielsweise die KI-Rechenzentrum-Infrastruktur, die erhebliche Zuverlässigkeitsprobleme, Leistungsbottlenecks und zunehmende Stromverbrauchseinschränkungen aufweist, die begrenzen, wie weit KI-Systeme in der Praxis skaliert werden können. Tatsächlich erfordern die ständig wechselnden KI-Arbeitslasten den Übergang zu der nächsten Stufe der OCS-Entwicklung – programmierbare Silizium-Photonik-OCSs -, die ein bisher nie gesehenes Maß an Netzwerkflexibilität ermöglichen.
Wie wir hierher kamen: Die Geschichte hinter der OCS-Entwicklung
Optische Schaltkreise (OCSs) haben ihre Wurzeln in einer langen Geschichte der Telekommunikation, die im späten 19. und frühen 20. Jahrhundert begann, als die Sprachkommunikation auf Schaltkreisen basierte – physische Kabelumschaltung, um eine Telefonverbindung zwischen zwei Parteien herzustellen. Paketvermittlung wurde in den 1960er Jahren als Möglichkeit eingeführt, die gemeinsame Infrastruktur besser zu nutzen. Dabei wurden Daten in kleine “Pakete” aufgeteilt, um es mehreren Übertragungen zu ermöglichen, auf jedem Weg über ein Netzwerk zu reisen. In den 1970er Jahren wurden diese Pakete weiter definiert, wie sie adressiert, geroutet und über heterogene Systeme ausgeliefert wurden, und in den 1980er Jahren wurde diese Definition – Transmission Control Protocol/Internet Protocol, oder TCP/IP – zum Internet-Standard, um es zu ermöglichen, dass zuvor unvereinbare Netzwerke unter einem gemeinsamen Rahmen kommunizieren konnten. Als Netz- und Skalierungsanforderungen in den 1990er Jahren wuchsen, wurden elektrische Paketvermittler (EPSs) eingeführt. Kombiniert mit TCP/IP, bildeten EPSs die Grundlage für das Wachstum des Internets und verbanden Millionen von Benutzern weltweit. Gleichzeitig begann Glasfaser, Kupfer in globalen Netzwerken zu ersetzen, und bot höhere Kapazitäten, längere Reichweite und die Fähigkeit, Multi-Terabit-Geschwindigkeiten zu unterstützen.
Die dynamische KI-Umgebung
Aber bereits zu Beginn des 21. Jahrhunderts legten KI-Arbeitslasten enorme Belastungen auf die aktuellen elektronischen Netzwerke, was zur Entwicklung der ersten kommerziellen MEMS-basierten optischen Schaltkreis-(OCS)-Rechenzentrum-Architekturen führte. Optische MEMS-Schalter sind alle-optische Schaltgeräte, die mikroskopisch bewegliche Spiegel verwenden, um Licht zwischen Eingangs- und Ausgangsfasern umzuleiten, ohne das Signal in Elektrizität umzuwandeln. Diese MEMS-basierten OCSs unterstützen große Anschlusszahlen, die ideal für die optische Verbindung entfernter Server sind, um die Kupfer-Einschränkungen in Rechenzentren zu überwinden. Allerdings sind Grenzen in der Umkonfigurationsgeschwindigkeit, den Kosten pro Anschluss und der Bauform offensichtlich geworden. Diese Grenzen verhindern, dass MEMS-basierte OCSs die Notwendigkeit einer Echtzeit-Neukonfiguration im Herzen des Rechenzentrum-Computermotors – dem Scale-up-Netzwerk – angehen, insbesondere im Angesicht von KI-Arbeitslasten.
Tatsächlich sind die Grenzen von MEMS-basierten OCSs und die Anforderungen an das KI-Rechenzentrum nur noch deutlicher geworden, dank der massiven, nicht-linearen, unvorhersehbaren Veränderungen, die KI jedes Jahr oder alle sechs Monate – wenn nicht alle drei Monate – mit sich bringt. KI-Rechenzentrum-Ökosystem-Akteure werden nun aufgefordert, sich schnell anzupassen und auf die ständig wechselnde KI-Landschaft zu reagieren. Und Netzwerk-Designer sind unter Druck, ihre KI-Rechenzentrum-Netzwerke umzukonfigurieren oder umzuprogrammieren, um Probleme im Netzwerk zu umgehen oder die neue Ebene von KI-Arbeitslasten mit optimierter Leistung zu bewältigen.
Programmierbare Silizium-Photonik: Über ein “eingefrorenes” Netzwerk hinaus
Programmierbare Silizium-Photonik (SiPh)-OCSs sind der nächste Schritt in der OCS-Entwicklung. Günstig, sehr kompakt und software-gesteuert, können diese photonischen Chips instantan umprogrammiert werden, um in Echtzeit den Weg des Lichts und damit das Netzwerk umzukonfigurieren. Im Vergleich zu MEMS ist die programmierbare SiPh-OCS eine Festkörpertechnologie, die viele Zuverlässigkeitsrisiken beseitigt, da es keine beweglichen Teile gibt. Festkörpertechnologie, die mit CMOS kompatibel ist, bedeutet auch, dass sie die optimale GPU-Cluster-Zielkosten von 100 $ pro Radix erreichen kann.
Programmierbare SiPh-OCSs stärken KI-Rechenzentrum-Architekturen auf zwei kritische Weise. Erstens ermöglichen sie eine schnelle Umkonfiguration von GPU-Verbindungen, damit Arbeitslasten effizienter ausgeführt und schneller abgeschlossen werden können. Da sich die KI-Schulung weiterentwickelt, müssen Kommunikations-Topologien dynamisch geändert werden – sogar innerhalb des Schulungsjobs – ohne Paketverlust. Dazu sind extrem schnelle Umkonfigurationszeiten erforderlich, ein Bereich, in dem die Skalierbarkeit von SiPh-OCS grundlegend überlegen ist gegenüber MEMS-basierten Ansätzen, die Umkonfigurations- und Transduktionszeiten unterstützen, die um Größenordnungen schneller sind als MEMS-Technologien.
Zweitens ermöglicht die Programmierbarkeit von SiPh-OCS die Integration zusätzlicher Funktionen direkt in den Schaltkreis, ohne die Bauform zu skalieren. Fähigkeiten wie Echtzeit-Telemetrie durch SiGe-integrierte Photodetektoren und Link-Verstärkung können integriert werden, um die Beobachtbarkeit zu verbessern und die Ausfallsicherheit zu erhöhen. Während MEMS-basierte OCSs typischerweise 2-3 dB optischen Verlust einführen, können SiPh-OCS-Implementierungen so konzipiert werden, dass sie im Wesentlichen verlustfrei sind, was die Gesamtflexibilität und Effizienz des Systems verbessert.
Blick in die Zukunft
Da historische Rechenzentrum-Netzwerke starr sind und den sich ändernden Bedürfnissen von KI-Rechenzentren nicht gerecht werden können, bietet der Markt für programmierbare SiPh-Technologie eine multi-milliardenschwere Chance. Zusammen mit diesem enormen Boom entsteht die Notwendigkeit für Zusammenarbeit und Kooperation zwischen Unternehmen, die im Herzen dieser neuen Technologie stehen. Zu diesem Zweck gibt es eine OCP-Standardisierungsorganisation – die Google, Microsoft, Lumentum und andere Innovatoren umfasst – die darauf abzielt, die Software-Schnittstelle für den Netzwerk-Manager, der OCS verwendet, so standardisiert und benutzerfreundlich wie möglich zu machen. Zusammen teilen diese Unternehmen ihre Perspektiven und erstellen Standards, um die Technologie voranzutreiben und die Adoption zu beschleunigen.
Da KI die Evolution in unserer Welt vorantreibt, müssen KI-Rechenzentrum-Netzwerke ebenfalls evolvieren und zukunftssicher sein, um sie zu unterstützen. Programmierbare SiPh-OCSs ermöglichen es Unternehmen, auf dem Höhepunkt der Innovation zu schaffen und neue und aufregende Chancen für alle zu realisieren.












