Connect with us

Der wahre AI-Flaschenhals: Leistung, Kühlung und die Physik der Skalierung

Künstliche Intelligenz

Der wahre AI-Flaschenhals: Leistung, Kühlung und die Physik der Skalierung

mm

Künstliche Intelligenz hat sich im Laufe des letzten Jahrzehnts mit außergewöhnlichem Tempo entwickelt. Schnellere GPUs, größere Cluster und revolutionäre Architekturen haben Durchbrüche ermöglicht, die einst unmöglich schienen. Doch während die Branche auf trillion-Parameter-Modelle und Hyperscale-AI-Fabriken zusteuert, hat die nächste Barriere nichts mit Algorithmen zu tun. Der wahre Flaschenhals heute ist physisch: Leistung, Kühlung und die Infrastruktur, die erforderlich ist, um Rechenleistung auf planetarer Ebene aufrechtzuerhalten.

Die Frage ist nicht mehr, wie viele Chips man herstellen kann, sondern ob man die Gigawatt, Wasser und Übertragungsleitungen liefern kann, die benötigt werden, um sie zu betreiben. Infrastruktur, nicht Silizium, ist es, was den Tempo der künstlichen Intelligenz in den kommenden Jahren bestimmen wird.

Gigawatt über Gigaflops

OpenAIs “Stargate”-Projekt, das mit Oracle und SoftBank entwickelt wird, zielt auf fast 7 Gigawatt Kapazität über die US-Campus hinweg ab – vergleichbar mit mehreren Kernreaktoren. In diesem Maßstab ist die Hauptaufgabe nicht die Produktion von GPUs, sondern die Sicherung von Kraftwerken und Umspannstationen, um sie am Laufen zu halten.

Microsofts Nachfrage ist ebenso atemberaubend. Die künstliche Intelligenz-Workloads des Unternehmens werden voraussichtlich so viel Strom benötigen wie die gesamte Region New England bis 2030. Dies hilft zu erklären, warum das Unternehmen Zehnbillionen in erneuerbare Projekte investiert hat und auch experimentelle Optionen wie Kernfusion und fortschrittliche Kernreaktoren verfolgt.

Die Dynamik wirkt sich auf die Energiepolitik aus. Im PJM-Interconnection, der regionalen Übertragungsorganisation, die das Netz für über 65 Millionen Menschen in 13 Bundesstaaten und Washington, D.C. verwaltet, erkunden die Versorgungsunternehmen Begrenzungsmechanismen für Rechenzentren während der Spitzenlast. Große Technologieunternehmen lobbyieren gegen solche Einschränkungen, aber die Tatsache, dass Regulierungsbehörden sie überhaupt in Betracht ziehen, zeigt, wie zentral künstliche Intelligenz für die Netzplanung geworden ist.

Die Kühlherausforderung

Die Stromversorgung ist nur die halbe Herausforderung. Sobald die Leistung die Regale erreicht, ist die nächste Herausforderung die Hitze. Jeder High-End-GPU verbraucht etwa 700 Watt, und mit Regalen, die Hunderte von GPUs beherbergen, erreichen die Dichten 100 bis 600 Kilowatt pro Regal. Luftkühlung, der Branchenstandard seit Jahrzehnten, wird jenseits von etwa 40 Kilowatt pro Regal aufgrund von Luftstrom-Ineffizienzen und Recirculation unpraktikabel.

Flüssigkühlung hat sich daher von einer Nischenlösung zu einer Mainstream-Lösung entwickelt. NVIDIAs neueste flüssig gekühlte Blackwell-Plattformen sind für Hyperscale-AI-Cluster konzipiert und bieten 25-mal bessere Energieeffizienz und 300-mal bessere Wassereffizienz als luftgekühlte Regale. Das Unternehmen hat auch mit Vertiv eine Referenzarchitektur entwickelt, die mehr als 130 Kilowatt pro Regal bewältigen kann, was dichte GPU-Deployments möglich macht.

Startups innovieren ebenfalls. Corintis, ein Schweizer Unternehmen, das Mikrokanäle direkt in Chip-Substrate einbettet, hat kürzlich 24 Millionen Dollar an Finanzierung erhalten und zählt bereits Microsoft zu seinen Kunden. Microsofts eigene Forschungsgruppe hat mikrofluidische Kanäle in Chip-Verpackungen demonstriert, die die Spitzen-Temperaturen von GPUs um bis zu 65 Prozent senken und die Effizienz im Vergleich zu herkömmlichen Kaltplatten um das Dreifache steigern. Diese Technologien machen es möglich, GPUs ohne Überhitzung des Rechenzentrums auf Hochtouren laufen zu lassen.

Wasser als strategische Variable

Flüssigkühlung führt eine weitere Variable ein: Wasserverbrauch. Verdunstungs- und gekühlte Wassersysteme können enorme Wassermengen erfordern, wenn sie auf Campus mit Hunderten von Megawatt skaliert werden. In Phoenix können Rechenzentren hunderte von Millionen Gallonen Wasser pro Tag benötigen, was in trockenen Regionen Bedenken aufwirft.

Dies hat die Entwicklung von Null-Wasser- und geschlossenen Kühlkreislauf-Systemen ausgelöst. IEEE Spectrum hat Strategien wie abgedichtete dielektrische Tauchbäder, Trockenkühler und wasserfreie Kühler dokumentiert, die den Verbrauch von Trinkwasser auf nahezu Null reduzieren. Währenddessen experimentieren einige Betreiber mit der Wiederverwendung von Abwärme. Projekte wie Aquasar und iDataCool haben gezeigt, wie heiße Wasserkühlkreise Gebäudeheizsysteme oder Absorptionskühler speisen können, wodurch viel der Energie, die sonst verloren ginge, recycelt wird.

Der Kompromiss liegt oft zwischen Wasser und Strom: geschlossene oder trockene Systeme verbrauchen mehr Energie, während verdunstende Designs Strom sparen, aber viel Wasser benötigen. In wasserstressigen Regionen bevorzugen die Politiker zunehmend den Wasserschutz, auch wenn dies höhere Energieverbrauch bedeutet.

Infrastruktur und Netz

Selbst mit Leistungs- und Kühlungslösungen ist die endgültige Flasche die Infrastruktur. Standortentscheidungen bestimmen nun die Gewinner und Verlierer im AI-Rennen.

Microsofts 80-Milliarden-Dollar-Fairwater-Campus in Wisconsin zeigt, wie strategische Standortwahl geworden ist. Der Standort umfasst 315 Acres, beherbergt Hunderttausende von GPUs und wurde aufgrund seines Zugangs zu Umspannstationen, Glasfaserleitungen und Grundwasser ausgewählt. Das Design betont auch geschlossene Kühlkreisläufe, um den Wassereinfluss zu minimieren.

Um seine wachsende Last zu unterstützen, hat Microsoft einen bahnbrechenden Deal mit Brookfield abgeschlossen, um 10,5 Gigawatt erneuerbare Kapazität bis 2030 hinzuzufügen. Gleichzeitig hat es experimentelle Projekte wie ein Kernfusionskraftwerk von Helion Energy unterstützt, das bis 2028 Rechenzentren mit Strom versorgen soll, und eine 20-Jahres-Vereinbarung zur Wiederinbetriebnahme des Kernkraftwerks Three Mile Island in Pennsylvania.

Amazon und Google gehen ähnliche Schritte, sichern Standorte neben Kernkraftwerken und entwickeln ihre eigenen sauberen Energieportfolios. In Irland, wo Rechenzentren bereits mehr Strom verbrauchen als alle Haushalte zusammen, haben Regulierungsbehörden neue Genehmigungen bis mindestens 2028 eingefroren, was zeigt, wie Politik und Genehmigungen sogar die besten finanzierten Projekte behindern können.

Intelligenter Betrieb: KI verwaltet KI

Interessanterweise wird KI selbst eingesetzt, um die Infrastruktur-Belastung zu verwalten. Reinforcement Learning wurde in Produktions-Rechenzentren eingesetzt, um Kühlungssysteme zu optimieren und 14 bis 21 Prozent Energieeinsparungen ohne Kompromisse bei der Sicherheit zu erzielen. Digitale Zwillinge und Vorhersagemodelle werden auch eingesetzt, um Hotspots vorherzusagen, Ausrüstung vorzukühlen und Workloads auf kühlere Zeiten oder Zeiten mit erneuerbarer Energieüberschuss zu verlagern.

Google hat bereits gezeigt, wie Maschinelles Lernen den Bedarf an Rechenzentrumskühlung um 40 Prozent senken kann, und andere Betreiber adoptieren ähnliche Systeme. Da die Kosten für Strom und Kühlung steigen, werden diese operativen Einsparungen zu einem wesentlichen Wettbewerbsvorteil.

Die strategische Ausblick

Der Trend ist klar. Der Bedarf an KI soll den globalen Stromverbrauch von Rechenzentren bis 2030 verdoppeln, wobei KI-Workloads allein bis 2050 einen mittleren einstelligen Anteil am gesamten globalen Stromverbrauch ausmachen werden. Während NVIDIA und andere Chip-Hersteller die Leistung des Siliziums weiter vorantreiben, wird die praktische Grenze der KI von der Geschwindigkeit bestimmt, mit der Versorgungsunternehmen neue Erzeugung, Übertragung und Kühlungsinfrastruktur aufbauen können.

Für Unternehmen, die KI-Produkte entwickeln, bedeutet dies, dass ihre Roadmaps zunehmend von der Verfügbarkeit von Kapazitäten abhängen. Für Investoren können die wertvollsten Spielzüge Versorgungsunternehmen, Übertragungs-Entwickler und Kühl-Startups sein und nicht nur GPU-Lieferanten. Und für politische Entscheidungsträger verschiebt sich die Debatte über KI von Fragen der Ethik und der Datenverwaltung zu Fragen von Megawatt, Wasser und Netzmodernisierung.

Die Zukunft der KI wird nicht nur in Forschungslabors und Chip-Fabriken entschieden, sondern an Umspannstationen, Kühlkreisläufen und Kraftwerken. Die Physik der Skalierung – nicht nur die Mathematik der Algorithmen – ist es, was die Geschwindigkeit und den Umfang der künstlichen Intelligenz in den kommenden Jahren bestimmen wird.

Antoine ist ein visionärer Führer und Gründungspartner von Unite.AI, getrieben von einer unerschütterlichen Leidenschaft für die Gestaltung und Förderung der Zukunft von KI und Robotik. Ein Serienunternehmer, glaubt er, dass KI so disruptiv für die Gesellschaft sein wird wie Elektrizität, und wird oft dabei ertappt, wie er über das Potenzial disruptiver Technologien und AGI schwärmt.

Als futurist ist er darauf fokussiert, zu erforschen, wie diese Innovationen unsere Welt formen werden. Zusätzlich ist er der Gründer von Securities.io, einer Plattform, die sich auf Investitionen in hochmoderne Technologien konzentriert, die die Zukunft neu definieren und ganze Branchen umgestalten.