Leaders d’opinion

Les trois gĂ©nĂ©rations de refroidissement des centres de donnĂ©es – Et pourquoi la plupart des opĂ©rateurs construisent les infrastructures d’hier

mm

Il y a trois ans, l’industrie des centres de données débattait de savoir si le refroidissement liquide serait jamais nécessaire. Il y a deux ans, la plupart des opérateurs croyaient que l’eau monophasée serait la solution. Aujourd’hui, les installations de pointe passent à des architectures de refroidissement de nouvelle génération, tandis que de nombreux nouveaux bâtiments verrouillent des systèmes qui seront obsolètes dans quelques années.

Cette divergence est causée par la physique et les feuilles de route des processeurs qui sont déjà visibles jusqu’en 2027. Ensemble, ils créent une division entre les opérateurs qui comprennent que le refroidissement entre dans une nouvelle ère architecturale et ceux qui pourraient bientôt découvrir qu’ils ont investi des centaines de millions dans des infrastructures qui ne peuvent pas supporter la prochaine vague de processeurs d’intelligence artificielle.

Les trois générations de refroidissement

Le refroidissement des centres de données a progressé à travers trois ères architecturales distinctes, chacune définie par un nouvel ensemble d’obstacles à surmonter et par les densités de rack qui nécessitent un soutien économique.

  • Génération 1 : Refroidissement à air (2000-2023) : a atteint 10-15 kW par rack. L’économie a commencé à se dégrader vers 2020 à mesure que les charges de travail d’intelligence artificielle dépassaient 20 kW. D’ici 2023, le refroidissement à air était en grande partie obsolète pour les nouveaux déploiements à haute densité.

  • Génération 2 : Liquide monophasé (2020-2027) : La première approche de refroidissement liquide. Utilise de l’eau ou du PG25 à des débits élevés pour éliminer la chaleur par changement de température. Viable de 20 à 120 kW par rack, mais montre des signes de fatigue au-dessus de 150 kW. Devrait atteindre ses limites pratiques d’ici 2027 à mesure que les processeurs dépassent 2 000 W.

  • Génération 3 : Deux phases + rejet de chaleur avancé (2024-2035+) : Emploie des réfrigérants qui absorbent la chaleur par changement de phase plutôt que par changement de température. Scalable à partir de 150 kW et bien au-delà par rack. Permet de nouvelles stratégies de rejet de chaleur de la puce à l’atmosphère. Déjà déployé par les principaux opérateurs et devrait dominer d’ici 2027-2028.

Chaque transition marque un point de rupture – lorsque la physique et l’économie atteignent simultanément leur plafond.

Le problème de physique de la Génération 2

Les premiers déploiements de la Génération 2 commencent à révéler les limites du refroidissement monophasé.

Les systèmes à base d’eau nécessitent des débits équivalant à environ 1,5 litre par minute par kilowatt. Un rack de 120 kW nécessite environ 180 litres par minute ; à 250 kW, cela passe à 375 litres par minute à travers des plaques froides avec des orifices mesurés en millimètres.

Au GTC cette année, les racks connectés à des lignes de la taille de tuyaux d’incendie ont rendu le défi visible. Les débits élevés créent des problèmes en cascade. L’eau mélangée au glycol oxyde les structures microfines, et la corrosion est aggravée par les vitesses de flux qui érodent les ailettes affaiblies. Les exigences de maintenance ont surpris de nombreux opérateurs : changements de filtres mensuels plutôt que trimestriels ou deux fois par an, surveillance constante de la chimie et « poches de glycol » attachées aux racks.

Les taux de défaillance sont tout aussi inquiétants. Les données de terrain internes suggèrent qu’environ 4 % des GPU refroidis à l’eau défaillent au cours d’un cycle de vie de trois ans en raison de fuites. Avec des racks contenant 3 à 5 millions de dollars d’équipement, cette perte brise fondamentalement l’économie de la Génération 2.

Une analyse d’une installation de 10 MW par Jacobs Engineering met en évidence une autre inefficacité. Les systèmes monophasés nécessitent des températures d’eau plus froides que les systèmes de la Génération 3. Les températures d’eau plus froides exigées par la Génération 2 augmentent à la fois les exigences de capacité de refroidisseur et la consommation d’énergie.

Ce qui distingue la Génération 3

La Génération 3 représente un véritable changement architectural. Les réfrigérants biphasés capturent la chaleur par changement de phase, réduisant les débits de 4 à 9 fois. La vitesse de fluide réduite réduit considérablement les contraintes sur les infrastructures, minimise l’érosion des plaques froides et élimine une grande partie du fardeau de maintenance qui affecte la Génération 2.

Les réfrigérants permettent également de nouvelles conceptions de rejet de chaleur – telles que les systèmes réfrigérant-CO₂ et réfrigérant-réfrigérant – qui optimisent le refroidissement de la puce à l’atmosphère. Ces conceptions sont déjà en production, démontrant la scalabilité et l’efficacité économique de la Génération 3.

Lorsque Jacobs Engineering – responsable de plus de 80 % des conceptions de MEP de centres de données mondiaux – a créé des modèles de référence de 10 MW côte à côte, ils ont supprimé les préjugés des fournisseurs de la comparaison.

Résultats :

  • CapEx : 10,39 M $ monophasé vs 10,38 M $ biphasé

  • OpEx annuel : 1,04 M $ vs 679 k $ (réduction de 35 %)

  • TCO sur cinq ans : 15,6 M $ vs 13,8 M $ (économies de 12 %)

La parité de CapEx a surpris beaucoup de ceux qui attendaient une prime pour les systèmes biphasés. Les systèmes biphasés actuels nécessitent plus de CDU, mais les conceptions monophasées nécessitent des manifolds de rangée complexes, une détection de fuite robuste et un filtrage harmonique – des complexités évitées avec les CDU biphasées actuelles. Les prochaines CDU arrivant en 2026 réduiront encore les coûts, rendant la Génération 3 encore plus économique à déployer.

L’avantage OpEx découle de la thermodynamique. Les systèmes biphasés maintiennent des températures de puce identiques tout en utilisant de l’eau de facility plus chaude – environ 8 ° C de plus en moyenne. Chaque degré économisé réduit l’utilisation d’énergie annuelle d’environ 4 %, ce qui se traduit par la réduction de 35 % des OpEx que Jacobs a documentée à travers les climats, de Phoenix à Stockholm.

Les opérateurs qui pensent à l’avenir vont encore plus loin, en convertissant cette marge thermique en environ 5 % de capacité de calcul supplémentaire dans la même enveloppe de puissance. Dans un monde où chaque GPU représente des revenus et où la puissance est limitée, cet avantage devient un facteur de différenciation concurrentielle.

La feuille de route du silicium impose la question

Le passage à la Génération 3 n’est pas dicté par les fournisseurs de refroidissement – il est dicté par la conception des processeurs.

Les architectures Rubin de NVIDIA sont attendus pour dépasser 2 000 W par processeur. L’AMD MI450 est sur une trajectoire similaire. Chaque grand fabricant de puces intègre plus de performances dans des empreintes plus petites, ce qui pousse fortement la densité thermique vers le haut.

Le défi clé est le flux de chaleur – la concentration de chaleur mesurée en watts par centimètre carré. À mesure que le flux de chaleur augmente, les solutions de la Génération 2 atteignent les limites physiques et économiques. Les débits deviennent destructeurs, les deltas de température intenables et les coûts de système insoutenables.

La Génération 3 a été conçue pour cette réalité. Les principaux opérateurs spécifient déjà des racks de 250 kW avec des chemins clairs vers 1 MW+. Attendre de « voir ce qui gagne » peut sembler conservateur, mais c’est l’approche la plus risquée. La feuille de route du silicium est fixe ; la physique ne se pliera pas. La seule décision qui reste est de savoir quand agir.

Le dilemme des terrains browns

Des milliards sont investis actuellement dans les infrastructures de la Génération 2 qui seront contraintes dans 36 mois. Les installations conçues aujourd’hui autour de l’eau monophasée auront du mal à supporter les processeurs de classe 2027. La rénovation ultérieure coûtera beaucoup plus cher que la construction avec la Génération 3 aujourd’hui.

Pour les sites existants, les systèmes réfrigérant-air peuvent servir de passerelle, mais ils ne constituent pas une solution à long terme. La direction de l’industrie est claire : les architectures de la Génération 3 ancreront la prochaine décennie de nouvelles constructions.

Un choix générationnel

Chaque transition de refroidissement a semblé suffisante jusqu’à ce que la prochaine génération la rende obsolète. Les opérateurs qui ont adopté le refroidissement liquide tôt – en adoptant en 2020-2021 plutôt qu’en 2023 – ont gagné près de deux ans d’avance sur le déploiement.

La même inflexion est en cours à nouveau. La physique est prouvée. L’économie est validée par l’analyse indépendante. Les feuilles de route des processeurs rendent la transition inévitable.

La question n’est pas de savoir si le changement se produira – c’est de savoir si vous le mènerez ou serez contraint de le faire une fois que la Génération 2 aura atteint ses limites.

Les centres de données conçus aujourd’hui fonctionneront jusqu’au début des années 2030. La construction avec des architectures de la Génération 3 garantit qu’ils resteront viables pour l’ère de l’intelligence artificielle plutôt que de devenir des actifs contraints avant même de se stabiliser.

L’avenir du refroidissement des centres de données est une transformation générationnelle – et la Génération 3 est déjà là.

Josh Claman est le PDG d'Accelsius, fabricant de technologie de refroidissement à deux phases direct-to-chip. Un défenseur du pouvoir de la technologie transformative tout au long de sa carriÚre de 30 ans, M. Claman a fait croßtre et répositionné des entreprises chez Dell, NCR et AT&T.