Connect with us

10 Questions à Poser pour Assurer un Déploiement Efficace de Refroidissement de Centre de Données IA

Leaders d’opinion

10 Questions à Poser pour Assurer un Déploiement Efficace de Refroidissement de Centre de Données IA

mm

Avec l’essor de l’IA et de l’informatique haute performance, les centres de données se multiplient à une vitesse record. En fait, la quantité de capacité de centre de données en construction à la fin de l’année 2024 a plus que doublé par rapport à la fin de l’année 2023 (6 350 MW en construction vs. ~3 078 MW). Dans le même temps, le matériel utilisé et les charges de travail traitées dans ces centres de données sont de plus en plus intensifs. Dans ces conditions en constante évolution, les enjeux et les défis augmentent.

Et avec les centres de données dépensant en moyenne jusqu’à 40 % de leur budget énergétique total en refroidissement, la gestion thermique devient rapidement l’un des principaux défis de l’industrie. Mais heureusement, les exploitants de centres de données ont plus d’options que jamais pour refroidir leurs installations de manière fiable, efficace et rentable.

Bien sûr, lorsque les options sont nombreuses, des décisions doivent être prises. Donc, lorsqu’il s’agit de votre propre déploiement de centre de données, voici 10 questions à poser pour mettre votre opération en route rapidement, tout en assurant l’efficacité, la fiabilité et la durabilité à long terme.

Question 1 : Pouvez-vous mettre ce système de refroidissement en ligne rapidement sans compromettre la fiabilité ?

Dans la course aux armements de l’IA, le véritable facteur de différenciation pour le succès de l’industrie n’est pas celui qui accumule le plus de GPU — c’est celui qui les met en ligne le plus rapidement. Le temps de mise en service (c’est-à-dire le temps entre l’initiation d’un déploiement et son fonctionnement) est devenu le nouveau champ de bataille, déterminant à quelle vitesse les entreprises peuvent transformer leur investissement dans l’IA en impact commercial. Les leaders ne seront pas seulement ceux qui disposent de ressources de calcul massives, mais ceux qui les débloquent en premier, accélérant ainsi l’innovation, les revenus et l’avantage concurrentiel.

Mais précipiter le déploiement du refroidissement peut avoir des conséquences négatives, entraînant des inefficacités, des temps d’arrêt ou des rénovations coûteuses. Les exploitants doivent se demander si leur système choisi peut être déployé rapidement et résister à l’épreuve du temps. Une stratégie qui équilibre la vitesse de mise en œuvre et la robustesse offre à la fois une préparation immédiate au marché et une résilience à long terme.

Question 2 : Quelle méthode de refroidissement est la mieux adaptée aux besoins de mon projet ?

Il n’y a pas de solution universelle pour chaque déploiement de centre de données. Le refroidissement par air a longtemps été la norme, mais il atteint rapidement ses limites physiques pour gérer le matériel avancé et les racks à haute densité typiques des centres de données IA. Le refroidissement liquide offre une efficacité inégalée à grande échelle et des performances à l’épreuve du temps pour des charges de travail de plus en plus exigeantes. Les approches hybrides peuvent combler le fossé, mais à long terme, les centres de données IA vont devoir s’appuyer sur des solutions de refroidissement liquide pour gérer les charges de travail IA de plus en plus intensives. Cependant, le choix de la bonne méthode de refroidissement liquide dépend du type de charge de travail, de la densité, de l’emplacement et d’autres facteurs.

Il existe deux méthodes de refroidissement liquide principalement utilisées dans le domaine commercial aujourd’hui : le refroidissement direct aux puces (DTC) et le refroidissement par immersion. Bien que le DTC soit actuellement plus courant, le refroidissement par immersion devrait gagner du terrain à mesure que les densités de puissance des puces augmentent. Les systèmes DTC acheminent le fluide de refroidissement directement vers les composants générant de la chaleur, comme les CPU et les GPU, via des plaques froides, offrant ainsi des gains d’efficacité rapides avec des changements d’infrastructure minimaux. Les systèmes monophasés sont plus simples et conviennent aux rénovations, tandis que les systèmes diphasés utilisent des réfrigérants pour atteindre de meilleures performances de transfert de chaleur avec une puissance de pompage plus faible, mais une complexité de système plus grande. Le refroidissement par immersion, en revanche, plonge les serveurs entiers dans des fluides diélectriques — soit circulés (monophasé) soit bouillis et condensés dans des réservoirs scellés (biphasé).

La solution qui convient à votre environnement dépend de la nature de votre matériel, de vos charges de travail, de votre budget et de bien d’autres facteurs. Mais être conscient de vos options est essentiel à la fois pour la viabilité à court terme et à long terme de votre centre de données IA.

Question 3 : Mon système de refroidissement prendra-t-il en charge les charges de travail d’aujourd’hui et les densités IA de demain ?

Ce qui nous amène à la prochaine grande question : mon système résistera-t-il à l’épreuve du temps ? La demande de centres de données augmente au-delà des normes historiques. Les grappes de formation IA, par exemple, peuvent nécessiter 10 à 20 fois la densité de puissance des racks d’entreprise traditionnels. La question que les exploitants doivent se poser est de savoir si leur conception de refroidissement peut accueillir des densités futures sans remplacement complet.

L’essor de l’IA, de l’informatique haute performance et des architectures de racks de plus en plus denses pousse déjà le refroidissement par air à ses limites. Dans l’enquête sur les systèmes de refroidissement 2024 de l’Uptime Institute, la majorité des exploitants ont déclaré que le refroidissement par air devient impraticable et/ou trop coûteux à tout point au-dessus de ~20 kW par rack. Cependant, les rapports industriels actuels montrent que les racks IA déjà poussent couramment 100 kW par rack. Et ces chiffres sont déjà en hausse. Nvidia a récemment présenté ses plans pour ses GPU Rubin Ultra avec des racks Kyber, qui dépasseront 600kW par rack d’ici 2027.

En sachant que le refroidissement par air est sur le point de devenir obsolète dans les déploiements de centres de données IA, les exploitants peuvent se tourner vers des approches hybrides ou progressives partout où les déploiements de refroidissement liquide complets ne sont pas une option. Une fois encore, étant donné le temps et le coût considérables investis dans ces projets, la viabilité à long terme est d’une importance capitale. Donc, lors de la sélection de solutions de refroidissement, assurez-vous qu’elles sont prêtes pour le long terme.

Question 4 : Quelles sont les implications de coût totales sur l’ensemble du cycle de vie ?

Alors que les dépenses initiales peuvent être impressionnantes dans le domaine des centres de données, les dépenses d’investissement (CAPEX) ne constituent qu’une partie de l’histoire. Les exploitants devraient calculer le coût total de possession (TCO), y compris les dépenses d’exploitation (OPEX) liées à la consommation d’énergie, à la maintenance et aux rénovations, lorsqu’ils considèrent leurs solutions de refroidissement. Un système qui semble plus coûteux au départ peut offrir des économies à long terme grâce à l’efficacité énergétique, à la réduction des temps d’arrêt et à une durée de vie plus longue. La bonne stratégie de refroidissement est rarement la moins chère au départ — c’est celle qui optimise les coûts sur les 10 à 15 ans de la durée de vie de l’installation.

Rappelez-vous que ce ne sont pas des déploiements à court terme. De plus, plus vous tirez parti de ce déploiement, plus vous avez des chances de bénéficier de sa valeur. Réfléchir au-delà du CAPEX et penser à vos coûts et économies à long terme est essentiel pour vous assurer que vous tirez le meilleur parti de votre projet de centre de données.

Question 5 : Comment cette stratégie de refroidissement affectera-t-elle mon profil de durabilité ?

Comme mentionné précédemment, le refroidissement peut représenter jusqu’à 40 % ou plus de la consommation d’énergie totale d’un centre de données. Alors que les réglementations et les exigences de reporting ESG s’étendent, les exploitants doivent se demander : comment ce système impacte-t-il mon empreinte carbone, ma consommation d’énergie et mes autres engagements en matière de durabilité ? Les solutions qui réduisent la consommation d’énergie ou les déchets de ressources ou qui s’alignent sur les normes mondiales comme le cadre Green Grid sont de plus en plus non seulement préférables mais nécessaires pour la confiance des investisseurs et la conformité réglementaire.

Pendant ce temps, le secteur public crie de plus en plus fort pour réduire la consommation d’énergie. Monitoring Analytics, l’organisme de surveillance indépendant du marché pour le réseau du mid-Atlantique, a produit des recherches en juin montrant que 70 % de l’augmentation du coût de l’électricité l’an dernier était due à la demande des centres de données. Il n’est pas surprenant que les consommateurs sonnent l’alarme et que les États envisagent des mesures sérieuses pour répondre à cette préoccupation, y compris la possibilité de coupures forcées pendant les périodes de forte demande. En investissant dans des solutions de refroidissement plus économes en énergie et plus durables, les organisations peuvent se positionner pour naviguer à la fois dans la perception publique et les défis réglementaires qui les attendent.

Question 6 : Quelle quantité d’eau cette approche de refroidissement consommera-t-elle — et est-elle durable dans ma région ?

Les grands centres de données peuvent consommer jusqu’à 5 millions de gallons d’eau par jour. Il ne devrait pas être surprenant, alors, que la rareté de l’eau devienne un problème déterminant pour les centres de données, en particulier dans des régions comme le Sud-Ouest américain et certaines parties de l’Europe où les droits et les problèmes de rareté de l’eau conduisent à une surveillance accrue à l’égard des centres de données. Pour réussir, les exploitants doivent calculer l’utilisation d’eau projetée de leur système de refroidissement et évaluer si elle correspond à la réalité locale et régionale (en termes de disponibilité et d’exigences réglementaires).

Ne soyez pas trompé par le nom — le refroidissement liquide consomme en réalité beaucoup moins d’eau que les systèmes de refroidissement par air traditionnels. Selon une étude publiée par Nature, le refroidissement liquide réduit la consommation d’eau « bleue » des centres de données de 31 à 52 % par rapport au refroidissement par air traditionnel sur son cycle de vie. Les solutions de refroidissement qui minimisent ou éliminent la consommation d’eau peuvent aider à protéger les installations contre les risques environnementaux et réglementaires.

Question 7 : Quels risques ou limitations sont associés au refroidissement liquide, et comment peuvent-ils être atténués ?

Bien que le refroidissement liquide offre des avantages sans précédent en termes d’efficacité, de durabilité et de retour sur investissement à long terme, de nombreux mythes persistent à son sujet, en particulier sur la fiabilité, le coût et l’intégration. En réalité, les progrès de la technologie, des matériaux et de la conception ont rendu le refroidissement liquide sûr, fiable et de plus en plus rentable. La clé pour les exploitants est d’évaluer ces systèmes par rapport à des données de performances du monde réel, et non à des perceptions obsolètes, et de concevoir avec les meilleures pratiques éprouvées en tête.

Lorsque vous examinez le refroidissement liquide, il est tout aussi important d’être conscient de quelle solution est la meilleure pour votre installation. Avec différentes approches (par exemple, direct-to-chip [DTC], immersion) et une multitude de fournisseurs offrant une grande variété de solutions, il est toujours important de faire preuve de diligence lorsqu’on considère un déploiement de refroidissement liquide.

Question 8 : Comment ma conception de refroidissement affectera-t-elle l’utilisation de l’espace et la densité des racks ?

L’espace est tout aussi précieux que la puissance dans les installations de centres de données modernes. Les racks à haute densité supportés par un refroidissement liquide efficace peuvent réduire de manière spectaculaire les exigences en matière d’espace au sol et les empreintes d’installation. Cela permet aux exploitants d’accroître les charges de travail dans les empreintes existantes ou de minimiser les coûts de terrain et de construction pour les nouvelles constructions. Pouvoir faire plus avec moins d’espace ne réduit pas seulement les coûts, mais ouvre également la porte à une gamme plus large de sites viables pour la construction. Avec des empreintes plus petites, les développeurs peuvent construire plus librement et même rapprocher le calcul de l’utilisateur final. Poser ces questions dès le départ garantit que la conception de refroidissement est alignée à la fois sur la densité et sur l’utilisation de l’espace.

Question 9 : Quelle est ma stratégie de résilience à long terme si les charges de travail augmentent ou si les réglementations se resserrent ?

Les centres de données ne sont pas statiques. Les pics de demande imprévisibles, les nouvelles applications IA et les exigences de durabilité et d’efficacité plus strictes peuvent rapidement mettre à rude épreuve les infrastructures. Les exploitants doivent se demander si leur stratégie de refroidissement est suffisamment adaptable pour répondre à ces changements souvent inattendus. Les systèmes de refroidissement efficaces doivent être prêts à augmenter la capacité, à répondre aux nouvelles exigences de conformité et à intégrer les futures technologies.

Les systèmes qui offrent une modularité et les fournisseurs avec des chaînes d’approvisionnement solides aideront à protéger votre centre de données contre les changements de demande, vous permettant de mettre à l’échelle plus facilement et de mettre à niveau et d’intégrer plus facilement si et quando nécessaire.

Question 10 : Traite-t-on le refroidissement comme un facteur d’activation stratégique — ou simplement comme une après-pensée ?

Cette dernière question, englobante, est sans doute la plus importante. Lorsque vous considérez votre système de refroidissement, prenez d’abord un moment pour réévaluer le rôle du refroidissement dans vos opérations de centre de données globales. Trop souvent, le refroidissement est traité comme une infrastructure de fond lorsque, en réalité, il est un facteur d’activation stratégique des performances, de la disponibilité et de la durabilité. Les entreprises qui investissent dans des stratégies de refroidissement réfléchies bénéficient non seulement d’une efficacité opérationnelle mais aussi d’un avantage concurrentiel en termes de fiabilité, de conformité et de coûts à long terme.

Et alors que l’IA continue de mettre de nouvelles exigences plus intensives sur les centres de données, il est essentiel de prendre une vue d’ensemble du refroidissement. Ne pensez pas seulement à ce qui est le meilleur, le plus rapide ou le moins cher pour votre déploiement aujourd’hui. Pensez à la façon dont votre solution de refroidissement vous positionne 5, 10 ou même 15 ans à l’avance. Si votre système de refroidissement répond à peine aux exigences aujourd’hui, vous pouvez être certain qu’il ne sera plus adapté dans quelques années. Rappelez-vous, le refroidissement est central au succès global de votre installation tout au long de son cycle de vie.

Le refroidissement est maintenant central au succès à long terme des centres de données — choisissez avec soin

Le refroidissement n’est plus une préoccupation secondaire — c’est central à chaque centre de données, à la fois à court et à long terme. En posant ces dix questions dès le départ, les exploitants peuvent réduire le temps de déploiement, minimiser les risques et s’assurer que les installations sont conçues pour la résilience dans un monde piloté par l’IA et caractérisé par le changement et les fluctuations.

L’avenir de l’industrie sera défini non seulement par la vitesse à laquelle les exploitants déployeront la capacité, mais également par la manière dont ils concevront avec intelligence la durabilité à long terme. Ceux qui traitent le refroidissement comme un facteur d’activation stratégique seront les mieux placés pour diriger dans les années à venir.

Kevin Roof est le directeur global de l'offre et de la gestion de capture pour LiquidStack. Un ingénieur mécanique et PMP avec plus d'une décennie d'expérience dans le refroidissement des centres de données, Kevin apporte des connaissances et un leadership de pensée inestimables à l'espace de refroidissement liquide.