Connect with us

Protegiendo su inversión en IA: Por qué la estrategia de enfriamiento es más importante que nunca

Líderes de opinión

Protegiendo su inversión en IA: Por qué la estrategia de enfriamiento es más importante que nunca

mm

Los operadores de centros de datos están apostando millones a tecnología de enfriamiento obsoleta. La conversación sobre el enfriamiento de los centros de datos no solo está cambiando, sino que está siendo completamente redefinida por la economía de la IA. Las apuestas nunca han sido más altas.

El rápido avance de la IA ha transformado la economía de los centros de datos de maneras que pocos predijeron. Cuando un solo rack de servidores de IA cuesta alrededor de $3 millones, tanto como una casa de lujo, el cálculo de riesgo cambia fundamentalmente. Como recientemente advirtió Ben Horowitz, co-fundador de Andreessen Horowitz, en un artículo, los centros de datos que financian estas masivas inversiones en hardware “pueden quedar muy mal muy rápido” si no gestionan cuidadosamente su estrategia de infraestructura.

Esta nueva realidad demanda un replanteamiento fundamental de los enfoques de enfriamiento. Mientras que las métricas tradicionales como PUE y costos de operación siguen siendo importantes, son secundarias para proteger estas inversiones de hardware de varios millones de dólares. La verdadera pregunta que los operadores de centros de datos deberían hacerse es: ¿Cómo protegemos mejor nuestra inversión en infraestructura de IA?

Los riesgos ocultos del enfriamiento tradicional

La dependencia histórica de la industria en soluciones de enfriamiento basadas en agua de una sola fase conlleva riesgos cada vez más inaceptables en la era de la IA. Aunque ha servido bien a los centros de datos durante años, las demandas térmicas de las cargas de trabajo de IA han empujado esta tecnología más allá de sus límites prácticos. La razón es simple física: los sistemas de una sola fase requieren tasas de flujo más altas para gestionar las cargas térmicas actuales, lo que aumenta el riesgo de fugas y fallos catastróficos.

Este no es un riesgo hipotético. Una sola fuga de agua puede destruir instantáneamente millones en hardware de IA, hardware que a menudo tiene tiempos de entrega de meses en el mercado actual con restricciones de suministro. El costo de incluso un solo fallo catastrófico puede exceder el presupuesto de infraestructura de enfriamiento de un centro de datos para todo un año. Sin embargo, muchos operadores siguen confiando en estos sistemas, apostando efectivamente su inversión en IA a tecnología envejecida.

En Data Center World 2024, el Dr. Mohammad Tradat, gerente de ingeniería mecánica de centros de datos de NVIDIA, preguntó, “¿Cuánto tiempo vivirá el enfriamiento de una sola fase? Se eliminará muy pronto… y luego la necesidad será de enfriamiento de dos fases, basado en refrigerante”. Esto no es solo una opinión creciente, sino que se está convirtiendo en un consenso de la industria respaldado por la física y la realidad financiera.

Un nuevo enfoque para la protección de la inversión

La tecnología de enfriamiento de dos fases, que utiliza refrigerantes dieléctricos en lugar de agua, cambia fundamentalmente esta ecuación de riesgo. El costo de implementar un sistema de enfriamiento de dos fases, que suele ser de alrededor de $200,000 por rack, debería considerarse como un seguro para proteger una inversión en hardware de IA de $5 millones. Para poner esto en perspectiva, eso es un premio del 4% para proteger su activo, considerablemente más bajo que las tasas de seguro para otras inversiones comerciales de varios millones de dólares. El caso de negocio se vuelve aún más claro cuando se tienen en cuenta los posibles costos de la interrupción del entrenamiento de IA y la infraestructura inactiva durante el tiempo de inactividad no planificado.

Para los operadores de centros de datos y las partes interesadas financieras, la decisión de invertir en enfriamiento de dos fases debería evaluarse a través de la lente de la gestión de riesgos y la protección de la inversión. Las métricas relevantes deberían incluir no solo los costos de operación o la eficiencia energética, sino también el valor total del hardware que se está protegiendo, el costo de posibles escenarios de fallo, el valor de futuro para el hardware de próxima generación y el rendimiento ajustado por riesgo de la inversión en enfriamiento.

A medida que la IA continúa impulsando la densidad y el valor de la infraestructura de los centros de datos, la industria debe evolucionar su enfoque de estrategia de enfriamiento. La pregunta no es si moverse al enfriamiento de dos fases, sino cuándo y cómo hacer la transición mientras se minimiza el riesgo para las operaciones y las inversiones existentes.

Los operadores inteligentes ya están haciendo este cambio, mientras que otros arriesgan aprender una lección costosa. En una era en la que un solo rack cuesta más que el presupuesto de operación anual de muchos centros de datos, apostar a tecnología de enfriamiento obsoleta no solo es arriesgado, sino potencialmente catastrófico. El momento de actuar es ahora, antes de que ese riesgo se convierta en realidad.

Josh Claman es el CEO de Accelsius, fabricantes de tecnología de enfriamiento de dos fases directo al chip. Defensor del poder de la tecnología transformadora a lo largo de su carrera de 30 años, el Sr. Claman ha hecho crecer y reubicado negocios en Dell, NCR y AT&T.