Líderes de opinión
Los centros de datos de inteligencia artificial necesitan más que solo enfriamiento: necesitan ingeniería más rápida

La inteligencia artificial está transformando el trabajo digital, pero su impacto es cada vez más físico. La inteligencia artificial a gran escala requiere mucha más potencia que nunca antes. Y los centros de datos que albergan esos servidores de inteligencia artificial están luchando por mantenerse al día con la demanda. De hecho, un informe de Deloitte estima que para 2035, la demanda de energía de los centros de datos de inteligencia artificial en Estados Unidos podría crecer más de treinta veces.
Sin embargo, el problema no es solo una cuestión de consumo de energía. Los centros de datos que albergan estos servidores de inteligencia artificial necesitan tener en cuenta el nivel de calor que la tecnología crea. Los clusters de GPU modernos pueden alcanzar 50 kW por rack y más. Eso es un aumento de diez veces en comparación con los servidores de cómputo estándar de solo la última década.
Los sistemas de enfriamiento que han estado en lugar durante mucho tiempo para los centros de datos para gestionar las cargas de trabajo de TI están siendo superados por estas nuevas salidas de calor. La infraestructura simplemente no puede mantenerse al día, lo que deja a los ingenieros encargados de diseñar los sistemas de enfriamiento de los centros de datos con un nuevo desafío. Los ingenieros encargados de diseñar la infraestructura lista para la inteligencia artificial están encontrando cada vez más que los flujos de trabajo de ingeniería tradicionales no pueden mantenerse al día con la escala y la velocidad de la implementación de la inteligencia artificial.
Quizás paradójicamente, la inteligencia artificial está aumentando la demanda de capacidad de los centros de datos y transformando el proceso de ingeniería utilizado para construir esa capacidad. Los mismos avances en la inteligencia artificial que están impulsando requisitos de infraestructura sin precedentes también están comenzando a acelerar la forma en que los ingenieros modelan, validan y optimizan los sistemas físicos que respaldan esas cargas de trabajo.
En efecto, la inteligencia artificial se está convirtiendo en parte del proceso utilizado para diseñar la infraestructura que ejecuta la inteligencia artificial.
A la luz de esto, muchos equipos de ingeniería están adoptando flujos de trabajo de simulación acelerados por la inteligencia artificial y nativos de la nube que les permiten evaluar el rendimiento térmico, las estrategias de enfriamiento y las compensaciones de infraestructura antes de que comience la construcción.
Cuando se trata de la infraestructura de los centros de datos de hoy, las apuestas significan que cualquier paso en falso puede ser devastador. Probar el rendimiento antes de la construcción se ha convertido en la directriz para el éxito a largo plazo, no en la confianza en suposiciones, reglas generales o validaciones de última etapa.
Infraestructura de enfriamiento tradicional bajo tensión
Desafortunadamente para los equipos de ingeniería, las cargas de trabajo de la inteligencia artificial son fundamentalmente diferentes de las cargas de trabajo de cómputo en la nube tradicionales. No hay flujo y reflujo con la inteligencia artificial, las demandas de la red, la salida de calor y los requisitos de energía son constantes.
Ese cambio está, en parte, expuso una falla clave de muchos centros de datos. Muchos fueron construidos bajo la suposición de que no se necesitaría una demanda sostenida. Y porque estos sistemas de enfriamiento a menudo son muy intensivos en energía, está rápidamente volviéndose insostenible “sobreenfriar” y asumir que cubrirá las necesidades de un centro de datos. Tomar este enfoque y priorizar el tiempo de actividad hará que los costos y el consumo de energía aumenten rápidamente fuera de control.
Al final del día, la encrucijada en la que se encuentran muchos centros de datos no es una cuestión de “más calor”. El riesgo definitorio que el crecimiento de la inteligencia artificial trae es un margen de error mucho más ajustado.
Para los desarrolladores de centros de datos, cada retraso en el proceso de validación puede afectar los compromisos de los clientes, la planificación de la capacidad o los costos de energía.
Históricamente, los equipos de ingeniería podían compensar la incertidumbre a través de la sobreprovisión, suposiciones de diseño conservadoras y validación de última etapa. La infraestructura de la inteligencia artificial cambia esa ecuación. El ritmo de implementación, la inversión de capital requerida y el aumento de la densidad de los racks dejan muy poco espacio para la ingeniería de prueba y error. Las decisiones que podrían validarse más tarde ahora deben probarse mucho antes en el proceso de diseño.
La nueva realidad: Probar el rendimiento térmico antes de comenzar la construcción
Con el margen de error disminuyendo, los equipos de ingeniería están moviendo el análisis térmico más temprano en el proceso de diseño, mientras que los cambios aún son baratos y el diseño aún es flexible. En lugar de esperar hasta la comisión para descubrir si los patrones de flujo de aire, los diseños de los racks, las estrategias de contención o la colocación del equipo de enfriamiento son suficientes, pueden modelar el flujo de aire y el transferencia de calor antes de que comience la construcción.
Esto les permite a los ingenieros identificar puntos calientes, probar estrategias de enfriamiento y comparar opciones de diseño bajo condiciones de funcionamiento realistas. Un equipo puede evaluar si el aire frío llega a los racks de alta densidad, si el aire caliente de escape se recircula en las entradas del equipo y si la capacidad de enfriamiento se utiliza de manera eficiente.
Esto es donde la arquitectura de la plataforma importa. Para los equipos que trabajan bajo una gran presión, la simulación no puede permanecer confinada a un pequeño grupo de especialistas con acceso a recursos de HPC dedicados. Utilizar una plataforma de simulación nativa de la nube hace que el análisis de alta fidelidad sea accesible para todos los equipos de ingeniería, no solo para un pequeño grupo de individuos. Esto les permite a los equipos ejecutar estudios, comparar opciones de diseño y colaborar sin construir o mantener su propia infraestructura de cómputo.
Con la inteligencia artificial de ingeniería integrada en ese flujo de trabajo, el papel de la simulación en sí comienza a cambiar. Históricamente, la simulación ha estado limitada por la experiencia, el tiempo y los recursos computacionales. Ejecutar estudios de alta fidelidad a menudo requería conocimientos especializados, hardware dedicado y ciclos de iteración largos.
La inteligencia artificial de ingeniería, que utiliza agentes casi autónomos que automatizan y aceleran los flujos de trabajo de diseño, simulación y análisis de ingeniería, ayuda a reducir esas barreras al acelerar la configuración del modelo, mostrar información relevante y permitir que los equipos evalúen más opciones de diseño en menos tiempo. En lugar de reservar la simulación para un paso de validación final, los equipos de ingeniería pueden utilizar flujos de trabajo acelerados por la inteligencia artificial para explorar alternativas continuamente a lo largo del proceso de diseño.
El resultado no es simplemente una simulación más rápida. Es una innovación más rápida.
Entonces, ¿cómo se ve esto en la realidad para los equipos de ingeniería? Considere una empresa que fabrica sistemas de enfriamiento y ventilación para grandes instalaciones necesitaba una forma más rápida de probar nuevos diseños de equipo. Normalmente, estas empresas tienen que construir prototipos físicos, traer especialistas externos y pasar varias semanas verificando si el aire se movía y se mezclaba correctamente dentro del sistema.
Pero cuando esta empresa decide utilizar software de simulación para crear una versión virtual de la configuración de prueba, la ecuación cambia. Este enfoque permite a los ingenieros probar el rendimiento del flujo de aire y la temperatura en una computadora antes de construir el producto real.
Y los resultados a menudo entregan un impacto real. La fase de preprueba puede reducirse a solo 2-3 y el tiempo de ingeniería puede disminuir a 40 horas en lugar de 85 en flujos de trabajo más tradicionales.
Pero el valor aquí es mucho más grande que solo ahorrar tiempo. El valor real radica en la capacidad del equipo de ingeniería para hacer más preguntas y explorar posibilidades más temprano. ¿Qué sucede si la densidad del rack aumenta? ¿Qué sucede si los caminos de flujo de aire cambian? ¿Qué sucede si las suposiciones de redundancia fallan?
Habilitar un nivel de exploración como este es lo que eleva la simulación de una herramienta analítica a un componente crucial de la estrategia de diseño de infraestructura.
La infraestructura de la inteligencia artificial requiere ingeniería acelerada por la inteligencia artificial
La próxima fase de la infraestructura de la inteligencia artificial no estará definida solo por el tamaño de las instalaciones, la densidad de los racks o la capacidad de enfriamiento. También estará definida por lo rápido que los equipos de ingeniería pueden probar que esos sistemas funcionarán antes de que se construyan.
Esto es donde surgirá la próxima ventaja competitiva de la industria. Los desarrolladores de centros de datos que traen la simulación más temprano en el proceso de diseño, la hacen accesible en todos los equipos de ingeniería y la emparejan con flujos de trabajo acelerados por la inteligencia artificial estarán mejor posicionados para tomar decisiones confiables antes de que se comprometa el capital y comience la construcción.
A medida que la inteligencia artificial continúa cambiando las demandas físicas que se colocan en los centros de datos, también cambiará la forma en que se diseñan esas instalaciones. Las organizaciones que lideren esta próxima era no reaccionarán simplemente a cargas de calor más altas o restricciones de energía más estrictas. Construirán procesos de diseño capaces de anticiparlos.












