Connect with us

El verdadero cuello de botella de la IA: Potencia, enfriamiento y la física de la escala

Inteligencia artificial

El verdadero cuello de botella de la IA: Potencia, enfriamiento y la física de la escala

mm

La inteligencia artificial ha avanzado a un ritmo extraordinario en la última década. GPUs más rápidas, clusters más grandes y arquitecturas revolucionarias han desbloqueado avances que antes parecían imposibles. Sin embargo, a medida que la industria se dirige hacia modelos de trillion-parámetros y fábricas de IA de hiperscala, la próxima barrera no tiene nada que ver con algoritmos. El verdadero cuello de botella hoy en día es físico: potencia, enfriamiento y la infraestructura necesaria para mantener el cálculo a escala planetaria.

La pregunta ya no es cuántos chips se pueden fabricar, sino si se puede suministrar los gigavatios, el agua y las líneas de transmisión necesarios para operarlos. La infraestructura, no el silicio, es lo que marcará el ritmo de la IA en los años venideros.

Gigavatios sobre gigaflops

El proyecto “Stargate” de OpenAI, que se está construyendo con Oracle y SoftBank, tiene como objetivo casi 7 gigavatios de capacidad en campus de EE. UU. — comparable a varios reactores nucleares. A esta escala, el desafío principal no es producir GPUs, sino asegurar centrales eléctricas y subestaciones para mantenerlos en funcionamiento.

La demanda de Microsoft es igualmente asombrosa. Se prevé que sus cargas de trabajo de IA requerirán tanta electricidad como toda la región de Nueva Inglaterra para 2030. Esto ayuda a explicar por qué la empresa ha invertido decenas de miles de millones en proyectos de energía renovable y también está explorando opciones más experimentales como la fusión nuclear y reactores nucleares avanzados.

La dinámica se está extendiendo a la política energética. En la Interconexión de PJM, la organización de transmisión regional que gestiona la red para más de 65 millones de personas en 13 estados y Washington, D.C., las empresas de servicios públicos están explorando mecanismos de reducción para centros de datos durante la demanda pico. Las grandes empresas de tecnología están presionando en contra de tales restricciones, pero el hecho de que los reguladores estén considerando siquiera esto muestra lo central que es la IA en la planificación de la red.

El desafío del enfriamiento

Suministrar electricidad es solo la mitad del problema. Una vez que la potencia llega a las bastidoras, el próximo desafío es el calor. Cada GPU de alta gama consume alrededor de 700 vatios, y con bastidoras que albergan cientos de GPUs, las densidades están alcanzando 100 a 600 kilovatios por bastidor. El enfriamiento por aire, el estándar de la industria durante décadas, se vuelve inviable más allá de aproximadamente 40 kilovatios por bastidor debido a las ineficiencias del flujo de aire y la recirculación.

El enfriamiento líquido ha pasado de ser una nicho a mainstream. Las plataformas Blackwell con enfriamiento líquido de NVIDIA están diseñadas para clusters de IA de hiperscala y ofrecen 25 veces mejor eficiencia energética y 300 veces mayor eficiencia en el uso del agua que las bastidoras enfriadas por aire. La empresa también ha colaborado con Vertiv en una arquitectura de referencia que puede manejar más de 130 kilovatios por bastidor, lo que hace que las implementaciones de GPU densas sean factibles.

Las startups también están innovando. Corintis, una empresa suiza que incorpora microcanales directamente en los substratos de los chips, recientemente recaudó $24 millones en financiamiento y ya cuenta con Microsoft entre sus clientes. El equipo de investigación de Microsoft ha demostrado canales microfluídicos grabados en el embalaje de los chips, reduciendo las temperaturas pico de las GPUs en hasta un 65 por ciento y triplicando la eficiencia en comparación con las placas frías tradicionales. Estas tecnologías hacen que sea posible mantener las GPUs funcionando a toda potencia sin derretir el centro de datos.

El agua como variable estratégica

El enfriamiento líquido introduce otra variable: el consumo de agua. Los sistemas de enfriamiento por evaporación y agua enfriada pueden requerir volúmenes enormes cuando se escalan a campus de cientos de megavatios. En Phoenix, los clusters de centros de datos pueden demandar cientos de millones de galones de agua por día, lo que plantea preocupaciones en regiones azotadas por la sequía.

Esto ha impulsado el desarrollo de sistemas de enfriamiento de cero agua y circuitos cerrados. IEEE Spectrum ha documentado estrategias como baños de inmersión dieléctrica sellados, enfriadores secos y enfriadores sin agua que reducen el uso de agua potable a casi cero. Mientras tanto, algunos operadores están experimentando con el reuso de calor residual. Proyectos como Aquasar y iDataCool han demostrado cómo los bucles de enfriamiento con agua caliente pueden alimentar sistemas de calefacción de edificios o enfriadores de absorción, reciclando gran parte de la energía que de otro modo se perdería.

El intercambio es a menudo entre agua y electricidad: los sistemas cerrados o secos consumen más energía, mientras que los diseños de evaporación ahorran energía pero consumen mucha agua. En regiones con estrés hídrico, la política está favoreciendo cada vez más la conservación del agua, incluso si eso significa un mayor consumo de energía.

Infraestructura y la red

Incluso con soluciones de potencia y enfriamiento en su lugar, el último cuello de botella es la infraestructura. Las decisiones de ubicación ahora determinan los ganadores y perdedores en la carrera de la IA.

El campus Fairwater de Microsoft de $80 mil millones en Wisconsin ilustra cómo la ubicación estratégica se ha vuelto crucial. El sitio abarca 315 acres, alberga cientos de miles de GPUs y fue elegido por su acceso a subestaciones, líneas de fibra y aguas subterráneas. El diseño también enfatiza el enfriamiento de circuito cerrado para minimizar el impacto del agua.

Para respaldar su carga creciente, Microsoft ha firmado un acuerdo histórico con Brookfield para agregar 10,5 gigavatios de capacidad renovable para 2030. Al mismo tiempo, ha respaldado proyectos más experimentales como una planta de fusión nuclear construida por Helion Energy, programada para alimentar centros de datos para 2028, y un acuerdo de 20 años para reabrir la planta nuclear de Three Mile Island en Pensilvania.

Amazon y Google están tomando medidas similares, asegurando sitios junto a plantas nucleares y desarrollando sus propios portafolios de energía limpia. En Irlanda, donde los centros de datos ya consumen más energía que todos los hogares combinados, los reguladores han congelado las nuevas aprobaciones hasta al menos 2028, lo que subraya cómo la política y las autorizaciones pueden descarrilar incluso los proyectos mejor financiados.

Operación más inteligente: IA que gestiona IA

Resulta interesante que la IA en sí se esté utilizando para gestionar la carga de infraestructura. El aprendizaje por refuerzo se ha desplegado en centros de datos de producción para optimizar los sistemas de enfriamiento, produciendo ahorros de energía del 14 al 21 por ciento sin comprometer la seguridad. Los gemelos digitales y el modelado predictivo también se están utilizando para anticipar puntos calientes, precargar equipos y trasladar cargas de trabajo a horas más frescas o períodos de sobrecapacidad renovable.

Google ya ha demostrado cómo el aprendizaje automático puede reducir las necesidades de enfriamiento de los centros de datos en un 40 por ciento, y otros operadores están adoptando sistemas similares. A medida que aumentan los costos de energía y enfriamiento, estos ahorros operativos se están convirtiendo en una ventaja competitiva esencial.

Perspectiva estratégica

La trayectoria es clara. Se espera que la demanda de IA doble el consumo de electricidad de los centros de datos a nivel mundial para 2030, con las cargas de trabajo de IA que representan una participación de un solo dígito en el consumo total de energía a nivel mundial para 2050. Mientras que NVIDIA y otros fabricantes de chips siguen impulsando el rendimiento del silicio hacia adelante, la frontera práctica de la IA estará definida por lo rápido que las empresas de servicios públicos puedan construir nueva generación, transmisión e infraestructura de enfriamiento.

Para las empresas que construyen productos de IA, esto significa que las hojas de ruta están cada vez más vinculadas a donde existe la capacidad. Para los inversores, las jugadas más valiosas pueden ser las empresas de servicios públicos, los desarrolladores de transmisión y las startups de enfriamiento, en lugar de solo los proveedores de GPU. Y para los formuladores de políticas, el debate sobre la IA está pasando de cuestiones de ética y gobernanza de datos a cuestiones de megavatios, agua y modernización de la red.

El futuro de la IA no se decidirá solo en laboratorios de investigación y fundiciones de chips, sino en subestaciones, circuitos de enfriamiento y centrales eléctricas. La física de la escala —no solo las matemáticas de los algoritmos— es lo que determinará la velocidad y el alcance de la inteligencia artificial en la década próxima.

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un empresario serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI. Como un futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.