Líderes de pensamento

Centros de Dados de IA Precisam de Mais do que Mais Refrigeração: Eles Precisam de Engenharia Mais Rápida

mm

A inteligência artificial está transformando o trabalho digital, mas seu impacto está se tornando cada vez mais físico. A IA em grande escala requer muito mais energia do que nunca. E os centros de dados que abrigam esses servidores de IA estão lutando para atender à demanda. De fato, um relatório da Deloitte estima que, até 2035, a demanda de energia por centros de dados de IA nos Estados Unidos pode crescer mais de trinta vezes.

No entanto, a questão não é apenas uma questão de uso de energia. Os centros de dados que abrigam esses servidores de IA precisam levar em conta o nível de calor que a tecnologia cria. Clusters de GPU modernos podem atingir 50 kW por rack e além. Isso é um aumento de dez vezes em relação aos servidores de computação padrão da última década.

Os sistemas de refrigeração que estiveram em vigor por muito tempo para centros de dados para gerenciar cargas de trabalho de TI estão sendo superados por essas novas saídas de calor. A infraestrutura simplesmente não pode acompanhar, deixando os engenheiros responsáveis por projetar sistemas de refrigeração de centros de dados com um novo desafio. Os engenheiros encarregados de projetar infraestrutura pronta para IA estão cada vez mais encontrando que os fluxos de trabalho de engenharia tradicionais não podem acompanhar a escala e a velocidade da implantação de IA.

Talvez paradoxalmente, a IA está aumentando a demanda por capacidade de centro de dados e transformando o processo de engenharia usado para construir essa capacidade. Os mesmos avanços em IA que estão impulsionando requisitos de infraestrutura sem precedentes também estão começando a acelerar a forma como os engenheiros modelam, validam e otimizam os sistemas físicos que suportam essas cargas de trabalho.

Em essência, a IA está se tornando parte do processo usado para projetar a infraestrutura que executa a IA.

À luz disso, muitas equipes de engenharia estão adotando fluxos de trabalho de simulação acelerados por IA e nativos em nuvem que permitem que eles avaliem o desempenho térmico, estratégias de refrigeração e trocas de infraestrutura antes do início da construção.

Quando se trata da infraestrutura de centros de dados de hoje, as apostas significam que qualquer passo em falso pode ser devastador. Provar o desempenho antes da construção se tornou o imperativo para o sucesso a longo prazo, e não a confiança em suposições, regras gerais ou validação em estágios posteriores.

Infraestrutura de Refrigeração Tradicional Sob Estresse

Infelizmente para as equipes de engenharia, as cargas de trabalho de IA são fundamentalmente diferentes das cargas de trabalho de computação baseadas em nuvem tradicionais. Não há fluxo e refluxo com a IA, as demandas de rede, saída de calor e requisitos de energia são constantes.

Essa mudança está, em parte, exposta a uma falha fundamental de muitos centros de dados. Muitos foram construídos com a suposição de que uma demanda sustentada não seria necessária. E porque esses sistemas de refrigeração são frequentemente altamente intensivos em energia, está se tornando rapidamente insustentável “superrefrigeração” e supor que isso atenderá às necessidades de um centro de dados. Abordar essa abordagem e priorizar a disponibilidade fará com que os custos e o uso de energia aumentem rapidamente.

No final do dia, o cruzamento em que muitos centros de dados se encontram não é uma questão de “mais calor”. O risco definidor que o crescimento da IA traz é uma margem de erro muito mais apertada.

Para os desenvolvedores de centros de dados, cada atraso no processo de validação pode impactar compromissos de clientes, planejamento de capacidade ou custos de energia.

Historicamente, as equipes de engenharia podiam compensar a incerteza por meio de provisionamento excessivo, suposições de design conservadoras e validação em estágios posteriores. A infraestrutura de IA muda essa equação. O ritmo de implantação, o investimento de capital necessário e as densidades de rack crescentes deixam muito menos espaço para engenharia de trial-and-error. As decisões que poderiam ser validadas posteriormente agora precisam ser comprovadas muito antes no processo de design.

A Nova Realidade: Comprovando o Desempenho Térmico Antes de Iniciar a Construção

Com a margem de erro diminuindo, as equipes de engenharia estão movendo a análise térmica mais cedo no processo de design, enquanto as alterações ainda são baratas e o design ainda é flexível. Em vez de esperar até a comissão para descobrir se os padrões de fluxo de ar, layouts de rack, estratégias de contenção ou posicionamento de equipamentos de refrigeração são suficientes, eles podem modelar o fluxo de ar e a transferência de calor antes do início da construção.

Isso permite que os engenheiros identifiquem pontos quentes, testem estratégias de refrigeração e comparem opções de design sob condições operacionais realistas. Uma equipe pode avaliar se o ar frio está alcançando racks de alta densidade, se o escape quente está recirculando para as entradas de equipamentos e se a capacidade de refrigeração está sendo usada de forma eficiente.

É aqui que a arquitetura da plataforma importa. Para equipes que trabalham sob pressão intensa, a simulação não pode permanecer confinada a um pequeno grupo de especialistas com acesso a recursos de HPC dedicados. Utilizar uma plataforma de simulação nativa em nuvem torna a análise de alta fidelidade acessível a equipes de engenharia inteiras, e não apenas a um pequeno grupo de indivíduos. Isso permite que essas equipes executem estudos, comparem opções de design e colaborem sem construir ou manter sua própria infraestrutura de computação.

Com a IA de Engenharia integrada a esse fluxo de trabalho, o papel da simulação em si começa a mudar. Historicamente, a simulação foi limitada por expertise, tempo e recursos computacionais. Executar estudos de alta fidelidade frequentemente exigia conhecimento especializado, hardware dedicado e ciclos de iteração longos.

A IA de Engenharia, utilizando agentes quase autônomos que automatizam e aceleram fluxos de trabalho de design, simulação e análise de engenharia, ajuda a reduzir essas barreiras acelerando a configuração do modelo, expondo insights relevantes e permitindo que as equipes avaliem mais opções de design em menos tempo. Em vez de reservar a simulação para um passo final de validação, as equipes de engenharia podem usar fluxos de trabalho acelerados por IA para explorar alternativas continuamente ao longo do processo de design.

O resultado não é apenas simulação mais rápida. É inovação mais rápida.

Então, como isso se parece na realidade para as equipes de engenharia? Considere uma empresa que fabrica sistemas de refrigeração e ventilação para grandes instalações e precisava de uma maneira mais rápida de testar novos designs de equipamentos. Normalmente, essas empresas precisam construir protótipos físicos, trazer especialistas de fora e gastar várias semanas verificando se o ar se moveu e se misturou corretamente dentro do sistema.

Mas quando essa empresa decide usar software de simulação para criar uma versão virtual do setup de teste, a equação muda. Abordar essa abordagem permite que os engenheiros testem o desempenho de fluxo de ar e temperatura no computador antes de construir o produto real.

E os resultados frequentemente entregam um impacto real. A fase de pré-teste pode ser reduzida para tão curto quanto 2-3 dias e o tempo de engenharia pode cair para 40 horas, em vez de 85 horas, em fluxos de trabalho mais tradicionais.

Mas o valor aqui é muito maior do que apenas economizar tempo. O valor real está na capacidade da equipe de engenharia de fazer mais perguntas e explorar possibilidades mais cedo. O que acontece se a densidade do rack aumentar? O que acontece se os caminhos de fluxo de ar mudarem? O que acontece se as suposições de redundância falharem?

Permitir um nível de exploração como esse é o que eleva a simulação de uma ferramenta analítica para um componente crucial da estratégia de design de infraestrutura.

Infraestrutura de IA Exige Engenharia Acelerada por IA

A próxima fase da infraestrutura de IA não será definida apenas pelo tamanho da instalação, densidade do rack ou capacidade de refrigeração. Também será definida por quão rapidamente as equipes de engenharia podem provar que esses sistemas funcionarão antes de serem construídos.

É aí que a próxima vantagem competitiva da indústria surgirá. Os desenvolvedores de centros de dados que trazem a simulação mais cedo no processo de design, tornam-na acessível a equipes de engenharia e a combinam com fluxos de trabalho acelerados por IA estarão melhor posicionados para tomar decisões confiantes antes de comprometer capital e iniciar a construção.

À medida que a IA continua a redefinir as demandas físicas impostas aos centros de dados, também redefinirá a forma como essas instalações são projetadas. As organizações que liderarão essa próxima era não reagirão simplesmente a cargas de calor mais altas ou restrições de energia mais apertadas. Elas construirão processos de design capazes de antecipar essas demandas.

David Heiny é CEO e co-fundador da SimScale. Ele possui um Bacharelado em Ciências em Matemática e um Diploma em Engenharia Mecânica pela Universidade Técnica de Munique, bem como um Mestrado em Ciência Computacional e Engenharia pelo Instituto de Tecnologia da Geórgia. Sua especialização inclui CFD, Análise Numérica, Desenvolvimento de Software e Matemática Aplicada, desenvolvidas tanto por meio de seus estudos quanto de experiência de trabalho (FZG – TU München, MAN Diesel & Turbo, FluiDyna GmbH,).

David também tem um Diploma de Honra em Gestão de Tecnologia do Center for Digital Technology and Management (CDTM). David se formou na Academia de Elite da Baviera (Bayerische EliteAkademie) ao lado de três outros fundadores da SimScale - Vincenz Dölle, Johannes Probst e Alexander Fischer.