Líderes de pensamento

O Segredo para um AI Mais Rápido Não São Mais GPUs, Mas Redes Mais Inteligentes

mm

O AI está redefinindo o que é possível em diversas indústrias, incluindo saúde, finanças, manufatura e varejo. No entanto, com um potencial promissor, também traz demandas de infraestrutura massivas.

Organizações em todo o mundo estão investindo em GPUs em uma escala sem precedentes para acelerar o treinamento e a inferência do AI. Até 2028, a Gartner projeta que o gasto em TI de AI gerativa ultrapassará US$ 1 trilhão. A Hyperion Research prevê que o mercado de HPC como um todo ultrapassará US$ 100 bilhões no mesmo período. No entanto, apesar de investir em aceleradores de ponta, muitos CIOs continuam a ver GPUs ociosas, com utilização pairando em 35% ou menos. Isso não apenas resulta em subdesempenho, mas também em energia desperdiçada e custos inflados.

Embora muitos projetos de AI estalem, não é porque falta GPUs ou poder de processamento, mas porque a rede não consegue acompanhar, exigindo uma nova abordagem para o design do AI em escala.

O Custo Oculto dos Gargalos de Rede

Quando as redes não conseguem fornecer dados rapidamente o suficiente para manter as GPUs consistentemente ocupadas, as organizações experimentam vários impactos críticos:

  • GPUs e CPUs subutilizados devido a transferências de dados engarrafadas: As GPUs são projetadas para cálculos massivamente paralelos, mas podem processar dados apenas tão rapidamente quanto são entregues. Se a rede não consegue acompanhar, as GPUs ficam ociosas esperando por dados em vez de processar números. Os CPUs também podem estagnar, pois coordenam tarefas e movem dados pelo pipeline, resultando em baixa utilização apesar da disponibilidade de hardware caro.
  • Desempenho de inferência inconsistente devido a uma rede ineficiente: Ineficiências de rede criam fluxos de dados desiguais, fazendo com que as GPUs flutuem entre velocidade total e estado ocioso. Isso produz um desempenho de inferência imprevisível que pode incapacitar aplicações de AI em produção.
  • Ciclos de treinamento mais longos, atrasando o tempo de chegada ao mercado: O treinamento de modelos de AI exige mover conjuntos de dados massivos entre servidores, GPUs e armazenamento. Os gargalos de rede estrangulam esse processo, então as GPUs passam menos tempo treinando e mais tempo esperando. Isso atrasa diretamente os cronogramas de desenvolvimento e implantação de produtos.
  • Custos de energia e operacionais em escalada: Mesmo quando ociosas, as GPUs e a infraestrutura circundante ainda consomem uma quantidade significativa de energia. Se as GPUs estiverem subutilizadas devido a ineficiências de rede, as organizações pagam por alto consumo de energia sem obter desempenho proporcional. Os custos operacionais aumentam porque as instalações devem suportar cargas de pico de energia e refrigeração, mesmo que a produtividade de processamento esteja artificialmente limitada.

As empresas podem continuar a investir dinheiro em mais GPUs, mas sem as melhorias de rede certas, elas apenas comporão esses gargalos e ineficiências.

Rede como Acelerador: Uma Mudança de Paradigma

A solução exige repensar a arquitetura da rede por completo. Introduzir um modelo que utiliza a rede como acelerador inverte o pensamento tradicional sobre desempenho de HPC e AI para desbloquear novas capacidades.

Em vez de se concentrar principalmente em adicionar mais processamento por meio de GPUs e CPUs, a abordagem “rede como acelerador” trata o tecido de interconexão como um multiplicador de desempenho. Como resultado, a rede pode apoiar melhor o processamento de alta densidade e acelerar o ROI eliminando gargalos, dimensionando para atender às demandas de processamento e otimizando os investimentos em hardware. Ao permitir um processamento maior sem diminuir a velocidade, as organizações podem executar cargas de trabalho maiores em menos espaço, obter resultados mais rápido e evitar gastar demais em hardware extra.

Como Funciona o Modelo de ‘Rede como Acelerador’

Então, como esse modelo funciona para que as organizações possam transformar sua rede de um mero movedor de dados em um habilitador ativo de processamento e começar a perceber os benefícios? Ele fornece quatro capacidades-chave que as redes tradicionais não possuem:

  • Entrega garantida no nível de hardware: Redes tradicionais sobrecarregam os CPUs e GPUs com a sobrecarga de rastreamento de pacotes, retransmissão e reordenação. Isso consome ciclos de processamento que poderiam ser dedicados ao treinamento ou inferência. Com uma rede que garante a entrega no nível de hardware, essas tarefas são transferidas para longe dos nós de processamento, resultando em reduzida sobrecarga de CPU e GPU, desempenho previsível e consistente e escalabilidade que simplifica a programação e a orquestração de cluster.
  • Roteamento dinâmico inteligente: Roteamento convencional depende de caminhos fixos ou subótimos, que podem deixar partes da rede subutilizadas ou criar gargalos onde volumes massivos de dados fluem simultaneamente. O roteamento inteligente aproveita dinamicamente todos os caminhos disponíveis para otimizar o fluxo de tráfego. Isso permite maior taxa de transferência com várias rotas ativas equilibrando o tráfego, menor latência por meio da seleção de caminho ótimo e melhor resiliência, pois o tráfego de rede é automaticamente redirecionado em torno de falhas de link ou nó. Isso reduz os tempos de inatividade e mantém as GPUs totalmente alimentadas com dados.
  • Repetição automática de link: Quando pacotes são perdidos ou corrompidos, redes padrão dependem da camada de processamento para detectar e retransmitir, o que introduz uma latência significativa e interrompe o fluxo de processamento. Uma rede com capacidades de repetição automática de link incorporada lida com retransmissões dentro da própria rede. Isso permite uma confiabilidade quase transparente, pois a perda de pacotes se torna invisível para os nós de processamento, enquanto reduz o impacto de latência, pois as repetições ocorrem localmente no link, e não em toda a pilha de rede. Isso também elimina a necessidade de tratamento de erros de aplicação complexo. As capacidades de repetição automática garantem cálculo distribuído ininterrupto e eficiente, o que é importante ao dimensionar para milhares de GPUs.
  • Computação em rede: Enquanto as redes tradicionais se concentram principalmente em mover dados, a computação em rede permite que a rede se torne uma coprocessadora, realizando certas operações diretamente dentro do tecido. O NVIDIA SHARP é um exemplo primordial – ele permite reduções a ocorrerem nos próprios switches de rede. Isso permite operações distribuídas aceleradas, reduz a latência, pois os dados são agregados à medida que atravessam a rede, e aumenta a eficiência, pois os nós de processamento são liberados de realizar tarefas de agregação, deixando mais ciclos para treinamento e simulação.

No geral, essas capacidades são o que tornam a “computação liderada por rede” fundamental para dimensionar ambientes de AI e HPC de próxima geração. Uma abordagem centrada na rede entrega retornos tangíveis que incluem maior utilização de GPU que elimina a fome de dados, tempo de insight mais rápido que reduz os ciclos de treinamento e estabiliza o desempenho de inferência, melhor eficiência de recursos e menor custo total de propriedade.

Descubra o Verdadeiro Poder da Rede

O AI em escala não é apenas um problema de processamento – é um desafio de engenharia de sistema, com a rede no centro disso. Tratar a rede como um acelerador a transforma em um multiplicador de força para o processamento, permitindo que os centros de dados de HPC e AI escalonem em densidade sem sacrificar o desempenho. Isso entrega um ROI mensurável mais rápido, extrair o valor máximo da infraestrutura existente antes de investir em mais silício.

Eliminando gargalos, aumentando a utilização e entregando desempenho previsível, redes mais inteligentes permitem que as equipes de AI sejam mais produtivas, melhor ROI na infraestrutura de GPU e tempo de insight mais rápido, inovação e liderança de mercado. Isso permite que as organizações descubram o que sua rede pode realmente ser e aproveitem o poder do AI de novas maneiras.

Nishant Lodha é diretor sênior de redes de IA na Cornelis Networks. Antes de se juntar à Cornelis, Nishant ocupou cargos de diretor no Intel Corporation e Marvell. Ele tem mais de 25 anos de experiência em tecnologias de rede de datacenter, armazenamento e computação em funções que abrangem marketing de produtos, soluções e marketing técnico, e engenheiro de rede. Ele está sediado no Vale do Silício.