Líderes de pensamento

O Segredo para um AI Mais Rápido Não São Mais GPUs, Mas Redes Mais Inteligentes

Published September 5, 2025

Updated May 18, 2026

Nishant Lodha, Senior Director of AI Networking, Cornelis Networks

O AI está redefinindo o que é possível em diversas indústrias, incluindo saúde, finanças, manufatura e varejo. No entanto, com um potencial promissor, também traz demandas de infraestrutura massivas.

Organizações em todo o mundo estão investindo em GPUs em uma escala sem precedentes para acelerar o treinamento e a inferência do AI. Até 2028, a Gartner projeta que o gasto em TI de AI gerativa ultrapassará US$ 1 trilhão. A Hyperion Research prevê que o mercado de HPC como um todo ultrapassará US$ 100 bilhões no mesmo período. No entanto, apesar de investir em aceleradores de ponta, muitos CIOs continuam a ver GPUs ociosas, com utilização pairando em 35% ou menos. Isso não apenas resulta em subdesempenho, mas também em energia desperdiçada e custos inflados.

Embora muitos projetos de AI estalem, não é porque falta GPUs ou poder de processamento, mas porque a rede não consegue acompanhar, exigindo uma nova abordagem para o design do AI em escala.

O Custo Oculto dos Gargalos de Rede

Quando as redes não conseguem fornecer dados rapidamente o suficiente para manter as GPUs consistentemente ocupadas, as organizações experimentam vários impactos críticos:

GPUs e CPUs subutilizados devido a transferências de dados engarrafadas: As GPUs são projetadas para cálculos massivamente paralelos, mas podem processar dados apenas tão rapidamente quanto são entregues. Se a rede não consegue acompanhar, as GPUs ficam ociosas esperando por dados em vez de processar números. Os CPUs também podem estagnar, pois coordenam tarefas e movem dados pelo pipeline, resultando em baixa utilização apesar da disponibilidade de hardware caro.
Desempenho de inferência inconsistente devido a uma rede ineficiente: Ineficiências de rede criam fluxos de dados desiguais, fazendo com que as GPUs flutuem entre velocidade total e estado ocioso. Isso produz um desempenho de inferência imprevisível que pode incapacitar aplicações de AI em produção.
Ciclos de treinamento mais longos, atrasando o tempo de chegada ao mercado: O treinamento de modelos de AI exige mover conjuntos de dados massivos entre servidores, GPUs e armazenamento. Os gargalos de rede estrangulam esse processo, então as GPUs passam menos tempo treinando e mais tempo esperando. Isso atrasa diretamente os cronogramas de desenvolvimento e implantação de produtos.
Custos de energia e operacionais em escalada: Mesmo quando ociosas, as GPUs e a infraestrutura circundante ainda consomem uma quantidade significativa de energia. Se as GPUs estiverem subutilizadas devido a ineficiências de rede, as organizações pagam por alto consumo de energia sem obter desempenho proporcional. Os custos operacionais aumentam porque as instalações devem suportar cargas de pico de energia e refrigeração, mesmo que a produtividade de processamento esteja artificialmente limitada.

As empresas podem continuar a investir dinheiro em mais GPUs, mas sem as melhorias de rede certas, elas apenas comporão esses gargalos e ineficiências.

Rede como Acelerador: Uma Mudança de Paradigma

A solução exige repensar a arquitetura da rede por completo. Introduzir um modelo que utiliza a rede como acelerador inverte o pensamento tradicional sobre desempenho de HPC e AI para desbloquear novas capacidades.

Em vez de se concentrar principalmente em adicionar mais processamento por meio de GPUs e CPUs, a abordagem “rede como acelerador” trata o tecido de interconexão como um multiplicador de desempenho. Como resultado, a rede pode apoiar melhor o processamento de alta densidade e acelerar o ROI eliminando gargalos, dimensionando para atender às demandas de processamento e otimizando os investimentos em hardware. Ao permitir um processamento maior sem diminuir a velocidade, as organizações podem executar cargas de trabalho maiores em menos espaço, obter resultados mais rápido e evitar gastar demais em hardware extra.

Como Funciona o Modelo de ‘Rede como Acelerador’

Então, como esse modelo funciona para que as organizações possam transformar sua rede de um mero movedor de dados em um habilitador ativo de processamento e começar a perceber os benefícios? Ele fornece quatro capacidades-chave que as redes tradicionais não possuem:

Entrega garantida no nível de hardware: Redes tradicionais sobrecarregam os CPUs e GPUs com a sobrecarga de rastreamento de pacotes, retransmissão e reordenação. Isso consome ciclos de processamento que poderiam ser dedicados ao treinamento ou inferência. Com uma rede que garante a entrega no nível de hardware, essas tarefas são transferidas para longe dos nós de processamento, resultando em reduzida sobrecarga de CPU e GPU, desempenho previsível e consistente e escalabilidade que simplifica a programação e a orquestração de cluster.
Roteamento dinâmico inteligente: Roteamento convencional depende de caminhos fixos ou subótimos, que podem deixar partes da rede subutilizadas ou criar gargalos onde volumes massivos de dados fluem simultaneamente. O roteamento inteligente aproveita dinamicamente todos os caminhos disponíveis para otimizar o fluxo de tráfego. Isso permite maior taxa de transferência com várias rotas ativas equilibrando o tráfego, menor latência por meio da seleção de caminho ótimo e melhor resiliência, pois o tráfego de rede é automaticamente redirecionado em torno de falhas de link ou nó. Isso reduz os tempos de inatividade e mantém as GPUs totalmente alimentadas com dados.
Repetição automática de link: Quando pacotes são perdidos ou corrompidos, redes padrão dependem da camada de processamento para detectar e retransmitir, o que introduz uma latência significativa e interrompe o fluxo de processamento. Uma rede com capacidades de repetição automática de link incorporada lida com retransmissões dentro da própria rede. Isso permite uma confiabilidade quase transparente, pois a perda de pacotes se torna invisível para os nós de processamento, enquanto reduz o impacto de latência, pois as repetições ocorrem localmente no link, e não em toda a pilha de rede. Isso também elimina a necessidade de tratamento de erros de aplicação complexo. As capacidades de repetição automática garantem cálculo distribuído ininterrupto e eficiente, o que é importante ao dimensionar para milhares de GPUs.
Computação em rede: Enquanto as redes tradicionais se concentram principalmente em mover dados, a computação em rede permite que a rede se torne uma coprocessadora, realizando certas operações diretamente dentro do tecido. O NVIDIA SHARP é um exemplo primordial – ele permite reduções a ocorrerem nos próprios switches de rede. Isso permite operações distribuídas aceleradas, reduz a latência, pois os dados são agregados à medida que atravessam a rede, e aumenta a eficiência, pois os nós de processamento são liberados de realizar tarefas de agregação, deixando mais ciclos para treinamento e simulação.

No geral, essas capacidades são o que tornam a “computação liderada por rede” fundamental para dimensionar ambientes de AI e HPC de próxima geração. Uma abordagem centrada na rede entrega retornos tangíveis que incluem maior utilização de GPU que elimina a fome de dados, tempo de insight mais rápido que reduz os ciclos de treinamento e estabiliza o desempenho de inferência, melhor eficiência de recursos e menor custo total de propriedade.

Descubra o Verdadeiro Poder da Rede

O AI em escala não é apenas um problema de processamento – é um desafio de engenharia de sistema, com a rede no centro disso. Tratar a rede como um acelerador a transforma em um multiplicador de força para o processamento, permitindo que os centros de dados de HPC e AI escalonem em densidade sem sacrificar o desempenho. Isso entrega um ROI mensurável mais rápido, extrair o valor máximo da infraestrutura existente antes de investir em mais silício.

Eliminando gargalos, aumentando a utilização e entregando desempenho previsível, redes mais inteligentes permitem que as equipes de AI sejam mais produtivas, melhor ROI na infraestrutura de GPU e tempo de insight mais rápido, inovação e liderança de mercado. Isso permite que as organizações descubram o que sua rede pode realmente ser e aproveitem o poder do AI de novas maneiras.

Nishant Lodha, Senior Director of AI Networking, Cornelis Networks

Nishant Lodha é diretor sênior de redes de IA na Cornelis Networks. Antes de se juntar à Cornelis, Nishant ocupou cargos de diretor no Intel Corporation e Marvell. Ele tem mais de 25 anos de experiência em tecnologias de rede de datacenter, armazenamento e computação em funções que abrangem marketing de produtos, soluções e marketing técnico, e engenheiro de rede. Ele está sediado no Vale do Silício.

Unite.AI

O Segredo para um AI Mais Rápido Não São Mais GPUs, Mas Redes Mais Inteligentes

O Custo Oculto dos Gargalos de Rede

Rede como Acelerador: Uma Mudança de Paradigma

Como Funciona o Modelo de ‘Rede como Acelerador’

Descubra o Verdadeiro Poder da Rede

You may like