Líderes de pensamento
A Mudança Iminente na Infraestrutura de IA: Programabilidade Além do Silício

Enquanto o mundo todo está cada vez mais enamorado de IA e de todas as suas aplicações, existem algumas barreiras muito reais que impedem o seu sucesso total. Por exemplo, a infraestrutura de centro de dados de IA enfrenta desafios significativos de confiabilidade, gargalos de desempenho e restrições de consumo de energia cada vez mais rigorosas que limitam até onde os sistemas de IA podem ser escalados na prática. De fato, as cargas de trabalho de IA em constante mudança exigem uma mudança para a próxima etapa do desenvolvimento de OCS — OCSs fotônicos de silício programáveis — que permitem níveis de flexibilidade de rede nunca vistos antes.
Como chegamos aqui: A história por trás do desenvolvimento de OCS
Comutadores de Circuito Óptico (OCSs) têm uma longa história que remonta à telefonia, no final do século XIX/início do século XX, quando a comunicação de voz dependia da comutação de circuitos — comutando fisicamente cabos para estabelecer uma conexão telefônica entre duas partes. A comutação de pacotes foi introduzida na década de 1960 como uma forma de aproveitar melhor a infraestrutura compartilhada. Isso envolvia dividir os dados em pequenos “pacotes” para permitir que várias transmissões viajassem pela rede em qualquer rota. Na década de 1970, esses pacotes foram ainda mais definidos em como eram endereçados, roteados e entregues em sistemas heterogêneos, e na década de 1980, essa definição — Protocolo de Controle de Transmissão/Protocolo da Internet, ou TCP/IP — se tornou o padrão da Internet para permitir que redes anteriormente incompatíveis se comunicassem em um quadro comum. À medida que as demandas de rede e escalabilidade cresceram na década de 1990, Comutadores de Pacotes Elétricos (EPSs) foram introduzidos. Combinados com TCP/IP, EPSs sustentaram o crescimento da Internet e conectaram milhões de usuários globalmente. Ao mesmo tempo, a fibra começou a substituir o cobre nas redes globais, oferecendo maior capacidade e alcance mais longo e a capacidade de suportar velocidades de dados de multi-terabits.
O ambiente de IA dinâmico
Mas no início do século XXI, as cargas de trabalho de IA colocaram uma tremenda pressão sobre as redes eletrônicas atuais, levando ao desenvolvimento das primeiras arquiteturas de comutadores de circuito óptico (OCS) de centro de dados baseados em MEMS. Os comutadores ópticos de MEMS são dispositivos de comutação óptica que usam espelhos móveis microscópicos para redirecionar a luz entre fibras de entrada e saída sem converter o sinal para eletricidade. Esses OCSs baseados em MEMS suportam grandes contagens de portas, ideais para conectar ópticamente servidores distantes, superando as limitações do cobre nos centros de dados. No entanto, limites na velocidade de reconfiguração, custo por porta e fator de forma se tornaram evidentes. Esses limites impedem que os OCSs baseados em MEMS atendam à necessidade de reconfiguração de rede em tempo real no coração do motor de computação do centro de dados, a rede de escalonamento — especialmente diante das cargas de trabalho de IA.
De fato, hoje, os limites dos OCSs baseados em MEMS e as demandas sobre o centro de dados de IA estão se tornando ainda mais pronunciadas, graças às mudanças massivas, não lineares e imprevisíveis introduzidas pela IA a cada ano ou a cada seis meses — se não a cada trimestre. Os atores do ecossistema do centro de dados de IA agora são solicitados a se adaptar rapidamente e responder ao cenário de IA em constante mudança. E os projetistas de rede são pressionados a reconfigurar ou reprogramar suas redes de centro de dados de IA conforme necessário para contornar problemas dentro da rede ou gerenciar o novo nível de cargas de trabalho de IA que precisam de desempenho otimizado.
Fotônica de silício programável: Além de uma rede “congelada”
A fotônica de silício (SiPh) programável de OCSs é o próximo passo no desenvolvimento de OCS. De baixo custo, muito compacta e impulsionada por software, esses chips fotônicos podem ser reprogramados instantaneamente para adaptar em tempo real o caminho da luz e, portanto, reconfigurar a rede. Em comparação com MEMS, o OCS de SiPh programável é uma tecnologia de estado sólido, que remove muitos riscos de confiabilidade porque não há partes móveis. A tecnologia de estado sólido, compatível com CMOS, também implica que pode atingir o custo-alvo ótimo de $100 por radix para clusters de GPU.
Os OCSs de SiPh programáveis reforçam ainda mais as arquiteturas de centro de dados de IA de duas maneiras críticas. Primeiro, eles permitem a reconfiguração rápida de interconexões de GPU para que as cargas de trabalho possam ser executadas de forma mais eficiente e concluídas mais rapidamente. À medida que o treinamento de IA evolui, as topologias de comunicação devem mudar dinamicamente — mesmo dentro do trabalho de treinamento — sem perda de pacotes. Isso exige tempos de reconfiguração extremamente rápidos, uma área onde a escalabilidade de OCS de SiPh é fundamentalmente superior às abordagens baseadas em MEMS, suportando tempos de reconfiguração e transdução várias ordens de magnitude mais rápidos do que as tecnologias de MEMS.
Em segundo lugar, a programabilidade de OCS de SiPh permite que funções adicionais sejam integradas diretamente na trama de comutação sem dimensionar o fator de forma. Capacidades como telemetria em tempo real por meio de fotodetectores integrados SiGe e amplificação de link podem ser incorporadas para melhorar a observabilidade e aumentar a resiliência a falhas. Enquanto os OCSs baseados em MEMS geralmente introduzem 2–3 dB de perda óptica, as implementações de OCS de SiPh podem ser projetadas para serem efetivamente sem perda, melhorando a flexibilidade e eficiência do sistema como um todo.
Olhando para o futuro
Porque as redes de centro de dados históricas são rígidas e não podem acompanhar as necessidades em mudança dos centros de dados de IA, o mercado para tecnologia de SiPh programável apresenta uma oportunidade de vários bilhões de dólares. Junto com esse grande boom, surge a necessidade de colaboração e cooperação entre as empresas que estão no coração dessa nova tecnologia. Para esse fim, existe um órgão de padronização OCP — que inclui Google, Microsoft, Lumentum e outros inovadores — que visa tornar a interface de software para o gerenciador de rede usando OCS o mais padrão e fácil de usar possível. Juntos, essas empresas gostam de compartilhar suas perspectivas e criar padrões para impulsionar a tecnologia e acelerar a adoção.
À medida que a IA impulsiona a evolução em nosso mundo, as redes de centro de dados de IA também devem evoluir e ser à prova de futuro para apoiá-la. Os OCSs de SiPh programáveis permitem que as empresas criem no auge da inovação e realizem novas e emocionais oportunidades para todos.












