Leader di pensiero
Il prossimo passaggio nell’infrastruttura dell’IA: programmabilità oltre il silicio

Mentre il mondo intero è sempre più affascinato dall’IA e dalle sue applicazioni, esistono alcune barriere molto reali che ostacolano il suo pieno successo. Ad esempio, l’infrastruttura dei data center dell’IA, che affronta sfide di affidabilità significative, collo di bottiglia delle prestazioni e vincoli di consumo di energia sempre più stringenti che limitano quanto lontano i sistemi dell’IA possano scalare nella pratica. In effetti, i carichi di lavoro dell’IA in continua evoluzione richiedono un passaggio alla prossima fase dello sviluppo dell’OCS – OCS fotoniche in silicio programmabili – che consente livelli di flessibilità della rete mai visti prima.
Come siamo arrivati qui: la storia dietro lo sviluppo dell’OCS
Interruttori di circuito ottici (OCS) hanno una lunga storia che affonda le radici nella telefonia, a partire dalla fine del XIX/inizio del XX secolo, quando la comunicazione vocale si basava sullo switching dei circuiti – fisicamente commutando i cavi per stabilire una connessione telefonica tra due parti. Lo switching dei pacchetti è stato introdotto negli anni ’60 come modo per utilizzare meglio l’infrastruttura condivisa. Ciò ha comportato la divisione dei dati in piccoli “pacchetti” per consentire a più trasmissioni di viaggiare attraverso una rete su qualsiasi percorso. Negli anni ’70, questi pacchetti sono stati ulteriormente definiti in termini di come venivano indirizzati, instradati e consegnati attraverso sistemi eterogenei, e negli anni ’80, questa definizione – Protocollo di controllo di trasmissione/Protocollo di internet, o TCP/IP – è diventata lo standard di internet per consentire a reti precedentemente incompatibili di comunicare all’interno di un quadro comune. Man mano che le richieste di rete e scalabilità crescevano negli anni ’90, sono stati introdotti gli interruptori di pacchetti elettrici (EPS). In combinazione con TCP/IP, gli EPS hanno sostenuto la crescita di internet e hanno collegato milioni di utenti in tutto il mondo. Allo stesso tempo, la fibra ha iniziato a sostituire il rame nelle reti globali, offrendo una maggiore capacità e una portata più lunga e la capacità di supportare velocità multi-terabit.
L’ambiente dell’IA dinamico
Tuttavia, all’inizio del XXI secolo, i carichi di lavoro dell’IA hanno posto una grande pressione sulle reti elettroniche attuali, portando allo sviluppo delle prime architetture di data center dell’OCS basate su MEMS commerciali. Gli interruptori ottici MEMS sono dispositivi di switching ottici che utilizzano specchi mobili microscopici per reindirizzare la luce tra le fibre di ingresso e di uscita senza convertire il segnale in elettricità. Questi OCS basati su MEMS supportano grandi numeri di porte, che sono ideali per collegare otticamente server lontani superando i limiti del rame nei data center. Tuttavia, i limiti nella velocità di riconfigurazione, nel costo per porta e nel fattore di forma sono diventati evidenti. Questi limiti impediscono agli OCS basati su MEMS di affrontare la necessità di riconfigurazione della rete in tempo reale nel cuore del motore di calcolo del data center – la rete di scaling – soprattutto di fronte ai carichi di lavoro dell’IA.
In effetti, oggi, i limiti degli OCS basati su MEMS e le richieste sul data center dell’IA stanno diventando sempre più pronunciati, grazie ai massicci, non lineari e imprevedibili cambiamenti introdotti dall’IA ogni anno o ogni sei mesi – se non ogni trimestre. Gli attori dell’ecosistema del data center dell’IA sono ora chiamati a adattarsi rapidamente e a rispondere al paesaggio dell’IA in continua evoluzione. E i progettisti di rete sono sotto pressione per riconfigurare o riprogrammare le reti del data center dell’IA come necessario per superare i problemi all’interno della rete o gestire il nuovo livello di carichi di lavoro dell’IA che richiedono prestazioni ottimizzate.
Fotoniche in silicio programmabili: andare oltre una rete “congelata”
Le fotoniche in silicio (SiPh) OCS programmabili sono il prossimo passo nello sviluppo dell’OCS. A basso costo, molto compatte e guidate dal software, queste chip fotoniche possono essere riprogrammate istantaneamente per adattarsi in tempo reale al modo in cui la luce e quindi riconfigurare la rete. Rispetto ai MEMS, l’OCS SiPh programmabile è una tecnologia a stato solido, che rimuove molti rischi di affidabilità perché non ci sono parti mobili. La tecnologia a stato solido, compatibile con CMOS, implica anche che può corrispondere al costo ottimale del cluster GPU di $100 per radix.
Le OCS SiPh programmabili rafforzano ulteriormente le architetture del data center dell’IA in due modi critici. In primo luogo, consentono una rapida riconfigurazione degli interconnessioni GPU in modo che i carichi di lavoro possano essere eseguiti più efficientemente e completati più velocemente. Man mano che l’addestramento dell’IA evolve, le topologie di comunicazione devono cambiare dinamicamente – anche all’interno del lavoro di addestramento – senza perdita di pacchetti. Ciò richiede tempi di riconfigurazione estremamente rapidi, un’area in cui la scalabilità dell’OCS SiPh è fondamentalmente superiore agli approcci basati su MEMS, supportando tempi di riconfigurazione e di transduzione di ordini di grandezza più veloci delle tecnologie MEMS.
In secondo luogo, la programmabilità dell’OCS SiPh consente l’integrazione di funzioni aggiuntive direttamente nel tessuto di switching senza scalare il fattore di forma. Capacità come la telemetria in tempo reale attraverso fotodetettori SiGe-integrati e l’amplificazione del collegamento possono essere incorporate per migliorare l’osservabilità e aumentare la resilienza ai guasti. Mentre gli OCS basati su MEMS introducono tipicamente 2-3 dB di perdita ottica, le implementazioni dell’OCS SiPh possono essere progettate per essere efficacemente prive di perdita, migliorando la flessibilità e l’efficienza complessiva del sistema.
Guardando avanti
Poiché le reti dei data center storici sono rigide e non possono stare al passo con le esigenze in continua evoluzione dei data center dell’IA, il mercato per la tecnologia SiPh programmabile presenta un’opportunità da multi-miliardi di dollari. Insieme a questo enorme boom arriva la necessità di collaborazione e cooperazione tra le aziende che sono al cuore di questa nuova tecnologia. A questo scopo, esiste un organismo di standardizzazione OCP — che include Google, Microsoft, Lumentum e altri innovatori — che mira a rendere l’interfaccia software per il gestore di rete che utilizza l’OCS il più standard e facile da usare possibile. Insieme, queste aziende condividono le loro prospettive e creano standard per spingere la tecnologia avanti e accelerare l’adozione.
Man mano che l’IA guida l’evoluzione nel nostro mondo, le reti dei data center dell’IA devono evolversi di conseguenza e essere future-proof per supportarla. Le OCS SiPh programmabili consentono alle aziende di creare al culmine dell’innovazione e di realizzare nuove e emozionanti opportunità per tutti.












