Interviste

Dott. Xianxin Guo, CEO e Co-Fondatore di Lumai – Serie di Interviste

mm

Dott. Xianxin Guo, CEO e Co-Fondatore di Lumai, è un fisico e imprenditore deep-tech specializzato in calcolo ottico e hardware AI, con un dottorato in fisica quantistica e ottica non lineare presso l’Università di Scienza e Tecnologia di Hong Kong. In precedenza ha ricoperto ruoli di ricerca, tra cui un incarico post-dottorale all’Università di Calgary e una borsa di ricerca 1851 all’Università di Oxford, dove ha contribuito ai progressi nella fotonica e nell’accelerazione dell’AI. Salendo attraverso Lumai dal capo della ricerca al CEO, è l’inventore principale della tecnologia di base dell’azienda e porta con sé oltre un decennio di esperienza all’intersezione della fisica, del machine learning e dei sistemi di calcolo avanzati.

Lumai è uno spin-off dell’Università di Oxford che sviluppa processori AI di prossima generazione basati sul calcolo ottico 3D, utilizzando la luce invece dell’elettricità per eseguire calcoli AI chiave. La sua tecnologia è progettata per accelerare le operazioni di matrice che sostengono i modelli AI moderni, offrendo velocità di elaborazione significativamente più veloci e riducendo il consumo di energia rispetto ai GPU tradizionali a base di silicio. Integrando il calcolo ottico negli ambienti dei data center esistenti, Lumai mira a consentire un’implementazione di AI più scalabile e efficiente in termini di costo, affrontando le crescenti limitazioni relative alla potenza di calcolo e al consumo di energia nei sistemi AI su larga scala.

Ha iniziato la sua carriera nella fisica quantistica e nell’ottica non lineare, per poi diventare un ricercatore 1851 all’Università di Oxford prima di co-fondare Lumai partendo dalla sua ricerca. Qual è stato il momento cruciale in cui ha capito che il calcolo ottico poteva passare dalla teoria accademica a un’azienda commercialmente fattibile?

Durante il mio tempo all’Università di Oxford, stavamo esplorando come le proprietà della luce nello spazio libero potessero essere utilizzate per risolvere il tipo di operazioni di matrice che sostengono il machine learning. Nello stesso periodo, le limitazioni dell’hardware convenzionale per l’AI stavano diventando più importanti. La convergenza di queste sfide che avevamo risolto nella nostra ricerca e la necessità di un calcolo più efficiente ci ha dato la fiducia che potevamo prendere le nostre idee e risolvere problemi del mondo reale.

Siamo arrivati molto lontano da quella ricerca iniziale – a Lumai abbiamo ora costruito il primo sistema di calcolo ottico al mondo in grado di eseguire modelli LLM a miliardi di parametri in tempo reale.

Lumai sta affrontando una delle più grandi criticità dell’AI oggi, i limiti di energia e scalabilità del calcolo a base di silicio. Quali sono le specifiche limitazioni nelle architetture tradizionali che l’hanno spinta verso un approccio fondamentalmente diverso utilizzando la luce?

Ciò che ci ha spinto è stata la traiettoria limitata delle soluzioni in silicio. Con il silicio, si vedono guadagni incrementali, ma questi arrivano con aumenti sproporzionati di potenza e complessità. La limitazione della scalabilità del silicio è principalmente dovuta alla fisica – le frequenze non aumentano, e il numero di transistor che possono essere commutati è limitato dai problemi termici. Le correnti di perdita continuano a essere un problema. Si stima che il silicio contribuisca solo al 25% di aumento annuo delle prestazioni.

A quel punto, ha senso chiedersi se un diverso mezzo fisico potrebbe gestire quelle operazioni in modo più naturale, piuttosto che continuare a spingere gli elettroni più duramente.

Il suo lavoro si concentra sul calcolo ottico e il machine learning. Come l’utilizzo di fotoni invece di elettroni cambia fondamentalmente il modo in cui il calcolo avviene a livello hardware?

Con gli elettroni, il calcolo è intrinsecamente sequenziale e lossy – si commutano transistor, si sposta carica, si genera calore. Ogni operazione ha un costo termico, e quel costo si accumula.

I fotoni si comportano in modo molto diverso. La luce viaggia senza le stesse perdite resistive, e criticamente, utilizzando le proprietà della luce, enormi numeri di operazioni di matrice possono essere eseguiti in parallelo semplicemente strutturando come i fasci di luce interagiscono attraverso un mezzo fisico. Il calcolo avviene nella propagazione della luce stessa, non nel commutare miliardi di gate.

La tecnologia di Lumai sfrutta l’elaborazione ottica 3D e la parallelismo spaziale massivo. Può spiegare come questa architettura consente miglioramenti così drammatici nella velocità di elaborazione e nell’efficienza rispetto ai GPU?

L’obiettivo è eseguire la moltiplicazione di matrice densa il più efficientemente e velocemente possibile in un singolo ciclo. L’approccio di Lumai fa esattamente questo utilizzando la luce in un volume tridimensionale, eseguendo milioni di operazioni simultaneamente.

Non si può raggiungere quel livello di parallelismo in strutture 2D, dove le operazioni vengono elaborate attraverso centinaia di core che richiedono costanti spostamenti di dati. È questo parallelismo intrinseco – combinato con il fatto che una volta che si è nel dominio della luce, le operazioni possono essere eseguite senza bruciare potenza – che guida sia il miglioramento della velocità di elaborazione che la riduzione drammatica dell’energia per token.

Molte aziende di infrastrutture AI si concentrano ancora sull’addestramento, mentre Lumai si concentra sull’inferenza. Perché ritiene che l’inferenza sia la sfida definitiva di questa prossima fase dell’AI?

L’inferenza è dove l’AI fa effettivamente qualcosa di utile – ogni query risposta, ogni compito dell’agente completato, ogni documento generato. Siamo ora entrati nell’era dell’inferenza, e la domanda sta crescendo a un ritmo che l’hardware orientato all’addestramento non era stato progettato per assorbire.

L’economia è anche diversa: l’inferenza viene eseguita in continuazione, su milioni di utenti. Il costo per token diventa la metrica definitiva, ed è lì che il muro dell’energia colpisce più duramente.

Ciò che rende l’inferenza particolarmente adatta al calcolo ottico è che la fase di prefill è fortemente vincolata dal calcolo. In questa fase di inferenza disaggregata, il contesto completo viene elaborato prima di generare una risposta. Ciò si mappa quasi perfettamente sul nostro motore ottico ed è lì che ci siamo concentrati per primi.

Una delle sfide di lunga data nel calcolo ottico è stata la stabilità e la scalabilità. Quali sono stati i principali progressi tecnici che hanno consentito a Lumai di superare queste barriere?

La sfida non era dimostrare che l’ottica potesse eseguire calcoli – i ricercatori avevano mostrato che in principio per anni. La sfida era farlo funzionare su larga scala, fuori dal laboratorio.

Due cose sono state più importanti. In primo luogo, utilizziamo gli stessi componenti già impiegati nei data center oggi per la comunicazione e la rete. Nessun materiale esotico, nessuna catena di approvvigionamento speculativa. In secondo luogo, abbiamo fatto una scelta architettonica deliberata per utilizzare un design ibrido, combinando il motore tensoriale ottico con l’elaborazione digitale per il controllo del sistema e il software.

Il suo sistema utilizza un approccio ibrido che combina componenti ottici e digitali. Quanto è importante questo equilibrio per rendere il calcolo ottico pratico per il dispiegamento nei data center del mondo reale?

È fondamentale. Il calcolo ottico non significa sostituire tutto con la luce. I sistemi digitali sono straordinariamente bravi nel controllo, nella sequenza e nell’interfacciamento con l’ecosistema software che l’industria ha costruito nel corso dei decenni. Il nostro motore ottico eccelle nelle operazioni matematiche di base che dominano il calcolo dell’inferenza. L’architettura ibrida consente a ogni componente di fare ciò che fa meglio.

Da un punto di vista di dispiegamento, questo è enormemente importante. Lumai Iris si integra nell’infrastruttura dei data center esistente, utilizza interfacce standard e esegue modelli reali, tra cui Llama 8B e 70B oggi.

Con l’annuncio della famiglia di server Lumai Iris, in particolare del server Iris Nova, cosa significa raggiungere l’inferenza in tempo reale su modelli a miliardi di parametri per il futuro dell’infrastruttura AI?

Segnala che il calcolo ottico ha attraversato la soglia dalla ricerca alla realtà. Eseguire modelli a miliardi di parametri in tempo reale è il punto di riferimento di cui l’industria aveva bisogno. La famiglia di server Lumai Iris consiste di tre server: Nova, Aura e Tetra. Lumai Iris Nova, il primo server della famiglia, è disponibile per la valutazione ora, e stiamo già collaborando con partner che vogliono metterlo alla prova contro carichi di lavoro di inferenza reali.

Più in generale, segnala che la traiettoria dell’infrastruttura AI è sul punto di cambiare. L’assunzione è stata che la scalabilità dell’inferenza significhi acquistare più GPU, consumare più energia, costruire data center più grandi. Lumai Iris Nova mostra che c’è un’altra strada – una che offre prestazioni drasticamente migliori per kilowatt e una struttura dei costi per token fondamentalmente diversa. Mentre la famiglia di server Lumai Iris si sviluppa, le implicazioni per come i hyperscaler e le aziende pensano all’acquisto di calcolo saranno significative.

Il comunicato stampa evidenzia un consumo di energia fino al 90% inferiore rispetto ai sistemi tradizionali. Quanto è significativo questo progresso nel contesto delle crescenti limitazioni energetiche che i data center globali stanno affrontando?

La limitazione energetica è la sfida infrastrutturale definitiva dell’era dell’AI – la capacità di potenza è già un fattore limitante nei piani di distribuzione e abbiamo raggiunto il cosiddetto muro della potenza.

Contro questo sfondo, una riduzione del 90% del consumo di energia cambia la fondamentale economia e fattibilità dell’AI su larga scala. Un singolo sistema Lumai può sostituire decine di GPU assetate di potenza, il che si traduce in un significativo spostamento di ciò che è possibile all’interno di una data envolope di potenza.

C’è anche una dimensione dei costi: i costi di costruzione dei data center riflettono la capacità di potenza, quindi un data center a basso consumo di energia costa meno da costruire. La riduzione del consumo di energia riduce direttamente il costo per token – che è ciò che rende l’AI economicamente fattibile su larga scala.

Guardando avanti, mentre l’industria inizia a parlare di un’era post-silicio, come vede l’evoluzione del calcolo ottico nel prossimo decennio e quale sarà il ruolo di Lumai nella formazione di questa transizione?

L’era post-silicio è già iniziata, e sta avvenendo allo stesso tempo del passaggio all’era dell’inferenza e della continua domanda di prestazioni maggiori a minor costo per token. Il silicio continuerà naturalmente a svolgere un ruolo, ma l’assunzione che ogni generazione di miglioramento del calcolo provenga dall’avanzamento dei nodi di silicio non è più credibile al ritmo che l’AI richiede. Vediamo il calcolo ottico utilizzato in parti chiave della pila dove sono necessarie elaborazioni altamente parallele e ad alta velocità.

Per Lumai, la roadmap è continuare a spingere la densità, l’efficienza e la capacità del calcolo ottico e distribuirlo nei data center. La visione è un mondo in cui il costo energetico dell’intelligenza scende e in cui un data center su megawatt può generare lo stesso volume di token di un impianto su gigawatt oggi.

Quel futuro non è una speculazione lontana. Abbiamo costruito il primo sistema che dimostra che il calcolo ottico funziona su larga scala. Tutto da qui in poi è ingegneria. Grazie per la grande intervista, i lettori che desiderano saperne di più possono visitare Lumai.

Antoine è un leader visionario e socio fondatore di Unite.AI, guidato da una passione incrollabile per plasmare e promuovere il futuro dell'AI e della robotica. Un imprenditore seriale, crede che l'AI sarà altrettanto disruptiva per la società quanto l'elettricità, e spesso viene colto a parlare con entusiasmo del potenziale delle tecnologie disruptive e dell'AGI.
Come futurist, è dedicato a esplorare come queste innovazioni plasmeranno il nostro mondo. Inoltre, è il fondatore di Securities.io, una piattaforma focalizzata sugli investimenti in tecnologie all'avanguardia che stanno ridefinendo il futuro e ridisegnando interi settori.