Interviste
Andrew Feldman, Co-fondatore e CEO di Cerebras Systems – Serie di Interviste

Andrew è co-fondatore e CEO di Cerebras Systems. È un imprenditore dedicato a spingere i confini nello spazio del calcolo. Prima di Cerebras, ha co-fondato e è stato CEO di SeaMicro, un pioniere dei microserver ad alta larghezza di banda e a basso consumo energetico. SeaMicro è stato acquisito da AMD nel 2012 per 357 milioni di dollari. Prima di SeaMicro, Andrew era il Vice Presidente di Product Management, Marketing e BD di Force10 Networks, che in seguito è stata venduta a Dell Computing per 800 milioni di dollari. Prima di Force10 Networks, Andrew era il Vice Presidente di Marketing e Sviluppo Aziendale di RiverStone Networks dalla fondazione dell’azienda fino alla sua IPO nel 2001. Andrew detiene un BA e un MBA presso l’Università di Stanford.
Cerebras Systems sta costruendo una nuova classe di sistema informatico, progettato fin dalle origini per l’unico obiettivo di accelerare l’AI e cambiare il futuro del lavoro dell’AI.
Potresti condividere la storia di genesi dietro Cerebras Systems?
I miei co-fondatori e io abbiamo tutti lavorato insieme in una precedente startup che il mio CTO Gary e io abbiamo avviato nel 2007, chiamata SeaMicro (che è stata venduta ad AMD nel 2012 per 334 milioni di dollari). I miei co-fondatori sono alcuni dei principali architetti informatici e ingegneri del settore – Gary Lauterbach, Sean Lie, JP Fricker e Michael James. Quando ci siamo riuniti nel 2015, abbiamo scritto due cose su una lavagna – che volevamo lavorare insieme e che volevamo costruire qualcosa che avrebbe trasformato il settore e sarebbe stato nel Computer History Museum, che è l’equivalente della Compute Hall of Fame. Siamo stati onorati quando il Computer History Museum ha riconosciuto i nostri risultati e ha aggiunto il processore WSE-2 alla sua collezione lo scorso anno, citando come abbia trasformato il paesaggio dell’intelligenza artificiale.
Cerebras Systems è un team di pionieri dell’architettura informatica, scienziati del calcolo, ricercatori di apprendimento profondo e ingegneri di tutti i tipi che amano fare ingegneria senza paura. La nostra missione quando ci siamo riuniti era costruire una nuova classe di computer per accelerare l’apprendimento profondo, che è emerso come uno dei carichi di lavoro più importanti del nostro tempo.
Abbiamo realizzato che l’apprendimento profondo ha requisiti computazionali unici, massicci e in crescita. E non è ben abbinato dalle macchine legacy come le unità di elaborazione grafica (GPU), che sono state fondamentalmente progettate per altri lavori. Di conseguenza, l’AI di oggi è limitata non dalle applicazioni o dalle idee, ma dalla disponibilità di calcolo. Testare un’unica nuova ipotesi – formare un nuovo modello – può richiedere giorni, settimane o addirittura mesi e costare centinaia di migliaia di dollari in tempo di calcolo. Questo è un grande ostacolo all’innovazione.
Quindi la genesi di Cerebras è stata costruire un nuovo tipo di computer ottimizzato esclusivamente per l’apprendimento profondo, a partire da un foglio di carta bianca. Per soddisfare le enormi richieste computazionali dell’apprendimento profondo, abbiamo progettato e costruito il chip più grande mai costruito – il Wafer-Scale Engine (WSE). Creando il primo processore wafer-scale del mondo, abbiamo superato sfide in progettazione, fabbricazione e confezionamento – tutte considerate impossibili per l’intera storia dei computer di 70 anni. Ogni elemento del WSE è progettato per consentire la ricerca sull’apprendimento profondo a velocità e scala senza precedenti, alimentando il supercomputer AI più veloce del settore, il Cerebras CS-2.
Con ogni componente ottimizzato per il lavoro AI, il CS-2 fornisce prestazioni di calcolo maggiori in meno spazio e meno potenza di qualsiasi altro sistema. Ciò si verifica mentre riduce radicalmente la complessità di programmazione, il tempo di calcolo e il tempo di soluzione. A seconda del carico di lavoro, dall’AI all’HPC, il CS-2 fornisce prestazioni centinaia o migliaia di volte maggiori rispetto alle alternative legacy. Il CS-2 fornisce le risorse di calcolo dell’apprendimento profondo equivalenti a centinaia di GPU, mentre fornisce la facilità di programmazione, gestione e distribuzione di un singolo dispositivo.
Negli ultimi mesi Cerebras sembra essere ovunque nelle notizie, cosa puoi dirci sul nuovo supercomputer AI Andromeda?
Abbiamo annunciato Andromeda nel novembre dello scorso anno e si tratta di uno dei supercomputer AI più grandi e potenti mai costruiti. Fornendo più di 1 Exaflop di calcolo AI e 120 Petaflops di calcolo denso, Andromeda ha 13,5 milioni di core su 16 sistemi CS-2 ed è l’unico supercomputer AI a dimostrare una scalabilità lineare quasi perfetta su carichi di lavoro di modelli linguistici di grandi dimensioni. È anche molto semplice da usare.
Per ricordare, il supercomputer più grande della Terra – Frontier – ha 8,7 milioni di core. In termini di numero di core, Andromeda è più del 50% più grande. Fa lavori diversi, ovviamente, ma ciò dà un’idea della portata: quasi 100 terabit di larghezza di banda interna, quasi 20.000 core AMD Epyc lo alimentano e – a differenza dei giganti supercomputer che richiedono anni per essere attivati – abbiamo attivato Andromeda in tre giorni e subito dopo, stava fornendo una scalabilità lineare quasi perfetta dell’AI.
Argonne National Labs è stato il nostro primo cliente a utilizzare Andromeda e l’ha applicato a un problema che stava rompendo il loro cluster di 2.000 GPU chiamato Polaris. Il problema era l’esecuzione di modelli generativi GPT-3XL di grandi dimensioni, mentre inseriva l’intero genoma Covid nella finestra di sequenza, in modo che potesse analizzare ogni gene nel contesto dell’intero genoma di Covid. Andromeda ha eseguito un carico di lavoro genetico unico con lunghezze di sequenza (MSL di 10K) su 1, 2, 4, 8 e 16 nodi, con una scalabilità lineare quasi perfetta. La scalabilità lineare è tra le caratteristiche più ricercate di un grande cluster. Andromeda ha fornito un throughput di 15,87X su 16 sistemi CS-2 rispetto a un singolo CS-2 e una riduzione del tempo di formazione per corrispondere.
Potresti dirci del partnership con Jasper che è stata annunciata a fine novembre e cosa significa per entrambe le aziende?
Jasper è un’azienda molto interessante. Sono leader nel contenuto di intelligenza artificiale generativa per il marketing e i loro prodotti sono utilizzati da oltre 100.000 clienti in tutto il mondo per scrivere copie per il marketing, gli annunci, i libri e altro. È ovviamente uno spazio molto emozionante e in rapida crescita in questo momento. L’anno scorso, abbiamo annunciato una partnership con loro per accelerare l’adozione e migliorare l’accuratezza dell’intelligenza artificiale generativa attraverso le applicazioni aziendali e dei consumatori. Jasper sta utilizzando il nostro supercomputer Andromeda per formare i suoi modelli computazionalmente intensivi in una frazione del tempo. Ciò estenderà la portata dei modelli di intelligenza artificiale generativa alle masse.
Con la potenza del supercomputer Cerebras Andromeda, Jasper può avanzare drasticamente nel lavoro dell’AI, compresa la formazione di reti GPT per adattare gli output dell’AI a tutti i livelli di complessità e granularità dell’utente finale. Ciò migliora l’accuratezza contestuale dei modelli generativi e consentirà a Jasper di personalizzare il contenuto attraverso più classi di clienti in modo rapido e semplice.
La nostra partnership consente a Jasper di inventare il futuro dell’intelligenza artificiale generativa, facendo cose che sono impraticabili o semplicemente impossibili con l’infrastruttura tradizionale, e di accelerare il potenziale dell’intelligenza artificiale generativa, portando i suoi benefici alla nostra base di clienti in rapida crescita in tutto il mondo.
In un recente comunicato stampa, il National Energy Technology Laboratory e il Pittsburgh Supercomputing Center hanno annunciato la prima simulazione di fluidodinamica computazionale mai realizzata sul motore wafer-scale di Cerebras. Potresti descrivere cosa è esattamente un motore wafer-scale e come funziona?
Il nostro Wafer-Scale Engine (WSE) è il processore AI rivoluzionario per il nostro sistema di calcolo dell’apprendimento profondo, il CS-2. A differenza dei processori legacy a scopo generale, il WSE è stato costruito fin dalle origini per accelerare l’apprendimento profondo: ha 850.000 core ottimizzati per l’AI per operazioni di tensori sparsi, una memoria su chip ad alta larghezza di banda e un collegamento tra chip di diversi ordini di grandezza più veloce di quanto potrebbe essere possibile con un cluster tradizionale. Nel complesso, fornisce le risorse di calcolo dell’apprendimento profondo equivalenti a un cluster di macchine legacy in un singolo dispositivo, facile da programmare come un singolo nodo – riducendo radicalmente la complessità di programmazione, il tempo di calcolo e il tempo di soluzione.
Il nostro secondo motore WSE-2, che alimenta il nostro sistema CS-2, può risolvere problemi estremamente veloci. Veloci abbastanza da consentire modelli in tempo reale e ad alta fedeltà di sistemi ingegneristici di interesse. È un raro esempio di “strong scaling” di successo, che è l’uso del parallelismo per ridurre il tempo di risoluzione con un problema di dimensioni fisse.
E questo è ciò che il National Energy Technology Laboratory e il Pittsburgh Supercomputing Center stanno utilizzando. Abbiamo appena annunciato alcuni risultati molto emozionanti di una simulazione di fluidodinamica computazionale, composta da circa 200 milioni di celle, a tassi quasi in tempo reale. Questo video mostra la simulazione ad alta risoluzione della convezione di Rayleigh-Bénard, che si verifica quando uno strato di fluido viene riscaldato dal basso e raffreddato dall’alto. Questi flussi di fluidi termicamente guidati sono tutti intorno a noi – dai giorni ventosi, alle tempeste di neve del lago, ai movimenti di magma nel nucleo terrestre e ai movimenti di plasma nel sole. Come dice il narratore, non è solo la bellezza visiva della simulazione che è importante: è la velocità con cui possiamo calcolarla. Per la prima volta, utilizzando il nostro Wafer-Scale Engine, il NETL è in grado di manipolare una griglia di quasi 200 milioni di celle in tempo reale.
Qual tipo di dati viene simulato?
Il carico di lavoro testato era flussi di fluidi termicamente guidati, noti anche come convezione naturale, che è un’applicazione della fluidodinamica computazionale (CFD). I flussi di fluidi si verificano naturalmente intorno a noi – dai giorni ventosi, alle tempeste di neve del lago, ai movimenti di placche tettoniche. Questa simulazione, composta da circa 200 milioni di celle, si concentra su un fenomeno noto come “convezione di Rayleigh-Bénard”, che si verifica quando un fluido viene riscaldato dal basso e raffreddato dall’alto. In natura, questo fenomeno può portare a eventi meteorologici estremi come downburst, microburst e derechos. È anche responsabile del movimento di magma nel nucleo terrestre e del movimento di plasma nel sole.
Nel novembre 2022, il NETL ha introdotto un nuovo API di modellazione di equazioni di campo che, alimentato dal sistema CS-2, era fino a 470 volte più veloce di quanto possibile sul supercomputer Joule di NETL. Ciò significa che poteva fornire velocità oltre quelle che possono essere raggiunte da cluster di CPU o GPU. Utilizzando un’API Python semplice che consente l’elaborazione wafer-scale per gran parte della scienza computazionale, WFA fornisce guadagni in termini di prestazioni e facilità d’uso che non possono essere ottenuti su computer e supercomputer convenzionali – in realtà, ha superato OpenFOAM sul supercomputer Joule 2.0 di NETL di oltre due ordini di grandezza nel tempo di soluzione.
A causa della semplicità dell’API WFA, i risultati sono stati ottenuti in sole poche settimane e continuano la stretta collaborazione tra NETL, PSC e Cerebras Systems.
Trasformando la velocità della CFD (che è sempre stata una task lenta e offline) sul nostro WSE, possiamo aprire un’intera gamma di nuovi casi d’uso in tempo reale per questo e molti altri core HPC. Il nostro obiettivo è che, abilitando più potenza di calcolo, i nostri clienti possano eseguire più esperimenti e inventare una scienza migliore. Il direttore del laboratorio NETL Brian Anderson ci ha detto che ciò accelererà drasticamente e migliorerà il processo di progettazione per alcuni progetti molto grandi su cui NETL sta lavorando per mitigare i cambiamenti climatici e consentire un futuro energetico sicuro – progetti come la cattura del carbonio e la produzione di idrogeno blu.
Cerebras è costantemente in grado di superare la concorrenza nella pubblicazione di supercomputer, quali sono alcune delle sfide dietro la costruzione di supercomputer all’avanguardia?
Ironia della sorte, una delle sfide più grandi dell’AI è il calcolo distribuito.
Per formare le reti neurali all’avanguardia di oggi, i ricercatori spesso utilizzano centinaia o migliaia di unità di elaborazione grafica (GPU). E non è facile. La scalabilità della formazione di modelli linguistici di grandi dimensioni su un cluster di GPU richiede la distribuzione di un carico di lavoro su molti dispositivi piccoli, gestione delle dimensioni della memoria del dispositivo e dei vincoli di larghezza di banda della memoria, e gestione accurata degli overload di comunicazione e sincronizzazione.
Abbiamo adottato un approccio completamente diverso alla progettazione dei nostri supercomputer attraverso lo sviluppo del cluster wafer-scale di Cerebras e della modalità di esecuzione Cerebras Weight Streaming. Con queste tecnologie, Cerebras affronta un nuovo modo di scalare basato su tre punti chiave:
La sostituzione dell’elaborazione CPU e GPU con acceleratori wafer-scale come il sistema CS-2 di Cerebras. Ciò riduce il numero di unità di calcolo necessarie per raggiungere una velocità di calcolo accettabile.
Per affrontare la sfida delle dimensioni del modello, impieghiamo un’architettura di sistema che disgrega il calcolo dall’archiviazione del modello. Un servizio di calcolo basato su un cluster di sistemi CS-2 (che fornisce una larghezza di banda di calcolo adeguata) è strettamente accoppiato a un servizio di memoria (con una grande capacità di memoria) che fornisce sottinsiemi del modello al cluster di calcolo su richiesta. Come al solito, un servizio di dati fornisce batch di dati di formazione al servizio di calcolo come necessario.
Un modello innovativo per la pianificazione e la coordinazione del lavoro di formazione su tutto il cluster CS-2 che impiega la parallelizzazione dei dati, la formazione layer per layer con pesi sparsi in streaming su richiesta e la conservazione delle attivazioni nel servizio di calcolo.
C’è stato il timore della fine della legge di Moore per quasi un decennio, quanti altri anni può strizzare l’industria e quali tipi di innovazioni sono necessarie per questo?
Penso che la domanda con cui tutti ci stiamo confrontando è se la legge di Moore – come scritta da Moore – è morta. Non ci vogliono più due anni per ottenere più transistor. Ora ci vogliono quattro o cinque anni. E quei transistor non arrivano allo stesso prezzo – arrivano a prezzi molto più alti. Quindi la domanda diventa, stiamo ancora ottenendo gli stessi benefici del passaggio da sette a cinque a tre nanometri? I benefici sono minori e costano di più, e quindi le soluzioni diventano più complesse del semplice chip.
Jack Dongarra, un importante architetto informatico, ha tenuto recentemente un discorso e ha detto: “Siamo diventati molto più bravi a fare FLOPs e a fare I/O”. È veramente vero. La nostra capacità di spostare i dati fuori dal chip è molto lenta rispetto alla nostra capacità di aumentare le prestazioni su un chip di molto. In Cerebras, siamo stati felici quando l’ha detto, perché valida la nostra decisione di costruire un chip più grande e spostare meno cose fuori dal chip. Fornisce anche alcune indicazioni sui modi futuri per rendere i sistemi con chip più performanti. C’è lavoro da fare, non solo per ottenere più FLOPs, ma anche per le tecniche per spostarli e per spostare i dati da chip a chip – anche da un chip molto grande a un altro chip molto grande.
C’è altro che vorresti condividere su Cerebras Systems?
Per meglio o per peggio, le persone spesso mettono Cerebras in questa categoria di “quelli dei chip veramente grandi”. Siamo stati in grado di fornire soluzioni convincenti per reti neurali molto, molto grandi, eliminando così la necessità di fare un calcolo distribuito doloroso. Credo che sia enormemente interessante e sia al cuore del motivo per cui i nostri clienti ci amano. Il dominio interessante per il 2023 sarà come fare grandi calcoli a un livello di accuratezza più alto, utilizzando meno FLOPs.
Il nostro lavoro sulla sparsità fornisce un approccio estremamente interessante. Non facciamo lavori che non ci avvicinano alla linea di meta, e moltiplicare per zero è una cattiva idea. Rilasceremo presto un paper molto interessante sulla sparsità, e credo che ci sarà più impegno nel cercare di capire come raggiungere questi punti efficienti e come farlo con meno potenza. E non solo per meno potenza e formazione; come possiamo minimizzare il costo e la potenza utilizzati nell’inferenza? Credo che la sparsità aiuti su entrambi i fronti.
Grazie per queste risposte approfondite, i lettori che desiderano saperne di più possono visitare Cerebras Systems.












