Connect with us

Andrew Feldman, Co-fondator și CEO al Cerebras Systems – Seria de interviuri

Interviuri

Andrew Feldman, Co-fondator și CEO al Cerebras Systems – Seria de interviuri

mm

Andrew este co-fondator și CEO al Cerebras Systems. El este un antreprenor dedicat împingerea limitelor în domeniul calculatoarelor. Înainte de Cerebras, el a co-fondat și a fost CEO al SeaMicro, un pionier al microservoarelor eficiente din punct de vedere energetic și cu lățime de bandă ridicată. SeaMicro a fost achiziționat de AMD în 2012 pentru 357 de milioane de dolari. Înainte de SeaMicro, Andrew a fost vicepreședinte al departamentului de management al produselor, marketing și dezvoltare de afaceri la Force10 Networks, care a fost ulterior vândută companiei Dell Computing pentru 800 de milioane de dolari. Înainte de Force10 Networks, Andrew a fost vicepreședinte al departamentului de marketing și dezvoltare corporativă la RiverStone Networks, de la înființarea companiei până la IPO în 2001. Andrew deține o diplomă de licență și un master de la Universitatea Stanford.

Cerebras Systems construiește o nouă clasă de sisteme de calcul, proiectate de la principii pentru scopul singular de a accelera inteligența artificială și de a schimba viitorul lucrului cu inteligența artificială.

Puteți împărtăși povestea de origine din spatele Cerebras Systems?

Co-fondatorii mei și eu am lucrat împreună la o companie anterioară, pe care am înființat-o împreună cu CTO-ul meu, Gary, în 2007, numită SeaMicro (care a fost vândută către AMD în 2012 pentru 334 de milioane de dolari). Co-fondatorii mei sunt unii dintre cei mai importanți arhitecți și ingineri de calculatoare din industrie – Gary Lauterbach, Sean Lie, JP Fricker și Michael James. Când ne-am reunit din nou în 2015, am scris două lucruri pe o tablă – că vrem să lucrăm împreună și că vrem să construim ceva care să transforme industria și să fie în Muzeul Istoriei Calculatoarelor, care este echivalentul Sălii de Faimă a Calculatoarelor. Am fost onorați când Muzeul Istoriei Calculatoarelor a recunoscut realizările noastre și a adăugat procesorul WSE-2 la colecția sa anul trecut, citând modul în care a transformat peisajul inteligenței artificiale.

Cerebras Systems este o echipă de pionieri în domeniul arhitecturii calculatoarelor, oameni de știință în domeniul calculatoarelor, cercetători în domeniul învățării profunde și ingineri de toate tipurile care iubesc ingineria fără teamă. Misiunea noastră, atunci când ne-am reunit, a fost să construim o nouă clasă de calculatoare pentru a accelera învățarea profundă, care a devenit una dintre cele mai importante sarcini de lucru ale timpului nostru.

Am realizat că învățarea profundă are cerințe computaționale unice, masive și în creștere. Și nu este bine potrivită cu mașinile legacy, cum ar fi unitățile de procesare grafică (GPU), care au fost proiectate fundamental pentru alte sarcini de lucru. Ca urmare, inteligența artificială de astăzi este limitată nu de aplicații sau idei, ci de disponibilitatea calculatoarelor. Testarea unei singure ipoteze noi – antrenarea unui nou model – poate dura zile, săptămâni sau chiar luni și poate costa sute de mii de dolari în timp de calcul. Acesta este un obstacol major în calea inovării.

Așa că originea Cerebras a fost să construim un tip nou de calculator, optimizat exclusiv pentru învățarea profundă, începând de la o foaie de hârtie curată. Pentru a îndeplini cerințele computaționale enorme ale învățării profunde, am proiectat și fabricat cel mai mare cip construit vreodată – Motorul la scară de wafer (WSE). Prin crearea primului procesor la scară de wafer din lume, am depășit provocări în domeniul proiectării, fabricației și ambalării – toate acestea fiind considerate imposibile pentru întreaga istorie a calculatoarelor de 70 de ani. Fiecare element al WSE este proiectat pentru a permite cercetarea învățării profunde la viteze și scară fără precedent, alimentând cel mai rapid supercalculator cu inteligență artificială din industrie, Cerebras CS-2.

Cu fiecare componentă optimizată pentru lucrul cu inteligența artificială, CS-2 oferă mai multă putere de calcul la un spațiu și o putere mai mică decât orice alt sistem. Acesta face acest lucru, reducând radical complexitatea programării, timpul de calcul și timpul până la soluție. În funcție de sarcina de lucru, de la inteligența artificială la calculatoarele de înaltă performanță, CS-2 oferă de sute sau mii de ori mai multă performanță decât alternativele legacy. CS-2 oferă resurse de calcul pentru învățarea profundă echivalente cu sute de GPU, oferind în același timp ușurința în programare, management și implementare a unui dispozitiv unic.

În ultimele luni, Cerebras pare să fie peste tot în știri, ce puteți spune despre noul supercalculator cu inteligență artificială Andromeda?

Am anunțat Andromeda în noiembrie anul trecut, și este unul dintre cele mai mari și mai puternice supercalculatoare cu inteligență artificială construite vreodată. Oferind mai mult de 1 Exaflop de calcul cu inteligență artificială și 120 Petaflops de calcul dens, Andromeda are 13,5 milioane de nuclee pe 16 sisteme CS-2 și este singurul supercalculator cu inteligență artificială care a demonstrat o scalare liniară aproape perfectă pe sarcini de lucru cu modele de limbaj mari. De asemenea, este foarte ușor de utilizat.

Ca o rememorare, cel mai mare supercalculator de pe Pământ – Frontier – are 8,7 milioane de nuclee. În numărul de nuclee brute, Andromeda este de peste o dată și jumătate mai mare. Face un alt tip de lucru, evident, dar acesta dă o idee despre amploare: aproape 100 de terabiți de lățime de bandă internă, aproape 20.000 de nuclee AMD Epyc care o alimentează și – în contrast cu supercalculatoarele uriașe care necesită ani pentru a fi puse în funcțiune – am pus Andromeda în funcțiune în trei zile și imediat după aceea, a început să ofere o scalare liniară aproape perfectă a inteligenței artificiale.

Laboratorul Național Argonne a fost primul nostru client care a utilizat Andromeda și a aplicat-o la o problemă care rupea clusterul lor de 2.000 de GPU numit Polaris. Problema consta în rularea unor modele generative foarte mari, GPT-3XL, plasând întregul genom Covid în fereastra de secvență, astfel încât puteți analiza fiecare gen în contextul întregului genom al Covid. Andromeda a rulat o sarcină de lucru genetică unică cu lungimi de secvență lungi (MSL de 10K) pe 1, 2, 4, 8 și 16 noduri, cu o scalare liniară aproape perfectă. Scalarea liniară este una dintre cele mai dorite caracteristici ale unui cluster mare. Andromeda a oferit o debit de 15,87X pe 16 sisteme CS-2, comparativ cu un singur CS-2, și o reducere a timpului de antrenare pentru a se potrivi.

Puteți spune despre parteneriatul cu Jasper care a fost anunțat la sfârșitul lunii noiembrie și ce înseamnă acesta pentru ambele companii?

Jasper este o companie foarte interesantă. Ei sunt lideri în conținut de inteligență artificială generativă pentru marketing, iar produsele lor sunt utilizate de peste 100.000 de clienți din întreaga lume pentru a scrie copii pentru marketing, reclame, cărți și multe altele. Este evident un spațiu foarte interesant și în creștere rapidă în acest moment. Anul trecut, am anunțat un parteneriat cu ei pentru a accelera adoptarea și a îmbunătăți acuratețea inteligenței artificiale generative în aplicații enterprise și de consum. Jasper utilizează supercalculatorul nostru Andromeda pentru a antrena modelele sale extrem de computațional intensive într-o fracțiune din timp. Acesta va extinde domeniul de aplicare al modelelor de inteligență artificială generativă pentru mase.

Cu puterea supercalculatorului Cerebras Andromeda, Jasper poate avansa dramatic lucrul cu inteligența artificială, inclusiv antrenarea rețelelor GPT pentru a se potrivi cu ieșirile inteligenței artificiale pentru toate nivelurile de complexitate și granularitate a utilizatorilor finali. Acesta îmbunătățește acuratețea contextuală a modelelor generative și va permite Jasper să personalizeze conținutul pe multiple clase de clienți rapid și ușor.

Parteneriatul nostru permite Jasper să inventeze viitorul inteligenței artificiale generative, făcând lucruri care sunt impracticabile sau pur și simplu imposibile cu infrastructura tradițională, și pentru a accelera potențialul inteligenței artificiale generative, aducând beneficiile sale bazei noastre de clienți în creștere rapidă din întreaga lume.

Într-un comunicat de presă recent comunicat de presă, Laboratorul Național pentru Tehnologie Energetică și Centrul de Supercalculatoare din Pittsburgh au anunțat primul simulare de dinamică a fluidelor computaționale pe Motorul la scară de wafer Cerebras. Puteți descrie ce este, în mod specific, un motor la scară de wafer și cum funcționează?

Motorul nostru Wafer-Scale Engine (WSE) este procesorul revoluționar de inteligență artificială pentru sistemul nostru de calculatoare pentru învățarea profundă, CS-2. În contrast cu procesoarele legacy, generale, WSE a fost construit de la zero pentru a accelera învățarea profundă: are 850.000 de nuclee optimizate pentru operațiuni de tensor sparși, o memorie masivă de bandă largă pe cip și interconectări de ordinul de mărime mai rapide decât ar putea realiza vreodată un cluster tradițional. În total, oferă resurse de calcul pentru învățarea profundă echivalente cu un cluster de mașini legacy, toate într-un singur dispozitiv, ușor de programat ca un singur nod – reducând radical complexitatea programării, timpul de calcul și timpul până la soluție.

Al doilea nostru motor WSE-2, care alimentează sistemul nostru CS-2, poate rezolva probleme extrem de rapid. Suficient de rapid pentru a permite modele în timp real, de înaltă fidelitate, ale sistemelor inginerești de interes. Este un exemplu rar de scalare puternică reușită, care este utilizarea paralelismului pentru a reduce timpul de rezolvare a unei probleme de dimensiune fixă.

Și acesta este ceea ce Laboratorul Național pentru Tehnologie Energetică și Centrul de Supercalculatoare din Pittsburgh utilizează. Am anunțat recent niște rezultate foarte interesante ale unei simulări de dinamică a fluidelor computaționale, formată din aproximativ 200 de milioane de celule, la rate aproape de timp real. Acest videoclip arată simularea de înaltă rezoluție a convecției Rayleigh-Bénard, care apare atunci când un strat de fluid este încălzit de la partea inferioară și răcit de la partea superioară. Aceste fluxuri de fluid termic sunt peste tot în jurul nostru – de la zilele vântoase, la furtuni de zăpadă pe lac, la curentul de magmă din centrul Pământului și mișcarea plasmei în Soare. Așa cum spune naratorul, nu este doar frumusețea vizuală a simulării care este importantă: este viteza cu care putem calcula-o. Pentru prima dată, utilizând Motorul nostru la scară de wafer, NETL este capabil să manipuleze o grilă de aproape 200 de milioane de celule în timp real.

Ce tip de date este simulat?

Sarcina de lucru testată a fost fluxurile de fluid termic, cunoscute și sub numele de convecție naturală, care este o aplicație a dinamicii fluidelor computaționale (CFD). Fluxurile de fluid apar natural peste tot în jurul nostru – de la zilele vântoase, la furtuni de zăpadă pe lac, la mișcarea plăcilor tectonice. Această simulare, formată din aproximativ 200 de milioane de celule, se concentrează pe un fenomen cunoscut sub numele de “convecție Rayleigh-Bénard”, care apare atunci când un fluid este încălzit de la partea inferioară și răcit de la partea superioară. În natură, acest fenomen poate duce la evenimente meteorologice severe, cum ar fi downbursturile, microbursturile și derecho. De asemenea, este responsabil pentru mișcarea magmei în centrul Pământului și mișcarea plasmei în Soare.

În noiembrie 2022, NETL a introdus o nouă interfață de programare a aplicațiilor (API) pentru ecuații de câmp, alimentată de sistemul CS-2, care a fost de până la 470 de ori mai rapidă decât ceea ce era posibil pe supercalculatorul Joule al NETL. Acesta poate oferi viteze dincolo de ceea ce pot realiza clusterul de procesoare centrale (CPU) sau unitățile de procesare grafică (GPU). Utilizând un API Python simplu care permite procesarea la scară de wafer pentru o mare parte a științei computaționale, WFA oferă câștiguri în performanță și utilizabilitate care nu pot fi obținute pe calculatoare și supercalculatoare convenționale – de fapt, a depășit OpenFOAM pe supercalculatorul Joule 2.0 al NETL cu peste două ordine de mărime în timpul până la soluție.

Datorită simplității API-ului WFA, rezultatele au fost obținute în doar câteva săptămâni și continuă colaborarea strânsă între NETL, PSC și Cerebras Systems.

Prin transformarea vitezei dinamicii fluidelor computaționale (care a fost întotdeauna o sarcină lentă, offline) pe Motorul nostru la scară de wafer, putem deschide o mulțime de noi cazuri de utilizare în timp real pentru aceasta și multe alte aplicații HPC de bază. Scopul nostru este ca, prin permiterea unei puteri de calcul mai mari, clienții noștri să poată efectua mai multe experimente și să inventeze o știință mai bună. Directorul laboratorului NETL, Brian Anderson, ne-a spus că acesta va accelera drastic și va îmbunătăți procesul de proiectare pentru unele proiecte foarte mari pe care NETL le lucrează pentru a atenua schimbările climatice și pentru a asigura un viitor energetic sigur – proiecte cum ar fi sechestrarea carbonului și producția de hidrogen albastru.

Cerebras este constant mai performant decât concurența atunci când vine vorba de lansarea de supercalculatoare, care sunt unele dintre provocările din spatele construirii de supercalculatoare de ultimă generație?

Ironizator, una dintre cele mai grele provocări ale inteligenței artificiale mari este nu inteligența artificială însăși. Este calculul distribuit.

Pentru a antrena rețelele neuronale de ultimă generație, cercetătorii utilizează adesea sute până la mii de unități de procesare grafică (GPU). Și nu este ușor. Scalarea antrenamentului de modele de limbaj mari pe un cluster de GPU necesită distribuirea unei sarcini de lucru pe multiple dispozitive mici, gestionarea dimensiunilor de memorie ale dispozitivului și a lățimii de bandă a memoriei, și gestionarea atentă a suprasarcinii de comunicare și sincronizare.

Am abordat o abordare complet diferită pentru proiectarea supercalculatoarelor noastre prin dezvoltarea Clusterului la scară de wafer Cerebras și a modului de execuție Cerebras Weight Streaming. Cu aceste tehnologii, Cerebras abordează o nouă modalitate de scalare pe baza a trei puncte cheie:

Înlocuirea procesării CPU și GPU prin acceleratoare la scară de wafer, cum ar fi sistemul Cerebras CS-2. Această schimbare reduce numărul de unități de calcul necesare pentru a obține o viteză de calcul acceptabilă.

Pentru a face față provocării dimensiunii modelului, utilizăm o arhitectură de sistem care disociază calculul de stocarea modelului. Un serviciu de calcul bazat pe un cluster de sisteme CS-2 (care oferă o lățime de bandă de calcul adecvată) este cuplat strâns cu un serviciu de memorie (cu o capacitate de memorie mare) care oferă subseturi ale modelului clusterului de calcul la cerere. Ca de obicei, un serviciu de date oferă loturi de date de antrenare serviciului de calcul, după cum este necesar.

Un model inovator pentru programarea și coordonarea lucrului de antrenare pe clusterul CS-2, care utilizează paralelismul dat, antrenamentul strat cu strat, cu ponderi sparse transmise la cerere și reținerea activărilor în serviciul de calcul.

Există teama sfârșitului Legii lui Moore de aproape un deceniu, câte mai multe ani poate industria să stoarcă și ce tipuri de inovații sunt necesare pentru aceasta?

Cred că întrebarea cu care ne confruntăm toți este dacă Legea lui Moore – așa cum a fost scrisă de Moore – este moartă. Nu mai durează doi ani pentru a obține mai multe tranzistoare. Acum durează patru sau cinci ani. Și aceste tranzistoare nu vin la același preț – vin la prețuri mult mai mari. Deci, întrebarea devine, mai obținem încă beneficiile trecerii de la șapte la cinci la trei nanometri? Beneficiile sunt mai mici și costă mai mult, și astfel soluțiile devin mai complicate decât simpla placă.

Jack Dongarra, un arhitect de calculatoare de top, a ținut recent o prelegere și a spus: “Am devenit mult mai buni la crearea de FLOP-uri și la crearea de I/O.” Acesta este realmente adevărat. Capacitatea noastră de a muta datele de pe cip este mult mai mică decât capacitatea noastră de a crește performanța pe un cip. La Cerebras, am fost fericiți când a spus asta, deoarece validează decizia noastră de a face un cip mai mare și de a muta mai puține lucruri de pe cip. De asemenea, oferă unele îndrumări pentru modalitățile viitoare de a face sisteme cu cipuri să funcționeze mai bine. Există lucru de făcut, nu doar pentru a stoarce mai multe FLOP-uri, ci și pentru a muta datele de pe cip pe cip – chiar și de la un cip foarte mare la un cip foarte mare.

Există altceva pe care ați dori să-l împărtășiți despre Cerebras Systems?

Pentru bine sau pentru rău, oamenii ne pun adesea pe Cerebras în categoria “băieților cu cipul foarte mare.” Am reușit să oferim soluții convingătoare pentru rețele neuronale foarte mari, eliminând astfel nevoia de a face calcul distribuit dureros. Cred că acesta este enorm de interesant și în inima motivului pentru care clienții noștri ne iubesc. Domeniul interesant pentru 2023 va fi modul de a face calcul mare pentru a obține o acuratețe mai mare, utilizând mai puține FLOP-uri.

Lucrul nostru asupra rarității oferă o abordare extrem de interesantă. Nu facem lucruri care nu ne mișcă spre linia de sosire. Înmulțirea cu zero este o idee proastă. Vom lansa în curând un articol foarte interesant despre raritate, și cred că va exista mai mult efort pentru a ajunge la aceste puncte eficiente și pentru a face acest lucru cu mai puțină putere. Și nu doar pentru antrenament; cum putem minimiza costul și puterea utilizate în inferență? Cred că raritatea ajută pe ambele fronturi.

Vă mulțumim pentru aceste răspunsuri detaliate; cititorii care doresc să afle mai multe trebuie să viziteze Cerebras Systems.

Antoine este un lider vizionar și partener fondator al Unite.AI, condus de o pasiune neclintita pentru a da forma și a promova viitorul inteligenței artificiale și al roboticii. Un antreprenor serial, el crede că inteligența artificială va fi la fel de disruptivă pentru societate ca și electricitatea, și este adesea prins vorbind cu entuziasm despre potențialul tehnologiilor disruptive și al inteligenței artificiale generale.

Ca futurist, el este dedicat explorării modului în care aceste inovații vor modela lumea noastră. În plus, el este fondatorul Securities.io, o platformă axată pe investiții în tehnologii de ultimă generație care redefinesc viitorul și reshapă întregi sectoare.