Connect with us

Andrew Feldman, Cerebras Systemsin perustaja ja toimitusjohtaja – Haastattelusarja

Haastattelut

Andrew Feldman, Cerebras Systemsin perustaja ja toimitusjohtaja – Haastattelusarja

mm

Andrew on Cerebras Systemsin perustaja ja toimitusjohtaja. Hän on yrittäjä, joka on omistautunut tietokoneiden kehittämiseen. Ennen Cerebrasia hän perusti ja toimi SeaMicron toimitusjohtajana, joka oli energiatehokkaiden, korkean kaistanleveyden mikropiirien edelläkävijä. SeaMicro myytiin AMD:lle vuonna 2012 357 miljoonalla dollarilla. Ennen SeaMicroa Andrew oli Force10 Networksin tuotejohtajan, markkinoinnin ja liiketoimintakehityksen varapuheenjohtaja, joka myytiin myöhemmin Dell Computingille 800 miljoonalla dollarilla. Ennen Force10 Networksia Andrew oli RiverStone Networksin markkinoinnin ja yrityskehityksen varapuheenjohtaja yrityksen perustamisesta vuonna 2001 alkaen. Andrew on suorittanut BA- ja MBA-tutkinnot Stanfordin yliopistossa.

Cerebras Systems on kehittämässä uuden sukupolven tietokonejärjestelmää, joka on suunniteltu alusta alkaen yksinomaan tekoälyä kiihdyttämiseksi ja tulevaisuuden tekoälytyön muuttamiseksi.

Voitko kertoa Cerebras Systemsin syntytarinan?

Minun perustajani ja minä kaikki työskentelimme yhdessä edellisessä startup-yrityksessä, jonka minun CTO Gary ja minä perustimme vuonna 2007, nimeltään SeaMicro (joka myytiin AMD:lle vuonna 2012 334 miljoonalla dollarilla). Minun perustajani ovat johtavia tietokonearkkitehteja ja insinöörejä teollisuudessa – Gary Lauterbach, Sean Lie, JP Fricker ja Michael James. Kun kokoonnumme uudelleen vuonna 2015, kirjoitimme kaksi asiaa valkotaululle – halusimme työskennellä yhdessä, ja halusimme rakentaa jotain, joka muuttaisi teollisuutta ja olisi Compute Hall of Famessa. Olimme kunnianhimoisia, kun Computer History Museum tunnusti saavutuksemme ja lisäsi WSE-2-prosessorin kokoelmaansa viime vuonna, mainiten, miten se on muuttanut tekoälymaiseman.

Cerebras Systems on uranuurtajien tietokonearkkitehtien, tietojenkäsittelytieteilijöiden, syvän oppimisen tutkijoiden ja insinöörien joukko, jotka rakastavat pelotonta insinööritöitä. Meidän tehtävämme, kun tulin yhteen, oli rakentaa uudenlainen tietokone syvän oppimisen kiihdyttämiseksi, josta on tullut yksi tärkeimmistä työkuormista meidän aikamme.

Totesimme, että syvä oppiminen on ainutlaatuinen, massiivinen ja kasvava laskennallinen vaatimus. Ja se ei ole hyvin sovitettu perinteisiin koneisiin, kuten grafiikkaprosessoreihin (GPU), jotka on suunniteltu perustuu muihin töihin. Tämän seurauksena tekoäly on tänään rajoitettu ei sovelluksista tai ideoista, vaan laskennan saatavuudesta. Yhden uuden hypoteesin testaaminen – uuden mallin koulutus – voi kestää päiviä, viikkoja tai jopa kuukausia ja maksaa satoja tuhansia dollareita laskennan aikana. Se on suuri este innovaatiolle.

Joten Cerebras-synty tapahtui rakentamaan uudenlaisen tietokoneen, joka on optimoitu yksinomaan syväoppimiseen, aloittaen puhtaalta paperilta. Toteuttaaksemme syvän oppimisen valtavat laskennalliset vaatimukset, suunnittelimme ja valmistimme historian suurimman piirin – Wafer-Scale Engine (WSE). Luomalla maailman ensimmäisen wafer-asteisen prosessorin, voitimme haasteita suunnittelun, valmistuksen ja pakkaamisen alueilla – kaikki, jotka olivat katsottu mahdottomiksi koko 70-vuotisen tietokoneiden historian ajan. Jokainen WSE:n elementti on suunniteltu mahdollistamaan syvän oppimisen tutkimusta ennennäkemättömällä nopeudella ja mittakaavalla, voimakkaampaa tekoälysupertietokonetta, Cerebras CS-2:ta.

Jokainen komponentti on optimoitu tekoälytyölle, CS-2 toimittaa enemmän laskennan suorituskykyä vähemmässä tilassa ja vähemmällä teholla kuin mikään muu järjestelmä. Se tekee tämän vähentämällä radikaalisti ohjelmoinnin monimutkaisuutta, seinäkellon laskenta-aikaa ja ratkaisun aikaa. Työkuorman mukaan, tekoälystä HPC:hen, CS-2 toimittaa satoja tai tuhansia kertoja enemmän suorituskykyä kuin perinteiset vaihtoehdot. CS-2 tarjoaa syvän oppimisen laskennan resursseja, jotka vastaavat satoja GPU:ita, samalla tarjoten yhden laitteen helppoutta ohjelmoinnissa, hallinnassa ja käyttöönotossa.

Cerebras on ollut kaikkialla uutisissa viime kuukausina, mitä voit kertoa uudesta Andromeda-tekoälysupertietokoneesta?

Ilmoitimme Andromedasta viime vuoden marraskuussa, ja se on yksi suurimmista ja tehokkaimmista tekoälysupertietokoneista, jotka on koskaan rakennettu. Toimittaen yli 1 Exaflop tekoälylaskennan ja 120 Petaflops tiheän laskennan, Andromeda on 13,5 miljoonalla ytimellä 16 CS-2-järjestelmässä, ja se on ainoa tekoälysupertietokone, joka on osoittanut lähes täydellisen lineaarisen skaalautuvuuden suurten kielen mallityökuormissa. Se on myös helppo käyttää.

Muistutuksena, maailman suurin supertietokone – Frontier – on 8,7 miljoonalla ytimellä. Raakaydinlaskennassa Andromeda on yli puolitoista kertaa suurempi. Se tekee toisenlaista työtä, mutta tämä antaa idean mittakaavasta: lähes 100 terabittiä sisäistä kaistanleveyttä, lähes 20 000 AMD Epyc-ydintä ruokkii sitä, ja – toisin kuin jättiläissupertietokoneet, jotka kestää vuosia pystyttää – pystytimme Andromedan kolmessa päivässä ja välittömästi sen jälkeen se toimitti lähes täydellistä lineaarista skaalautuvuutta tekoälylle.

Argonne National Labs oli ensimmäinen asiakkaamme, joka käytti Andromeda, ja he sovelsivat sitä ongelmaan, joka rikkoi heidän 2 000 GPU-klausterinsa nimeltä Polaris. Ongelma oli suorittaa hyvin suuria GPT-3XL-generatiivisia malleja asettaen koko Covid-geenin järjestelmään, jotta voitaisiin analysoida jokainen geeni koko Covid-geenin kontekstissa. Andromeda suoritti yksilöllisen geneettisen työkuorman pitkien jonojen pituuksilla (MSL 10K) 1, 2, 4, 8 ja 16 solmussa, lähes täydellisellä lineaarisella skaalautuvuudella. Lineaarisella skaalautuvuudella on yksi halutuimmista ominaisuuksista suuressa klausterissa. Andromeda toimitti 15,87-kertaisen läpipääsyajan 16 CS-2-järjestelmässä verrattuna yhteen CS-2:een, ja laskenta-ajan vähentämisen.

Voitko kertoa yhteistyöstä Jasperin kanssa, joka paljastettiin marraskuun lopussa, ja mitä se merkitsee molemmille yrityksille?

Jasper on mielenkiintoinen yritys. He ovat johtaja generatiivisessa tekoälysisällössä markkinoinnissa, ja heidän tuotteitaan käytetään yli 100 000 asiakkaalla ympäri maailmaa kirjoittamaan kopiota markkinoinnista, mainoksista, kirjoista ja muusta. Se on ilmiselvästi hyvin mielenkiintoinen ja nopeasti kasvava ala tällä hetkellä. Viime vuonna ilmoitimme yhteistyöstä heidän kanssaan kiihdyttääksemme generatiivisen tekoälyn omaksumista ja parantaaksemme sen tarkkuutta yritys- ja kuluttajasovelluksissa. Jasper käyttää Andromeda-supertietokonetta kouluttamaan hänen erittäin laskennalliset mallinsa murto-osassa ajasta. Tämä laajentaa generatiivisten tekoälymallien ulottuvuutta massoihin.

Andromeda-supertietokoneen avulla Jasper voi dramaattisesti edistää tekoälytyötä, mukaan lukien GPT-verkkojen koulutus tekoälytuloksien sovittamiseksi kaikkiin loppukäyttäjien monimutkaisuuden ja yksityiskohtaisuuden tasoille. Tämä parantaa generatiivisten mallien kontekstuaalista tarkkuutta ja mahdollistaa Jasperin nopeasti ja helposti räätälöidä sisältöä useille asiakasluokille.

Meidän yhteistyömme mahdollistaa Jasperin keksimään generatiivisen tekoälyn tulevaisuuden, tekemällä asioita, jotka ovat epämukavia tai mahdottomia perinteisellä infrastruktuurilla, ja kiihdyttääksemme generatiivisen tekoälyn potentiaalia, tuomalla sen hyödyt nopeasti kasvavaan asiakaskuntaamme ympäri maailmaa.

Viimeisimmässä lehdistötiedotteessa National Energy Technology Laboratory ja Pittsburgh Supercomputing Center ilmoittivat ensimmäisen koskaan laskennallisen fluididynamiikan simulaation Cerebras Wafer-Scale Enginen avulla. Voitko kuvata, mitä erityisesti on Wafer-Scale Engine ja miten se toimii?

Meidän Wafer-Scale Engine (WSE) on vallankumouksellinen tekoälyprosessori syvän oppimisen tietokonejärjestelmälle, CS-2. Toisin kuin perinteiset, yleispurpose-prosessorit, WSE on rakennettu alusta alkaen kiihdyttämään syvää oppimista: sillä on 850 000 tekoälyoptimoitua ydintä harvojen tensorioperaatioiden suorittamiseksi, massiivinen korkean kaistanleveyden muisti piirillä ja yhdistäminen, joka on useita kertaa nopeampi kuin perinteinen klausteri voisi koskaan saavuttaa. Kaikki yhdessä antavat sinulle syvän oppimisen laskennan resursseja, jotka vastaavat klausteria perinteisistä koneista, kaikki yhdessä laitteessa, helppo ohjelmoida yhtenä solmuna – radikaalisti vähentämällä ohjelmoinnin monimutkaisuutta, seinäkellon laskenta-aikaa ja ratkaisun aikaa.

Meidän toisen sukupolven WSE-2, joka pyörittää meidän CS-2-järjestelmää, voi ratkaista ongelmia erittäin nopeasti. Tarpeeksi nopeasti sallimaan reaaliaikaiset, korkean tarkkuuden mallit suunnitelluista järjestelmistä. Se on harvinainen esimerkki onnistuneesta “vahvasta skaalautumisesta”, joka on rinnakkaisuuden käyttäminen laskenta-ajan vähentämiseksi kiinteän kokoisella ongelmalla.

Ja se on sitä, mihin National Energy Technology Laboratory ja Pittsburgh Supercomputing Center käyttävät sitä. Meidän ilmoitimme juuri jännittäviä tuloksia laskennallisesta fluididynamiikan simulaatiosta, joka koostuu noin 200 miljoonasta solusta, lähes reaaliajassa. Tämä video näyttää korkean tarkkuuden simulaation Rayleigh-Bénard-konvektiosta, joka tapahtuu, kun fluidikerros lämmitetään alhaalta ja jäähtyy ylhäältä. Nämä termisesti aikaansaadut fluidivirtaukset ovat kaikkialla ympärillämme – tuulisen päivän, järven lumimyrskyihin, maan ydinten magmaan ja plasman liikkeeseen aurinkossa. Kuten kertoja sanoo, ei ole vain visuaalinen kauneus simulaatiosta, joka on tärkeää: se on nopeus, jolla laskemme sen.

Mitä tyyppistä dataa simuloitiin?

Työkuorma, joka testattiin, oli termisesti aikaansaadut fluidivirtaukset, jotka ovat soveltamista laskennallisesta fluididynamiikasta (CFD). Fluidivirtaukset tapahtuvat luonnostaan kaikkialla ympärillämme – tuulisen päivän, järven lumimyrskyihin, maanlaattojen liikkeeseen ja plasman liikkeeseen aurinkossa. Tämä simulaatio, joka koostuu noin 200 miljoonasta solusta, keskittyy ilmiöön, jota kutsutaan “Rayleigh-Bénard”-konvektioksi, joka tapahtuu, kun fluidi lämmitetään alhaalta ja jäähtyy ylhäältä. Luonnossa tämä ilmiö voi johtaa vakaviin sääilmiöihin, kuten downbursteihin, microbursteihin ja derechoihin. Se on myös vastuussa maan ytimen magman liikkeestä ja plasman liikkeestä aurinkossa.

Viime vuoden marraskuussa NETL esitteli uuden kenttäyhtälön mallintamis-API:n, joka perustui CS-2-järjestelmään, joka oli jopa 470 kertaa nopeampi kuin mitä oli mahdollista NETL:n Joule-supertietokoneella. Tämä tarkoitti, että se voi toimittaa nopeuksia, jotka ylittävät sekä mitä tahansa määrää CPU:ita tai GPU:ita voi saavuttaa. Käyttäen yksinkertaista Python-API:aa, joka mahdollistaa wafer-tason prosessoinnin suuressa osassa laskennallista tieteenala, WFA toimittaa suorituskyvyn ja käytettävyyden parannukset, joita ei voi saavuttaa perinteisillä tietokoneilla ja supertietokoneilla – se ylitti OpenFOAM:n NETL:n Joule 2.0-supertietokoneella yli kaksi kertaa suorituskyvyssä ajan mukana.

Koska WFA-API on yksinkertainen, tulokset saavutettiin vain muutamassa viikossa ja jatkavat läheistä yhteistyötä NETL:n, PSC:n ja Cerebras Systemsin välillä.

Muuttaessamme laskennallisen fluididynamiikan nopeutta meidän WSE:llä, voimme avata uuden joukon uusia, reaaliaikaisia sovelluksia tähän ja moneen muuhun ydinteollisuuden sovellukseen. Meidän tavoitteemme on, että mahdollistamalla enemmän laskentatehoa, asiakkaamme voivat suorittaa enemmän kokeita ja keksivät paremman tieteen. NETL-laboratorion johtaja Brian Anderson on kertonut meille, että tämä vauhdittaa ja parantaa suuresti suunnitteluprosessia joillekin suurille hankkeille, joissa NETL on mukana ilmastonmuutoksen hillitsemiseksi ja turvallisen energiatulevaisuuden mahdollistamiseksi – hankkeista, kuten hiilensidonta ja blue hydrogenin tuotanto.

Cerebras on jatkuvasti ylittänyt kilpailun julkaisemalla supertietokoneita, mitkä ovat haasteita rakentaa huipputason supertietokoneita?

Ironisesti yksi suurimmista haasteista suuressa tekoälyssä ei ole tekoäly. Se on jakautunut laskenta.

Kouluttaaksesi tämän päivän huipputason neuroverkkoja, tutkijat usein käyttävät satoja tai tuhansia grafiikkaprosessoreita (GPU). Ja se ei ole helppoa. Suurten kielen mallien koulutuksen skaalauttaminen GPU-klausterissa vaatii työkuorman jakamisen useiden pienien laitteiden välillä, laitteiston muistin koon ja muistin kaistanleveyden rajoitusten hallinnan ja tarkkaa viestintä- ja synkronointikustannusten hallintaa.

Olemme ottaneet täysin erilaisen lähestymistavan suunniteltaessa meidän supertietokoneita Wafer-Scale Clusterin kehityksen kautta ja Cerebras Weight Streaming -suoritustila. Nämä teknologiat Cerebras vastaa uuden skaalautumistavan kolmella avainkohdalla:

CPU- ja GPU-prosessorien korvaaminen wafer-tason kiihdyttimillä, kuten Cerebras CS-2-järjestelmällä. Tämä muutos vähentää laskentayksiköiden määrää, jota tarvitaan hyväksyttävän laskenta-nopeuden saavuttamiseksi.

Mallin koosta vastaamaan, käytämme järjestelmäarkkitehtuuria, joka erottaa laskennan mallin tallennuksesta. Laskentapalvelu, joka perustuu CS-2-järjestelmien klausteriin (joka tarjoaa riittävän laskenta-kaistanleveyden), on tiiviisti kytketty muistipalveluun (jossa on suuri muistikapasiteetti), joka tarjoaa mallin osia laskenta-klausterille tarpeen mukaan. Kuten yleensä, datapalvelu palvelee koulutusdata-erän laskentapalvelulle tarpeen mukaan.

Innovaattorinen malli koulutustyön ajoitukselle ja koordinoinnille yli CS-2-klausterin, joka käyttää data-rinnakkaisuutta, kerros kerrallaan koulutusta harvojen painotusten kanssa ja aktivaatioiden säilyttämistä laskentapalvelussa.

On ollut pelkoja Mooren lain loppumisesta lähes vuosikymmenen ajan, kuinka monta vuotta teollisuus voi puristaa siitä irti ja mitä innovaatioita tarvitaan tähän?

Luulen, että kysymys, jota me kaikki kamppailemme, on, onko Mooren laki – kuten Moore on kirjoittanut – kuollut. Se ei kestä kahden vuoden aikaa saada enemmän transistoreja. Se kestää nyt neljä tai viisi vuotta. Ja nämä transistorit eivät tule samalla hinnalla – ne tulevat paljon korkeammalla hinnalla. Joten kysymys on, saammeko edelleen samat edut siirtymällä seitsemästä viiteen kolmeen nanometriin? Edut ovat pienemmät, ja ne maksavat enemmän, ja ratkaisut tulevat monimutkaisemmiksi kuin vain prosessorin.

Jack Dongarra, johtava tietokonearkkitehti, piti puheen äskettäin ja sanoi: “Olemme parantaneet paljon FLOPsin ja I/O:n tekemisessä.” Se on todella totta. Meidän kykymme siirtää dataa piirin ulkopuolelle jää jälkeen meidän kykymme lisätä suorituskykyä piirillä. Cerebrasissa olimme iloisia, kun hän sanoi sen, koska se vahvistaa meidän päätöstämme tehdä isompi piiri ja siirtää vähemmän asioita piirin ulkopuolelle. Se antaa myös joitain ohjeita tulevaisuuden systeemien tekemiseen, joissa piirit toimivat paremmin. On työtä tehtävänä, ei vain saada enemmän FLOPseja, vaan myös keinoja siirtää ne ja siirtää dataa piiristä toiseen – jopa erittäin suuresta piiristä toiseen.

Onko mitään muuta, mitä haluaisit jakaa Cerebras Systemsista?

Parasta tai huonointa, ihmiset usein laittavat Cerebrasin tähän “todella suuren piirin” kategoriaan. Olemme pystyneet tarjoamaan vakuuttavia ratkaisuja hyvin suurille neuroverkoille, poistamalla tarpeen tehdä tuskallista jakautunutta laskentaa. Uskon, että se on erittäin mielenkiintoista ja sydämessä siitä, miksi asiakkaamme rakastavat meitä. Mielenkiintoinen alue vuodelle 2023 on, miten tehdä suurta laskentaa korkeampaan tarkkuuteen käyttäen vähemmän FLOPseja.

Meidän työmme harvassa antaa erittäin mielenkiintoisen lähestymistavan. Emme tee työtä, joka ei vie meitä kohti maaliviivaa, ja nolla-kertoja on huono idea. Julkaistaan erittäin mielenkiintoinen paperi harvassa pian, ja luulen, että siellä on enemmän työtä katsomassa, miten pääsemme näihin tehokkaisiin pisteisiin ja miten tehdä niin vähemmällä teholla. Ja ei vain vähemmän teholla ja koulutuksessa; miten vähentää kustannuksia ja tehoa myös inferencessa. Luulen, että harvassa auttaa molemmillarinteillä.

Kiitos näistä syvällisistä vastauksista, lukijat, jotka haluavat oppia lisää, kannattaa vierailla Cerebras Systems.

Antoine on visionäärinen johtaja ja Unite.AI:n perustajakumppani, jota ohjaa horjumaton intohimo muokata ja edistää tulevaisuuden tekoälyä ja robottiikkaa. Sarjayrittäjänä hän uskoo, että tekoäly tulee olemaan yhtä mullistava yhteiskunnalle kuin sähkö, ja hänestä usein kuuluu ylistyksiä mullistavien teknologioiden ja AGI:n mahdollisuuksista.
Hänen ollessaan futuristi, hän on omistautunut tutkimiseen, miten nämä innovaatiot muokkaavat maailmaamme. Lisäksi hän on Securities.io:n perustaja, joka on alusta, joka keskittyy sijoittamiseen uraauurtaviin teknologioihin, jotka määrittelevät uudelleen tulevaisuuden ja muokkaavat koko sektoreita.