škrbina Andrew Feldman, suosnivač i izvršni direktor tvrtke Cerebras Systems - serija intervjua - Unite.AI
Povežite se s nama

Intervjui

Andrew Feldman, suosnivač i izvršni direktor tvrtke Cerebras Systems – serija intervjua

mm

Objavljeno

 on

Andrew je suosnivač i izvršni direktor tvrtke Cerebras sustavi. On je poduzetnik posvećen pomicanju granica u računalnom prostoru. Prije Cerebrasa, suosnivač je i bio izvršni direktor tvrtke SeaMicro, pionira energetski učinkovitih mikroposlužitelja velike propusnosti. SeaMicro je kupio AMD 2012. godine za 357 milijuna dolara. Prije SeaMicroa, Andrew je bio potpredsjednik za upravljanje proizvodima, marketing i BD u tvrtki Force10 Networks koja je kasnije prodana tvrtki Dell Computing za 800 milijuna dolara. Prije Force10 Networksa, Andrew je bio potpredsjednik marketinga i korporativnog razvoja u RiverStone Networksu od osnivanja tvrtke do IPO-a 2001. Andrew je diplomirao i magistrirao na Sveučilištu Stanford.

Cerebras Systems gradi novu klasu računalnih sustava, dizajniranih prema početnim načelima za jedinstveni cilj ubrzanja AI i promjene budućnosti AI rada.

Možete li podijeliti priču o nastanku iza Cerebras Systems?

Moji suosnivači i ja svi smo zajedno radili na prethodnom startupu koji smo moj tehnički direktor Gary i ja pokrenuli 2007., pod nazivom SeaMicro (koji je 2012. prodan AMD-u za 334 milijuna dolara). Moji suosnivači su neki od vodećih računalnih arhitekata i inženjera u industriji – Gary Lauterbach, Sean Lie, JP Fricker i Michael James. Kad smo ponovno okupili bend 2015., napisali smo dvije stvari na ploču – da želimo raditi zajedno i da želimo izgraditi nešto što će transformirati industriju i biti u Muzeju računalne povijesti, što je ekvivalent Compute Hall of Fame. Bili smo počašćeni kada je Muzej povijesti računala prepoznao naša postignuća i prošle godine dodao procesor WSE-2 svojoj kolekciji, navodeći kako je transformirao krajolik umjetne inteligencije.

Cerebras Systems tim je pionira računalnih arhitekata, računalnih znanstvenika, istraživača dubokog učenja i inženjera svih vrsta koji vole neustrašivo inženjerstvo. Naša misija kada smo se okupili bila je izgraditi novu klasu računala za ubrzavanje dubokog učenja, koje je postalo jedno od najvažnijih radnih opterećenja našeg vremena.

Shvatili smo da duboko učenje ima jedinstvene, ogromne i rastuće računalne zahtjeve. I nije dobro usklađen s naslijeđenim strojevima poput grafičkih procesorskih jedinica (GPU-ova), koji su temeljno dizajnirani za druge poslove. Kao rezultat toga, umjetna inteligencija danas nije ograničena aplikacijama ili idejama, već dostupnošću računala. Testiranje jedne nove hipoteze – obučavanje novog modela – može trajati danima, tjednima ili čak mjesecima i koštati stotine tisuća dolara u vremenu računanja. To je glavna prepreka inovacijama.

Dakle, geneza Cerebrasa bila je izgradnja nove vrste računala optimiziranog isključivo za duboko učenje, počevši od čistog lista papira. Kako bismo zadovoljili ogromne računalne zahtjeve dubinskog učenja, dizajnirali smo i proizveli najveći čip ikada napravljen – Wafer-Scale Engine (WSE). U stvaranju prvog svjetskog procesora veličine pločice, prevladali smo izazove u pogledu dizajna, izrade i pakiranja – što se sve smatralo nemogućim tijekom cijele 70-godišnje povijesti računala. Svaki element WSE-a dizajniran je kako bi omogućio istraživanje dubinskog učenja neviđenim brzinama i razmjerima, pogoneći najbrže AI superračunalo u industriji, Cerebras CS-2.

Sa svakom komponentom optimiziranom za rad s umjetnom inteligencijom, CS-2 pruža više računalnih performansi na manje prostora i manje energije nego bilo koji drugi sustav. To čini dok radikalno smanjuje složenost programiranja, vrijeme računanja zidnog sata i vrijeme do rješenja. Ovisno o opterećenju, od umjetne inteligencije do HPC-a, CS-2 pruža stotine ili tisuće puta više performansi od naslijeđenih alternativa. CS-2 pruža računalne resurse za dubinsko učenje ekvivalentne stotinama GPU-a, istovremeno pružajući jednostavnost programiranja, upravljanja i implementacije jednog uređaja.

Čini se da je Cerebras u posljednjih nekoliko mjeseci posvuda vijesti, što nam možete reći o novom AI superračunalu Andromeda?

Andromedu smo najavili u studenom prošle godine, a riječ je o jednom od najvećih i najmoćnijih AI superračunala ikada napravljenih. Isporučujući više od 1 Exaflop AI računanja i 120 Petaflopsa gustog izračuna, Andromeda ima 13.5 milijuna jezgri u 16 CS-2 sustava i jedino je AI superračunalo koje je ikada pokazalo gotovo savršeno linearno skaliranje na radnim opterećenjima velikog jezičnog modela. Također je vrlo jednostavan za korištenje.

Podsjetimo, najveće superračunalo na Zemlji – Frontier – ima 8.7 milijuna jezgri. U sirovom broju jezgri, Andromeda je više od jedan i pol puta veća. Očito radi drugačiji posao, ali ovo daje ideju o opsegu: gotovo 100 terabita interne širine pojasa, gotovo 20,000 XNUMX AMD Epyc jezgri ga napajaju i – za razliku od divovskih superračunala kojima su potrebne godine da se usprave – Andromedu smo postavili na noge u tri dana i odmah nakon toga, pružao je gotovo savršeno linearno skaliranje AI-ja.

Argonne National Labs bio je naš prvi kupac koji je koristio Andromedu i primijenili su je na problem koji je razbijao njihov klaster od 2,000 GPU-a pod nazivom Polaris. Problem je bio u pokretanju vrlo velikih, GPT-3XL generativnih modela, pri stavljanju cijelog genoma Covida u prozor sekvence, tako da možete analizirati svaki gen u kontekstu cijelog genoma Covida. Andromeda je pokrenula jedinstveno genetsko radno opterećenje s dugim duljinama sekvenci (MSL od 10 K) preko 1, 2, 4, 8 i 16 čvorova, s gotovo savršenim linearnim skaliranjem. Linearno skaliranje jedna je od najtraženijih karakteristika velikog klastera. Andromeda je isporučila propusnost od 15.87X u 16 CS-2 sustava, u usporedbi s jednim CS-2, i smanjenje vremena obuke za to.

Možete li nam reći nešto o partnerstvo s Jasperom koji je predstavljen krajem studenog i što to znači za obje tvrtke?

Jasper je stvarno zanimljiva tvrtka. Oni su vodeći u generativnom AI sadržaju za marketing, a njihove proizvode koristi više od 100,000 kupaca diljem svijeta za pisanje teksta za marketing, oglase, knjige i još mnogo toga. To je očito vrlo uzbudljiv i brzo rastući prostor upravo sada. Prošle smo godine najavili partnerstvo s njima kako bismo ubrzali usvajanje i poboljšali točnost generativne umjetne inteligencije u poslovnim i potrošačkim aplikacijama. Jasper koristi naše superračunalo Andromeda za treniranje svojih izuzetno računalno intenzivnih modela u djeliću vremena. Ovo će proširiti doseg generativnih AI modela na mase.

Sa snagom superračunala Cerebras Andromeda, Jasper može dramatično unaprijediti rad umjetne inteligencije, uključujući obuku GPT mreža da prilagode izlaze umjetne inteligencije svim razinama složenosti i granularnosti krajnjeg korisnika. Ovo poboljšava kontekstualnu točnost generativnih modela i omogućit će Jasperu da brzo i jednostavno personalizira sadržaj za više klasa korisnika.

Naše partnerstvo omogućuje Jasperu da izmisli budućnost generativne umjetne inteligencije, radeći stvari koje su nepraktične ili jednostavno nemoguće s tradicionalnom infrastrukturom, i da ubrza potencijal generativne umjetne inteligencije, donoseći njezine prednosti našoj brzo rastućoj bazi kupaca diljem svijeta.

U novije priopćenje za tisak, National Energy Technology Laboratory i Pittsburgh Supercomputing Center Pioneer najavili su prvu računalnu simulaciju dinamike fluida na Cerebras vaferskom motoru. Možete li opisati što je točno motor s vaferskom vagom i kako radi?

Naše Wafer-Scale Engine (WSE) je revolucionarni AI procesor za naš računalni sustav dubokog učenja, CS-2. Za razliku od naslijeđenih procesora opće namjene, WSE je izgrađen od temelja kako bi ubrzao dubinsko učenje: ima 850,000 XNUMX jezgri optimiziranih za umjetnu inteligenciju za operacije rijetkih tenzora, ogromnu memoriju na čipu visoke propusnosti i međusobno povezivanje redova veličine brže od tradicionalnog klaster bi eventualno mogao postići. Sve u svemu, daje vam računalne resurse za dubinsko učenje ekvivalentne klasteru naslijeđenih strojeva u jednom uređaju, koji se lako programira kao jedan čvor – radikalno smanjujući složenost programiranja, vrijeme računanja na zidnom satu i vrijeme do rješenja.

Naša druga generacija WSE-2, koja pokreće naš CS-2 sustav, može iznimno brzo riješiti probleme. Dovoljno brz da omogući modele visoke vjernosti projektiranih sustava od interesa u stvarnom vremenu. To je rijedak primjer uspješnog "jakog skaliranja", što je upotreba paralelizma za smanjenje vremena rješavanja problema fiksne veličine.

I to je ono za što ga koriste Nacionalni energetski tehnološki laboratorij i Pittsburgh Supercomputing Center. Upravo smo najavili neke zaista uzbudljive rezultate simulacije računalne dinamike fluida (CFD), sastavljene od oko 200 milijuna ćelija, pri brzinama gotovo u stvarnom vremenu.  Ovaj video prikazuje simulaciju Rayleigh-Bénardove konvekcije visoke rezolucije, koja se događa kada se sloj tekućine zagrijava s dna i hladi s vrha. Ovi toplinski vođeni tokovi tekućine svuda su oko nas – od vjetrovitih dana, do snježnih oluja s efektom jezera, do strujanja magme u zemljinoj jezgri i kretanja plazme na suncu. Kao što pripovjedač kaže, nije važna samo vizualna ljepota simulacije: važna je brzina kojom je možemo izračunati. Po prvi put, koristeći naš Wafer-Scale Engine, NETL može manipulirati mrežom od gotovo 200 milijuna ćelija u gotovo stvarnom vremenu.

Koja vrsta podataka se simulira?

Ispitano radno opterećenje bili su toplinski pokretani tokovi tekućine, poznati i kao prirodna konvekcija, što je primjena računalne dinamike fluida (CFD). Protoci tekućine prirodno se javljaju posvuda oko nas - od vjetrovitih dana, do snježnih oluja s efektom jezera, do pomicanja tektonskih ploča. Ova simulacija, sastavljena od oko 200 milijuna stanica, fokusira se na fenomen poznat kao "Rayleigh-Bénardova" konvekcija, koja se događa kada se tekućina zagrijava s dna i hladi s vrha. U prirodi, ovaj fenomen može dovesti do ozbiljnih vremenskih događaja kao što su downbursts, microbursts i derechos. Također je odgovoran za kretanje magme u zemljinoj jezgri i kretanje plazme na suncu.

Još u studenom 2022. NETL je predstavio novi API za modeliranje jednadžbi polja, pokretan CS-2 sustavom, koji je bio čak 470 puta brži od onoga što je bilo moguće na NETL-ovom Joule Superračunalu. To znači da bi mogao isporučiti brzine veće od onih koje mogu postići klasteri bilo kojeg broja CPU-a ili GPU-a. Korištenjem jednostavnog Python API-ja koji omogućuje obradu veličine vafera za veći dio računalne znanosti, WFA donosi dobitke u performansama i upotrebljivosti koji se ne mogu postići na konvencionalnim računalima i superračunalima – zapravo, nadmašio je OpenFOAM na NETL-ovom Joule 2.0 superračunalu za više od dva reda veličine u vremenu do rješenja.

Zbog jednostavnosti WFA API-ja, rezultati su postignuti u samo nekoliko tjedana i nastavak bliske suradnje između NETL-a, PSC-a i Cerebras Systemsa.

Transformacijom brzine CFD-a (koji je uvijek bio spor, off-line zadatak) na našem WSE-u, možemo otvoriti cijeli niz novih slučajeva korištenja u stvarnom vremenu za ovu i mnoge druge temeljne HPC aplikacije. Naš cilj je da omogućavanjem veće računalne snage naši klijenti mogu izvesti više eksperimenata i izmisliti bolju znanost. Ravnatelj laboratorija NETL-a Brian Anderson rekao nam je da će ovo drastično ubrzati i poboljšati proces dizajna za neke stvarno velike projekte na kojima NETL radi u vezi s ublažavanjem klimatskih promjena i omogućavanjem sigurne energetske budućnosti — projekti poput sekvestracije ugljika i proizvodnje plavog vodika.

Cerebras dosljedno nadmašuje konkurenciju kada je u pitanju izdavanje superračunala, koji su neki od izazova iza izgradnje najsuvremenijih superračunala?

Ironično, jedan od najtežih izazova velike umjetne inteligencije nije umjetna inteligencija. To je distribuirano računanje.

Kako bi trenirali današnje najsuvremenije neuronske mreže, istraživači često koriste stotine do tisuće jedinica za grafičku obradu (GPU). A nije lako. Skaliranje obučavanja velikog jezičnog modela preko klastera GPU-a zahtijeva raspodjelu radnog opterećenja na mnogo malih uređaja, rješavanje veličina memorije uređaja i ograničenja propusnosti memorije te pažljivo upravljanje komunikacijskim i sinkronizirajućim troškovima.

Zauzeli smo potpuno drugačiji pristup dizajniranju naših superračunala kroz razvoj Cerebras Wafer-Scale Cluster, A Cerebras Weight Streaming način izvršenja. S ovim tehnologijama Cerebras se bavi novim načinom skaliranja na temelju tri ključne točke:

Zamjena CPU i GPU obrade akceleratorima veličine vafera kao što je Cerebras CS-2 sustav. Ova promjena smanjuje broj računalnih jedinica potrebnih za postizanje prihvatljive brzine računanja.

Kako bismo odgovorili na izazov veličine modela, koristimo arhitekturu sustava koja razdvaja računanje od pohrane modela. Računalna usluga temeljena na klasteru CS-2 sustava (koji pruža odgovarajuću računsku propusnost) usko je povezana s memorijskom uslugom (s velikim memorijskim kapacitetom) koja na zahtjev pruža podskupove modela računalnom klasteru. Kao i obično, podatkovna usluga prema potrebi poslužuje serije podataka za obuku računalnoj usluzi.

Inovativni model za planiranje i koordinaciju rada na obuci preko CS-2 klastera koji koristi paralelizam podataka, obuku sloj po vrijeme s rijetkim težinama koje se prenose na zahtjev i zadržavanje aktivacija u računskoj usluzi.

Postoji strah od kraja Mooreova zakona već gotovo desetljeće, koliko još godina industrija može izgurati i koje su vrste inovacija potrebne za to?

Mislim da je pitanje s kojim se svi borimo je li Mooreov zakon – kako ga je Moore napisao – mrtav. Ne trebaju dvije godine da se dobije više tranzistora. Sada traje četiri ili pet godina. A ti tranzistori ne dolaze po istoj cijeni – oni dolaze po znatno višim cijenama. Postavlja se pitanje imamo li još uvijek iste prednosti prelaska sa sedam na pet na tri nanometra? Prednosti su manje i koštaju više, pa rješenja postaju kompliciranija od samog čipa.

Jack Dongarra, vodeći računalni arhitekt, nedavno je održao predavanje i rekao: "Puno smo bolji u izradi FLOP-ova i I/O." To je stvarno istina. Naša sposobnost premještanja podataka izvan čipa znatno zaostaje za našom sposobnošću povećanja performansi na čipu. U Cerebrasu smo bili sretni kad je to rekao, jer to potvrđuje našu odluku da napravimo veći čip i premjestimo manje stvari izvan čipa. Također pruža neke smjernice o budućim načinima da se sustavi s čipovima poboljšaju. Ima posla koji treba obaviti, ne samo iscijediti više FLOP-ova, već i tehnike za njihovo premještanje i premještanje podataka s čipa na čip — čak i s vrlo velikog čipa na vrlo veliki čip.

Postoji li još nešto što biste željeli podijeliti s Cerebras Systems?

U dobru i zlu, ljudi Cerebre često stavljaju u ovu kategoriju "momaka s velikim čipovima". Uspjeli smo pružiti uvjerljiva rješenja za vrlo, vrlo velike neuronske mreže, čime smo eliminirali potrebu za bolnim distribuiranim računalstvom. Vjerujem da je to iznimno zanimljivo i da je u središtu razloga zašto nas naši kupci vole. Zanimljiva domena za 2023. bit će kako napraviti velika izračunavanja s višom razinom točnosti, koristeći manje FLOP-ova.

Naš rad na rijetkosti pruža izuzetno zanimljiv pristup. Ne radimo posao koji nas ne pomiče prema gol-liniji, a množenje s nulom je loša ideja. Uskoro ćemo objaviti stvarno zanimljiv rad o rijetkosti i mislim da će biti više truda u traženju načina na koji možemo doći do ovih učinkovitih točaka i kako to učiniti za manje energije. I ne samo zbog manje snage i treninga; kako minimizirati troškove i snagu koja se koristi u zaključivanju? Mislim da rijetkost pomaže na oba fronta.

Hvala vam na ovim detaljnim odgovorima, čitatelji koji žele saznati više trebali bi posjetiti Cerebras sustavi.

Osnivač unite.AI i član udruge Forbesovo tehnološko vijeće, Antoine je a futurist koji je strastven prema budućnosti umjetne inteligencije i robotike.

Također je i osnivač Vrijednosni papiri.io, web stranica koja se fokusira na ulaganje u disruptivnu tehnologiju.