Connect with us

Intervjuer

Andrew Feldman, medgrunnlegger og CEO av Cerebras Systems – Intervju-serie

mm

Andrew er medgrunnlegger og CEO av Cerebras Systems. Han er en entreprenør som er dedikert til å drive grensene i regneområdet. Før Cerebras, var han medgrunnlegger og CEO av SeaMicro, en pionér innen energivennlige, høy-båndbredde mikroservere. SeaMicro ble kjøpt av AMD i 2012 for 357 millioner dollar. Før SeaMicro, var Andrew visepresident for produktledelse, markedsføring og BD i Force10 Networks, som senere ble solgt til Dell Computing for 800 millioner dollar. Før Force10 Networks, var Andrew visepresident for markedsføring og bedriftsutvikling i RiverStone Networks fra selskapets oppstart til børsnotering i 2001. Andrew har en BA og en MBA fra Stanford University.

Cerebras Systems bygger en ny klasse av datamaskiner, designet fra grunnen av for det ene målet å akselerere AI og endre fremtiden for AI-arbeid.

Kunne du dele opphavsfortellingen bak Cerebras Systems?

Mine medgrunnleggere og jeg arbeidet alle sammen i et tidligere startup som min CTO Gary og jeg startet tilbake i 2007, kalt SeaMicro (som ble solgt til AMD i 2012 for 334 millioner dollar). Mine medgrunnleggere er noen av de ledende datamaskinarkitektene og ingeniørene i bransjen – Gary Lauterbach, Sean Lie, JP Fricker og Michael James. Da vi samlet bandet igjen i 2015, skrev vi to ting på en hvit tavle – at vi ville jobbe sammen, og at vi ville bygge noe som ville transformere bransjen og være i Computer History Museum, som er ekvivalent til Compute Hall of Fame. Vi ble hedret da Computer History Museum anerkjente våre prestasjoner og la til WSE-2-prosessor i sin samling i fjor, med henvisning til hvordan den har transformert den kunstige intelligens-landskapet.

Cerebras Systems er et team av pionerende datamaskinarkitekter, datavitenskapsmenn, dyptelæring-forskere og ingeniører av alle typer som elsker å gjøre fryktløs ingeniørarbeid. Vår misjon da vi kom sammen var å bygge en ny klasse av datamaskin for å akselerere dyptelæring, som har steget som en av de viktigste arbeidsbyrdene i vår tid.

Vi innsett at dyptelæring har unike, massive og voksende beregningskrav. Og det er ikke godt sammenlignbart med legacy-maskiner som grafikkprosessorer (GPUs), som ble fundamentalt designet for annen arbeid. Som resultat er AI i dag begrenset ikke av applikasjoner eller ideer, men av tilgjengeligheten av beregning. Testing av en enkelt ny hypotese – trening av en ny modell – kan ta dager, uker eller sogar måneder og koste hundredtusener av dollar i beregnings tid. Det er en stor hindring for innovasjon.

Så opphavet til Cerebras var å bygge en ny type datamaskin optimalisert eksklusivt for dyptelæring, fra en ren ark. For å møte de enorme beregningskravene til dyptelæring, designet og produserte vi den største chippen noensinne bygget – Wafer-Scale Engine (WSE). Ved å lage verdens første wafer-skala prosessor, overvant vi utfordringer over design, fabrikasjon og emballasje – alle som hadde blitt ansett som umulige for hele 70-års historien til datamaskiner. Hvert element i WSE er designet for å muliggjøre dyptelæring-forskning i utenforliggende hastigheter og skala, og driver bransjens raskeste AI-superdatamaskin, Cerebras CS-2.

Med hver komponent optimalisert for AI-arbeid, leverer CS-2 mer beregningsytelse på mindre plass og mindre kraft enn noen annen system. Det gjør dette samtidig som det radikalt reduserer programmeringskompleksitet, vegghet-beregningstid og tid til løsning. Avhengig av arbeidsbyrde, fra AI til HPC, leverer CS-2 hundredvis eller tusenvis av ganger mer ytelse enn legacy-alternativer. CS-2 gir dyptelæring-beregningstilgang ekvivalent til hundredvis av GPUs, samtidig som det gir lett programmering, ledelse og distribusjon av en enkelt enhet.

Over de siste månedene ser Cerebras ut til å være overalt i nyhetene, hva kan du fortelle oss om den nye Andromeda AI-superdatamaskinen?

Vi annonserte Andromeda i november i fjor, og det er en av de største og kraftigste AI-superdatamaskinene noensinne bygget. Med over 1 Exaflop av AI-beregning og 120 Petaflops av tett beregning, har Andromeda 13,5 millioner kerner på 16 CS-2-systemer, og er den eneste AI-superdatamaskinen som noen gang har demonstrert nesten-perfekt lineær skala på store språkmodell-arbeidsbyrder. Det er også dødt enkelt å bruke.

Som en påminnelse, den største superdatamaskinen på jorden – Frontier – har 8,7 millioner kerner. I raw kjerne-telling, er Andromeda mer enn en og en halv gang større. Det gjør annen arbeid åpenbart, men dette gir en idé om omfanget: nesten 100 terabit internt båndbredde, nesten 20 000 AMD Epyc-kerner som matet det, og – i motsetning til gigant-superdatamaskinene som tar år å sette opp – vi satte Andromeda opp på tre dager og umiddelbart deretter, leverte det nesten-perfekt lineær skala av AI.

Argonne National Labs var vår første kunde til å bruke Andromeda, og de anvendte det på et problem som brøt deres 2 000 GPU-kluster kalt Polaris. Problemet var å kjøre svært store, GPT-3XL-generative modeller, samtidig som de satte hele Covid-genomet i sekvens-vinduet, så at du kunne analysere hver gen i sammenheng med hele genomet til Covid. Andromeda kjørte en unik genetisk arbeidsbyrde med lange sekvenslengder (MSL på 10K) på 1, 2, 4, 8 og 16 noder, med nesten-perfekt lineær skala. Lineær skala er blant de mest etterspurte egenskapene til en stor kluster. Andromeda leverte 15,87 ganger gjennomstrømming på 16 CS-2-systemer, sammenlignet med en enkelt CS-2, og en reduksjon i treningstid til å matche.

Kunne du fortelle oss om samarbeidet med Jasper som ble avduket i slutten av november og hva det betyr for begge selskapene?

Jasper er et veldig interessant selskap. De er en leder i generativ AI-innhold for markedsføring, og deres produkter brukes av mer enn 100 000 kunder verden over til å skrive kopi for markedsføring, annonser, bøker og mer. Det er åpenbart en veldig spennende og raskt voksende bransje akkurat nå. I fjor annonserte vi et samarbeid med dem for å akselerere adopsjon og forbedre nøyaktigheten av generativ AI over bedrifts- og forbrukerapplikasjoner. Jasper bruker vår Andromeda-superdatamaskin til å trene deres usedvanlig beregningsintensive modeller på en brøkdel av tiden. Dette vil utvide rekkevidden av generative AI-modeller til massene.

Med kraften til Cerebras Andromeda-superdatamaskin, kan Jasper dramatisk fremme AI-arbeid, inkludert trening av GPT-nettverk for å tilpasse AI-utdata til alle nivåer av slutbruker-kompleksitet og granularitet. Dette forbedrer kontekstuell nøyaktighet av generative modeller og vil enable Jasper til å personalisere innhold over flere klasser av kunder raskt og enkelt.

Vårt samarbeid tillater Jasper å oppfinne fremtiden for generativ AI, ved å gjøre ting som er upraktiske eller umulige med tradisjonell infrastruktur, og å akselerere potensialet for generativ AI, og bringe dens fordeler til vår raskt voksende kundebase verden over.

I en nylig pressemelding, annonserte National Energy Technology Laboratory og Pittsburgh Supercomputing Center Pioneer den første noen gang Computational Fluid Dynamics-simulering på Cerebras wafer-skala motor. Kunne du beskrive hva spesifikt er en wafer-skala motor og hvordan den fungerer?

Vår Wafer-Scale Engine (WSE) er den revolusjonære AI-prosessor for vår dyptelæring-datamaskin-system, CS-2. I motsetning til legacy, generell-formål prosessorer, ble WSE bygget fra grunnen av for å akselerere dyptelæring: det har 850 000 AI-optimerte kerner for sparse tensor-operasjoner, massive høy båndbredde på-chip-minne, og interkoblinger av flere størrelsesordener raskere enn en tradisjonell kluster kunne muligens oppnå. Alt i alt, gir det deg dyptelæring-beregningstilgang ekvivalent til en kluster av legacy-maskiner alle i en enkelt enhet, enkelt å programmere som en enkelt node – radikalt reduserer programmeringskompleksitet, vegghet-beregningstid og tid til løsning.

Vår andre generasjon WSE-2, som driver vår CS-2-system, kan løse problemer ekstremt raskt. Raskt nok til å tillate sanntids-, høy-fidelitets-modeller av konstruerte systemer av interesse. Det er et sjeldent eksempel på vellykket “strong scaling”, som er bruk av parallelisme for å redusere løsningstid med et fast størrelsesproblem.

Og det er hva National Energy Technology Laboratory og Pittsburgh Supercomputing Center bruker det til. Vi annonserte nylig noen veldig spennende resultater av en computational fluid dynamics (CFD)-simulering, bestående av omtrent 200 millioner celler, på nesten sanntid-rater. Denne videoen viser en høy-oppløst simulering av Rayleigh-Bénard-konveksjon, som skjer når en væske-lag er varmet fra bunnen og avkjølt fra toppen. Disse termisk-drevne fluid-strømmene er overalt rundt oss – fra blåse-dager, til innsjø-effekt-snowstorms, til magma-bevegelser i jordens kjerne og plasma-bevegelser i solen. Som fortelleren sier, er det ikke bare den visuelle skjønnheten av simuleringen som er viktig: det er hastigheten vi kan beregne det med. For første gang, ved å bruke vår Wafer-Scale Engine, er NETL i stand til å manipulere en rutenett på nesten 200 millioner celler i nesten sanntid.

Hva type data simuleres?

Arbeidsbyrden som ble testet, var termisk-drevne fluid-strømmer, også kjent som naturlig konveksjon, som er en anvendelse av computational fluid dynamics (CFD). Fluid-strømmer skjer naturlig overalt rundt oss – fra blåse-dager, til innsjø-effekt-snowstorms, til tektonisk plate-bevegelser. Denne simuleringen, bestående av omtrent 200 millioner celler, fokuserer på et fenomen kjent som “Rayleigh-Bénard”-konveksjon, som skjer når en væske er varmet fra bunnen og avkjølt fra toppen. I naturen, kan dette fenomenet føre til alvorlige vær-hendelser som downbursts, microbursts og derechos. Det er også ansvarlig for magma-bevegelser i jordens kjerne og plasma-bevegelser i solen.

Tilbake i november 2022, introduserte NETL en ny felt-ligningsmodellering-API, drevet av CS-2-systemet, som var opptil 470 ganger raskere enn hva som var mulig på NETLs Joule Supercomputer. Dette betyr at det kunne levere hastigheter utover hva enten cluster av noen antall CPUer eller GPUer kunne oppnå. Ved å bruke en enkel Python-API som muliggjør wafer-skala-prosesser for mye av computational science, leverer WFA gevinster i ytelse og brukervennlighet som ikke kunne oppnås på konvensjonelle datamaskiner og superdatamaskiner – faktisk, det overgikk OpenFOAM på NETLs Joule 2.0-superdatamaskin med over to størrelsesordener i tid til løsning.

Fordi av enkelheten til WFA-APIen, ble resultater oppnådd på bare noen uker og fortsetter det nære samarbeidet mellom NETL, PSC og Cerebras Systems.

Ved å transformere hastigheten til CFD (som alltid har vært en langsom, off-line-oppgave) på vår WSE, kan vi åpne opp en hel rekke nye, sanntids-anvendelser for dette, og mange andre kjerne-HPC-applikasjoner. Vårt mål er at ved å muliggjøre mer beregningskraft, kan våre kunder utføre flere eksperimenter og oppfinne bedre vitenskap. NETL-lab-sjef Brian Anderson har fortalt oss at dette vil dramatisk akselerere og forbedre design-prosessen for noen veldig store prosjekter som NETL jobber med rundt å mildne klimaendringer og muliggjøre en trygg energiframtid — prosjekter som karbonfangst og blå hydrogen-produksjon.

Cerebras er konsekvent overlegen konkurranse når det kommer til å slippe superdatamaskiner, hva er noen av utfordringene bak å bygge state-of-the-art superdatamaskiner?

Ironisk nok, er en av de hardeste utfordringene med stor AI, ikke AI selv. Det er distribuert beregning.

For å trene i dagens state-of-the-art neurale nettverk, bruker forskere ofte hundredvis til tusenvis av grafikkprosessorer (GPUs). Og det er ikke enkelt. Skalering av stor språkmodell-trening over en kluster av GPUer krever distribusjon av en arbeidsbyrde over mange små enheter, håndtering av enhet-minnehøyde og minne-båndbredde-begrensninger, og nøye håndtering av kommunikasjon og synkroniserings-overhod.

Vi har tatt en helt annen tilnærming til å designe våre superdatamaskiner gjennom utviklingen av Cerebras Wafer-Scale Cluster, og Cerebras Weight Streaming-utføringstilstand. Med disse teknologiene, adresserer Cerebras en ny måte å skala basert på tre nøkkel-punkter:

Erstatter CPU- og GPU-prosesser med wafer-skala akseleratorer som Cerebras CS-2-systemet. Denne endringen reduserer antallet beregnings-enheter nødvendig for å oppnå en akseptabel beregnings-hastighet.

For å møte utfordringen med modell-størrelse, bruker vi en system-arkitektur som skiller beregning fra modell-lagring. En beregnings-tjeneste basert på en kluster av CS-2-systemer (som gir tilstrekkelig beregnings-båndbredde) er tett koblet til en minne-tjeneste (med stor minne-kapasitet) som gir under-sett av modellen til beregnings-klustret på forespørsel. Som vanlig, en data-tjeneste serverer opp batcher av trening-data til beregnings-tjenesten når det er nødvendig.

En innovativ modell for planlegging og koordinering av trening-arbeid over CS-2-klustret som anvender data-parallellitet, lag-for-lag-trening med sparse vekter strømmet inn på forespørsel, og oppbevaring av aktiver i beregnings-tjenesten.

Det har vært frykt for slutten på Moores lov i nærmere ett tiår, hvor mange flere år kan industrien presse inn og hva slags innovasjoner er nødvendig for dette?

Jeg tror spørsmålet vi alle slåss med er om Moores lov – som skrevet av Moore – er død. Det tar ikke to år å få flere transistorer. Det tar nå fire eller fem år. Og disse transistorer kommer ikke til samme pris – de kommer i på en enormt høyere pris. Så spørsmålet blir, får vi fortsatt de samme fordelene med å gå fra syv til fem til tre nanometer? Fordelene er mindre og de koster mer, og løsningene blir mer kompliserte enn bare chippen.

Jack Dongarra, en ledende datamaskin-arkitekt, holdt en tale nylig og sa: “Vi har blitt mye bedre på å lage FLOPs og på å lage I/O.” Det er virkelig sant. Vår evne til å flytte data av-chip ligger etter vår evne til å øke ytelsen på en chip med en stor mengde. Hos Cerebras var vi glade når han sa det, fordi det validerer vår beslutning om å lage en større chip og flytte mindre ting av-chip. Det gir også noen veiledning på fremtidige måter å lage systemer med chipper som utfører bedre. Det er arbeid å gjøre, ikke bare å presse ut flere FLOPs, men også i teknikkene for å flytte dem og å flytte data fra chip til chip — selv fra veldig stor chip til veldig stor chip.

Er det noe annet du ville like å dele om Cerebras Systems?

For bedre eller verre, folk ofte setter Cerebras i denne kategorien av “de virkelig store chip-guttene.” Vi har vært i stand til å levere overbevisende løsninger for veldig, veldig store neurale nettverk, og dermed eliminere behovet for å gjøre smertefull distribuert beregning. Jeg tror det er enormt interessant og i hjertet av hvorfor våre kunder elsker oss. Det interessante domenet for 2023 vil være hvordan å gjøre stor beregning til en høyere nivå av nøyaktighet, ved å bruke færre FLOPs.

Vårt arbeid på sparsomhet gir en ekstremt interessant tilnærming. Vi gjør ikke arbeid som ikke flytter oss mot mål-linjen, og multiplisering med null er en dårlig idé. Vi vil slippe en veldig interessant artikkel om sparsomhet snart, og jeg tror det vil være mer fokus på å se hvordan vi kommer til disse effektive punktene, og hvordan vi gjør det for mindre kraft. Og ikke bare for mindre kraft og trening; hvordan vi minimiserer kostnaden og kraften brukt i inferens? Jeg tror sparsomhet hjelper på begge fronter.

Takk for disse dyptgående svarene, lesere som ønsker å lære mer bør besøke Cerebras Systems.

Antoine er en visjonær leder og grunnleggende partner i Unite.AI, drevet av en urokkelig lidenskap for å forme og fremme fremtiden for AI og robotikk. En seriegründer, han tror at AI vil være like disruptiv for samfunnet som elektrisitet, og blir ofte tatt i å tale om potensialet for disruptiv teknologi og AGI.
Som en futurist, er han dedikert til å utforske hvordan disse innovasjonene vil forme vår verden. I tillegg er han grunnleggeren av Securities.io, en plattform som fokuserer på å investere i banebrytende teknologier som omdefinerer fremtiden og omformer hele sektorer.