Connect with us

Andrew Feldman, medstifter og CEO af Cerebras Systems – Interview Serie

Interviews

Andrew Feldman, medstifter og CEO af Cerebras Systems – Interview Serie

mm

Andrew er medstifter og CEO af Cerebras Systems. Han er en iværksætter, der er dedikeret til at udvide grænserne i beregningsområdet. Før Cerebras var han medstifter og CEO af SeaMicro, en pioner inden for energivenlige, høj-båndbredds mikroservere. SeaMicro blev købt af AMD i 2012 for 357 millioner dollars. Før SeaMicro var Andrew Vice President for Produktledelse, Marketing og BD hos Force10 Networks, som senere blev solgt til Dell Computing for 800 millioner dollars. Før Force10 Networks var Andrew Vice President for Marketing og Corporate Development hos RiverStone Networks fra virksomhedens oprettelse til IPO i 2001. Andrew har en BA og en MBA fra Stanford University.

Cerebras Systems bygger en ny klasse af computersystemer, designet fra bunden til kun ét formål: at accelerere AI og ændre fremtiden for AI-arbejde.

Kan du dele historien om Cerebras Systems’ oprindelse?

Mine medstiftere og jeg arbejdede alle sammen i en tidligere startup, som min CTO Gary og jeg startede tilbage i 2007, kaldet SeaMicro (som blev solgt til AMD i 2012 for 334 millioner dollars). Mine medstiftere er nogle af de førende computerarkitekter og ingeniører i branchen – Gary Lauterbach, Sean Lie, JP Fricker og Michael James. Da vi fik banden sammen igen i 2015, skrev vi to ting på en whiteboard – at vi ville arbejde sammen, og at vi ville bygge noget, der ville transformere branchen og være i Computer History Museum, som er det samme som Compute Hall of Fame. Vi var æret, da Computer History Museum anerkendte vores præstationer og tilføjede WSE-2 processor til sin samling sidste år, med henvisning til, hvordan det har transformeret den kunstige intelligenslandskab.

Cerebras Systems er et hold af pionerende computerarkitekter, computerspecialister, dybtlæringforskere og ingeniører af alle typer, der elsker at udføre frygtløs ingeniørarbejde. Vores mission, da vi kom sammen, var at bygge en ny klasse af computer til at accelerere dybtlæring, som er steget som en af de vigtigste arbejdsbyrder i vores tid.

Vi indså, at dybtlæring har unikke, massive og voksende beregningskrav. Og det er ikke godt matchet af arvemaskiner som grafikprocessorer (GPUs), som grundlæggende var designede til andre formål. Som resultat er AI i dag begrænset ikke af applikationer eller ideer, men af tilgængeligheden af beregning. Test af en enkelt ny hypotese – træning af en ny model – kan tage dage, uger eller endda måneder og koste hundredtusinder af dollars i beregnings tid. Det er en stor hindring for innovation.

Så oprindelsen til Cerebras var at bygge en ny type computer, der er optimeret udelukkende til dybtlæring, fra en ren bog. For at imødekomme de enorme beregningskrav til dybtlæring designede og fremstillede vi den største chip, der nogensinde er bygget – Wafer-Scale Engine (WSE). Ved at skabe verdens første wafer-skala processor overvandt vi udfordringer på tværs af design, fabrikation og emballage – alle, som havde været betragtet som umulige for hele den 70-årige historie af computere. Hvert element i WSE er designet til at muliggøre dybtlæring på uhørt hastighed og skala, og driver branchens hurtigste AI-supercomputer, Cerebras CS-2.

Med hver komponent optimeret til AI-arbejde leverer CS-2 mere beregningsydeevne på mindre plads og mindre strøm end noget andet system. Det gør dette, samtidig med at det radikalt reducerer programmeringskompleksitet, vægur-beregningstid og tid til løsning. Afhængigt af arbejdsbyrde, fra AI til HPC, leverer CS-2 hundredvis eller tusindvis af gange mere ydeevne end legacy-alternativer. CS-2 giver dybtlæringsberegningstilgængelighed svarende til hundredvis af GPUs, samtidig med at det giver let programmering, administration og installation af en enkelt enhed.

I de sidste få måneder synes Cerebras at være overalt i nyhederne, hvad kan du fortælle os om den nye Andromeda AI-supercomputer?

Vi annoncerede Andromeda i november sidste år, og det er en af de største og mest kraftfulde AI-supercomputere, der nogensinde er bygget. Den leverer mere end 1 Exaflop af AI-beregning og 120 Petaflops af tæt beregning, Andromeda har 13,5 millioner kerner på tværs af 16 CS-2 systemer og er den eneste AI-supercomputer, der nogensinde har demonstreret næsten perfekt lineær skalerbarhed på store sprogmodellarbejdsbyrder. Det er også dødt simpelt at bruge.

For at mindske, den største supercomputer på jorden – Frontier – har 8,7 millioner kerner. I raw kerneantal er Andromeda mere end en og en halv gang større. Det gør noget andet arbejde åbenbart, men dette giver en idé om omfanget: næsten 100 terabit internt båndbredde, næsten 20.000 AMD Epyc-kerner giver det føde, og – til forskel fra de kæmpestore supercomputere, der tager år at oprette – vi oprettede Andromeda på tre dage og straks derefter leverede den næsten perfekt lineær skalerbarhed af AI.

Argonne National Labs var vores første kunde til at bruge Andromeda, og de anvendte det til et problem, der brød deres 2.000 GPU-klynge kaldet Polaris. Problemet var at køre meget store, GPT-3XL generative modeller, samtidig med at de satte hele Covid-genomet i sekvensvinduet, så du kunne analysere hver gen i sammenhæng med hele Covid-genomet. Andromeda kørte en unik genetisk arbejdsbyrde med lange sekvenslængder (MSL på 10K) på tværs af 1, 2, 4, 8 og 16 noder, med næsten perfekt lineær skalerbarhed. Lineær skalerbarhed er blandt de mest efterspurgte egenskaber af en stor klynge. Andromeda leverede 15,87 gange gennemstrømning på tværs af 16 CS-2 systemer i forhold til en enkelt CS-2, og en reduktion i træningstid tilsvarende.

Kan du fortælle os om partnerskabet med Jasper, der blev offentliggjort i slutningen af november, og hvad det betyder for begge virksomheder?

Jasper er en virkelig interessant virksomhed. De er en leder inden for generativ AI-indhold til marketing, og deres produkter bruges af mere end 100.000 kunder verden over til at skrive kopi til marketing, annoncer, bøger og mere. Det er åbenbart et meget spændende og hurtigt voksende område lige nu. Sidste år annoncerede vi et partnerskab med dem for at accelerere antagelse og forbedre nøjagtigheden af generativ AI på tværs af virksomheds- og forbrugerapplikationer. Jasper bruger vores Andromeda-supercomputer til at træne deres ekstremt beregningsintensive modeller på en brøkdel af tiden. Dette vil udvide rækkevidden af generative AI-modeller til masserne.

Med kraften fra Cerebras Andromeda-supercomputer kan Jasper dramatisk fremme AI-arbejde, herunder træning af GPT-netværk til at tilpasse AI-udgange til alle niveauer af slutbrugerkompleksitet og granularitet. Dette forbedrer kontekstuel nøjagtighed af generative modeller og vil enable Jasper til at personificere indhold på tværs af multiple klasser af kunder hurtigt og let.

Vores partnerskab giver Jasper mulighed for at opfinde fremtiden for generativ AI, ved at gøre ting, der er upraktiske eller simpelthen umulige med traditionel infrastruktur, og til at accelerere potentialet for generativ AI, og bringe dens fordele til vores hurtigt voksende kundebase verden over.

I en seneste pressemeddelelse annoncerede National Energy Technology Laboratory og Pittsburgh Supercomputing Center, at de var pionerer inden for den første nogensinde Computational Fluid Dynamics Simulation på Cerebras wafer-skala motor. Kan du beskrive, hvad en wafer-skala motor er, og hvordan den fungerer?

Vores Wafer-Scale Engine (WSE) er den revolutionerende AI-processor til vores dybtlæringscomputersystem, CS-2. Til forskel fra legacy, generelle formål processorer, blev WSE bygget fra bunden til at accelerere dybtlæring: det har 850.000 AI-optimerede kerner til sparse tensoroperationer, massive høj båndbredde på-chip hukommelse og interconnect orders of magnitude hurtigere end en traditionel klynge kunne muligt opnå. Alt i alt giver det dig dybtlæringsberegningstilgængelighed svarende til en klynge af legacy-maskiner alle i en enkelt enhed, let at programmere som en enkelt node – radikalt reducerer programmeringskompleksitet, vægur-beregningstid og tid til løsning.

Vores anden generations WSE-2, der driver vores CS-2 system, kan løse problemer ekstremt hurtigt. Hurtigt nok til at tillade realtids-, højtilfældighedsmodeller af konstruerede systemer af interesse. Det er et sjældent eksempel på succesfuld “strong scaling”, som er brugen af parallelisme til at reducere løsningstid med et fast størrelsesproblem.

Og det er, hvad National Energy Technology Laboratory og Pittsburgh Supercomputing Center bruger det til. Vi annoncerede nyligt nogle rigtig spændende resultater af en computational fluid dynamics (CFD) simulation, bestående af omkring 200 millioner celler, på næsten realtidsrater. Denne video viser en højopløst simulation af Rayleigh-Bénard konvektion, som opstår, når en fluidlag er opvarmet fra bunden og afkølet fra toppen. Disse termisk drevne fluidstrømme er alle omkring os – fra blæsende dage, til søeffekt-snestorme, til magmastrømme i jordens kerne og plasma-bevægelser i solen. Som fortællerens siger, er det ikke kun den visuelle skønhed af simulationen, der er vigtig: det er hastigheden, hvormed vi kan beregne det. For første gang er NETL i stand til at manipulere en grid på næsten 200 millioner celler i næsten realtid.

Hvilken type data simuleres?

Arbejdsbyrden, der blev testet, var termisk drevne fluidstrømme, også kendt som naturlig konvektion, som er en anvendelse af computational fluid dynamics (CFD). Fluidstrømme opstår naturligt overalt omkring os – fra blæsende dage, til søeffekt-snestorme, til tektoniske pladetransport. Denne simulation, bestående af omkring 200 millioner celler, fokuserer på et fænomen kaldet “Rayleigh-Bénard” konvektion, som opstår, når en fluid er opvarmet fra bunden og afkølet fra toppen. I naturen kan dette fænomen føre til alvorlige vejrforhold som downbursts, microbursts og derechos. Det er også ansvarligt for magma-bevægelser i jordens kerne og plasma-bevægelser i solen.

Tilbage i november 2022 introducerede NETL en ny felt ligning model API, drevet af CS-2 systemet, som var op til 470 gange hurtigere end hvad der var muligt på NETL’s Joule Supercomputer. Dette betyder, at det kan levere hastigheder ud over hvad enten clusters af CPU’er eller GPU’er kan opnå. Ved hjælp af en simpel Python API, der aktiverer wafer-skala proces til størstedelen af computational videnskab, leverer WFA gevinster i ydeevne og brugervenlighed, som ikke kunne opnås på konventionelle computere og supercomputere – faktisk overgik det OpenFOAM på NETL’s Joule 2.0 supercomputer med mere end to ordens størrelse i tid til løsning.

Fordi simplicityen af WFA API’en var så høj, blev resultaterne opnået på kun få uger og fortsætter den tætte samarbejdende mellem NETL, PSC og Cerebras Systems.

Ved at transformere hastigheden af CFD (som altid har været en langsom, offline-opgave) på vores WSE, kan vi åbne op for en hel række nye, realtidsanvendelser for dette og mange andre kerne HPC-applikationer. Vores mål er, at ved at enable mere beregningskraft, kan vores kunder udføre flere eksperimenter og opfinde bedre videnskab. NETL lab direktør Brian Anderson har fortalt os, at dette vil dramatisk accelerere og forbedre designprocessen for nogle rigtig store projekter, som NETL arbejder på om at mildne klimaforandringer og enable en sikker energifremtid – projekter som carbon-sekvestering og blå hydrogenproduktion.

Cerebras er konsekvent overlegen, når det kommer til udgivelse af supercomputere, hvad er nogle af udfordringerne bag bygning af state of the art supercomputere?

Ironisk nok er en af de største udfordringer for big AI ikke AI selv. Det er den distribuerede beregning.

For at træne i dagens state-of-the-art neurale netværk bruger forskere ofte hundredvis til tusindvis af grafikprocessorer (GPUs). Og det er ikke let. Skalerbarhed af stor sprogmodelltræning på tværs af en klynge af GPU’er kræver distribution af en arbejdsbyrde på tværs af mange små enheder, håndtering af enheds-hukommelsesstørrelser og hukommelsesbåndbredde-begrænsninger, og omhyggelig håndtering af kommunikations- og synchronisations-overhead.

Vi har valgt en helt anden tilgang til design af vores supercomputere gennem udviklingen af Cerebras Wafer-Scale Cluster og Cerebras Weight Streaming execution mode. Med disse teknologier adresserer Cerebras en ny måde at skala på, baseret på tre nøglepunkter:

Erstatning af CPU- og GPU-beregning med wafer-skala acceleratorer som Cerebras CS-2 system. Denne ændring reducerer antallet af beregningsenheder, der er nødvendige for at opnå en acceptabel beregningshastighed.

For at imødekomme udfordringen med modelstørrelse, anvender vi en systemarkitektur, der adskiller beregning fra model-lagring. En beregningservice baseret på en klynge af CS-2 systemer (som giver tilstrækkelig beregningsbåndbredde) er tæt koblet til en hukommelsesservice (med stor hukommelseskapacitet), der giver undermængder af modellen til beregningsklyngen på forespørgsel. Som sædvanligt serverer en dataservice batcher af træningsdata til beregningsklyngen, som det er nødvendigt.

En innovativ model for planlægning og koordinering af træningsarbejde på tværs af CS-2 klyngen, der anvender data-parallellisme, lag-for-lag træning med sparse vægte strømmet på forespørgsel, og fastholdelse af aktiveringer i beregningsklyngen.

Der har været frygt for slutningen af Moore’s Law i næsten et årti, hvor mange år kan industrien presse ind, og hvilke typer innovationer er nødvendige for dette?

Jeg tror, at spørgsmålet, vi alle kæmper med, er, om Moore’s Law – som skrevet af Moore – er død. Det tager ikke to år at få flere transistorer. Det tager nu fire eller fem år. Og disse transistorer kommer ikke til samme pris – de kommer i ved væsentligt højere priser. Så spørgsmålet bliver, om vi stadig får de samme fordele ved at gå fra syv til fem til tre nanometer? Fordelene er mindre, og de koster mere, og så bliver løsningerne mere komplicerede end blot chippen.

Jack Dongarra, en førende computerarkitekt, gav en tale for nylig og sagde: “Vi er blevet meget bedre til at lave FLOPs og I/O.” Det er virkelig sandt. Vores evne til at flytte data af-chip ligger efter vores evne til at øge ydeevnen på en chip med en stor mængde. Hos Cerebras var vi glade, da han sagde det, fordi det validerer vores beslutning om at lave en større chip og flytte mindre ting af-chip. Det giver også nogle retningslinjer for fremtidige måder at lave systemer med chip, der kan yde bedre. Der er arbejde at gøre, ikke kun at udvinde flere FLOPs, men også i teknikker til at flytte dem og til at flytte data fra chip til chip – selv fra meget store chip til meget store chip.

Er der noget andet, du gerne vil dele om Cerebras Systems?

For bedre eller værre, mennesker putter ofte Cerebras i denne kategori af “de rigtig store chip-folk”. Vi har kunnet levere overbevisende løsninger for meget, meget store neurale netværk, og dermed eliminerer behovet for at gøre smertefulde distribuerede beregninger. Jeg tror, det er enormt interessant og ligger til grund for, hvorfor vores kunder elsker os. Det interessante domæne for 2023 vil være, hvordan man kan gøre big compute til en højere niveau af nøjagtighed, ved hjælp af færre FLOPs.

Vores arbejde med sparsomhed giver en ekstremt interessant tilgang. Vi gør ikke arbejde, der ikke flytter os mod mållinjen, og multiplication med nul er en dårlig idé. Vi vil snart offentliggøre en rigtig interessant artikel om sparsomhed, og jeg tror, der vil være mere fokus på, hvordan vi kommer til disse effektive punkter, og hvordan vi gør det for mindre strøm. Og ikke kun for mindre strøm og træning; hvordan reducerer vi også omkostningerne og strømmen, der bruges til slutbrug? Jeg tror, sparsomhed hjælper på begge fronter.

Tak for disse dybdegående svar. Læsere, der ønsker at lære mere, bør besøge Cerebras Systems.

Antoine er en visionær leder og medstifter af Unite.AI, drevet af en urokkelig passion for at forme og fremme fremtiden for AI og robotteknologi. En serieiværksætter, han tror, at AI vil være lige så omvæltende for samfundet som elektricitet, og bliver ofte fanget i at tale begejstret om potentialet for omvæltende teknologier og AGI.

Som en futurist, er han dedikeret til at udforske, hvordan disse innovationer vil forme vores verden. Derudover er han grundlægger af Securities.io, en platform, der fokuserer på at investere i skærende teknologier, der gendefinerer fremtiden og omformer hele sektorer.