Intervjuer
Andrew Feldman, medgrundare och VD för Cerebras Systems – Intervjuserie

Andrew är medgrundare och VD för Cerebras Systems. Han är en entreprenör som är dedikerad till att pusha gränserna inom compute-området. Före Cerebras var han medgrundare och VD för SeaMicro, en pionjär inom energisnåla, höghastighetsmikroservrar. SeaMicro förvärvades av AMD 2012 för 357 miljoner dollar. Innan SeaMicro var Andrew Vice President för Produktledning, Marknadsföring och Affärsutveckling på Force10 Networks, som senare såldes till Dell Computing för 800 miljoner dollar. Före Force10 Networks var Andrew Vice President för Marknadsföring och Företagsutveckling på RiverStone Networks från företagets start till börsnoteringen 2001. Andrew har en BA och en MBA från Stanford University.
Cerebras Systems bygger en ny klass av datorsystem, designad från grunden för det specifika målet att accelerera AI och förändra framtiden för AI-arbete.
Kunde du dela berättelsen om Cerebras Systems ursprung?
Mina medgrundare och jag arbetade alla tillsammans på ett tidigare startup som min CTO Gary och jag startade 2007, kallat SeaMicro (som såldes till AMD 2012 för 334 miljoner dollar). Mina medgrundare är några av de ledande datorarkitekterna och ingenjörerna i branschen – Gary Lauterbach, Sean Lie, JP Fricker och Michael James. När vi återförenades 2015 skrev vi två saker på en whiteboard – att vi ville arbeta tillsammans, och att vi ville bygga något som skulle förändra branschen och hamna i Computer History Museum, som är equivalent med Compute Hall of Fame. Vi var hedrade när Computer History Museum erkände våra prestationer och lade till WSE-2-processorn i sin samling förra året, med hänvisning till hur den har förändrat den artificiella intelligenslandskapet.
Cerebras Systems är ett team av banbrytande datorarkitekter, datavetare, djupinlärningsforskare och ingenjörer av alla slag som älskar att göra fruktansvärd ingenjörskap. Vår mission när vi kom samman var att bygga en ny klass av dator för att accelerera djupinlärning, som har stigit som en av de viktigaste arbetsbelastningarna i vår tid.
Vi insåg att djupinlärning har unika, massiva och växande beräkningskrav. Och det är inte välmatchat av äldre maskiner som grafikprocessorer (GPUs), som i grunden var designade för annat arbete. Som ett resultat är AI idag begränsad inte av applikationer eller idéer, utan av tillgängligheten av beräkning. Att testa en enda ny hypotes – träna en ny modell – kan ta dagar, veckor eller till och med månader och kosta hundratusentals dollar i beräkningstid. Det är ett stort hinder för innovation.
Så ursprunget till Cerebras var att bygga en ny typ av dator optimerad exklusivt för djupinlärning, från en ren sida av papperet. För att möta de enorma beräkningskraven för djupinlärning designade och tillverkade vi den största chipen som någonsin byggts – Wafer-Scale Engine (WSE). Genom att skapa världens första wafer-skala processor övervann vi utmaningar över design, tillverkning och förpackning – allt som hade ansetts omöjligt under hela 70-års historien av datorer. Varje element i WSE är designat för att möjliggöra djupinlärningsforskning i aldrig tidigare skådad hastighet och skala, som driver branschens snabbaste AI-superdator, Cerebras CS-2.
Med varje komponent optimerad för AI-arbete levererar CS-2 mer beräkningsprestanda på mindre utrymme och mindre effekt än något annat system. Det gör detta samtidigt som det radikalt minskar programmeringskomplexitet, väggklockans beräkningstid och tid till lösning. Beroende på arbetsbelastning, från AI till HPC, levererar CS-2 hundratals eller tusentals gånger mer prestanda än äldre alternativ. CS-2 tillhandahåller djupinlärningsberäkningsresurser motsvarande hundratals GPUs, samtidigt som det tillhandahåller programmering, hantering och distribution av en enda enhet.
Under de senaste månaderna verkar Cerebras vara överallt i nyheter, vad kan du berätta om den nya Andromeda AI-superdatorn?
Vi tillkännagav Andromeda i november förra året, och det är en av de största och kraftfullaste AI-superdatorerna som någonsin byggts. Med mer än 1 Exaflop av AI-beräkning och 120 Petaflops av tät beräkning har Andromeda 13,5 miljoner kärnor över 16 CS-2-system, och det är den enda AI-superdatorn som någonsin demonstrerat nästan perfekt linjär skalning på stora språkmodellsarbetsbelastningar. Det är också dödligt enkelt att använda.
Som en påminnelse har den största superdatorn på jorden – Frontier – 8,7 miljoner kärnor. I rå kärntal är Andromeda mer än en och en halv gånger så stor. Det gör olika arbete, men det ger en idé om omfattningen: nästan 100 terabit av intern bandbredd, nästan 20 000 AMD Epyc-kärnor matar det, och – till skillnad från de jätte superdatorerna som tar år att stå upp – ställde vi upp Andromeda på tre dagar och omedelbart därefter levererade den nästan perfekt linjär skalning av AI.
Argonne National Labs var vår första kund att använda Andromeda, och de tillämpade den på ett problem som bröt deras 2 000 GPU-kluster kallat Polaris. Problemet var att köra mycket stora, GPT-3XL generativa modeller, medan de lade hela Covid-genomet i sekvensfönstret, så att man kunde analysera varje gen i sammanhanget med hela Covid-genomet. Andromeda körde en unik genetisk arbetsbelastning med långa sekvenslängder (MSL på 10K) över 1, 2, 4, 8 och 16 noder, med nästan perfekt linjär skalning. Linjär skalning är bland de mest eftertraktade egenskaperna hos en stor kluster. Andromeda levererade 15,87 gånger mer genomströmning över 16 CS-2-system, jämfört med en enda CS-2, och en minskning av tränings tid för att matcha.
Kunde du berätta om samarbetet med Jasper som tillkännagavs i slutet av november och vad det betyder för båda företagen?
Jasper är ett riktigt intressant företag. De är en ledare inom generativ AI-innehåll för marknadsföring, och deras produkter används av mer än 100 000 kunder runt om i världen för att skriva copy för marknadsföring, annonser, böcker och mer. Det är uppenbarligen ett mycket spännande och snabbt växande område just nu. Förra året tillkännagav vi ett samarbete med dem för att accelerera antagandet och förbättra noggrannheten hos generativ AI över företags- och konsumenttillämpningar. Jasper använder vår Andromeda-superdator för att träna deras extremt beräkningsintensiva modeller på en bråkdel av tiden. Detta kommer att utöka räckvidden av generativa AI-modeller till massorna.
Med kraften från Cerebras Andromeda-superdator kan Jasper dramatiskt förbättra AI-arbete, inklusive träning av GPT-nätverk för att passa AI-utdata till alla nivåer av slutanvändarkomplexitet och granularitet. Detta förbättrar den kontextuella noggrannheten hos generativa modeller och kommer att möjliggöra för Jasper att personanpassa innehåll över flera klasser av kunder snabbt och enkelt.
Vårt samarbete tillåter Jasper att uppfinna framtiden för generativ AI, genom att göra saker som är omöjliga eller praktiskt taget omöjliga med traditionell infrastruktur, och att accelerera potentialen för generativ AI, för att bringa dess fördelar till vår snabbt växande kundbas runt om i världen.
I ett nyligt pressmeddelande tillkännagav National Energy Technology Laboratory och Pittsburgh Supercomputing Center den första någonsin Computational Fluid Dynamics-simuleringen på Cerebras wafer-skala motor. Kunde du beskriva vad en wafer-skala motor är och hur den fungerar?
Vår Wafer-Scale Engine (WSE) är den revolutionerande AI-processorn för vårt djupinlärningssystem, CS-2. Till skillnad från äldre, allmänna processorer byggdes WSE från grunden för att accelerera djupinlärning: den har 850 000 AI-optimerade kärnor för sparse tensoroperationer, massiv hög bandbredd på-chip-minne och interconnect av flera storleksordningar snabbare än en traditionell kluster kunde möjliggöra. Sammantaget ger det dig djupinlärningsberäkningsresurser motsvarande en kluster av äldre maskiner allt i en enda enhet, lätt att programmera som en enda nod – radikalt minskar programmeringskomplexitet, väggklockans beräkningstid och tid till lösning.
Vår andra generation WSE-2, som driver vårt CS-2-system, kan lösa problem extremt snabbt. Tillräckligt snabbt för att tillåta realtids-, högkvalitetsmodeller av konstruerade system av intresse. Det är ett sällsynt exempel på framgångsrik “strong scaling”, som är användningen av parallelism för att minska lösningstiden med ett fast problem.
Och det är vad National Energy Technology Laboratory och Pittsburgh Supercomputing Center använder det för. Vi tillkännagav nyligen några riktigt spännande resultat av en Computational Fluid Dynamics (CFD)-simulering, bestående av cirka 200 miljoner celler, i nästan realtid. Den här videon visar den högupplösta simuleringen av Rayleigh-Bénard-konvektion, som uppstår när en fluidlager värms upp från botten och kyls ner från toppen. Dessa termiskt drivna fluidflöden finns överallt runt om oss – från blåsiga dagar, till sjöeffektsnöstormar, till tektonisk plattorrörelse och plasma-rörelse i solen. Som berättaren säger är det inte bara den visuella skönheten i simuleringen som är viktigt: det är hastigheten med vilken vi kan beräkna den. För första gången kan NETL, med hjälp av vår Wafer-Scale Engine, manipulera en grid av nästan 200 miljoner celler i nästan realtid.
Vilken typ av data simuleras?
Arbetsbelastningen som testades var termiskt drivna fluidflöden, också kända som naturlig konvektion, som är en tillämpning av Computational Fluid Dynamics (CFD). Fluidflöden förekommer naturligt överallt runt om oss – från blåsiga dagar, till sjöeffektsnöstormar, till tektonisk plattorrörelse. Denna simulering, bestående av cirka 200 miljoner celler, fokuserar på ett fenomen som kallas “Rayleigh-Bénard”-konvektion, som uppstår när en fluid värms upp från botten och kyls ner från toppen. I naturen kan detta fenomen leda till allvarliga väderhändelser som downbursts, microbursts och derechos. Det är också ansvarigt för magmarörelse i jordens kärna och plasma-rörelse i solen.
I november 2022 introducerade NETL en ny fält ekvation modellering API, driven av CS-2-systemet, som var upp till 470 gånger snabbare än vad som var möjligt på NETL:s Joule Supercomputer. Detta innebär att det kunde leverera hastigheter utöver vad som är möjligt med kluster av CPU:er eller GPU:er. Med hjälp av en enkel Python API som möjliggör wafer-skala bearbetning för mycket av den beräkningsvetenskapen, WFA levererar prestanda- och användbarhetsvinster som inte kunde uppnås på konventionella datorer och superdatorer – faktiskt överträffade det OpenFOAM på NETL:s Joule 2.0-superdator med mer än två storleksordningar i tid till lösning.
Eftersom WFA API:n är så enkel uppnåddes resultaten på bara några veckor och fortsätter det nära samarbetet mellan NETL, PSC och Cerebras Systems.
Genom att förvandla hastigheten på CFD (som alltid har varit en långsam, offline-uppgift) på vår WSE kan vi öppna upp en hel rad nya, realtidsanvändningsfall för detta, och många andra kärn-HPC-applikationer. Vårt mål är att genom att möjliggöra mer beräkningskraft, kan våra kunder utföra fler experiment och uppfinna bättre vetenskap. NETL-laboratoriechefen Brian Anderson har berättat för oss att detta kommer att dramatiskt accelerera och förbättra designprocessen för några riktigt stora projekt som NETL arbetar med kring att mildra klimatförändringarna och möjliggöra en säker energiframtid – projekt som kolavskiljning och blå vätgasproduktion.
Cerebras överträffar konsekvent konkurrensen när det gäller att släppa superdatorer, vad är några av utmaningarna bakom att bygga toppmoderna superdatorer?
Ironiskt nog är en av de svåraste utmaningarna för stort AI inte AI:t självt. Det är den distribuerade beräkningen.
För att träna dagens toppmoderna neuronnätverk använder forskare ofta hundratals till tusentals grafikprocessorer (GPU:er). Och det är inte lätt. Att skala stora språkmodellsträning över en kluster av GPU:er kräver att man distribuerar en arbetsbelastning över många små enheter, hanterar enhetsminnesstorlekar och minnesbandbredds begränsningar, och noggrant hanterar kommunikations- och synkroniseringskostnader.
Vi har tagit en helt annan tillvägagångssätt för att designa våra superdatorer genom utvecklingen av Cerebras Wafer-Scale Cluster och Cerebras Weight Streaming exekveringsläge. Med dessa teknologier adresserar Cerebras ett nytt sätt att skala baserat på tre nyckelpunkter:
Ersättning av CPU- och GPU-bearbetning med wafer-skala acceleratorer som Cerebras CS-2-system. Denna förändring minskar antalet beräkningsenheter som behövs för att uppnå en acceptabel beräkningshastighet.
För att möta utmaningen med modellstorlek använder vi en systemarkitektur som separerar beräkning från modelllagring. En beräkningstjänst baserad på en kluster av CS-2-system (som tillhandahåller tillräcklig beräkningsbandbredd) är tight kopplad till en minnestjänst (med stor minneskapacitet) som tillhandahåller delar av modellen till beräkningsklustret på begäran. Som vanligt tillhandahåller en datatjänst batchar av träningsdata till beräkningstjänsten när som helst.
En innovativ modell för schemaläggning och samordning av träningsarbete över CS-2-klustret som använder data-parallellism, lager-för-lager-träning med sparse vikter som strömmas in på begäran, och kvarhållande av aktiveringar i beräkningstjänsten.
Det har funnits farhågor om slutet på Moore’s lag under nästan ett decennium, hur många fler år kan industrin klämma ur och vilka typer av innovationer behövs för detta?
Jag tror att frågan vi alla brottas med är om Moore’s lag – som skrivits av Moore – är död. Det tar inte två år att få fler transistorer. Det tar nu fyra eller fem år. Och dessa transistorer kommer inte till samma pris – de kommer till avsevärt högre priser. Så frågan blir, får vi fortfarande samma fördelar med att gå från sju till fem till tre nanometer? Fördelarna är mindre och de kostar mer, och så blir lösningarna mer komplicerade än att bara göra en chip.
Jack Dongarra, en ledande datorarkitekt, gav nyligen ett föredrag och sa: “Vi har blivit mycket bättre på att göra FLOPs och att göra I/O.” Det är verkligen sant. Vår förmåga att flytta data utanför chipet ligger efter vår förmåga att öka prestandan på en chip med en stor marginal. På Cerebras var vi glada när han sa det, eftersom det validerar vårt beslut att göra en större chip och flytta mindre saker utanför chipet. Det ger också någon vägledning för framtida sätt att göra system med chip som presterar bättre. Det finns arbete att göra, inte bara att få ut mer FLOPs, utan också i tekniker för att flytta dem och flytta data från chip till chip – till och med från mycket stora chip till mycket stora chip.
Finns det något annat du vill dela om Cerebras Systems?
För bättre eller sämre, människor tenderar att placera Cerebras i denna kategori av “de riktigt stora chip-guys”. Vi har kunnat tillhandahålla övertygande lösningar för mycket stora neuronnätverk, och därmed eliminerat behovet av smärtsam distribuerad beräkning. Jag tror att det är enormt intressant och ligger i hjärtat av varför våra kunder älskar oss. Det intressanta området för 2023 kommer att vara hur man gör stora beräkningar till en högre nivå av noggrannhet, med färre FLOPs.
Vårt arbete med sparsitet erbjuder en extremt intressant tillvägagångssätt. Vi gör inte arbete som inte flyttar oss mot mållinjen, och att multiplicera med noll är en dålig idé. Vi kommer att släppa en riktigt intressant artikel om sparsitet snart, och jag tror att det kommer att finnas mer ansträngning för att titta på hur vi kommer till dessa effektiva punkter, och hur vi gör det för mindre effekt. Och inte bara för mindre effekt och träning; hur minskar vi kostnaden och effekten som används i inferens? Jag tror att sparsitet hjälper på båda fronterna.
Tack för dessa ingående svar, läsare som vill lära sig mer bör besöka Cerebras Systems.












