stub Andrew Feldman, medgrundare och VD för Cerebras Systems - Intervjuserie - Unite.AI
Anslut dig till vårt nätverk!

Intervjuer

Andrew Feldman, medgrundare och VD för Cerebras Systems – Intervjuserie

mm

publicerade

 on

Andrew är medgrundare och VD för Cerebras-system. Han är en entreprenör som är dedikerad till att tänja på gränser inom datorområdet. Före Cerebras var han med och grundade och var VD för SeaMicro, en pionjär inom energieffektiva mikroservrar med hög bandbredd. SeaMicro förvärvades av AMD 2012 för 357 miljoner dollar. Innan SeaMicro var Andrew vicepresident för produkthantering, marknadsföring och BD på Force10 Networks som senare såldes till Dell Computing för 800 miljoner dollar. Före Force10 Networks var Andrew vice VD för marknadsföring och företagsutveckling på RiverStone Networks från företagets start genom börsnotering 2001. Andrew har en BA och en MBA från Stanford University.

Cerebras Systems bygger en ny klass av datorsystem, designade utifrån första principer för det unika målet att accelerera AI och förändra framtiden för AI-arbete.

Kan du dela med dig av historien bakom Cerebras Systems?

Mina grundare och jag arbetade alla tillsammans vid en tidigare start som min CTO Gary och jag startade redan 2007, kallad SeaMicro (som såldes till AMD 2012 för 334 miljoner dollar). Mina medgrundare är några av de ledande datorarkitekterna och ingenjörerna i branschen – Gary Lauterbach, Sean Lie, JP Fricker och Michael James. När vi fick ihop bandet igen 2015 skrev vi två saker på en whiteboard – att vi ville jobba tillsammans, och att vi ville bygga något som skulle förvandla branschen och finnas i Datahistoriska museet, vilket motsvarar Compute Hall of Fame. Vi blev hedrade när Computer History Museum erkände våra prestationer och lade till WSE-2-processorn till sin samling förra året, med hänvisning till hur den har förändrat landskapet med artificiell intelligens.

Cerebras Systems är ett team av banbrytande datorarkitekter, datavetare, djupinlärningsforskare och ingenjörer av alla slag som älskar att göra orädd teknik. Vårt uppdrag när vi träffades var att bygga en ny klass av datorer för att påskynda djupinlärning, som har blivit en av vår tids viktigaste arbetsbelastningar.

Vi insåg att djupinlärning har unika, massiva och växande beräkningskrav. Och det är inte väl matchat av äldre maskiner som grafikprocessorer (GPU), som i grunden utformades för annat arbete. Som ett resultat är AI idag inte begränsad av applikationer eller idéer, utan av tillgången på datorer. Att testa en enda ny hypotes – att träna en ny modell – kan ta dagar, veckor eller till och med månader och kosta hundratusentals dollar i beräkningstid. Det är en stor vägspärr för innovation.

Så uppkomsten av Cerebras var att bygga en ny typ av dator optimerad exklusivt för djupinlärning, med början från ett rent pappersark. För att möta de enorma beräkningskraven för djupinlärning designade och tillverkade vi det största chip som någonsin byggts – Wafer-Scale Engine (WSE). Genom att skapa världens första processor i wafer-skala, övervann vi utmaningar inom design, tillverkning och förpackning – som alla hade ansetts omöjliga under hela datorernas 70-åriga historia. Varje del av WSE är designad för att möjliggöra forskning om djupinlärning i oöverträffade hastigheter och skala, vilket driver branschens snabbaste AI-superdator, Cerebras CS-2.

Med varje komponent optimerad för AI-arbete, levererar CS-2 mer datorprestanda till mindre utrymme och mindre kraft än något annat system. Den gör detta samtidigt som den radikalt minskar programmeringskomplexiteten, beräkningstiden för väggklockan och tiden till lösning. Beroende på arbetsbelastning, från AI till HPC, levererar CS-2 hundratals eller tusentals gånger mer prestanda än äldre alternativ. CS-2 tillhandahåller datorresurser för djupinlärning som motsvarar hundratals GPU:er, samtidigt som den ger enkel programmering, hantering och driftsättning av en enda enhet.

Under de senaste månaderna verkar Cerebras vara överallt nyheter, vad kan du berätta om den nya Andromeda AI-superdatorn?

Vi tillkännagav Andromeda i november förra året, och det är en av de största och mest kraftfulla AI-superdatorerna som någonsin byggts. Andromeda levererar mer än 1 Exaflop AI-beräkning och 120 Petaflops med tät beräkning, och har 13.5 miljoner kärnor över 16 CS-2-system och är den enda AI-superdatorn som någonsin demonstrerat nästan perfekt linjär skalning på arbetsbelastningar av stora språkmodeller. Det är också väldigt enkelt att använda.

Som en påminnelse har den största superdatorn på jorden – Frontier – 8.7 miljoner kärnor. I rå kärnantalet är Andromeda mer än en och en halv gånger så stor. Den fungerar uppenbarligen annorlunda, men det här ger en uppfattning om omfattningen: nästan 100 terabit intern bandbredd, nästan 20,000 XNUMX AMD Epyc-kärnor matar den, och – till skillnad från de gigantiska superdatorerna som det tar år att stå upp med – ställde vi upp Andromeda på tre dagar och omedelbart därefter levererade den nästan perfekt linjär skalning av AI.

Argonne National Labs var vår första kund som använde Andromeda, och de tillämpade det på ett problem som bröt deras 2,000 3 GPU-kluster kallat Polaris. Problemet var att köra mycket stora generativa GPT-10XL-modeller, samtidigt som man placerade hela Covid-genomet i sekvensfönstret, så att man kunde analysera varje gen i sammanhanget av Covids hela genom. Andromeda körde en unik genetisk arbetsbelastning med långa sekvenslängder (MSL på 1K) över 2, 4, 8, 16 och 15.87 noder, med nästan perfekt linjär skalning. Linjär skalning är bland de mest eftertraktade egenskaperna hos ett stort kluster. Andromeda levererade 16X genomströmning över 2 CS-2-system, jämfört med en enda CS-XNUMX, och en minskning av träningstiden att matcha.

Kan du berätta om samarbete med Jasper som presenterades i slutet av november och vad betyder det för båda företagen?

Jasper är ett riktigt intressant företag. De är ledande inom generativt AI-innehåll för marknadsföring, och deras produkter används av mer än 100,000 XNUMX kunder runt om i världen för att skriva kopior för marknadsföring, annonser, böcker och mer. Det är uppenbarligen ett väldigt spännande och snabbt växande utrymme just nu. Förra året tillkännagav vi ett partnerskap med dem för att påskynda införandet och förbättra noggrannheten hos generativ AI i företags- och konsumentapplikationer. Jasper använder vår Andromeda superdator för att träna sina djupt beräkningsintensiva modeller på en bråkdel av tiden. Detta kommer att utöka räckvidden för generativa AI-modeller till massorna.

Med kraften från Cerebras Andromeda superdator kan Jasper dramatiskt föra fram AI-arbetet, inklusive träning av GPT-nätverk för att anpassa AI-utgångar till alla nivåer av slutanvändarkomplexitet och granularitet. Detta förbättrar den kontextuella noggrannheten hos generativa modeller och gör det möjligt för Jasper att personifiera innehåll över flera klasser av kunder snabbt och enkelt.

Vårt partnerskap gör det möjligt för Jasper att uppfinna framtiden för generativ AI, genom att göra saker som är opraktiska eller helt enkelt omöjliga med traditionell infrastruktur, och att accelerera potentialen för generativ AI, och föra dess fördelar till vår snabbt växande kundbas runt om i världen.

I en nyligen pressmeddelande, National Energy Technology Laboratory och Pittsburgh Supercomputing Center Pioneer tillkännagav den första Computational Fluid Dynamics Simuleringen någonsin på Cerebras wafer-scale-motor. Kan du beskriva vad en motor i wafer-skala är och hur den fungerar?

Vår Wafer-Scale Engine (WSE) är den revolutionerande AI-processorn för vårt datorsystem för djupinlärning, CS-2. Till skillnad från äldre processorer för allmänna ändamål byggdes WSE från grunden för att påskynda djupinlärning: den har 850,000 XNUMX AI-optimerade kärnor för glesa tensoroperationer, massivt minne med hög bandbredd på chipet och sammankopplingar i storleksordningar snabbare än en traditionell kluster möjligen kan uppnå. Sammantaget ger det dig djupinlärningsberäkningsresurser som motsvarar ett kluster av äldre maskiner, allt i en enda enhet, lätt att programmera som en enda nod – vilket radikalt minskar programmeringskomplexiteten, beräkningstiden för väggklockan och tiden till lösning.

Vår andra generationens WSE-2, som driver vårt CS-2-system, kan lösa problem extremt snabbt. Tillräckligt snabbt för att tillåta realtids-, högfientlighetsmodeller av konstruerade system av intresse. Det är ett sällsynt exempel på framgångsrik "stark skalning", vilket är användningen av parallellitet för att minska lösningstiden med ett problem med fast storlek.

Och det är vad National Energy Technology Laboratory och Pittsburgh Supercomputing Center använder det till. Vi tillkännagav precis några riktigt spännande resultat av en simulering av beräkningsvätskedynamik (CFD), som består av cirka 200 miljoner celler, i nästan realtidshastigheter.  Denna video visar högupplöst simulering av Rayleigh-Bénard-konvektion, som uppstår när ett vätskeskikt värms upp från botten och kyls från toppen. Dessa termiskt drivna vätskeflöden finns runt omkring oss – från blåsiga dagar, till snöstormar i sjöeffekter, till magmaströmmar i jordens kärna och plasmarörelser i solen. Som berättaren säger är det inte bara den visuella skönheten i simuleringen som är viktig: det är hastigheten med vilken vi kan beräkna den. För första gången, med vår Wafer-Scale Engine, kan NETL manipulera ett rutnät med nästan 200 miljoner celler i nästan realtid.

Vilken typ av data simuleras?

Arbetsbelastningen som testades var termiskt drivna vätskeflöden, även känd som naturlig konvektion, vilket är en tillämpning av beräkningsvätskedynamik (CFD). Vätskeflöden förekommer naturligt runt omkring oss - från blåsiga dagar till snöstormar i sjöeffekter till tektoniska plattrörelser. Denna simulering, som består av cirka 200 miljoner celler, fokuserar på ett fenomen som kallas "Rayleigh-Bénard" konvektion, som uppstår när en vätska värms upp från botten och kyls från toppen. I naturen kan detta fenomen leda till svåra väderhändelser som störningar, mikroburst och smuts. Det är också ansvarigt för magmarörelse i jordens kärna och plasmarörelse i solen.

Tillbaka i november 2022 introducerade NETL ett nytt API för fältekvationsmodellering, som drivs av CS-2-systemet, som var så mycket som 470 gånger snabbare än vad som var möjligt på NETL:s Joule Supercomputer. Detta innebär att den kan leverera hastigheter utöver vad antingen kluster av valfritt antal CPU:er eller GPU:er kan uppnå. Genom att använda ett enkelt Python API som möjliggör bearbetning i wafer-skala för mycket av beräkningsvetenskapen, levererar WFA prestandavinster och användbarhet som inte kunde erhållas på konventionella datorer och superdatorer – i själva verket överträffade det OpenFOAM på NETL:s Joule 2.0 superdator med över två beställningar av storlek i tid till lösning.

På grund av enkelheten hos WFA API uppnåddes resultaten på bara några veckor och fortsätter det nära samarbetet mellan NETL, PSC och Cerebras Systems.

Genom att omvandla hastigheten för CFD (som alltid har varit en långsam, off-line uppgift) på vår WSE kan vi öppna upp en hel rad nya användningsfall i realtid för detta och många andra HPC-kärnapplikationer. Vårt mål är att genom att möjliggöra mer datorkraft kan våra kunder utföra fler experiment och uppfinna bättre vetenskap. NETL labbchef Brian Anderson har berättat för oss att detta drastiskt kommer att accelerera och förbättra designprocessen för några riktigt stora projekt som NETL arbetar med kring att mildra klimatförändringar och möjliggöra en säker energiframtid - projekt som kolbindning och produktion av blått väte.

Cerebras överträffar konsekvent konkurrenterna när det kommer till att släppa superdatorer, vilka är några av utmaningarna bakom att bygga toppmoderna superdatorer?

Ironiskt nog är en av de svåraste utmaningarna med stor AI inte AI. Det är den distribuerade datorn.

För att träna dagens toppmoderna neurala nätverk använder forskare ofta hundratals till tusentals grafikprocessorer (GPU). Och det är inte lätt. Att skala utbildning för stora språkmodeller över ett kluster av GPU:er kräver att en arbetsbelastning fördelas över många små enheter, hantera enheters minnesstorlekar och minnesbandbreddsbegränsningar och noggrant hantera kommunikations- och synkroniseringskostnader.

Vi har tagit ett helt annat tillvägagångssätt för att designa våra superdatorer genom utvecklingen av Cerebras Wafer-Scale Cluster, Och den Cerebras viktströmning exekveringsläge. Med dessa teknologier adresserar Cerebras ett nytt sätt att skala baserat på tre nyckelpunkter:

Ersättandet av CPU- och GPU-bearbetning med wafer-skala acceleratorer som Cerebras CS-2-systemet. Denna ändring minskar antalet beräkningsenheter som behövs för att uppnå en acceptabel beräkningshastighet.

För att möta utmaningen med modellstorlek använder vi en systemarkitektur som disaggregerar beräkningar från modelllagring. En beräkningstjänst baserad på ett kluster av CS-2-system (som tillhandahåller adekvat beräkningsbandbredd) är tätt kopplad till en minnestjänst (med stor minneskapacitet) som tillhandahåller delmängder av modellen till beräkningsklustret på begäran. Som vanligt serverar en datatjänst batcher av träningsdata till beräkningstjänsten efter behov.

En innovativ modell för schemaläggning och koordinering av träningsarbete över CS-2-klustret som använder dataparallellism, lager i taget-träning med glesa vikter som strömmas in på begäran och bibehållande av aktiveringar i beräkningstjänsten.

Det har funnits rädslor för slutet av Moores lag i nästan ett decennium, hur många år till kan branschen pressa in och vilka typer av innovationer behövs för detta?

Jag tror att frågan vi alla brottas med är om Moores lag – som skrivits av Moore – är död. Det tar inte två år att få fler transistorer. Nu tar det fyra eller fem år. Och dessa transistorer kommer inte till samma pris – de kommer in till mycket högre priser. Så frågan blir, får vi fortfarande samma fördelar av att flytta från sju till fem till tre nanometer? Fördelarna är mindre och de kostar mer, och därför blir lösningarna mer komplicerade än bara chippet.

Jack Dongarra, en ledande datorarkitekt, höll nyligen ett föredrag och sa: "Vi har blivit mycket bättre på att göra FLOP:s och på att göra I/O." Det är verkligen sant. Vår förmåga att flytta data utanför chipet släpar efter vår förmåga att öka prestandan på ett chip avsevärt. På Cerebras var vi glada när han sa det, eftersom det bekräftar vårt beslut att göra ett större chip och flytta mindre saker utanför chipet. Den ger också en del vägledning om framtida sätt att få system med chips att prestera bättre. Det finns arbete att göra, inte bara att vrida ut fler FLOP:ar utan också i tekniker för att flytta dem och att flytta data från chip till chip – även från mycket stort chip till väldigt stort chip.

Finns det något mer du skulle vilja dela med dig av om Cerebras Systems?

På gott och ont, sätter folk ofta Cerebras i denna kategori av "de riktigt stora chipkillarna." Vi har kunnat tillhandahålla övertygande lösningar för mycket, mycket stora neurala nätverk, och därmed eliminerat behovet av att göra smärtsam distribuerad datoranvändning. Jag tror att det är oerhört intressant och kärnan i varför våra kunder älskar oss. Den intressanta domänen för 2023 kommer att vara hur man gör stora beräkningar till en högre nivå av noggrannhet, med färre FLOP:ar.

Vårt arbete med gleshet ger ett oerhört intressant tillvägagångssätt. Vi gör inget arbete som inte för oss mot mållinjen, och att multiplicera med noll är en dålig idé. Vi kommer att släppa ett riktigt intressant dokument om sparsitet snart, och jag tror att det kommer att göras mer för att titta på hur vi kommer till dessa effektiva punkter, och hur vi gör det för mindre kraft. Och inte bara för mindre kraft och träning; hur minimerar vi kostnaden och kraften som används vid slutledning? Jag tror att gleshet hjälper på båda fronterna.

Tack för dessa djupgående svar, läsare som vill veta mer bör besöka Cerebras-system.

En av grundarna av unite.AI och en medlem av Forbes Technology Council, Antoine är en futurist som brinner för framtiden för AI och robotik.

Han är också grundare av Securities.io, en webbplats som fokuserar på att investera i disruptiv teknik.