Connect with us

Andrew Feldman, spoluzakladatel a CEO společnosti Cerebras Systems – Interview Series

Rozhovory

Andrew Feldman, spoluzakladatel a CEO společnosti Cerebras Systems – Interview Series

mm

Andrew je spoluzakladatel a CEO společnosti Cerebras Systems. Je podnikatel, který se věnuje rozšiřování hranic v oblasti výpočetní techniky. Předtím, než založil Cerebras, spoluzaložil a byl CEO společnosti SeaMicro, která byla průkopníkem energeticky úsporných, высокopropustných mikroserverů. SeaMicro byla v roce 2012 koupena společností AMD za 357 milionů dolarů. Předtím, než pracoval ve společnosti SeaMicro, byl Andrew viceprezidentem pro produktový management, marketing a obchodní rozvoj ve společnosti Force10 Networks, která byla později prodána společnosti Dell Computing za 800 milionů dolarů. Předtím, než pracoval ve společnosti Force10 Networks, byl Andrew viceprezidentem pro marketing a firemní rozvoj ve společnosti RiverStone Networks od založení společnosti až do jejího vstupu na burzu v roce 2001. Andrew má titul BA a MBA ze Stanfordské univerzity.

Cerebras Systems buduje novou třídu počítačových systémů, které jsou navrženy od základu pro jediný cíl – urychlit umělou inteligenci a změnit budoucnost práce s umělou inteligencí.

Můžete sdílet příběh o vzniku Cerebras Systems?

Můj spoluzakladatel a já jsme všichni pracovali společně v předchozí firmě, kterou můj CTO Gary a já založili v roce 2007, nazvané SeaMicro (která byla prodána společnosti AMD v roce 2012 za 334 milionů dolarů). Mými spoluzakladateli jsou někteří z předních počítačových architektů a inženýrů v oboru – Gary Lauterbach, Sean Lie, JP Fricker a Michael James. Když jsme se znovu sešli v roce 2015, napsali jsme dvě věci na bílou tabuli – že chceme pracovat společně a že chceme postavit něco, co změní průmysl a bude v Computer History Museum, což je ekvivalent k Compute Hall of Fame. Byli jsme poctěni, když Computer History Museum uznal naše úspěchy a přidál procesor WSE-2 do své sbírky minulý rok, s odůvodněním, že transformoval umělou inteligenci.

Cerebras Systems je tým průkopnických počítačových architektů, počítačových vědců, výzkumníků hlubokého učení a inženýrů všech typů, kteří milují bezohledné inženýrství. Naše mise, když jsme se sešli, byla postavit novou třídu počítače pro urychlení hlubokého učení, které se stalo jednou z nejvýznamnějších zátěží naší doby.

Rozpoznali jsme, že hluboké učení má jedinečné, masivní a rostoucí výpočetní požadavky. A není dobře sladěno s legacy stroji, jako jsou grafické procesory (GPU), které byly fundamentalně navrženy pro jinou práci. V důsledku toho je umělá inteligence dnes omezena ne aplikacemi nebo nápady, ale dostupností výpočtu. Testování jediné nové hypotézy – školení nového modelu – může trvat dny, týdny nebo dokonce měsíce a stojí stovky tisíc dolarů ve výpočetním čase. To je významná překážka pro inovace.

Takže vznik Cerebras byl postavit nový typ počítače, optimalizovaný výhradně pro hluboké učení, začínající od čisté listiny papíru. Abychom splnili enormní výpočetní požadavky hlubokého učení, navrhli a vyrobili jsme největší čip, který byl kdy postaven – Wafer-Scale Engine (WSE). Při vytváření prvního wafer-scale procesoru jsme překonali výzvy napříč návrhem, výrobou a balením – všechny, které byly považovány za nemožné po整个 70leté historii počítačů. Každý prvek WSE je navržen tak, aby umožnil výzkum hlubokého učení na bezprecedentní rychlosti a měřítku, pohánějící nejrychlejší superpočítač AI v oboru, Cerebras CS-2.

S každým komponentem optimalizovaným pro AI práci, CS-2 dodává více výpočetního výkonu na méně prostoru a méně energie než jakýkoli jiný systém. To dělá, zatímco radikálně snižuje programovací složitost, čas výpočtu a čas řešení. V závislosti na zátěži, od AI po HPC, CS-2 dodává stokrát nebo tisíckrát více výkonu než legacy alternativy. CS-2 poskytuje hluboké učení výpočetní zdroje ekvivalentní stovkám GPU, zatímco poskytuje snadnost programování, správy a nasazení jediného zařízení.

Posledních několik měsíců Cerebras Systems parece být všude v novinách, co můžete říci o novém superpočítači Andromeda AI?

Oznámili jsme Andromedu v listopadu minulého roku a je to jeden z největších a nejmocnějších superpočítačů AI, který byl kdy postaven. Dodávající více než 1 Exaflop AI výpočtu a 120 Petaflops hustého výpočtu, Andromeda má 13,5 milionu jader napříč 16 systémy CS-2 a je jediným superpočítačem AI, který kdy prokázal téměř dokonalé lineární škálování na velkých jazycových modelech. Je to také velmi snadné použití.

Jako připomínka, největší superpočítač na Zemi – Frontier – má 8,7 milionu jader. V surovém počtu jader je Andromeda více než jeden a půlkrát větší. Dělá jinou práci samozřejmě, ale to dává představu o rozsahu: téměř 100 terabitů vnitřní šířky pásma, téměř 20 000 jader AMD Epyc, které ji živí, a – na rozdíl od obřích superpočítačů, které trvají roky, než jsou postaveny – jsme postavili Andromedu za tři dny a okamžitě poté, co byla spuštěna, dodávala téměř dokonalé lineární škálování AI.

Argonne National Labs byla naše první zákaznice, která použila Andromedu, a aplikovala ji na problém, který rozbitý jejich 2 000 GPU cluster nazvaný Polaris. Problém spočíval v běhu velmi velkých, GPT-3XL generativních modelů, zatímco umístění celé genetické sekvence Covid do okna sekvence, aby bylo možné analyzovat každý gen v kontextu celé genetické sekvence Covid. Andromeda běžela unikátní genetickou zátěž s dlouhými sekvencemi (MSL 10K) napříč 1, 2, 4, 8 a 16 uzly, s téměř dokonalým lineárním škálováním. Lineární škálování je mezi nejvíce požadovanými charakteristikami velkého clusteru. Andromeda dodala 15,87násobek propustnosti napříč 16 systémy CS-2 ve srovnání s jediným systémem CS-2 a snížení času školení na shodu.

Můžete říci o partnerství s Jasper, které bylo oznámeno koncem listopadu, a co to znamená pro obě společnosti?

Jasper je opravdu zajímavá společnost. Jsou lídrem v oblasti generativního AI obsahu pro marketing, a jejich produkty jsou používány více než 100 000 zákazníků po celém světě pro psaní kopií pro marketing, reklamy, knihy a další. Je to samozřejmě velmi zajímavá a rychle rostoucí oblast právě teď. Minulý rok jsme oznámili partnerství s nimi, aby urychlit přijetí a zlepšit přesnost generativního AI napříč podnikovými a spotřebitelskými aplikacemi. Jasper používá náš superpočítač Andromeda pro školení svých hluboce výpočetně náročných modelů za zlomek času. To rozšíří dosah modelů generativního AI na masy.

S pomocí superpočítače Cerebras Andromeda, Jasper může dramaticky pokročit v AI práci, včetně školení GPT sítí, aby odpovídaly AI výstupům na všechny úrovně složitosti a granularity koncových uživatelů. To zlepšuje kontextuální přesnost generativních modelů a umožní Jasper personalizovat obsah napříč několika třídami zákazníků rychle a snadno.

Naše partnerství umožňuje Jasper vynalézat budoucnost generativního AI, dělat věci, které jsou nemožné nebo nerealizovatelné s tradiční infrastrukturou, a urychlit potenciál generativního AI, přinášet jeho výhody našim rychle rostoucím zákazníkům po celém světě.

V nedávném tiskovém prohlášení National Energy Technology Laboratory a Pittsburgh Supercomputing Center oznámily první simulaci Computational Fluid Dynamics na procesoru Cerebras wafer-scale. Můžete popsat, co je vlastně wafer-scale engine a jak funguje?

Náš Wafer-Scale Engine (WSE) je revoluční AI procesor pro náš hluboký učení počítačový systém, CS-2. Na rozdíl od legacy, všeobecných procesorů, WSE byl postaven od základu pro urychlení hlubokého učení: má 850 000 AI-optimalizovaných jader pro sparse tensorové operace, masivní vysokopropustnou paměť na čipu a interconnect orders of magnitude rychlejší než tradiční cluster by mohl possibly achieve. Altogether, to dává vám hluboké učení výpočetní zdroje ekvivalentní clusteru legacy strojů all v jednom zařízení, easy to programovat jako jediný uzel – radikálně snižuje programovací složitost, čas výpočtu a čas řešení.

Náš druhý generace WSE-2, který pohání náš systém CS-2, může řešit problémy extrémně rychle. Rychle enough, aby umožnil reálný čas, vysokou fidelitu modelů inženýrských systémů. Je to vzácný příklad úspěšného “silného škálování”, které je použití paralelismu pro snížení času řešení s pevnou velikostí problému.

A to je to, co National Energy Technology Laboratory a Pittsburgh Supercomputing Center používají. Přinášíme opravdu zajímavé výsledky simulace Computational Fluid Dynamics (CFD), složené z asi 200 milionů buněk, na téměř reálném čase. Tento video ukazuje high-resolution simulaci Rayleigh-Bénard konvekce, která se vyskytuje, když je vrstva tekutiny ohřátá zespodu a chlazena shora. Tyto termicky poháněné tekuté proudy jsou všude kolem nás – od větrných dnů, po sněhové bouře, po magma proudy v jádru Země a plazmové pohyby ve Slunci. Jak říká vypravěč, není to jen vizuální krása simulace, která je důležitá: je to rychlost, s jakou jsme schopni ji vypočítat. Poprvé, pomocí našeho Wafer-Scale Engine, je National Energy Technology Laboratory schopno manipulovat sítí téměř 200 milionů buněk v téměř reálném čase.

Jaký typ dat je simulován?

Zátěž testovaná byla termicky poháněné tekuté proudy, také známé jako přírodní konvekce, které jsou aplikací Computational Fluid Dynamics (CFD). Tekuté proudy se vyskytují přirozeně všude kolem nás – od větrných dnů, po sněhové bouře, po pohyb tektonických desek. Tato simulace, složená z asi 200 milionů buněk, se zaměřuje na jev nazvaný “Rayleigh-Bénard” konvekce, která se vyskytuje, když je tekutina ohřátá zespodu a chlazena shora. V přírodě může tento jev vést k vážným povětrnostním událostem, jako jsou downburstry, microburstry a derechos. Je také zodpovědný za pohyb magmy v jádru Země a plazmové pohyby ve Slunci.

V listopadu 2022 National Energy Technology Laboratory představila novou field equation modeling API, poháněnou systémem CS-2, která byla až 470krát rychlejší než to, co bylo možné na superpočítači Joule. To znamená, že může dodávat rychlosti beyond what either clusters of any number of CPUs or GPUs can achieve. Using a simple Python API that enables wafer-scale processing for much of computational science, WFA delivers gains in performance and usability that could not be obtained on conventional computers and supercomputers – in fact, it outperformed OpenFOAM on NETL’s Joule 2.0 supercomputer by over two orders of magnitude in time to solution.

Because of the simplicity of the WFA API, the results were achieved in just a few weeks and continue the close collaboration between NETL, PSC and Cerebras Systems.

By transforming the speed of CFD (which has always been a slow, off-line task) on our WSE, we can open up a whole raft of new, real-time use cases for this, and many other core HPC applications. Our goal is that by enabling more compute power, our customers can perform more experiments and invent better science. NETL lab director Brian Anderson has told us that this will drastically accelerate and improve the design process for some really big projects that NETL is working on around mitigating climate change and enabling a secure energy future — projects like carbon sequestration and blue hydrogen production.

Cerebras Systems je neustále lepší než konkurence, když jde o uvolňování superpočítačů, co jsou některé z výzev za stavbou špičkových superpočítačů?

Ironicky, jedna z nejtěžších výzev velkého AI je ne AI. Je to distribuovaný výpočet.

Pro školení dnešních špičkových neuronových sítí, výzkumníci často používají stovky až tisíce grafických procesorů (GPU). A není to snadné. Škálování velkých jazykových modelů napříč clusterem GPU vyžaduje distribuci zátěže napříč mnoha malými zařízeními, řešení omezení velikosti paměti zařízení a šířky pásma, a pečlivé řízení komunikace a synchronizace.

Jsme přijali úplně jiný přístup k návrhu našich superpočítačů prostřednictvím vývoje Cerebras Wafer-Scale Cluster a Cerebras Weight Streaming režimu provádění. S těmito technologiemi, Cerebras Systems řeší nový způsob škálování založený na třech klíčových bodech:

Nahrazení CPU a GPU zpracováním wafer-scale akcelerátory, jako je systém Cerebras CS-2. Tato změna snižuje počet výpočetních jednotek potřebných pro dosažení přijatelné výpočetní rychlosti.

Pro splnění výzvy velikosti modelu, používáme systémovou architekturu, která odděluje výpočet od úložiště modelu. Služba výpočtu založená na clusteru systémů CS-2 (poskytující dostatečnou výpočetní šířku pásma) je těsně spojena se službou paměti (s velkou kapacitou paměti), která poskytuje podmnožiny modelu clusteru na vyžádání. Jako obvykle, služba dat poskytuje dávky školicích dat službě výpočtu podle potřeby.

Inovativní model pro naplánování a koordinaci školení práce napříč clusterem CS-2, který využívá datovou paralelnost, vrstvu po vrstvě školení s řídkými váhami streamovanými na vyžádání a udržení aktivací ve službě výpočtu.

Existuje strach z konce Mooreova zákona po téměř deset let, kolik let může průmysl ještě stlačit a jaké typy inovací jsou potřebné pro to?

Myslím, že otázka, se kterou všichni zápasíme, je, zda Mooreův zákon – jak byl napsán Mooreem – je mrtvý. Není to tak, že za dva roky dostaneme více tranzistorů. Nyní to trvá čtyři nebo pět let. A tyto tranzistory nejsou dodávány za stejnou cenu – jsou dodávány za mnohem vyšší ceny. Takže otázka se stává, zda jsme stále získáváme stejné výhody přechodu z sedmi na pět na tři nanometry? Výhody jsou menší a stojí více, a tak se řešení stávají složitějšími než jen čip.

Jack Dongarra, vedoucí počítačový architekt, nedávno přednesl přednášku a řekl: “Stali jsme se mnohem lepšími v vytváření FLOPs a v vytváření I/O.” To je opravdu pravda. Naše schopnost přesouvat data z čipu je mnohem horší než naše schopnost zvýšit výkon na čipu. V Cerebras Systems jsme byli rádi, když to řekl, protože to potvrzuje naše rozhodnutí postavit větší čip a přesouvat méně věcí z čipu. To také poskytuje some guidance on future ways to make systems with chips perform better. Existuje práce, která musí být provedena, nejenom lepší FLOPs, ale také techniky pro přesunutí jich a dat z čipu na čip – dokonce z velmi velkého čipu na velmi velký čip.

Je něco jiného, co byste rádi sdíleli o Cerebras Systems?

Pro lepší nebo horší, lidé často umístí Cerebras do této kategorie “velmi velký čip”. Jsme byli schopni poskytnout přesvědčivé řešení pro velmi, velmi velké neuronové sítě, tím eliminují potřebu bolestivého distribuovaného výpočtu. Myslím, že to je enormně zajímavé a v srdci toho, proč naši zákazníci nás milují. Zajímavá oblast pro rok 2023 bude, jak dělat velký výpočet na vyšší úrovni přesnosti, pomocí méně FLOPs.

Naše práce na řídkosti poskytuje extrémně zajímavý přístup. Nemáme rádi práci, která nás nevede k cíli, a násobení nulou je špatný nápad. Brzy budeme vydávat opravdu zajímavou práci o řídkosti a myslím, že bude více úsilí věnováno hledání toho, jak se dostat k těmto efektivním bodům, a jak to udělat s méně energií. A ne jen pro méně energie a školení; jak minimalizovat náklady a energii používanou v inferenci? Myslím, že řídkost pomáhá na obou frontách.

Děkuji za tyto podrobné odpovědi, čtenáři, kteří chtějí se dozvědět více, by měli navštívit Cerebras Systems.

Antoine je vizionářský líder a zakládající partner Unite.AI, poháněný neotřesitelnou vášní pro formování a propagaci budoucnosti AI a robotiky. Jako sériový podnikatel věří, že AI bude mít na společnost stejně disruptivní vliv jako elektřina, a často je chycen při tom, jak hovoří o potenciálu disruptivních technologií a AGI. Jako futurist, je zasvěcen prozkoumání toho, jak tyto inovace budou formovat náš svět. Kromě toho je zakladatelem Securities.io, platformy zaměřené na investice do špičkových technologií, které předefinovávají budoucnost a mění celé sektory.