Wywiady
Andrew Feldman, współzałożyciel i CEO Cerebras Systems – seria wywiadów

Andrew jest współzałożycielem i CEO Cerebras Systems. Jest przedsiębiorcą poświęconym przekraczaniu granic w dziedzinie obliczeń. Przed Cerebras, współzałożył i był CEO SeaMicro, pionierem energooszczędnych, wysokopasmowych mikroserwerów. SeaMicro zostało przejęte przez AMD w 2012 roku za 357 milionów dolarów. Przed SeaMicro, Andrew był wiceprezesem ds. zarządzania produktem, marketingu i rozwoju biznesu w Force10 Networks, które później zostało sprzedane firmie Dell Computing za 800 milionów dolarów. Przed Force10 Networks, Andrew był wiceprezesem ds. marketingu i rozwoju korporacyjnego w RiverStone Networks od powstania firmy do pierwszej oferty publicznej w 2001 roku. Andrew posiada tytuł licencjata i magistra biznesu na Uniwersytecie Stanforda.
Cerebras Systems buduje nową klasę systemów komputerowych, zaprojektowanych od podstaw z celem przyspieszenia sztucznej inteligencji i zmiany przyszłości pracy z AI.
Czy mógłbyś podzielić się historią powstania Cerebras Systems?
Moi współzałożyciele i ja wszyscy pracowaliśmy razem w poprzedniej firmie, którą mój CTO Gary i ja założyliśmy w 2007 roku, nazwanej SeaMicro (która została sprzedana AMD w 2012 roku za 334 miliony dolarów). Moi współzałożyciele to niektórzy z wiodących architektów komputerowych i inżynierów w branży – Gary Lauterbach, Sean Lie, JP Fricker i Michael James. Kiedy ponownie się zebraliśmy w 2015 roku, napisaliśmy dwie rzeczy na tablicy – że chcemy pracować razem i że chcemy zbudować coś, co zmieni branżę i będzie w Komputerowym Muzeum Historii, które jest równoznaczne z Komputerową Galerią Sławy. Byliśmy uhonorowani, gdy Komputerowe Muzeum Historii uznało nasze osiągnięcia i dodało procesor WSE-2 do swojej kolekcji w zeszłym roku, cytując, jak przekształcił on krajobraz sztucznej inteligencji.
Cerebras Systems to zespół pionierskich architektów komputerowych, naukowców komputerowych, badaczy głębokiego uczenia się i inżynierów wszystkich typów, którzy kochają bezstronne inżynierię. Naszym celem, gdy się zebraliśmy, było zbudowanie nowej klasy komputera do przyspieszenia głębokiego uczenia się, które stało się jednym z najważniejszych obciążeń naszych czasów.
Zrealizowaliśmy, że głębokie uczenie się ma unikalne, ogromne i rosnące wymagania obliczeniowe. I nie jest dobrze dopasowane do maszyn dziedzictwa, takich jak jednostki przetwarzania grafiki (GPU), które zostały podstawowo zaprojektowane do innej pracy. W wyniku czego, AI dzisiaj jest ograniczona nie przez aplikacje ani pomysły, ale przez dostępność obliczeń. Testowanie jednego nowego założenia – trening nowego modelu – może potrwać dni, tygodnie lub nawet miesiące i kosztować setki tysięcy dolarów w czasie obliczeń. To jest duży przeszkoda do innowacji.
Więc powstanie Cerebras było celem zbudowania nowego typu komputera zoptymalizowanego wyłącznie do głębokiego uczenia się, zaczynając od czystej kartki papieru. Aby spełnić ogromne wymagania obliczeniowe głębokiego uczenia się, zaprojektowaliśmy i wyprodukowaliśmy największy chip kiedykolwiek zbudowany – Wafer-Scale Engine (WSE). Tworząc pierwszy na świecie procesor wafer-scale, pokonaliśmy wyzwania w dziedzinie projektowania, produkcji i pakowania – wszystkie z nich były uważane za niemożliwe przez całe 70-letnie historie komputerów. Każdy element WSE jest zaprojektowany, aby umożliwić badania głębokiego uczenia się z niezwykłymi prędkościami i skalą, napędzając najbardziej wydajny superkomputer AI w branży, Cerebras CS-2.
Z każdym składnikiem zoptymalizowanym do pracy AI, CS-2 dostarcza więcej wydajności obliczeniowej w mniejszej przestrzeni i przy mniejszej mocy niż jakikolwiek inny system. Robi to, redukując radykalnie złożoność programowania, czas obliczeń i czas rozwiązania. W zależności od obciążenia, od AI do HPC, CS-2 dostarcza setki lub tysiące razy więcej wydajności niż alternatywy dziedzictwa. CS-2 zapewnia zasoby obliczeniowe głębokiego uczenia się równoważne setkom GPU, przy jednoczesnym zapewnieniu łatwości programowania, zarządzania i wdrożenia pojedynczego urządzenia.
W ciągu ostatnich kilku miesięcy Cerebras wydaje się być wszędzie w wiadomościach, co możesz powiedzieć o nowym superkomputerze AI Andromeda?
Ogłosiliśmy Andromeda w listopadzie zeszłego roku, i jest to jeden z największych i najpotężniejszych superkomputerów AI kiedykolwiek zbudowanych. Dostarczając więcej niż 1 Exaflop obliczeń AI i 120 Petaflops gęstych obliczeń, Andromeda ma 13,5 miliona rdzeni w 16 systemach CS-2, i jest jedynym superkomputerem AI, który kiedykolwiek wykazał niemal idealną liniową skalowalność w dużych obciążeniach modeli językowych. Jest również niezwykle łatwy w użyciu.
Przypomnijmy, że największy superkomputer na Ziemi – Frontier – ma 8,7 miliona rdzeni. W surowej liczbie rdzeni, Andromeda jest ponad półtora raza większa. Robi inną pracę oczywiście, ale to daje pomysł na zakres: niemal 100 terabitów wewnętrznej przepustowości, niemal 20 000 rdzeni AMD Epyc karmi ją, i – w przeciwieństwie do gigantycznych superkomputerów, które zajmują lata na postawienie – postawiliśmy Andromeda w trzy dni i natychmiast potem, dostarczała niemal idealną liniową skalowalność AI.
Argonne National Labs było naszym pierwszym klientem, który użył Andromeda, i zastosowali ją do problemu, który łamał ich 2-tysięczny klaster GPU o nazwie Polaris. Problemem było uruchamianie bardzo dużych, modeli generatywnych GPT-3XL, umieszczając cały genom Covid w oknie sekwencji, tak aby można było analizować każdy gen w kontekście całego genomu Covid. Andromeda uruchomiła unikalne obciążenie genetyczne z długimi długościami sekwencji (MSL 10K) na 1, 2, 4, 8 i 16 węzłach, z niemal idealną liniową skalowalnością. Liniowa skalowalność jest jedną z najbardziej pożądanych cech dużego klastra. Andromeda dostarczyła 15,87-krotny przyrost wydajności na 16 systemach CS-2 w porównaniu z pojedynczym systemem CS-2, i redukcję czasu treningu do dopasowania.
Czy mógłbyś powiedzieć o partnerstwie z Jasper, które zostało ujawnione pod koniec listopada, i co to oznacza dla obu firm?
Jasper to bardzo interesująca firma. Są liderem w dziedzinie generatywnego AI treści dla marketingu, a ich produkty są używane przez ponad 100 000 klientów na całym świecie do pisania kopii dla marketingu, reklam, książek i więcej. To jest oczywiście bardzo ekscytująca i szybko rozwijająca się dziedzina właśnie teraz. W zeszłym roku, ogłosiliśmy partnerstwo z nimi, aby przyspieszyć przyjęcie i poprawić dokładność generatywnego AI w aplikacjach przedsiębiorczych i konsumenckich. Jasper używa naszego superkomputera Andromeda do treningu jego głęboko obliczeniowo intensywnych modeli w ułamku czasu. To pozwoli na rozszerzenie zasięgu modeli generatywnego AI do mas.
Z mocą superkomputera Cerebras Andromeda, Jasper może dramatycznie przyspieszyć pracę AI, w tym trening sieci GPT, aby dopasować wyjścia AI do wszystkich poziomów złożoności i szczegółowości końcowych użytkowników. To poprawi kontekstową dokładność modeli generatywnych i umożliwi Jasperowi personalizację treści w wielu klasach klientów szybko i łatwo.
Nasze partnerstwo pozwala Jasper na wynalezienie przyszłości generatywnego AI, robiąc rzeczy, które są niewykonalne lub po prostu niemożliwe z tradycyjną infrastrukturą, i przyspieszyć potencjał generatywnego AI, przywożąc jego korzyści do naszej szybko rozwijającej się bazy klientów na całym świecie.
W recent komunikacie prasowym, National Energy Technology Laboratory i Pittsburgh Supercomputing Center ogłosiły pierwszą kiedykolwiek symulację Computational Fluid Dynamics na procesorze wafer-scale Cerebras. Czy mógłbyś opisać, co konkretnie jest silnikiem wafer-scale i jak działa?
Nasz silnik wafer-scale (WSE) to rewolucyjny procesor AI dla naszego systemu komputerowego głębokiego uczenia się, CS-2. W przeciwieństwie do procesorów ogólnego przeznaczenia, WSE został zbudowany od podstaw, aby przyspieszyć głębokie uczenie się: ma 850 000 rdzeni zoptymalizowanych do operacji tensorowych, ogromną pamięć wewnętrzną o dużej przepustowości i połączenia o kilka rzędów wielkości szybsze niż tradycyjny klaster mógłby osiągnąć. Wszystko to daje Ci zasoby obliczeniowe głębokiego uczenia się równoważne klastrowi maszyn dziedzictwa, wszystko w jednym urządzeniu, łatwym do programowania jako pojedynczy węzeł – radykalnie redukując złożoność programowania, czas obliczeń i czas rozwiązania.
Nasza druga generacja WSE-2, która napędza nasz system CS-2, może rozwiązywać problemy ekstremalnie szybko. Szybko enough, aby umożliwić modele w czasie rzeczywistym, o wysokiej wierności, systemów inżynierskich. To jest rzadki przykład udanej “silnej skalowalności”, która jest użyciem paralelizmu do redukcji czasu rozwiązania z problemem o stałym rozmiarze.
I to jest to, do czego National Energy Technology Laboratory i Pittsburgh Supercomputing Center używają go. Ogłosiliśmy naprawdę ekscytujące wyniki symulacji dynamiki płynów obliczeniowych (CFD), składającej się z około 200 milionów komórek, w niemal czasie rzeczywistym. To wideo pokazuje symulację wysokiej rozdzielczości konwekcji Rayleigh-Bénard, która występuje, gdy warstwa cieczy jest ogrzewana od dołu i chłodzona od góry. Te termicznie napędzane przepływy cieczy są wszędzie wokół nas – od wietrznych dni, do burz śnieżnych, do ruchów magmy w jądrze Ziemi i ruchu plazmy w Słońcu. Jak mówi narrator, to nie tylko wizualna uroda symulacji, która jest ważna: to prędkość, z jaką możemy ją obliczyć. Po raz pierwszy, używając naszego silnika wafer-scale, NETL jest w stanie manipulować siatką niemal 200 milionów komórek w niemal czasie rzeczywistym.
Jaki rodzaj danych jest symulowany?
Obciążenie testowe było termicznie napędzanym przepływem cieczy, również zwanym konwekcją naturalną, który jest aplikacją dynamiki płynów obliczeniowych (CFD). Przepływy cieczy występują naturalnie wszędzie wokół nas – od wietrznych dni, do burz śnieżnych, do ruchu płyt tektonicznych. Ta symulacja, składająca się z około 200 milionów komórek, koncentruje się na zjawisku zwanym “konwekcją Rayleigh-Bénard”, która występuje, gdy ciecz jest ogrzewana od dołu i chłodzona od góry. W naturze, to zjawisko może prowadzić do ekstremalnych zdarzeń pogodowych, takich jak downbursty, microbursty i derechos. To也是 odpowiedzialne za ruch magmy w jądrze Ziemi i ruch plazmy w Słońcu.
W listopadzie 2022 roku, NETL wprowadziło nowy interfejs API do modelowania równań pola, napędzany przez system CS-2, który był nawet 470 razy szybszy niż to, co było możliwe na superkomputerze NETL Joule. To oznacza, że mógł dostarczyć prędkości poza tym, co klastrowe CPU lub GPU mogą osiągnąć. Używając prostego interfejsu API Python, który umożliwia przetwarzanie wafer-scale dla większości nauki komputerowej, WFA dostarcza zyski w wydajności i używalności, które nie mogły być osiągnięte na konwencjonalnych komputerach i superkomputerach – w rzeczywistości, przewyższył OpenFOAM na superkomputerze NETL Joule 2.0 o ponad dwa rzędy wielkości w czasie rozwiązania.
Ponieważ interfejs API WFA jest prosty, wyniki zostały osiągnięte w zaledwie kilka tygodni i kontynuują bliską współpracę między NETL, PSC i Cerebras Systems.
Przez transformację prędkości CFD (która zawsze była powolną, offline’ową zadaniem) na naszym WSE, możemy otworzyć cały szereg nowych, w czasie rzeczywistym, przypadków użycia dla tego, i wielu innych podstawowych aplikacji HPC. Naszym celem jest, aby poprzez umożliwienie większej mocy obliczeniowej, nasi klienci mogą przeprowadzać więcej eksperymentów i wynaleźć lepszą naukę. Dyrektor laboratorium NETL, Brian Anderson, powiedział nam, że to dramatycznie przyspieszy i poprawi proces projektowania dla niektórych bardzo dużych projektów, nad którymi NETL pracuje, aby złagodzić zmiany klimatyczne i umożliwić bezpieczną przyszłość energetyczną – projekty, takie jak sekwestracja węgla i produkcja błękitnego wodoru.
Cerebras jest nieustannie lepszy od konkurencji, jeśli chodzi o wydawanie superkomputerów, jakie są niektóre z wyzwań związanych z budową superkomputerów najnowszej generacji?
Ironicznie, jednym z najtrudniejszych wyzwań dużego AI nie jest AI. To jest rozproszone obliczenia.
Aby przeszkolić dzisiejsze sieci neuronowe najnowszej generacji, badacze często używają setek do tysięcy jednostek przetwarzania grafiki (GPU). I nie jest to łatwe. Skalowanie treningu dużych modeli językowych na klastrze GPU wymaga rozproszenia obciążenia na wiele małych urządzeń, radzenia sobie z ograniczeniami pamięci urządzenia i przepustowości, oraz starannego zarządzania komunikacją i synchronizacją.
Zajęliśmy się zupełnie innym podejściem do projektowania naszych superkomputerów poprzez rozwój klastra wafer-scale Cerebras i trybu wykonywania Cerebras Weight Streaming. Z tymi technologiami, Cerebras zajmuje się nowym sposobem skalowania opartym na trzech kluczowych punktach:
Zastąpienie przetwarzania CPU i GPU przez przyspieszanie wafer-scale, takie jak system Cerebras CS-2. To zmiana redukuje liczbę jednostek obliczeniowych potrzebnych do osiągnięcia akceptowalnej prędkości obliczeń.
Aby sprostać wyzwaniu rozmiaru modelu, zastosowaliśmy architekturę systemu, która oddziela obliczenia od przechowywania modelu. Usługa obliczeniowa oparta na klastrze systemów CS-2 (dostarczającej wystarczającą przepustowość obliczeniową) jest ściśle powiązana z usługą pamięci (o dużej pojemności pamięci), która dostarcza podzbiory modelu do klastra obliczeniowego na żądanie. Jak zwykle, usługa danych dostarcza partie danych treningowych do usługi obliczeniowej w miarę potrzeby.
Innowacyjny model do planowania i koordynowania treningu pracy na klastrze CS-2, który wykorzystuje paralelizm danych, trening warstwa po warstwie z rzadkimi wagami przesyłanymi na żądanie, oraz utrzymanie aktywacji w usłudze obliczeniowej.
Jest strach przed końcem prawa Moore’a od prawie dekady, ile lat może jeszcze wydobyć branża i jakie typy innowacji są potrzebne do tego?
Myślę, że pytanie, z którym wszyscy się mierzymy, to czy prawo Moore’a – tak jak je napisał Moore – jest martwe. Nie zajmuje to już dwóch lat, aby dostać więcej tranzystorów. Teraz zajmuje to cztery lub pięć lat. I te tranzystory nie przychodzą w tej samej cenie – przychodzą w znacznie wyższych cenach. Więc pytanie staje się, czy nadal otrzymujemy te same korzyści z przechodzenia z siedmiu do pięciu do trzech nanometrów? Korzyści są mniejsze i kosztują więcej, i tak rozwiązania stają się bardziej skomplikowane niż proste chipy.
Jack Dongarra, wiodący architekt komputerowy, wygłosił niedawno wykład i powiedział: “Staliśmy się znacznie lepsi w tworzeniu FLOPs i wejścia/wyjścia”. To jest naprawdę prawda. Nasza zdolność do przenoszenia danych poza chipem znacznie odbiega od naszej zdolności do zwiększania wydajności na chipie. W Cerebras, byliśmy szczęśliwi, gdy powiedział to, ponieważ potwierdza naszą decyzję o zbudowaniu większego chipa i przenoszeniu mniej rzeczy poza chipem. To również dostarcza pewnych wskazówek na temat przyszłych sposobów robienia systemów z chipami, które działają lepiej. Jest jeszcze wiele pracy do wykonania, nie tylko wyciskanie więcej FLOPs, ale również w techniki przenoszenia ich i przenoszenia danych z chipu do chipu – nawet z bardzo dużego chipu do bardzo dużego chipu.
Czy jest coś jeszcze, co chciałbyś podzielić się na temat Cerebras Systems?
Dla lepszego lub gorszego, ludzie często umieszczają Cerebras w tej kategorii “naprawdę duży chip”. Udało nam się dostarczyć przekonujące rozwiązania dla bardzo, bardzo dużych sieci neuronowych, eliminując w ten sposób potrzebę bolesnego obliczenia rozproszonego. Wierzę, że to jest ogromnie interesujące i w sercu tego, dlaczego nasi klienci nas kochają. Interesująca dziedzina na 2023 rok będzie to, jak zrobić duże obliczenia na wyższym poziomie dokładności, używając mniej FLOPs.
Nasza praca nad rzadkością dostarcza niezwykle interesujące podejście. Nie robimy pracy, która nie przesuwa nas w kierunku linii celu, i mnożenie przez zero jest złym pomysłem. Wkrótce wydamy bardzo interesujący artykuł na temat rzadkości, i myślę, że będzie więcej wysiłku włożonego w poszukiwanie sposobów, aby dostać się do tych wydajnych punktów, i jak to zrobić dla mniej mocy. I nie tylko dla mniej mocy i treningu; jak zminimalizować koszt i moc używaną w inferencji? Myślę, że rzadkość pomaga w obu przypadkach.
Dziękuję za te szczegółowe odpowiedzi, czytelnicy, którzy chcą dowiedzieć się więcej, powinni odwiedzić Cerebras Systems.












