Connect with us

Andrew Feldman, Co-Founder & CEO von Cerebras Systems – Interview-Serie

Interviews

Andrew Feldman, Co-Founder & CEO von Cerebras Systems – Interview-Serie

mm

Andrew ist Co-Founder und CEO von Cerebras Systems. Er ist ein Unternehmer, der sich dafür einsetzt, Grenzen im Bereich der Computertechnologie zu überwinden. Vor Cerebras Systems war er Co-Founder und CEO von SeaMicro, einem Pionier im Bereich energieeffizienter, hochleistungsfähiger Mikroserver. SeaMicro wurde 2012 von AMD für 357 Millionen Dollar übernommen. Vor SeaMicro war Andrew Vice President of Product Management, Marketing und Business Development bei Force10 Networks, das später von Dell Computing für 800 Millionen Dollar übernommen wurde. Vor Force10 Networks war Andrew Vice President of Marketing und Corporate Development bei RiverStone Networks, von der Gründung des Unternehmens bis zum Börsengang im Jahr 2001. Andrew hat einen Bachelor- und Master-Abschluss in Betriebswirtschaft von der Stanford University.

Cerebras Systems entwickelt eine neue Klasse von Computersystemen, die von Grund auf für das Ziel der Beschleunigung von künstlicher Intelligenz (KI) und der Veränderung der Zukunft der KI-Arbeit konzipiert sind.

Könnten Sie die Entstehungsgeschichte hinter Cerebras Systems teilen?

Meine Co-Founder und ich haben alle zusammen an einem früheren Startup gearbeitet, das mein CTO Gary und ich 2007 gegründet haben, namens SeaMicro (das 2012 von AMD für 334 Millionen Dollar übernommen wurde). Meine Co-Founder sind einige der führenden Computerarchitekten und Ingenieure in der Branche – Gary Lauterbach, Sean Lie, JP Fricker und Michael James. Als wir uns 2015 wieder zusammenfanden, schrieben wir zwei Dinge auf eine Tafel – dass wir zusammenarbeiten wollten und dass wir etwas aufbauen wollten, das die Branche verändern und im Computer History Museum, dem Äquivalent zur Compute Hall of Fame, vertreten sein würde. Wir waren geehrt, als das Computer History Museum unsere Errungenschaften anerkannte und den WSE-2-Prozessor zu seiner Sammlung hinzufügte, weil er die künstliche Intelligenz-Landschaft verändert hat.

Cerebras Systems ist ein Team von Pionieren der Computerarchitektur, Computerwissenschaftlern, Deep-Learning-Forschern und Ingenieuren aller Art, die gefährliche Ingenieurskunst lieben. Unsere Mission, als wir uns zusammenfanden, bestand darin, einen neuen Computer-Typ zur Beschleunigung von Deep Learning zu entwickeln, das zu einer der wichtigsten Arbeitslasten unserer Zeit aufgestiegen ist.

Wir erkannten, dass Deep Learning einzigartige, massive und wachsende Rechenanforderungen hat. Und es ist nicht gut mit herkömmlichen Maschinen wie Grafikprozessoren (GPUs) abgestimmt, die grundlegend für andere Arbeiten konzipiert wurden. Als Ergebnis ist KI heute nicht durch Anwendungen oder Ideen eingeschränkt, sondern durch die Verfügbarkeit von Rechenleistung. Das Testen einer einzelnen neuen Hypothese – das Trainieren eines neuen Modells – kann Tage, Wochen oder sogar Monate dauern und Hunderttausende von Dollar an Rechenzeit kosten. Das ist ein großer Hindernis für Innovationen.

Die Entstehung von Cerebras bestand also darin, einen neuen Computer-Typ zu entwickeln, der ausschließlich für Deep Learning optimiert ist, beginnend mit einem sauberen Blatt Papier. Um die enormen Rechenanforderungen von Deep Learning zu erfüllen, entwarfen und fertigten wir den größten Chip, der jemals gebaut wurde – den Wafer-Scale Engine (WSE). Bei der Schaffung des ersten wafer-skaligen Prozessors überwanden wir Herausforderungen bei Design, Fertigung und Verpackung – alle, die für die gesamte 70-jährige Geschichte der Computer als unmöglich galten. Jedes Element des WSE ist darauf ausgelegt, Deep-Learning-Forschung mit unvergleichlicher Geschwindigkeit und Skalierbarkeit zu ermöglichen, indem es den leistungsstärksten KI-Supercomputer der Branche, den Cerebras CS-2, antreibt.

Mit jedem für KI-Arbeit optimierten Komponenten liefert der CS-2 mehr Rechenleistung bei weniger Platz und weniger Leistung als jedes andere System. Er tut dies, während er die Programmierkomplexität, die Rechenzeit und die Zeit bis zur Lösung radikal reduziert. Je nach Arbeitslast liefert der CS-2, von KI bis HPC, Hunderte oder Tausende von Mal mehr Leistung als herkömmliche Alternativen. Der CS-2 bietet die Deep-Learning-Rechenressourcen, die äquivalent zu Hunderten von GPUs sind, während er die einfache Programmierung, Verwaltung und Bereitstellung eines einzelnen Geräts bietet.

Im Laufe der letzten Monate scheint Cerebras überall in den Nachrichten zu sein, was können Sie uns über den neuen Andromeda-KI-Supercomputer erzählen?

Wir haben Andromeda im November des letzten Jahres angekündigt, und es ist einer der größten und leistungsstärksten KI-Supercomputer, der jemals gebaut wurde. Mit mehr als 1 Exaflop KI-Rechenleistung und 120 Petaflops dichter Rechenleistung verfügt Andromeda über 13,5 Millionen Kerne über 16 CS-2-Systeme und ist der einzige KI-Supercomputer, der jemals nahezu perfekte lineare Skalierbarkeit bei großen Sprachmodell-Arbeitslasten demonstriert hat. Er ist auch sehr einfach zu bedienen.

Um zu erinnern, der größte Supercomputer der Welt – Frontier – verfügt über 8,7 Millionen Kerne. In der Anzahl der Kerne ist Andromeda mehr als eineinhalb Mal so groß. Er führt natürlich andere Arbeiten aus, aber das gibt eine Vorstellung von der Größe: fast 100 Terabit interne Bandbreite, fast 20.000 AMD-Epyc-Kerne versorgen es, und – im Gegensatz zu den Riesen-Supercomputern, die Jahre brauchen, um aufgebaut zu werden – haben wir Andromeda in drei Tagen aufgebaut und sofort danach lieferte es nahezu perfekte lineare Skalierbarkeit von KI.

Das Argonne National Laboratory war unser erster Kunde, der Andromeda nutzte, und sie wandten es auf ein Problem an, das ihren 2.000-GPU-Cluster namens Polaris sprengte. Das Problem bestand darin, sehr große, GPT-3XL-Generative-Modelle auszuführen, während die gesamte Covid-Genom-Sequenz im Sequenzfenster platziert wurde, sodass jede Gene im Kontext des gesamten Covid-Genoms analysiert werden konnte. Andromeda führte eine einzigartige genetische Arbeitslast mit langen Sequenzlängen (MSL von 10K) über 1, 2, 4, 8 und 16 Knoten mit nahezu perfekter linearer Skalierbarkeit aus. Lineare Skalierbarkeit ist eine der begehrtesten Eigenschaften eines großen Clusters. Andromeda lieferte 15,87-mal mehr Durchsatz über 16 CS-2-Systeme im Vergleich zu einem einzelnen CS-2 und eine Verringerung der Trainingszeit.

Könnten Sie uns über die Partnerschaft mit Jasper erzählen, die Ende November bekannt gegeben wurde, und was sie für beide Unternehmen bedeutet?

Jasper ist ein wirklich interessantes Unternehmen. Sie sind ein Leader im Bereich generativer KI-Inhalte für Marketing, und ihre Produkte werden von mehr als 100.000 Kunden auf der ganzen Welt verwendet, um Werbetexte, Anzeigen, Bücher und mehr zu schreiben. Es ist offensichtlich ein sehr spannendes und schnell wachsendes Gebiet gerade jetzt. Letztes Jahr haben wir eine Partnerschaft mit ihnen bekannt gegeben, um die Übernahme und die Genauigkeit von generativer KI in Unternehmens- und Consumer-Anwendungen zu beschleunigen. Jasper nutzt unseren Andromeda-Supercomputer, um ihre extrem rechenintensiven Modelle in Bruchteilen der Zeit zu trainieren. Dies wird den Zugang zu generativen KI-Modellen für die Massen erweitern.

Mit der Leistung des Cerebras-Andromeda-Supercomputers kann Jasper die KI-Arbeit dramatisch vorantreiben, einschließlich des Trainings von GPT-Netzwerken, um KI-Ausgaben an alle Ebenen der Endbenutzer-Komplexität und -Feinheit anzupassen. Dies verbessert die kontextuelle Genauigkeit von generativen Modellen und ermöglicht es Jasper, Inhalte über mehrere Klassen von Kunden hinweg schnell und einfach zu personalisieren.

Unsere Partnerschaft ermöglicht es Jasper, die Zukunft von generativer KI zu erfinden, indem sie Dinge tut, die mit herkömmlicher Infrastruktur unmöglich oder unpraktisch sind, und die potenziellen Vorteile von generativer KI zu beschleunigen, um sie unserem schnell wachsenden Kundenstamm auf der ganzen Welt zugänglich zu machen.

In einer aktuellen Pressemitteilung haben das National Energy Technology Laboratory und das Pittsburgh Supercomputing Center die erste jemals durchgeführte Computational-Fluid-Dynamics-Simulation auf dem Cerebras-Wafer-Scale-Engine bekannt gegeben. Könnten Sie uns erklären, was speziell ein Wafer-Scale-Engine ist und wie es funktioniert?

Unser Wafer-Scale-Engine (WSE) ist der revolutionäre KI-Prozessor für unser Deep-Learning-Computersystem, das CS-2. Im Gegensatz zu herkömmlichen, allgemeinen Prozessoren wurde der WSE von Grund auf entwickelt, um Deep Learning zu beschleunigen: Er verfügt über 850.000 KI-optimierte Kerne für sparse Tensor-Operationen, massive Hochbandbreite-Speicher auf dem Chip und Interconnects, die um Größenordnungen schneller sind als ein herkömmlicher Cluster. Insgesamt bietet es die Deep-Learning-Rechenressourcen, die äquivalent zu einem Cluster von herkömmlichen Maschinen sind, alle in einem Gerät, einfach zu programmieren wie ein einzelner Knoten – radikal reduzierend die Programmierkomplexität, die Rechenzeit und die Zeit bis zur Lösung.

Unser zweites WSE-2, das unser CS-2-System antreibt, kann Probleme extrem schnell lösen. Schnell genug, um Echtzeit-, Hochfidelitäts-Modelle von konstruierten Systemen zu ermöglichen. Es ist ein seltenes Beispiel für erfolgreiche “starke Skalierbarkeit”, die die Verwendung von Parallelismus zur Reduzierung der Lösezeit mit einem festen Problemumfang ist.

Und das ist es, wofür das National Energy Technology Laboratory und das Pittsburgh Supercomputing Center es nutzen. Wir haben kürzlich einige sehr interessante Ergebnisse einer Computational-Fluid-Dynamics-(CFD)-Simulation bekannt gegeben, die aus etwa 200 Millionen Zellen besteht, bei nahezu Echtzeit-Raten. Dieses Video zeigt die hochauflösende Simulation von Rayleigh-Bénard-Konvektion, die auftritt, wenn eine Flüssigkeitsschicht von unten erhitzt und von oben gekühlt wird. Diese thermisch angetriebenen Flüssigkeitsströme sind überall um uns herum – von windigen Tagen bis hin zu Schneestürmen am Seeufer, zu tektonischen Plattentrieben und Plasma-Bewegungen in der Sonne. Wie der Erzähler sagt, ist es nicht nur die visuelle Schönheit der Simulation, die wichtig ist: Es ist die Geschwindigkeit, mit der wir sie berechnen. Zum ersten Mal kann das National Energy Technology Laboratory mit unserem Wafer-Scale-Engine ein Raster von fast 200 Millionen Zellen in nahezu Echtzeit manipulieren.

Was für eine Art von Daten wird simuliert?

Die getestete Arbeitslast bestand aus thermisch angetriebenen Flüssigkeitsströmen, auch bekannt als natürliche Konvektion, was eine Anwendung von Computational Fluid Dynamics (CFD) ist. Flüssigkeitsströme treten natürlich überall um uns herum auf – von windigen Tagen bis hin zu Schneestürmen am Seeufer, zu tektonischen Plattentrieben und Plasma-Bewegungen in der Sonne. Diese Simulation, die aus etwa 200 Millionen Zellen besteht, konzentriert sich auf ein Phänomen namens “Rayleigh-Bénard”-Konvektion, das auftritt, wenn eine Flüssigkeit von unten erhitzt und von oben gekühlt wird. In der Natur kann dieses Phänomen zu schweren Wetterereignissen wie Downbursts, Microbursts und Derechos führen. Es ist auch verantwortlich für die Bewegung von Magma im Erdkern und Plasma-Bewegungen in der Sonne.

Im November 2022 stellte das National Energy Technology Laboratory eine neue Feldgleichungs-Modellierungs-API vor, die von unserem CS-2-System angetrieben wird, die bis zu 470-mal schneller war als das, was auf dem Joule-Supercomputer des National Energy Technology Laboratory möglich war. Dies bedeutet, dass es Geschwindigkeiten liefern kann, die über das hinausgehen, was Cluster von CPUs oder GPUs erreichen können. Mit einer einfachen Python-API, die wafer-skalige Verarbeitung für viel von der computergestützten Wissenschaft ermöglicht, liefert WFA Leistungs- und Benutzerfreundlichkeitsgewinne, die auf herkömmlichen Computern und Supercomputern nicht erreichbar sind – tatsächlich übertraf es OpenFOAM auf dem Joule-2.0-Supercomputer des National Energy Technology Laboratory um mehr als zwei Größenordnungen in der Zeit bis zur Lösung.

Da die WFA-API einfach ist, wurden die Ergebnisse in nur wenigen Wochen erzielt und setzen die enge Zusammenarbeit zwischen dem National Energy Technology Laboratory, dem Pittsburgh Supercomputing Center und Cerebras Systems fort.

Indem wir die Geschwindigkeit von CFD (das immer eine langsame, offline-Aufgabe war) auf unserem WSE transformieren, können wir eine ganze Reihe neuer, echter Anwendungsfälle für dies und viele andere Kern-HPC-Anwendungen öffnen. Unser Ziel ist, dass unsere Kunden durch die Bereitstellung von mehr Rechenleistung mehr Experimente durchführen und bessere Wissenschaft betreiben können. Der Leiter des National Energy Technology Laboratory, Brian Anderson, hat uns gesagt, dass dies den Entwicklungsprozess für einige große Projekte, an denen das National Energy Technology Laboratory arbeitet, um die Bekämpfung des Klimawandels und die Gewährleistung einer sicheren Energiezukunft zu ermöglichen – Projekte wie CO2-Abscheidung und blaue Wasserstoffproduktion – erheblich beschleunigen und verbessern wird.

Cerebras übertrifft konsequent die Konkurrenz, wenn es darum geht, Supercomputer zu veröffentlichen, was sind einige der Herausforderungen beim Bau von State-of-the-Art-Supercomputern?

Ironischerweise ist eine der härtesten Herausforderungen von Big AI nicht die AI selbst. Es ist die verteilte Rechenleistung.

Um die heutigen State-of-the-Art-Neural-Netzwerke zu trainieren, verwenden Forscher oft Hunderte bis Tausende von Grafikprozessoren (GPUs). Und es ist nicht einfach. Die Skalierung von großen Sprachmodell-Trainings über einen GPU-Cluster erfordert die Verteilung einer Arbeitslast über viele kleine Geräte, die Bewältigung von Gerätespeichergrößen und -bandbreitenbeschränkungen und die sorgfältige Verwaltung von Kommunikations- und Synchronisationsüberhead.

Wir haben einen ganz anderen Ansatz für die Entwicklung unserer Supercomputer durch die Entwicklung des Cerebras-Wafer-Scale-Clusters und des Cerebras-Weight-Streaming-Ausführungsmodus verfolgt. Mit diesen Technologien geht Cerebras einen neuen Weg, um zu skalieren, basierend auf drei Schlüsselpunkten:

Die Ersetzung von CPU- und GPU-Verarbeitung durch wafer-skalige Beschleuniger wie das Cerebras-CS-2-System. Diese Änderung reduziert die Anzahl der Recheneinheiten, die erforderlich sind, um eine akzeptable Rechengeschwindigkeit zu erreichen.

Um die Herausforderung der Modellgröße zu meistern, verwenden wir eine Systemarchitektur, die die Rechenleistung von der Modellspeicherung trennt. Ein Compute-Service, der auf einem Cluster von CS-2-Systemen basiert (der ausreichende Rechenbandbreite bietet), ist eng mit einem Memory-Service (mit großer Speicherkapazität) verbunden, der Teile des Modells an den Compute-Cluster auf Abruf bereitstellt. Wie üblich dient ein Data-Service Batches von Trainingsdaten an den Compute-Service, wenn erforderlich.

Ein innovatives Modell für die Planung und Koordinierung von Trainingsarbeiten über den CS-2-Cluster, das Datenparallelismus, Schicht-für-Schicht-Training mit sparse Gewichten, die auf Abruf gestreamt werden, und die Aufrechterhaltung von Aktivierungen im Compute-Service verwendet.

Es gibt Befürchtungen über das Ende von Moores Gesetz seit fast einem Jahrzehnt, wie viele Jahre kann die Branche noch ausquetschen und welche Arten von Innovationen sind erforderlich?

Ich denke, die Frage, mit der wir alle ringen, ist, ob Moores Gesetz – wie von Moore geschrieben – tot ist. Es dauert nicht mehr zwei Jahre, um mehr Transistoren zu bekommen. Es dauert jetzt vier oder fünf Jahre. Und diese Transistoren kommen nicht zum gleichen Preis – sie kommen zu weit höheren Preisen. Die Frage wird also, ob wir immer noch die gleichen Vorteile haben, wenn wir von sieben auf fünf auf drei Nanometer umsteigen. Die Vorteile sind kleiner und sie kosten mehr, und so werden die Lösungen komplizierter als einfach der Chip.

Jack Dongarra, ein führender Computerarchitekt, hat kürzlich einen Vortrag gehalten und gesagt: “Wir sind viel besser darin geworden, FLOPs und I/O zu machen.” Das ist wirklich wahr. Unsere Fähigkeit, Daten vom Chip zu entfernen, hinkt unserer Fähigkeit, die Leistung auf einem Chip zu erhöhen, um ein großes Maß. Bei Cerebras waren wir froh, als er das sagte, weil es unsere Entscheidung bestätigt, einen größeren Chip zu bauen und weniger Dinge vom Chip zu entfernen. Es bietet auch einige Anleitung für zukünftige Möglichkeiten, Systeme mit Chips zu bauen, die besser funktionieren. Es gibt Arbeit zu leisten, nicht nur, um mehr FLOPs zu wringen, sondern auch in Techniken, um sie und die Daten von Chip zu Chip zu bewegen – sogar von sehr großen Chips zu sehr großen Chips.

Gibt es noch etwas, das Sie über Cerebras Systems teilen möchten?

Für besser oder schlechter werden Menschen Cerebras oft in diese Kategorie von “den wirklich großen Chip-Leuten” einordnen. Wir haben es geschafft, überzeugende Lösungen für sehr, sehr große neuronale Netze zu bieten, wodurch die Notwendigkeit, schmerzhafte verteilte Rechenleistung zu betreiben, eliminiert wird. Ich denke, das ist enorm interessant und liegt im Herzen dessen, warum unsere Kunden uns lieben. Das interessante Gebiet für 2023 wird sein, wie man große Rechenleistung auf einem höheren Genauigkeitsniveau durchführt, mit weniger FLOPs.

Unsere Arbeit an Sparsity bietet einen extrem interessanten Ansatz. Wir tun keine Arbeit, die uns nicht zum Ziel bringt, und Multiplikation mit Null ist eine schlechte Idee. Wir werden bald einen wirklich interessanten Artikel über Sparsity veröffentlichen, und ich denke, es wird mehr Bemühungen geben, um zu sehen, wie wir zu diesen effizienten Punkten gelangen und wie wir dies mit weniger Leistung tun. Und nicht nur für weniger Leistung und Training; wie minimieren wir die Kosten und die Leistung, die bei Inferenz verwendet wird? Ich denke, Sparsity hilft auf beiden Fronten.

Vielen Dank für diese ausführlichen Antworten. Leser, die mehr erfahren möchten, sollten Cerebras Systems besuchen.

Antoine ist ein visionärer Führer und Gründungspartner von Unite.AI, getrieben von einer unerschütterlichen Leidenschaft für die Gestaltung und Förderung der Zukunft von KI und Robotik. Ein Serienunternehmer, glaubt er, dass KI so disruptiv für die Gesellschaft sein wird wie Elektrizität, und wird oft dabei ertappt, wie er über das Potenzial disruptiver Technologien und AGI schwärmt.

Als futurist ist er darauf fokussiert, zu erforschen, wie diese Innovationen unsere Welt formen werden. Zusätzlich ist er der Gründer von Securities.io, einer Plattform, die sich auf Investitionen in hochmoderne Technologien konzentriert, die die Zukunft neu definieren und ganze Branchen umgestalten.