talon Andrew Feldman, co-fondateur et PDG de Cerebras Systems - Série d'interviews - Unite.AI
Suivez nous sur

Interviews

Andrew Feldman, co-fondateur et PDG de Cerebras Systems - Série d'interviews

mm

Publié le

 on

Andrew est co-fondateur et PDG de Systèmes Cerebras. C'est un entrepreneur qui se consacre à repousser les limites de l'espace informatique. Avant Cerebras, il a cofondé et a été PDG de SeaMicro, un pionnier des microserveurs à large bande passante écoénergétiques. SeaMicro a été acquis par AMD en 2012 pour 357 millions de dollars. Avant SeaMicro, Andrew était vice-président de la gestion des produits, du marketing et de la BD chez Force10 Networks, qui a ensuite été vendu à Dell Computing pour 800 millions de dollars. Avant Force10 Networks, Andrew était vice-président du marketing et du développement d'entreprise chez RiverStone Networks depuis la création de l'entreprise jusqu'à son introduction en bourse en 2001. Andrew est titulaire d'un BA et d'un MBA de l'Université de Stanford.

Cerebras Systems construit une nouvelle classe de systèmes informatiques, conçus à partir des premiers principes dans le seul but d'accélérer l'IA et de changer l'avenir du travail de l'IA.

Pourriez-vous partager l'histoire de la genèse derrière Cerebras Systems ?

Mes co-fondateurs et moi avons tous travaillé ensemble dans une précédente startup que mon CTO Gary et moi avons lancée en 2007, appelée SeaMicro (qui a été vendue à AMD en 2012 pour 334 millions de dollars). Mes cofondateurs comptent parmi les principaux architectes et ingénieurs informatiques du secteur : Gary Lauterbach, Sean Lie, JP Fricker et Michael James. Lorsque nous avons réuni le groupe en 2015, nous avons écrit deux choses sur un tableau blanc - que nous voulions travailler ensemble et que nous voulions construire quelque chose qui transformerait l'industrie et être au Computer History Museum, qui est l'équivalent de le Compute Hall of Fame. Nous avons été honorés lorsque le Computer History Museum a reconnu nos réalisations et a ajouté le processeur WSE-2 à sa collection l'année dernière, citant la façon dont il a transformé le paysage de l'intelligence artificielle.

Cerebras Systems est une équipe d'architectes informatiques pionniers, d'informaticiens, de chercheurs en apprentissage profond et d'ingénieurs de tous types qui aiment faire de l'ingénierie sans peur. Lorsque nous nous sommes réunis, notre mission était de créer une nouvelle classe d'ordinateurs pour accélérer l'apprentissage en profondeur, qui est devenu l'une des charges de travail les plus importantes de notre époque.

Nous avons réalisé que l'apprentissage en profondeur a des exigences de calcul uniques, massives et croissantes. Et il n'est pas bien adapté aux machines héritées comme les unités de traitement graphique (GPU), qui ont été fondamentalement conçues pour d'autres travaux. En conséquence, l'IA aujourd'hui n'est pas limitée par des applications ou des idées, mais par la disponibilité du calcul. Tester une seule nouvelle hypothèse – former un nouveau modèle – peut prendre des jours, des semaines, voire des mois et coûter des centaines de milliers de dollars en temps de calcul. C'est un obstacle majeur à l'innovation.

Ainsi, la genèse de Cerebras a été de construire un nouveau type d'ordinateur optimisé exclusivement pour l'apprentissage en profondeur, à partir d'une feuille de papier vierge. Pour répondre aux énormes exigences de calcul de l'apprentissage en profondeur, nous avons conçu et fabriqué la plus grande puce jamais construite - le Wafer-Scale Engine (WSE). En créant le premier processeur à l'échelle d'une plaquette au monde, nous avons surmonté des défis de conception, de fabrication et de conditionnement, qui avaient tous été considérés comme impossibles pendant les 70 ans d'histoire des ordinateurs. Chaque élément du WSE est conçu pour permettre la recherche d'apprentissage en profondeur à des vitesses et à une échelle sans précédent, alimentant le supercalculateur d'IA le plus rapide du secteur, le Cerebras CS-2.

Avec chaque composant optimisé pour le travail de l'IA, le CS-2 offre plus de performances de calcul avec moins d'espace et moins de puissance que tout autre système. Il le fait tout en réduisant radicalement la complexité de la programmation, le temps de calcul et le temps de résolution. En fonction de la charge de travail, de l'IA au HPC, CS-2 offre des centaines ou des milliers de fois plus de performances que les alternatives héritées. Le CS-2 fournit les ressources de calcul d'apprentissage en profondeur équivalentes à des centaines de GPU, tout en offrant la facilité de programmation, de gestion et de déploiement d'un seul appareil.

Au cours des derniers mois, Cerebras semble être partout nouvelles, que pouvez-vous nous dire sur le nouveau supercalculateur Andromeda AI ?

Nous avons annoncé Andromeda en novembre de l'année dernière, et c'est l'un des supercalculateurs d'IA les plus grands et les plus puissants jamais construits. Offrant plus d'un exaflop de calcul d'IA et 1 pétaflops de calcul dense, Andromeda possède 120 millions de cœurs sur 13.5 systèmes CS-16 et est le seul supercalculateur d'IA à avoir jamais démontré une mise à l'échelle linéaire presque parfaite sur de grandes charges de travail de modèles de langage. Il est également extrêmement simple à utiliser.

Pour rappel, le plus gros supercalculateur de la Terre – Frontier – compte 8.7 millions de cœurs. En nombre de noyaux bruts, Andromède est plus d'une fois et demie plus grande. Il fait évidemment un travail différent, mais cela donne une idée de l'ampleur : près de 100 térabits de bande passante interne, près de 20,000 XNUMX cœurs AMD Epyc l'alimentent, et - contrairement aux supercalculateurs géants qui mettent des années à se mettre debout - nous avons fait tenir Andromède en trois jours et immédiatement après, il offrait une mise à l'échelle linéaire presque parfaite de l'IA.

Argonne National Labs a été notre premier client à utiliser Andromeda, et ils l'ont appliqué à un problème qui cassait leur cluster de 2,000 3 GPU appelé Polaris. Le problème consistait à exécuter de très grands modèles génératifs GPT-10XL, tout en plaçant l'intégralité du génome de Covid dans la fenêtre de séquence, afin que vous puissiez analyser chaque gène dans le contexte de l'ensemble du génome de Covid. Andromeda a exécuté une charge de travail génétique unique avec de longues longueurs de séquence (MSL de 1K) sur 2, 4, 8, 16 et 15.87 nœuds, avec une mise à l'échelle linéaire presque parfaite. La mise à l'échelle linéaire est l'une des caractéristiques les plus recherchées d'un grand cluster. Andromeda a fourni un débit de 16X sur 2 systèmes CS-2, par rapport à un seul CS-XNUMX, et une réduction du temps de formation correspondant.

Pourriez-vous nous parler de la partenariat avec Jasper qui a été dévoilé fin novembre et ce que cela signifie pour les deux sociétés ?

Jasper est une entreprise vraiment intéressante. Ils sont un leader du contenu IA génératif pour le marketing, et leurs produits sont utilisés par plus de 100,000 XNUMX clients à travers le monde pour rédiger des textes pour le marketing, des publicités, des livres, etc. C'est évidemment un espace très excitant et à croissance rapide en ce moment. L'année dernière, nous avons annoncé un partenariat avec eux pour accélérer l'adoption et améliorer la précision de l'IA générative dans les applications d'entreprise et grand public. Jasper utilise notre supercalculateur Andromeda pour former ses modèles à forte intensité de calcul en une fraction du temps. Cela étendra la portée des modèles d'IA générative aux masses.

Grâce à la puissance du supercalculateur Cerebras Andromeda, Jasper peut faire progresser considérablement le travail d'IA, y compris la formation de réseaux GPT pour adapter les sorties d'IA à tous les niveaux de complexité et de granularité de l'utilisateur final. Cela améliore la précision contextuelle des modèles génératifs et permettra à Jasper de personnaliser rapidement et facilement le contenu de plusieurs catégories de clients.

Notre partenariat permet à Jasper d'inventer l'avenir de l'IA générative, en faisant des choses peu pratiques ou tout simplement impossibles avec une infrastructure traditionnelle, et d'accélérer le potentiel de l'IA générative, apportant ses avantages à notre clientèle en croissance rapide dans le monde entier.

Dans une récente communiqué de presse, le National Energy Technology Laboratory et le Pittsburgh Supercomputing Center Pioneer ont annoncé la toute première simulation numérique de la dynamique des fluides sur le moteur Cerebras à l'échelle de la plaquette. Pourriez-vous décrire ce qu'est spécifiquement un moteur à l'échelle d'une tranche et comment il fonctionne ?

Notre Moteur Wafer-Scale (WSE) est le processeur d'IA révolutionnaire pour notre système informatique d'apprentissage en profondeur, le CS-2. Contrairement aux anciens processeurs à usage général, le WSE a été conçu à partir de zéro pour accélérer l'apprentissage en profondeur : il dispose de 850,000 XNUMX cœurs optimisés pour l'IA pour les opérations de tenseur clairsemées, d'une mémoire sur puce massive à bande passante élevée et d'interconnecter des ordres de grandeur plus rapidement qu'un processeur traditionnel. cluster pourrait éventuellement atteindre. Au total, il vous offre les ressources de calcul d'apprentissage en profondeur équivalentes à un cluster de machines héritées, le tout dans un seul appareil, facile à programmer en tant que nœud unique, ce qui réduit considérablement la complexité de la programmation, le temps de calcul et le temps de résolution.

Notre WSE-2 de deuxième génération, qui alimente notre système CS-2, peut résoudre les problèmes extrêmement rapidement. Suffisamment rapide pour permettre des modèles haute fidélité en temps réel de systèmes d'ingénierie intéressants. C'est un exemple rare de "mise à l'échelle forte" réussie, qui est l'utilisation du parallélisme pour réduire le temps de résolution avec un problème de taille fixe.

Et c'est pour cela que le National Energy Technology Laboratory et le Pittsburgh Supercomputing Center l'utilisent. Nous venons d'annoncer des résultats vraiment passionnants d'une simulation de dynamique des fluides computationnelle (CFD), composée d'environ 200 millions de cellules, à des taux proches du temps réel.  Cette vidéo montre la simulation haute résolution de la convection de Rayleigh-Bénard, qui se produit lorsqu'une couche de fluide est chauffée par le bas et refroidie par le haut. Ces flux de fluides entraînés par la chaleur sont tout autour de nous - des jours venteux aux tempêtes de neige à effet de lac, en passant par les courants de magma dans le noyau terrestre et le mouvement du plasma dans le soleil. Comme le dit le narrateur, ce n'est pas seulement la beauté visuelle de la simulation qui est importante : c'est la vitesse à laquelle nous sommes capables de la calculer. Pour la première fois, grâce à notre Wafer-Scale Engine, NETL est capable de manipuler une grille de près de 200 millions de cellules en temps quasi réel.

Quel type de données est simulé ?

La charge de travail testée était des écoulements de fluides thermiques, également connus sous le nom de convection naturelle, qui est une application de la dynamique des fluides computationnelle (CFD). Les flux de fluides se produisent naturellement tout autour de nous - des jours venteux aux tempêtes de neige à effet de lac, en passant par le mouvement des plaques tectoniques. Cette simulation, composée d'environ 200 millions de cellules, se concentre sur un phénomène connu sous le nom de convection de « Rayleigh-Bénard », qui se produit lorsqu'un fluide est chauffé par le bas et refroidi par le haut. Dans la nature, ce phénomène peut entraîner des phénomènes météorologiques violents tels que des rafales descendantes, des microrafales et des derechos. Il est également responsable du mouvement du magma dans le noyau terrestre et du mouvement du plasma dans le soleil.

En novembre 2022, NETL a introduit une nouvelle API de modélisation d'équations de champ, alimentée par le système CS-2, qui était jusqu'à 470 fois plus rapide que ce qui était possible sur le supercalculateur Joule de NETL. Cela signifie qu'il pourrait offrir des vitesses supérieures à ce que les clusters de n'importe quel nombre de CPU ou de GPU peuvent atteindre. En utilisant une API Python simple qui permet un traitement à l'échelle de la tranche pour une grande partie de la science informatique, WFA offre des gains de performances et de convivialité qui ne pourraient pas être obtenus sur des ordinateurs et supercalculateurs conventionnels - en fait, il a surpassé OpenFOAM sur le supercalculateur Joule 2.0 de NETL de plus de deux commandes. de grandeur dans le temps de résolution.

En raison de la simplicité de l'API WFA, les résultats ont été obtenus en quelques semaines seulement et poursuivent l'étroite collaboration entre NETL, PSC et Cerebras Systems.

En transformant la vitesse de CFD (qui a toujours été une tâche lente et hors ligne) sur notre WSE, nous pouvons ouvrir toute une série de nouveaux cas d'utilisation en temps réel pour cela, et de nombreuses autres applications HPC de base. Notre objectif est qu'en permettant plus de puissance de calcul, nos clients puissent effectuer plus d'expériences et inventer une meilleure science. Le directeur du laboratoire NETL, Brian Anderson, nous a dit que cela accélérera et améliorera considérablement le processus de conception de certains très grands projets sur lesquels NETL travaille pour atténuer le changement climatique et permettre un avenir énergétique sûr – des projets comme la séquestration du carbone et la production d'hydrogène bleu.

Cerebras surpasse constamment la concurrence en ce qui concerne la sortie de supercalculateurs, quels sont certains des défis derrière la construction de supercalculateurs à la pointe de la technologie ?

Ironiquement, l'un des défis les plus difficiles de la grande IA n'est pas l'IA. C'est le calcul distribué.

Pour former les réseaux neuronaux de pointe d'aujourd'hui, les chercheurs utilisent souvent des centaines à des milliers d'unités de traitement graphique (GPU). Et ce n'est pas facile. La mise à l'échelle d'une formation de modèle de langage volumineux sur un cluster de GPU nécessite de répartir une charge de travail sur de nombreux petits appareils, de gérer la taille de la mémoire de l'appareil et les contraintes de bande passante mémoire, et de gérer avec soin les frais généraux de communication et de synchronisation.

Nous avons adopté une approche complètement différente de la conception de nos supercalculateurs grâce au développement du Amas Cerebras à l'échelle de la plaquette, et le Streaming de poids Cerebras mode d'exécution. Avec ces technologies, Cerebras aborde une nouvelle façon d'évoluer en s'appuyant sur trois points clés :

Le remplacement du traitement CPU et GPU par des accélérateurs à l'échelle d'une tranche tels que le système Cerebras CS-2. Cette modification réduit le nombre d'unités de calcul nécessaires pour atteindre une vitesse de calcul acceptable.

Pour relever le défi de la taille du modèle, nous utilisons une architecture système qui désagrège le calcul du stockage du modèle. Un service de calcul basé sur un cluster de systèmes CS-2 (fournissant une bande passante de calcul adéquate) est étroitement couplé à un service de mémoire (avec une grande capacité de mémoire) qui fournit des sous-ensembles du modèle au cluster de calcul à la demande. Comme d'habitude, un service de données fournit des lots de données de formation au service de calcul selon les besoins.

Un modèle innovant pour la planification et la coordination des travaux de formation dans le cluster CS-2 qui utilise le parallélisme des données, la formation couche par couche avec des poids clairsemés diffusés à la demande et la rétention des activations dans le service de calcul.

On craint la fin de la loi de Moore depuis près d'une décennie, combien d'années l'industrie peut-elle encore gagner et quels types d'innovations sont nécessaires pour cela ?

Je pense que la question à laquelle nous sommes tous confrontés est de savoir si la loi de Moore – telle qu'écrite par Moore – est morte. Il ne faut pas deux ans pour obtenir plus de transistors. Cela prend maintenant quatre ou cinq ans. Et ces transistors n'arrivent pas au même prix – ils arrivent à des prix beaucoup plus élevés. Alors la question devient, obtenons-nous toujours les mêmes avantages de passer de sept à cinq à trois nanomètres ? Les avantages sont moindres et ils coûtent plus cher, et donc les solutions deviennent plus compliquées que la simple puce.

Jack Dongarra, un architecte informatique de premier plan, a récemment donné une conférence et a déclaré : "Nous nous sommes beaucoup améliorés dans la création de FLOP et dans la création d'E/S." C'est vraiment vrai. Notre capacité à déplacer des données hors puce est très en retard sur notre capacité à augmenter les performances sur une puce. Chez Cerebras, nous étions heureux quand il a dit cela, car cela valide notre décision de fabriquer une puce plus grosse et de déplacer moins de choses hors puce. Il fournit également des conseils sur les futures façons d'améliorer les performances des systèmes équipés de puces. Il y a du travail à faire, pas seulement pour extraire plus de FLOP, mais aussi dans les techniques pour les déplacer et pour déplacer les données d'une puce à l'autre - même d'une très grosse puce à une très grosse puce.

Y a-t-il autre chose que vous aimeriez partager à propos de Cerebras Systems ?

Pour le meilleur ou pour le pire, les gens placent souvent Cerebras dans cette catégorie des « gars vraiment gros ». Nous avons été en mesure de fournir des solutions convaincantes pour les très, très grands réseaux de neurones, éliminant ainsi le besoin de faire de l'informatique distribuée pénible. Je crois que c'est extrêmement intéressant et au cœur de la raison pour laquelle nos clients nous aiment. Le domaine intéressant pour 2023 sera de savoir comment faire de gros calculs avec un niveau de précision plus élevé, en utilisant moins de FLOP.

Notre travail sur la parcimonie offre une approche extrêmement intéressante. Nous ne faisons pas de travail qui ne nous rapproche pas de la ligne de but, et multiplier par zéro est une mauvaise idée. Nous publierons bientôt un article très intéressant sur la parcimonie, et je pense qu'il y aura plus d'efforts pour voir comment nous arrivons à ces points efficaces, et comment le faisons-nous avec moins de puissance. Et pas seulement pour moins de puissance et d'entraînement ; comment minimiser le coût et la puissance utilisés dans l'inférence ? Je pense que la rareté aide sur les deux fronts.

Merci pour ces réponses approfondies, les lecteurs qui souhaitent en savoir plus devraient visiter Systèmes Cerebras.

Partenaire fondateur d'unite.AI et membre du Conseil technologique de Forbes, Antoine est un futuriste qui est passionné par l'avenir de l'IA et de la robotique.

Il est également le fondateur de Titres.io, un site Web axé sur l'investissement dans les technologies de rupture.