Entretiens
Andrew Feldman, Co-fondateur & PDG de Cerebras Systems – Série d’entretiens

Andrew est co-fondateur et PDG de Cerebras Systems. Il est un entrepreneur dédié à repousser les limites dans l’espace de calcul. Avant Cerebras, il a co-fondé et a été PDG de SeaMicro, un pionnier des microserveurs économes en énergie et à bande passante élevée. SeaMicro a été acquis par AMD en 2012 pour 357 M $. Avant SeaMicro, Andrew était vice-président de la gestion de produits, du marketing et du développement commercial chez Force10 Networks, qui a été vendu à Dell Computing pour 800 M $. Avant Force10 Networks, Andrew était vice-président du marketing et du développement commercial chez RiverStone Networks, de la création de l’entreprise à son introduction en bourse en 2001. Andrew détient un BA et un MBA de l’Université Stanford.
Cerebras Systems est en train de construire une nouvelle classe de système informatique, conçu dès les premiers principes pour l’objectif unique d’accélérer l’IA et de changer l’avenir du travail de l’IA.
Pouvez-vous partager l’histoire de la genèse de Cerebras Systems ?
Mes co-fondateurs et moi avons tous travaillé ensemble dans une entreprise précédente que mon CTO Gary et moi avons lancée en 2007, appelée SeaMicro (qui a été vendue à AMD en 2012 pour 334 millions de dollars). Mes co-fondateurs sont certains des principaux architectes et ingénieurs informatiques de l’industrie – Gary Lauterbach, Sean Lie, JP Fricker et Michael James. Lorsque nous nous sommes réunis à nouveau en 2015, nous avons écrit deux choses sur un tableau blanc – que nous voulions travailler ensemble, et que nous voulions construire quelque chose qui transformerait l’industrie et figurerait dans le Musée de l’histoire de l’informatique, qui est l’équivalent du Temple de la renommée de l’informatique. Nous avons été honorés lorsque le Musée de l’histoire de l’informatique a reconnu nos réalisations et a ajouté le processeur WSE-2 à sa collection l’année dernière, en citant comment il a transformé le paysage de l’intelligence artificielle.
Cerebras Systems est une équipe de pionniers de l’architecture informatique, de scientifiques en informatique, de chercheurs en apprentissage profond et d’ingénieurs de tous types qui aiment faire de l’ingénierie sans crainte. Notre mission, lorsqu nous nous sommes réunis, était de construire une nouvelle classe d’ordinateur pour accélérer l’apprentissage profond, qui est devenu l’un des travaux les plus importants de notre époque.
Nous avons réalisé que l’apprentissage profond a des exigences computationnelles uniques, massives et en constante augmentation. Et qu’il n’est pas bien adapté aux machines héritées comme les unités de traitement graphique (GPU), qui ont été fondamentalement conçues pour d’autres tâches. En conséquence, l’IA d’aujourd’hui est limitée non pas par les applications ou les idées, mais par la disponibilité du calcul. Tester une seule nouvelle hypothèse – former un nouveau modèle – peut prendre des jours, des semaines ou même des mois et coûter des centaines de milliers de dollars en temps de calcul. C’est un obstacle majeur à l’innovation.
Donc, la genèse de Cerebras était de construire un nouveau type d’ordinateur optimisé exclusivement pour l’apprentissage profond, à partir d’une feuille de papier blanche. Pour répondre aux énormes exigences computationnelles de l’apprentissage profond, nous avons conçu et fabriqué le plus grand circuit intégré jamais construit – le Wafer-Scale Engine (WSE). En créant le premier processeur à l’échelle de la plaquette du monde, nous avons surmonté des défis dans la conception, la fabrication et l’emballage – tous lesquels avaient été considérés comme impossibles pour l’ensemble des 70 années d’histoire de l’informatique. Chaque élément du WSE est conçu pour permettre la recherche en apprentissage profond à des vitesses et à une échelle sans précédent, alimentant le supercalculateur d’IA le plus rapide de l’industrie, le Cerebras CS-2.
Avec chaque composant optimisé pour le travail d’IA, le CS-2 offre une meilleure performance de calcul à un espace et à une puissance moindres que tout autre système. Il le fait tout en réduisant radicalement la complexité de programmation, le temps de calcul et le temps de résolution. Selon la charge de travail, de l’IA au calcul haute performance, le CS-2 offre des performances plusieurs centaines ou plusieurs milliers de fois supérieures aux alternatives héritées. Le CS-2 fournit des ressources de calcul d’IA équivalentes à plusieurs centaines de GPU, tout en offrant la facilité de programmation, de gestion et de déploiement d’un seul appareil.
Au cours des derniers mois, Cerebras semble être partout dans les actualités, qu’est-ce que vous pouvez nous dire sur le nouveau supercalculateur d’IA Andromeda ?
Nous avons annoncé Andromeda en novembre de l’année dernière, et c’est l’un des supercalculateurs d’IA les plus puissants jamais construits. Fournissant plus de 1 Exaflop de calcul d’IA et 120 Petaflops de calcul dense, Andromeda compte 13,5 millions de cœurs sur 16 systèmes CS-2, et c’est le seul supercalculateur d’IA à avoir jamais démontré un scaling linéaire presque parfait sur des charges de travail de modèles de langage à grande échelle. Il est également très simple à utiliser.
Pour rappel, le plus grand supercalculateur de la Terre – Frontier – compte 8,7 millions de cœurs. En nombre de cœurs brut, Andromeda est plus d’une fois et demie plus grand. Il fait un travail différent, bien sûr, mais cela donne une idée de l’étendue : près de 100 téraoctets de bande passante interne, près de 20 000 cœurs AMD Epyc l’alimentent, et – contrairement aux géants supercalculateurs qui prennent des années à se mettre en place – nous avons mis Andromeda en place en trois jours et, immédiatement après, il a fourni un scaling linéaire presque parfait de l’IA.
Le laboratoire national Argonne a été notre premier client à utiliser Andromeda, et ils l’ont appliqué à un problème qui cassait leur grappe de 2 000 GPU appelée Polaris. Le problème consistait à exécuter des modèles génératifs GPT-3XL très grands, tout en plaçant l’ensemble du génome du Covid dans la fenêtre de séquence, afin que vous puissiez analyser chaque gène dans le contexte de l’ensemble du génome du Covid. Andromeda a exécuté une charge de travail génétique unique avec des longueurs de séquence longues (MSL de 10 K) sur 1, 2, 4, 8 et 16 nœuds, avec un scaling linéaire presque parfait. Le scaling linéaire est l’une des caractéristiques les plus recherchées d’un grand cluster. Andromeda a fourni un débit de 15,87 fois sur 16 systèmes CS-2, par rapport à un seul CS-2, et une réduction du temps de formation pour correspondre.
Pouvez-vous nous parler du partenariat avec Jasper qui a été annoncé fin novembre et de ce que cela signifie pour les deux entreprises ?
Jasper est une entreprise vraiment intéressante. Ils sont des leaders dans le contenu d’IA générative pour le marketing, et leurs produits sont utilisés par plus de 100 000 clients dans le monde pour écrire des copies pour le marketing, les publicités, les livres et plus. C’est évidemment un espace très excitant et en pleine croissance en ce moment. L’année dernière, nous avons annoncé un partenariat avec eux pour accélérer l’adoption et améliorer la précision de l’IA générative à travers les applications d’entreprise et de consommation. Jasper utilise notre supercalculateur Andromeda pour former ses modèles extrêmement intensifs en calcul dans une fraction du temps. Cela étendra la portée des modèles d’IA générative à la masse.
Avec la puissance du supercalculateur Cerebras Andromeda, Jasper peut avancer considérablement le travail d’IA, y compris la formation de réseaux GPT pour adapter les sorties d’IA à tous les niveaux de complexité et de granularité de l’utilisateur final. Cela améliore la précision contextuelle des modèles génératifs et permettra à Jasper de personnaliser le contenu à travers plusieurs classes de clients rapidement et facilement.
Notre partenariat permet à Jasper d’inventer l’avenir de l’IA générative, en faisant des choses qui sont impraticables ou simplement impossibles avec les infrastructures traditionnelles, et d’accélérer le potentiel de l’IA générative, en apportant ses avantages à notre base de clients en pleine croissance dans le monde.
Dans un communiqué de presse récent, le Laboratoire national de technologie énergétique et le Centre de calcul de Pittsburgh ont annoncé la première simulation de dynamique des fluides computationnelle sur le Wafer-Scale Engine de Cerebras. Pouvez-vous décrire ce qu’est spécifiquement un Wafer-Scale Engine et comment il fonctionne ?
Notre Wafer-Scale Engine (WSE) est le processeur révolutionnaire d’IA pour notre système informatique d’apprentissage profond, le CS-2. Contrairement aux processeurs généraux hérités, le WSE a été construit dès le départ pour accélérer l’apprentissage profond : il dispose de 850 000 cœurs optimisés pour les opérations de tenseur creux, d’une mémoire à bande passante élevée sur puce massive et d’interconnexions dont la vitesse est plusieurs ordres de grandeur supérieure à celle qu’un cluster traditionnel pourrait atteindre. Tout cela vous donne les ressources de calcul d’IA équivalentes à un cluster de machines héritées en un seul appareil, facile à programmer comme un seul nœud – réduisant radicalement la complexité de programmation, le temps de calcul et le temps de résolution.
Notre deuxième génération de WSE-2, qui alimente notre système CS-2, peut résoudre des problèmes extrêmement rapidement. Assez rapidement pour permettre des modèles en temps réel et de haute fidélité de systèmes ingénieurs intéressants. C’est un exemple rare de « strong scaling » réussi, qui est l’utilisation du parallélisme pour réduire le temps de résolution avec un problème de taille fixe.
Et c’est ce que le Laboratoire national de technologie énergétique et le Centre de calcul de Pittsburgh utilisent. Nous venons d’annoncer des résultats vraiment passionnants d’une simulation de dynamique des fluides computationnelle, composée d’environ 200 millions de cellules, à des taux quasi en temps réel. Cette vidéo montre la simulation haute résolution de la convection de Rayleigh-Bénard, qui se produit lorsque une couche de fluide est chauffée desde en bas et refroidie desde en haut. Ces flux de fluide thermiquement entraînés sont partout autour de nous – des jours venteux, aux tempêtes de neige sur les lacs, aux courants de magma dans le noyau de la Terre et aux mouvements de plasma dans le soleil. Comme le narrateur le dit, ce n’est pas seulement la beauté visuelle de la simulation qui est importante : c’est la vitesse à laquelle nous pouvons la calculer. Pour la première fois, en utilisant notre Wafer-Scale Engine, le NETL est en mesure de manipuler une grille de près de 200 millions de cellules en quasi-temps réel.
Quel type de données est simulé ?
La charge de travail testée était les flux de fluide thermiquement entraînés, également appelés convection naturelle, qui est une application de la dynamique des fluides computationnelle (CFD). Les flux de fluide se produisent naturellement partout autour de nous — des jours venteux, aux tempêtes de neige sur les lacs, aux mouvements de plaques tectoniques. Cette simulation, composée d’environ 200 millions de cellules, se concentre sur un phénomène appelé « convection de Rayleigh-Bénard », qui se produit lorsque un fluide est chauffé desde en bas et refroidi desde en haut. Dans la nature, ce phénomène peut entraîner des événements météorologiques graves comme les downbursts, les microbursts et les derechos. C’est également responsable du mouvement de magma dans le noyau de la Terre et du mouvement de plasma dans le soleil.
Fin novembre 2022, le NETL a introduit une nouvelle API de modélisation d’équations de champ, alimentée par le système CS-2, qui était jusqu’à 470 fois plus rapide que ce qui était possible sur le supercalculateur Joule du NETL . Cela signifie qu’il pouvait fournir des vitesses au-delà de celles que des clusters de CPU ou de GPU peuvent atteindre. En utilisant une API Python simple qui permet le traitement à l’échelle de la plaquette pour une grande partie de la science computationnelle, WFA offre des gains en performances et en convivialité qui ne pouvaient pas être obtenus sur des ordinateurs et des supercalculateurs conventionnels – en fait, il a surpassé OpenFOAM sur le supercalculateur Joule 2.0 du NETL de plus de deux ordres de grandeur en temps de résolution.
En raison de la simplicité de l’API WFA, les résultats ont été obtenus en quelques semaines et poursuivent la collaboration étroite entre le NETL, le PSC et Cerebras Systems.
En transformant la vitesse de la CFD (qui a toujours été une tâche lente et hors ligne) sur notre WSE, nous pouvons ouvrir un tout nouveau champ d’applications en temps réel pour cela, et de nombreuses autres applications HPC de base. Notre objectif est que, en permettant plus de puissance de calcul, nos clients puissent effectuer plus d’expériences et inventer une meilleure science. Le directeur du laboratoire NETL, Brian Anderson, nous a dit que cela accélérera considérablement et améliorera le processus de conception pour certains très grands projets sur lesquels le NETL travaille pour atténuer le changement climatique et permettre un avenir énergétique sécurisé — des projets tels que la séquestration du carbone et la production d’hydrogène bleu.
Cerebras est constamment en tête de la concurrence lorsqu’il s’agit de sortir des supercalculateurs, quels sont les défis derrière la construction de supercalculateurs d’état de l’art ?
Ironiquement, l’un des défis les plus difficiles de l’IA est le calcul distribué.
Pour former les réseaux de neurones d’état de l’art d’aujourd’hui, les chercheurs utilisent souvent des centaines à des milliers d’unités de traitement graphique (GPU). Et ce n’est pas facile. Le scaling de la formation de modèles de langage à grande échelle sur un cluster de GPU nécessite de distribuer une charge de travail sur de nombreux petits appareils, de gérer les tailles de mémoire des appareils et les contraintes de bande passante de mémoire, et de gérer soigneusement les frais généraux de communication et de synchronisation.
Nous avons adopté une approche complètement différente pour concevoir nos supercalculateurs grâce au développement du cluster à l’échelle de la plaquette de Cerebras, et du mode d’exécution de streaming de poids de Cerebras. Avec ces technologies, Cerebras aborde une nouvelle façon d’échelonner basée sur trois points clés :
Le remplacement du traitement par CPU et GPU par des accélérateurs à l’échelle de la plaquette tels que le système Cerebras CS-2. Ce changement réduit le nombre d’unités de calcul nécessaires pour atteindre une vitesse de calcul acceptable.
Pour relever le défi de la taille du modèle, nous employons une architecture de système qui dissocie le calcul de la mémoire du modèle. Un service de calcul basé sur un cluster de systèmes CS-2 (fournissant une bande passante de calcul suffisante) est étroitement couplé à un service de mémoire (avec une grande capacité de mémoire) qui fournit des sous-ensembles du modèle au cluster de calcul à la demande. Comme d’habitude, un service de données sert des lots de données de formation au service de calcul au fur et à mesure que cela est nécessaire.
Un modèle innovant pour la planification et la coordination du travail de formation sur le cluster CS-2 qui utilise le parallélisme de données, la formation couche par couche avec des poids creux transmis en continu à la demande, et la rétention des activations dans le service de calcul.
Il y a des craintes quant à la fin de la loi de Moore depuis près d’une décennie, combien d’années supplémentaires l’industrie peut-elle serrer et quels types d’innovations sont nécessaires pour cela ?
Je pense que la question à laquelle nous sommes tous confrontés est de savoir si la loi de Moore – telle que rédigée par Moore – est morte. Ce n’est plus en deux ans que l’on obtient plus de transistors. Cela prend maintenant quatre ou cinq ans. Et ces transistors n’arrivent pas au même prix – ils arrivent à des prix nettement plus élevés. La question devient donc : obtenons-nous toujours les mêmes avantages en passant de sept à cinq à trois nanomètres ? Les avantages sont plus petits et ils coûtent plus cher, et les solutions deviennent plus compliquées que simplement le circuit intégré.
Jack Dongarra, un architecte informatique de premier plan, a donné un discours récemment et a dit : « Nous sommes devenus beaucoup meilleurs pour faire des FLOPs et pour faire des I/O ». C’est vraiment vrai. Notre capacité à déplacer des données hors du circuit intégré est nettement inférieure à notre capacité à augmenter les performances sur un circuit intégré. Chez Cerebras, nous étions heureux lorsqu’il a dit cela, car cela valide notre décision de fabriquer un plus grand circuit intégré et de déplacer moins de choses hors du circuit intégré. Cela fournit également des conseils sur les moyens futurs de faire fonctionner les systèmes avec des circuits intégrés pour améliorer les performances. Il y a du travail à faire, non seulement pour obtenir plus de FLOPs, mais aussi pour déplacer ces FLOPs et déplacer les données du circuit intégré au circuit intégré — même d’un très grand circuit intégré à un très grand circuit intégré.
Y a-t-il autre chose que vous aimeriez partager sur Cerebras Systems ?
Pour mieux ou pour pis, les gens mettent souvent Cerebras dans cette catégorie de « les gars du très grand circuit intégré ». Nous avons pu fournir des solutions convaincantes pour des réseaux de neurones très, très grands, en éliminant ainsi le besoin de faire un calcul distribué douloureux. Je pense que c’est énormément intéressant et qu’il est au cœur de pourquoi nos clients nous aiment. Le domaine intéressant pour 2023 sera de savoir comment faire du grand calcul pour une précision plus élevée, en utilisant moins de FLOPs.
Notre travail sur la parcimonie offre une approche extrêmement intéressante. Nous ne faisons pas de travail qui ne nous amène pas vers la ligne de but, et multiplier par zéro est une mauvaise idée. Nous allons publier un article vraiment intéressant sur la parcimonie bientôt, et je pense qu’il y aura plus d’efforts pour regarder comment nous arrivons à ces points efficaces, et comment nous le faisons pour moins de puissance. Et pas seulement pour moins de puissance et de formation ; comment minimisons-nous le coût et la puissance utilisés dans l’inférence ? Je pense que la parcimonie aide sur les deux fronts.
Merci pour ces réponses approfondies, les lecteurs qui souhaitent en savoir plus devraient visiter Cerebras Systems.












