Entretiens
Kevin Tubbs, PhD, SVP Strategic Solutions Group chez Penguin Computing – Série d’entretiens

Kevin Tubbs, PhD, est le vice-président senior du Strategic Solutions Group chez Penguin Computing. Penguin Computing conçoit des solutions personnalisées agnostiques, de bout en bout (matériel/logiciel/nuage/services) pour résoudre les problèmes scientifiques, analytiques et d’ingénierie complexes auxquels sont confrontées les entreprises du Fortune 500, les startups, les institutions universitaires et les organisations fédérales d’aujourd’hui.
Qu’est-ce qui vous a initialement attiré dans le domaine de l’informatique ?
Mes parents m’ont acheté un ordinateur lorsque j’étais très jeune, et j’ai toujours eu un intérêt et un don pour les ordinateurs et la bidouille. À travers mon éducation, j’ai constamment été attiré par les domaines STEM et cela m’a conduit à vouloir être impliqué dans un domaine plus appliqué. Mon background est la physique et le calcul haute performance (HPC). Avoir une passion pour les ordinateurs dès le début m’a permis de garder l’informatique à la pointe de tout autre intérêt scientifique, mathématique ou d’ingénierie que j’ai eu, ce qui m’a mené où je suis aujourd’hui.
Penguin Computing travaille en étroite collaboration avec le Open Compute Project (OCP) – qu’est-ce que c’est précisément ?
Depuis le début du mouvement Open Compute Project (OCP), Penguin Computing a été un des premiers à adopter, à soutenir et à contribuer de manière significative à l’effort pour apporter les avantages de l’OCP au calcul haute performance (HPC) et à l’intelligence artificielle (IA).
L’objectif de l’OCP est de rassembler une communauté mondiale de développeurs pour créer un écosystème complet de technologie d’infrastructure réimaginée pour être plus efficace, flexible et évolutif. Penguin Computing a rejoint l’OCP en raison des technologies ouvertes et de l’idée de communauté. Ce que nous avons fait au fil du temps, c’est nous assurer que l’héritage et les technologies des HPC traditionnels et des tendances émergentes en IA et en analyse peuvent être mis à l’échelle de manière efficace – Penguin Computing impulse ces choses dans l’OCP.
L’un des avantages de l’OCP est qu’il réduit le coût total de possession (TCO) – les dépenses en capital sont plus faibles, grâce à la suppression de tous les éléments de vanité, et les dépenses d’exploitation sont plus faibles en raison du service depuis le devant, de l’alimentation partagée et d’autres changements de conception – ce qui rend la technologie basée sur l’OCP parfaite pour la mise à l’échelle.
Penguin Computing propose plusieurs produits OCP, notamment la plate-forme Penguin Computing Tundra Extreme Scale et le serveur Penguin Computing Tundra AP. Les plateformes Tundra sont également compatibles avec les charges de travail HPC et IA.
Tundra AP, la dernière génération de notre plate-forme de supercalcul haute densité Tundra, combine la puissance de traitement des processeurs Intel® Xeon® Scalable 9200 série avec le serveur Relion XO1122eAP Server de Penguin Computing dans un facteur de forme OCP qui offre une densité élevée de cœurs de processeur par rack.
Quand il s’agit de grandes données, pour optimiser les niveaux de performance, les utilisateurs doivent supprimer les goulots d’étranglement qui ralentissent leur accès aux données. Comment Penguin Computing aborde-t-il ce problème ?
Penguin Computing a exploité notre capacité à utiliser des technologies ouvertes et à avancer rapidement avec les tendances actuelles – l’une desquelles est les grandes données ou la croissance des données et des charges de travail basées sur les données. En réponse à cela, nous avons construit notre Strategic Solutions Group pour résoudre ce problème de front.
En abordant le problème, nous avons constaté que la majorité des charges de travail, même des calculs techniques traditionnels, sont toutes motivées pour être plus axées sur les données. En conséquence, Penguin Computing conçoit des solutions complètes de bout en bout en essayant de comprendre la charge de travail de l’utilisateur. Pour créer une solution de bout en bout optimisée pour la charge de travail, nous nous concentrons sur la couche de logiciel optimisée pour la charge de travail, qui comprend l’orchestration et la livraison de la charge de travail. Essentiellement, nous devons comprendre comment l’utilisateur utilisera l’infrastructure.
Ensuite, nous essayons de nous concentrer sur l’infrastructure de calcul optimisée pour la charge de travail. Il existe différents niveaux de défis de données et d’IO qui exercent une grande pression sur la partie de calcul. Par exemple, les différentes charges de travail nécessitent des combinaisons différentes d’infrastructures de calcul accélérées à partir de CPU, de GPU, de bande passante de mémoire et de réseau qui permettent à ces données d’être acheminées et calculées.
Enfin, nous devons déterminer quels types de solutions nous permettront de livrer ces données. Nous examinons les infrastructures de données optimisées pour la charge de travail pour comprendre comment la charge de travail interagit avec les données, quels sont les besoins de capacité et les modèles d’IO. Une fois que nous avons ces informations, cela nous aide à concevoir un système optimisé pour la charge de travail.
Une fois que nous avons toutes les informations, nous exploitons notre expertise interne chez Penguin Computing pour concevoir une architecture et une solution complète. En sachant qu’il est conçu d’un point de vue de la performance, nous devons comprendre où il est déployé (sur site, dans le cloud, sur le bord, une combinaison de tout, etc.). C’est l’approche de Penguin Computing pour livrer une solution optimisée pour les charges de travail basées sur les données.
Pouvez-vous discuter de l’importance de l’utilisation d’une GPU au lieu d’une CPU pour l’apprentissage profond ?
L’une des plus grandes tendances que j’ai vues en ce qui concerne l’importance des GPU pour l’apprentissage profond (DL) était le passage de l’utilisation de GPU à usage général (GPGPU) comme un matériel parallèle de données qui nous permettait d’accélérer massivement la quantité de cœurs de calcul que vous pouvez livrer pour résoudre un problème de calcul parallèle. Cela se déroule depuis plus de dix ans.
J’ai participé aux premières étapes de la programmation GPGPU lorsque j’étais à l’université et au début de ma carrière. Je crois que avoir ce saut en densité de calcul, où une GPU offre une grande densité de calcul et d’analyse sur un appareil et vous permet d’en avoir plus dans un espace de serveur et de pouvoir réutiliser quelque chose qui était à l’origine destiné à la graphique à un moteur de calcul était une véritable tendance révélatrice dans les communautés HPC et IA.
Cependant, beaucoup de cela reposait sur la conversion et l’optimisation du code pour qu’il s’exécute sur des GPU au lieu de CPU. Alors que nous faisions tout ce travail, nous attendions le concept d’une application tueuse – l’application ou le cas d’utilisation qui prend vraiment son essor ou est rendu possible par une GPU. Pour la communauté GPGPU, DL était cette application tueuse qui a galvanisé les efforts et le développement dans l’accélération des charges de travail HPC et IA.
Au fil du temps, il y a eu un regain d’intérêt pour l’IA et l’apprentissage automatique (ML), et DL est entré en jeu. Nous avons réalisé que la formation d’un réseau neuronal à l’aide de DL se mappe très bien à la conception sous-jacente d’une GPU. Je crois qu’une fois que ces deux choses se sont croisées, vous avez la capacité de faire les types de DL qui n’étaient pas possibles précédemment avec des processeurs CPU et qui ont finalement limité notre capacité à faire de l’IA à la fois à grande échelle et dans la pratique.
Une fois que les GPU sont arrivés, cela a réellement ravivé la communauté de recherche et de développement autour de l’IA et du DL, car vous n’aviez simplement pas le niveau de calcul pour le faire efficacement et cela n’était pas démocratisé. La GPU permet réellement de livrer un calcul plus dense qui est à son cœur conçu bien pour le DL et l’a apporté à un niveau de solutions d’architecture matérielle qui a rendu plus facile pour plus de chercheurs et de scientifiques d’y accéder. Je crois que c’est l’une des grandes raisons pour lesquelles les GPU sont meilleurs pour l’étude du DL.
Quelles sont certaines des solutions de calcul accélérées par GPU proposées par Penguin Computing ?
Penguin Computing se concentre actuellement sur les solutions de bout en bout travaillées par notre Strategic Solutions Group, en particulier avec la pratique d’IA et d’analyse de Penguin Computing. Dans cette pratique, nous nous concentrons sur trois approches de haut niveau pour les solutions accélérées par GPU.
Premièrement, nous proposons une architecture de référence pour l’analyse de bord, où nous essayons de concevoir des solutions qui conviennent aux centres de données non traditionnels (à la périphérie ou près de la périphérie). Cela peut inclure les centres de données de télécommunications, les installations de détail, les stations-service, etc. Ce sont toutes des solutions d’inférence basées sur l’IA. Certaines solutions sont conçues pour l’analyse de vidéos pour la traçabilité des contacts et la reconnaissance des gestes pour déterminer si quelqu’un se lave les mains ou porte un masque. Ce sont des applications de solutions complètes qui incluent du matériel accéléré par GPU qui est affiné pour les déploiements non traditionnels ou de bord, ainsi que les piles logicielles pour permettre aux chercheurs et aux utilisateurs finals de les utiliser efficacement.
La deuxième classe de solutions Penguin Computing est conçue pour les références d’architecture de formation et d’inférence d’IA de centre de données et de noyau. Vous pourriez penser à vous asseoir à l’intérieur d’un grand centre de données ou dans le cloud (Penguin Computing Cloud) où certains de nos clients effectuent une formation à grande échelle en utilisant des milliers de GPU pour accélérer le DL. Nous regardons comment nous livrons des solutions complètes et des architectures de référence qui prennent en charge tous ces workloads logiciels et la conteneurisation à travers la conception et la disposition de GPU, tout au long des exigences d’infrastructure de données qui les soutiennent.
La troisième classe d’architectures de référence dans cette pratique est une combinaison des deux précédentes. Ce que nous recherchons dans notre troisième famille d’architectures de référence est comment créer les tissus de données et les chemins et les flux de travail pour permettre un apprentissage continu afin que vous puissiez exécuter l’inférence en utilisant nos solutions de bord accélérées par GPU, pousser ces données vers le cloud privé ou public, continuer à former sur elles, et lorsque les nouveaux modèles de formation sont mis à jour, les repousser vers l’inférence. De cette façon, nous avons un cycle itératif d’apprentissage continu et de modèles d’IA.
Penguin Computing a récemment déployé un nouveau supercalculateur pour LLNL en partenariat avec Intel et CoolIT. Pouvez-vous nous en parler ?
Le supercalculateur Magma, déployé à LLNL, a été acquis dans le cadre du contrat Commodity Technology Systems (CTS-1) avec l’Administration nationale de la sécurité nucléaire (NNSA) et constitue l’un des premiers déploiements de processeurs Intel Xeon Platinum 9200 série avec le support de CoolIT Systems de refroidissement liquide direct et d’interconnexion Omni-Path.
Financé par le programme Advanced Simulation & Computing (ASC) de la NNSA, Magma soutiendra le programme de prolongation de vie de la NNSA et les efforts critiques pour assurer la sécurité, la sûreté et la fiabilité de l’arsenal nucléaire de la nation en l’absence d’essais souterrains.
Le supercalculateur Magma est un système HPC qui est amélioré par l’intelligence artificielle et constitue une plate-forme convergée qui permet à l’IA d’accélérer la modélisation HPC. Magma a été classé dans la liste Top500 de juin 2020, se hissant dans le top 100, à la 80e place.
Sous le contrat CTS-1, Penguin Computing a livré plus de 22 pétaflops de capacité de calcul pour soutenir le programme ASC aux laboratoires nationaux NNSA Tri-Labs de Lawrence Livermore, Los Alamos et Sandia.
Quelles sont certaines des différentes manières dont Penguin Computing soutient la lutte contre le COVID-19 ?
En juin 2020, Penguin Computing a officiellement conclu un partenariat avec AMD pour fournir des capacités de calcul haute performance aux chercheurs de trois des meilleures universités aux États-Unis – New York University (NYU), Massachusetts Institute of Technology (MIT) et Rice University – pour aider à lutter contre le COVID-19.
Penguin Computing a conclu un partenariat direct avec le fonds HPC COVID-19 d’AMD pour fournir aux institutions de recherche des ressources de calcul importantes pour accélérer la recherche médicale sur le COVID-19 et d’autres maladies. Penguin Computing et AMD collaborent pour livrer une constellation de solutions HPC sur site et basées sur le cloud aux universités NYU, MIT et Rice pour aider à élever les capacités de recherche de centaines de scientifiques qui contribueront finalement à une meilleure compréhension du coronavirus nouveau.
Propulsés par les derniers processeurs AMD EPYC de 2e génération et les accélérateurs de GPU Radeon Instinct MI50, les systèmes donnés aux universités devraient chacun fournir plus d’un pétaflop de performance de calcul. Une capacité de calcul supplémentaire de quatre pétaflops sera mise à la disposition des chercheurs via notre service de cloud HPC, Penguin Computing On-Demand (POD). Combinés, les systèmes donnés fourniront aux chercheurs plus de sept pétaflops de puissance de calcul accélérée par GPU qui peuvent être appliqués pour lutter contre le COVID-19.
Les universités bénéficiaires devraient utiliser la nouvelle capacité de calcul sur une gamme de charges de travail liées à la pandémie, notamment la génomique, le développement de vaccins, la science de la transmission et la modélisation.
Y a-t-il autre chose que vous aimeriez partager sur Penguin Computing ?
Depuis plus de deux décennies, Penguin Computing livre des solutions personnalisées, innovantes et ouvertes au monde du calcul haute performance et technique. Les solutions de Penguin Computing donnent aux organisations l’agilité et la liberté dont elles ont besoin pour exploiter les dernières technologies dans leurs environnements de calcul. Les organisations peuvent concentrer leurs ressources sur la livraison de produits et d’idées sur le marché en un temps record, au lieu de se concentrer sur les technologies sous-jacentes. La gamme complète de solutions de Penguin Computing pour l’IA/ML/Analyse, le HPC, la DataOps et les technologies natives du cloud peut être personnalisée et combinée pour répondre non seulement aux besoins actuels, mais également pour s’adapter rapidement aux besoins et aux changements technologiques futurs. Les services professionnels et gérés de Penguin Computing aident à intégrer, à mettre en œuvre et à gérer les solutions. Les services d’hébergement de Penguin Computing peuvent aider avec le « où » de l’environnement de calcul en offrant aux organisations des options de propriété et la flexibilité de s’exécuter sur site, sur le cloud public ou dédié, hébergé ou en tant que service.
Je vous remercie pour cette grande interview, les lecteurs qui souhaitent en savoir plus devraient visiter Penguin Computing.












