talon Kevin Tubbs, PhD, SVP Strategic Solutions Group chez Penguin Computing - Série d'entretiens - Unite.AI
Suivez nous sur

Interviews

Kevin Tubbs, PhD, SVP Strategic Solutions Group chez Penguin Computing – Série d'interviews

mm

Publié le

 on

Kevin Tubbs, PhD, est le vice-président principal du groupe des solutions stratégiques chez Informatique de pingouin. Penguin Computing conçoit des solutions personnalisées agnostiques de bout en bout (matériel/logiciel/cloud/services) pour résoudre les problèmes scientifiques, analytiques et d'ingénierie complexes auxquels sont confrontés les entreprises, les startups, les institutions universitaires et les organisations fédérales du Fortune 500 d'aujourd'hui.

Qu'est-ce qui vous a initialement attiré vers le domaine de l'informatique ?

Ma mère et mon père m'ont acheté un ordinateur quand j'étais très jeune, et j'ai toujours eu un intérêt et un talent pour les ordinateurs et le bricolage. Au cours de mes études, je me suis constamment tourné vers les domaines STEM et cela m'a amené à vouloir m'impliquer dans un domaine plus appliqué. J'ai une formation en physique et en calcul haute performance (HPC). Avoir un amour pour les ordinateurs très tôt m'a permis de garder l'informatique au premier plan de tout autre intérêt pour les sciences, les mathématiques ou l'ingénierie que j'ai eu, ce qui m'a conduit là où je suis aujourd'hui.

Penguin Computing travaille en étroite collaboration avec l'Open Compute Project (OCP) - qu'est-ce que c'est exactement ?

Depuis le début de la Ouvrir un projet Compute (OCP), Penguin Computing a été l'un des premiers à adopter, à soutenir et à contribuer de manière majeure à l'effort visant à apporter les avantages de l'OCP au calcul haute performance (HPC) et à l'intelligence artificielle (IA).

L'objectif d'OCP est de rassembler une communauté mondiale de développeurs pour créer un écosystème complet de technologies d'infrastructure repensées pour être plus efficaces, flexibles et évolutives. Penguin Computing a rejoint OCP en raison des technologies ouvertes et de l'idée d'une communauté. Au fil du temps, nous avons veillé à ce que l'héritage et les technologies du HPC traditionnel et les tendances émergentes en matière d'IA et d'analyse puissent évoluer efficacement - Penguin Computing intègre ces éléments dans OCP.

L'un des avantages de l'OCP est qu'il réduit le coût total de possession (TCO) - des dépenses en capital réduites, grâce à la suppression de tous les éléments de vanité, et des dépenses d'exploitation réduites en raison du service de l'avant, de l'alimentation partagée et d'autres modifications de conception - ce qui rend Technologie basée sur OCP parfaite pour la mise à l'échelle.

Penguin Computing propose plusieurs produits OCP, notamment la plate-forme Penguin Computing Tundra Extreme Scale et Penguin Computing Tundra AP. Les plates-formes Tundra sont également compatibles avec les charges de travail HPC et AI.

Tundra AP, la dernière génération de notre plate-forme de supercalcul à haute densité Tundra, combine la puissance de traitement des processeurs Intel® Xeon® Scalable série 9200 avec la technologie de Penguin Computing Serveur Relion XO1122eAP dans un facteur de forme OCP qui offre une haute densité de cœurs de processeur par rack.

En matière de Big Data, pour optimiser les niveaux de performances, les utilisateurs doivent éliminer les goulots d'étranglement qui ralentissent leur accès aux données. Comment Penguin Computing aborde-t-il ce problème ?

Penguin Computing a tiré parti de notre capacité à utiliser les technologies ouvertes et à évoluer rapidement avec les tendances actuelles, dont le big data ou la croissance des données et des charges de travail axées sur les données. En réponse à cela, nous avons créé notre groupe de solutions stratégiques pour aborder ce problème de front.

En résolvant le problème, nous avons constaté que la majorité des charges de travail, même issues du calcul technique traditionnel, sont toutes motivées pour être davantage axées sur les données. En conséquence, Penguin Computing conçoit des solutions complètes de bout en bout en essayant de comprendre la charge de travail des utilisateurs. Afin de créer une solution de bout en bout optimisée pour la charge de travail, nous nous concentrons sur la couche logicielle optimisée pour la charge de travail, qui comprend l'orchestration et la livraison de la charge de travail. Essentiellement, nous devons comprendre comment l'utilisateur utilisera l'infrastructure.

Ensuite, nous essayons de nous concentrer sur une infrastructure de calcul optimisée pour la charge de travail. Il existe différents niveaux de données et de défis IO qui mettent beaucoup de pression sur la partie calcul. Par exemple, différentes charges de travail nécessitent différentes combinaisons d'infrastructures de calcul accélérées à partir de CPU, de GPU, de bande passante mémoire et de mise en réseau qui permettent à ces données de circuler et d'être calculées.

Enfin, nous devons déterminer quels types de solutions nous permettront de fournir ces données. Nous examinons les infrastructures de données optimisées pour la charge de travail pour comprendre comment la charge de travail interagit avec les données, quelles sont les exigences de capacité et les modèles d'E/S. Une fois que nous avons ces informations, cela nous aide à concevoir un système optimisé pour la charge de travail.

Une fois que nous avons toutes les informations, nous tirons parti de notre expertise interne chez Penguin Computing pour concevoir une conception et une solution complète. Sachant qu'il est conçu dans une perspective de performances, nous devons comprendre où il est déployé (sur site, dans le cloud, en périphérie, une combinaison de tous, etc.). C'est l'approche de Penguin Computing pour fournir une solution optimisée pour les charges de travail axées sur les données.

Pourriez-vous discuter de l'importance d'utiliser un GPU au lieu d'un CPU pour l'apprentissage en profondeur ?

L'une des plus grandes tendances que j'ai vues en ce qui concerne l'importance des GPU pour l'apprentissage en profondeur (DL) était le passage de l'utilisation des GPU à usage général (GPGPU) en tant que matériel parallèle de données qui nous a permis d'accélérer massivement la quantité de calcul cœurs que vous pouvez fournir pour résoudre un problème de calcul parallèle. Cela dure depuis dix ans.

J'ai participé aux premières étapes de la programmation GPGPU lorsque j'étais à l'université et au début de ma carrière. Je pense avoir ce saut dans la densité de calcul, où un GPU fournit beaucoup de cœurs de calcul et d'analyse denses sur un appareil et vous permet d'obtenir plus dans un espace serveur et de pouvoir réutiliser quelque chose qui était à l'origine destiné aux graphiques vers un moteur de calcul était une véritable tendance révélatrice dans les communautés HPC et éventuellement IA.

Cependant, une grande partie de cela reposait sur la conversion et l'optimisation du code pour qu'il s'exécute sur des GPU au lieu de CPU. Pendant que nous faisions tout ce travail, nous attendions le concept de l'application qui tue - l'application ou le cas d'utilisation qui décolle vraiment ou est activé par un GPU. Pour la communauté GPGPU, DL était cette application phare qui a galvanisé les efforts et le développement en accélérant les charges de travail HPC et AI.

Au fil du temps, il y a eu une résurgence de l’IA et de l’apprentissage automatique (ML), et le DL est entré en jeu. Nous avons réalisé que la formation d'un réseau neuronal à l'aide de DL correspondait très bien à la conception sous-jacente d'un GPU. Je pense qu'une fois que ces deux choses ont convergé, vous avez la possibilité de réaliser des types de DL qui n'étaient pas rendus possibles auparavant par les processeurs CPU et qui ont finalement limité notre capacité à faire de l'IA à la fois à grande échelle et dans la pratique.

Une fois que les GPU ont été mis en place, ils ont en fait redynamisé la communauté de recherche et développement autour de l'IA et de la DL, car vous n'aviez tout simplement pas le niveau de calcul pour le faire efficacement et cela n'a pas été démocratisé. Le GPU vous permet vraiment de fournir un calcul plus dense qui, à la base, est bien conçu pour DL et l'a amené à un niveau de solutions d'architecture matérielle qui a facilité l'accès à davantage de chercheurs et de scientifiques. Je pense que c'est l'une des principales raisons pour lesquelles les GPU sont meilleurs pour étudier DL.

Quelles sont certaines des solutions informatiques accélérées par GPU proposées par Penguin Computing ?

Penguin Computing se concentre actuellement sur les solutions de bout en bout sur lesquelles travaille notre groupe de solutions stratégiques, en particulier avec la pratique d'IA et d'analyse de Penguin Computing. Dans cette pratique, nous nous concentrons sur trois approches de haut niveau des solutions accélérées par GPU.

Tout d'abord, nous proposons une architecture de référence pour l'analyse de périphérie, où nous cherchons à concevoir des solutions qui s'intègrent dans des centres de données non traditionnels (à la périphérie ou proches de la périphérie). Cela peut inclure les centres de données de périphérie Teleco, les installations de vente au détail, les stations-service, etc. Ce sont toutes des solutions d'IA basées sur l'inférence. Certaines solutions sont orientées vers l'analyse vidéo pour la recherche des contacts et la reconnaissance des gestes afin de déterminer si quelqu'un se lave les mains ou porte un masque. Il s'agit d'applications de solutions complètes qui incluent du matériel accéléré par GPU adapté aux déploiements non traditionnels ou en périphérie, ainsi que des piles logicielles permettant aux chercheurs et aux utilisateurs finaux de les utiliser efficacement.

La prochaine classe de solutions Penguin Computing est conçue pour la formation des centres de données et de l'IA de base et les architectures de référence d'inférence. Vous pourriez penser à vous asseoir dans un centre de données à grande échelle ou dans le cloud (Penguin Computing Cloud) où certains de nos clients suivent une formation à grande échelle sur l'utilisation de milliers de GPU pour accélérer DL. Nous examinons comment nous fournissons des solutions complètes et des architectures de référence qui prennent en charge toutes ces charges de travail logicielles et la conteneurisation via la conception et la disposition du GPU, tout au long des exigences d'infrastructure de données qui le prennent en charge.

La troisième classe d'architectures de référence dans cette pratique est une combinaison des deux précédentes. Ce que nous recherchons dans notre troisième famille d'architecture de référence, c'est comment créer les structures de données, les voies et les flux de travail pour permettre l'apprentissage continu afin que vous puissiez exécuter l'inférence à l'aide de nos solutions accélérées par GPU en périphérie, pousser ces données vers un cloud privé ou public , continuez à vous entraîner dessus et, à mesure que les nouveaux modèles de formation sont mis à jour, repoussez cela vers l'inférence. De cette façon, nous avons un cycle itératif d'apprentissage continu et de modèles d'IA.

Penguin Computing a récemment déployé un nouveau supercalculateur pour LLNL en partenariat avec Intel et CoolIT. Pourriez-vous nous parler de ce supercalculateur et pour quoi il a été conçu ?

Le supercalculateur Magma, déployé au LLNL, a été acquis dans le cadre du contrat Commodity Technology Systems (CTS-1) avec la National Nuclear Security Administration (NNSA) et constitue l'un des premiers déploiements de processeurs Intel Xeon Platinum série 9200 avec le soutien direct complet de CoolIT Systems. refroidissement liquide et interconnexion Omni-Path.

Financé par le programme Advanced Simulation & Computing (ASC) de la NNSA, Magma soutiendra le programme de prolongation de la durée de vie de la NNSA et les efforts essentiels pour assurer la sûreté, la sécurité et la fiabilité des armes nucléaires du pays en l'absence d'essais souterrains.

Le Magma Supercomputer est un système HPC amélioré par l'intelligence artificielle et une plate-forme convergente qui permet à l'IA d'accélérer la modélisation HPC. Magma a été classé dans la liste Top2020 de juin 500, entrant dans le top 100, se classant à la 80e place.

Dans le cadre du contrat CTS-1, Penguin Computing a fourni plus de 22 pétaflops de capacité de calcul pour soutenir le programme ASC dans les Tri-Labs NNSA de Lawrence Livermore, Los Alamos et Sandia National Laboratories.

Quelles sont les différentes manières dont Penguin Computing soutient la lutte contre le COVID-19 ?

En juin 2020, Penguin Computing s'est officiellement associé à AMD pour fournir des capacités HPC aux chercheurs de trois grandes universités américaines - l'Université de New York (NYU), le Massachusetts Institute of Technology (MIT) et l'Université Rice - pour aider à lutter contre le COVID-19. XNUMX.

Penguin Computing s'est associé directement au fonds COVID-19 HPC d'AMD pour fournir aux instituts de recherche des ressources informatiques importantes pour accélérer la recherche médicale sur le COVID-19 et d'autres maladies. Penguin Computing et AMD collaborent pour fournir une constellation de solutions HPC sur site et basées sur le cloud à NYU, MIT et Rice University afin d'aider à élever les capacités de recherche de centaines de scientifiques qui contribueront à terme à une meilleure compréhension du nouveau coronavirus.

Alimentés par les derniers processeurs AMD EPYC de 2e génération et les accélérateurs GPU Radeon Instinct MI50, les systèmes donnés aux universités devraient chacun fournir plus d'un pétaflop de performances de calcul. Quatre pétaflops supplémentaires de capacité de calcul seront mis à la disposition des chercheurs via notre service cloud HPC, Penguin Computing® On-Demand™ (POD). Combinés, les systèmes donnés fourniront aux chercheurs plus de sept pétaflops de puissance de calcul accélérée par GPU qui peuvent être appliquées pour lutter contre le COVID-19.

Les universités bénéficiaires devraient utiliser la nouvelle capacité de calcul pour une gamme de charges de travail liées à la pandémie, notamment la génomique, le développement de vaccins, la science de la transmission et la modélisation.

Avez-vous autre chose à partager sur Penguin Computing ?

Depuis plus de deux décennies, Penguin Computing propose des solutions personnalisées, innovantes et ouvertes au monde de l'informatique haute performance et technique. Les solutions Penguin Computing offrent aux organisations l'agilité et la liberté dont elles ont besoin pour tirer parti des dernières technologies dans leurs environnements de calcul. Les organisations peuvent concentrer leurs ressources sur la mise sur le marché de produits et d'idées en un temps record plutôt que sur les technologies sous-jacentes. La large gamme de solutions de Penguin Computing pour les technologies natives AI/ML/Analytics, HPC, DataOps et Cloud peut être personnalisée et combinée non seulement pour répondre aux besoins actuels, mais aussi pour s'adapter rapidement aux besoins futurs et aux changements technologiques. Les services professionnels et gérés de Penguin Computing aident à intégrer, mettre en œuvre et gérer les solutions. Les services d'hébergement de Penguin Computing peuvent aider avec le « où » de l'environnement de calcul en offrant aux organisations des options de propriété et la flexibilité de s'exécuter sur site, sur un cloud public ou dédié, hébergé ou en tant que service.

Merci pour cette excellente interview, les lecteurs qui souhaitent en savoir plus devraient visiter Informatique de pingouin.

Partenaire fondateur d'unite.AI et membre du Conseil technologique de Forbes, Antoine est un futuriste qui est passionné par l'avenir de l'IA et de la robotique.

Il est également le fondateur de Titres.io, un site Web axé sur l'investissement dans les technologies de rupture.