talón Kevin Tubbs, PhD, vicepresidente sénior del grupo de soluciones estratégicas de Penguin Computing - Serie de entrevistas - Unite.AI
Contáctanos

Entrevistas

Kevin Tubbs, PhD, SVP del Grupo de Soluciones Estratégicas en Penguin Computing – Serie de Entrevistas

mm

Publicado

 on

Kevin Tubbs, PhD, es vicepresidente sénior del Grupo de Soluciones Estratégicas en Computación pingüino. Penguin Computing diseña a la medida soluciones agnósticas de extremo a extremo (hardware/software/nube/servicios) para resolver los complejos problemas científicos, analíticos y de ingeniería que enfrentan las empresas Fortune 500, las nuevas empresas, las instituciones académicas y las organizaciones federales de la actualidad.

¿Qué te atrajo inicialmente del campo de la informática?

Mi mamá y mi papá me compraron una computadora cuando era muy joven, y siempre he tenido interés y habilidad para las computadoras y los retoques. A través de mi educación, gravité constantemente hacia los campos STEM y eso me llevó a querer involucrarme en un campo más aplicado. Mi formación es la física y la computación de alto rendimiento (HPC). Tener un amor por las computadoras desde el principio me permitió mantener la ciencia de la computación a la vanguardia de cualquier otro interés en ciencias, matemáticas o ingeniería que haya tenido, lo que me ha llevado a donde estoy hoy.

Penguin Computing trabaja en estrecha colaboración con Open Compute Project (OCP), ¿qué es exactamente?

Desde el comienzo de la Abra Compute Project (OCP), Penguin Computing ha sido uno de los primeros en adoptar, apoyar y contribuir en gran medida al esfuerzo por llevar los beneficios de OCP a la informática de alto rendimiento (HPC) y la inteligencia artificial (AI).

El enfoque de OCP es reunir a una comunidad global de desarrolladores para crear un ecosistema completo de tecnología de infraestructura reinventado para que sea más eficiente, flexible y escalable. Penguin Computing se unió a OCP debido a las tecnologías abiertas y la idea de una comunidad. Lo que hemos hecho a lo largo del tiempo es garantizar que la herencia y las tecnologías de HPC tradicional y las tendencias emergentes en IA y análisis puedan escalar de manera eficiente: Penguin Computing lleva esas cosas a OCP.

Uno de los beneficios de OCP es que reduce el costo total de propiedad (TCO): menores gastos de capital, gracias a la eliminación de todos los elementos de tocador y menores gastos operativos debido al servicio desde el frente, energía compartida y otros cambios de diseño, lo que hace Tecnología basada en OCP perfecta para el escalado horizontal.

Penguin Computing tiene varios productos OCP, incluidos Penguin Computing Tundra Extreme Scale Platform y Penguin Computing Tundra AP. Las plataformas Tundra también son compatibles con cargas de trabajo de HPC e IA.

Tundra AP, la última generación de nuestra plataforma de supercomputación Tundra de alta densidad, combina la potencia de procesamiento de los procesadores Intel® Xeon® Scalable 9200 series con Penguin Computing. Servidor Relion XO1122eAP en un factor de forma OCP que ofrece una alta densidad de núcleos de CPU por rack.

Cuando se trata de big data, para optimizar los niveles de rendimiento, los usuarios deben eliminar los cuellos de botella que ralentizan su acceso a los datos. ¿Cómo aborda Penguin Computing este problema?

Penguin Computing ha aprovechado nuestra capacidad para usar tecnologías abiertas y avanzar rápidamente con las tendencias actuales, una de las cuales es el big data o el crecimiento de los datos y las cargas de trabajo basadas en datos. En respuesta a eso, hemos creado nuestro Grupo de Soluciones Estratégicas para abordar este problema de frente.

Al abordar el problema, descubrimos que la mayoría de las cargas de trabajo, incluso las de computación técnica tradicional, están motivadas para estar más impulsadas por los datos. Como resultado, Penguin Computing diseña soluciones completas de extremo a extremo tratando de comprender la carga de trabajo de los usuarios. Para crear una solución de extremo a extremo optimizada para la carga de trabajo, nos enfocamos en la capa de software optimizada para la carga de trabajo que incluye la orquestación y la entrega de la carga de trabajo. Esencialmente, necesitamos entender cómo el usuario hará uso de la infraestructura.

A continuación, intentamos centrarnos en la infraestructura informática optimizada para la carga de trabajo. Hay diferentes niveles de datos y desafíos de IO que ejercen mucha presión sobre la parte informática. Por ejemplo, diferentes cargas de trabajo requieren diferentes combinaciones de infraestructura de computación acelerada de CPU, GPU, ancho de banda de memoria y redes que permitan que los datos fluyan y se calculen.

Finalmente, necesitamos averiguar qué tipos de soluciones nos permitirán entregar esos datos. Analizamos las infraestructuras de datos optimizadas para la carga de trabajo para comprender cómo interactúa la carga de trabajo con los datos, cuáles son los requisitos de capacidad y los patrones de IO. Una vez que tenemos esa información, nos ayuda a diseñar un sistema optimizado para la carga de trabajo.

Una vez que tenemos toda la información, aprovechamos nuestra experiencia interna en Penguin Computing para diseñar un diseño y una solución completa. Sabiendo que está diseñado desde una perspectiva de rendimiento, debemos comprender dónde se implementa (en las instalaciones, en la nube, perimetral, una combinación de todos, etc.). Ese es el enfoque de Penguin Computing para ofrecer una solución optimizada para cargas de trabajo basadas en datos.

¿Podría discutir la importancia de usar una GPU en lugar de una CPU para el aprendizaje profundo?

Una de las mayores tendencias que he visto con respecto a la importancia de las GPU para el aprendizaje profundo (DL) fue el paso de usar GPU de propósito general (GPGPU) como una pieza de hardware paralela de datos que nos permitió acelerar enormemente la cantidad de cómputo. núcleos que puede entregar para resolver un problema de computación paralela. Esto ha estado ocurriendo durante los últimos diez años.

Participé en las primeras etapas de la programación de GPGPU cuando estaba en la escuela de posgrado y al principio de mi carrera. Creo que tener ese salto en la densidad de cómputo, donde una GPU proporciona una gran cantidad de núcleos de cómputo y análisis densos en un dispositivo y le permite obtener más en un espacio de servidor y poder reutilizar algo que originalmente estaba destinado a gráficos para un motor de cómputo. fue una tendencia realmente reveladora en las comunidades de HPC y eventualmente de IA.

Sin embargo, gran parte de eso se basó en convertir y optimizar el código para que se ejecutara en GPU en lugar de CPU. Mientras hacíamos todo ese trabajo, esperábamos el concepto de la aplicación asesina: la aplicación o caso de uso que realmente despega o es habilitado por una GPU. Para la comunidad GPGPU, DL fue la aplicación revolucionaria que impulsó los esfuerzos y el desarrollo para acelerar las cargas de trabajo de HPC e IA.

Con el tiempo, hubo un resurgimiento de la IA y el aprendizaje automático (ML), y el DL entró en juego. Nos dimos cuenta de que entrenar una red neuronal usando DL en realidad se correspondía muy bien con el diseño subyacente de una GPU. Creo que una vez que esas dos cosas convergieron, se tendrá la capacidad de realizar tipos de DL que antes no eran posibles gracias a los procesadores de CPU y, en última instancia, limitaron nuestra capacidad de realizar IA tanto a escala como en la práctica.

Una vez que las GPU entraron en su lugar, en realidad revitalizó a la comunidad de investigación y desarrollo en torno a AI y DL porque simplemente no tenía el nivel de cómputo para hacerlo de manera eficiente y no estaba democratizado. La GPU realmente le permite entregar un cómputo más denso que, en esencia, está bien diseñado para DL y lo llevó a un nivel de soluciones de arquitectura de hardware que facilitó el acceso a más investigadores y científicos. Creo que esa es una de las principales razones por las que las GPU son mejores para estudiar DL.

¿Cuáles son algunas de las soluciones informáticas aceleradas por GPU que ofrece Penguin Computing?

Penguin Computing se centra actualmente en las soluciones integrales en las que trabaja nuestro Grupo de Soluciones Estratégicas, en particular con la Práctica de Inteligencia Artificial y Análisis de Penguin Computing. Dentro de esta práctica, nos enfocamos en tres enfoques de alto nivel para soluciones aceleradas por GPU.

En primer lugar, ofrecemos una arquitectura de referencia para el análisis perimetral, en la que buscamos diseñar soluciones que encajen en centros de datos no tradicionales (en el perímetro o cerca del perímetro). Esto puede incluir centros de datos perimetrales de Teleco, instalaciones minoristas, estaciones de servicio y más. Todas estas son soluciones de IA basadas en inferencia. Algunas soluciones están orientadas al análisis de video para el rastreo de contactos y el reconocimiento de gestos para determinar si alguien se está lavando las manos o usando una máscara. Estas son aplicaciones de soluciones completas que incluyen hardware acelerado por GPU que está ajustado para implementaciones no tradicionales o de borde, así como las pilas de software para permitir que los investigadores y los usuarios finales las utilicen de manera efectiva.

La próxima clase de soluciones de Penguin Computing está diseñada para centros de datos y arquitecturas de referencia de inferencia y capacitación de IA central. Podría pensar en sentarse dentro de un centro de datos a gran escala o en la nube (Penguin Computing Cloud) donde algunos de nuestros clientes están capacitando a gran escala sobre el uso de miles de GPU para acelerar DL. Analizamos cómo ofrecemos soluciones completas y arquitecturas de referencia que admiten todas estas cargas de trabajo de software y contenedores a través del diseño y el diseño de GPU, hasta los requisitos de infraestructura de datos que lo respaldan.

La tercera clase de arquitecturas de referencia en esta práctica es una combinación de las dos anteriores. Lo que buscamos en nuestra tercera familia de arquitectura de referencia es cómo creamos las estructuras de datos, las rutas y los flujos de trabajo para permitir el aprendizaje continuo, de modo que pueda ejecutar inferencias utilizando nuestras soluciones aceleradas por GPU de borde, enviar esos datos a la nube privada o pública. , continúe capacitándose en él y, a medida que se actualicen los nuevos modelos de capacitación, vuelva a incluirlo en la inferencia. De esta manera tenemos un ciclo iterativo de aprendizaje continuo y modelos de IA.

Penguin Computing implementó recientemente una nueva supercomputadora para LLNL en asociación con Intel y CoolIT. ¿Podría hablarnos de esta supercomputadora y para qué fue diseñada?

La supercomputadora Magma, implementada en LLNL, se adquirió a través del contrato Commodity Technology Systems (CTS-1) con la Administración Nacional de Seguridad Nuclear (NNSA) y es una de las primeras implementaciones de procesadores Intel Xeon Platinum serie 9200 con soporte directo completo de CoolIT Systems. refrigeración líquida e interconexión Omni-Path.

Financiado a través del programa Advanced Simulation & Computing (ASC) de NNSA, Magma apoyará el Programa de Extensión de Vida de NNSA y los esfuerzos críticos para garantizar la seguridad y confiabilidad de las armas nucleares de la nación en ausencia de pruebas subterráneas.

La supercomputadora Magma es un sistema de HPC mejorado con inteligencia artificial y es una plataforma convergente que permite que la IA acelere el modelado de HPC. Magma se clasificó en la lista Top2020 de junio de 500, entrando en el top 100, llegando al puesto 80.

Bajo el contrato CTS-1, Penguin Computing ha entregado más de 22 petaflops de capacidad informática para respaldar el programa ASC en NNSA Tri-Labs de Lawrence Livermore, Los Alamos y Sandia National Laboratories.

¿Cuáles son algunas de las diferentes formas en que Penguin Computing apoya la lucha contra el COVID-19?

En junio de 2020, Penguin Computing se asoció oficialmente con AMD para brindar capacidades de HPC a los investigadores de las tres principales universidades de EE. UU.: la Universidad de Nueva York (NYU), el Instituto de Tecnología de Massachusetts (MIT) y la Universidad Rice, para ayudar en la lucha contra COVID- 19

Penguin Computing se asoció directamente con el Fondo HPC COVID-19 de AMD para proporcionar a las instituciones de investigación recursos informáticos significativos para acelerar la investigación médica sobre COVID-19 y otras enfermedades. Penguin Computing y AMD están colaborando para ofrecer una constelación de soluciones HPC locales y basadas en la nube a NYU, MIT y Rice University para ayudar a elevar las capacidades de investigación de cientos de científicos que, en última instancia, contribuirán a una mayor comprensión del nuevo coronavirus.

Impulsados ​​por los últimos procesadores AMD EPYC de segunda generación y aceleradores de GPU Radeon Instinct MI2, se espera que los sistemas donados a las universidades proporcionen más de un petaflop de rendimiento informático. Se pondrán a disposición de los investigadores cuatro petaflops adicionales de capacidad informática a través de nuestro servicio en la nube de HPC, Penguin Computing® On-Demand™ (POD). Combinados, los sistemas donados proporcionarán a los investigadores más de siete petaflops de potencia de cómputo acelerada por GPU que se pueden aplicar para combatir el COVID-50.

Se espera que las universidades receptoras utilicen la nueva capacidad informática en una variedad de cargas de trabajo relacionadas con la pandemia, incluida la genómica, el desarrollo de vacunas, la ciencia de la transmisión y el modelado.

¿Algo más que le gustaría compartir sobre Penguin Computing?

Durante más de dos décadas, Penguin Computing ha brindado soluciones personalizadas, innovadoras y abiertas para el mundo de la computación técnica y de alto rendimiento. Las soluciones de Penguin Computing brindan a las organizaciones la agilidad y la libertad que necesitan para aprovechar las últimas tecnologías en sus entornos informáticos. Las organizaciones pueden enfocar sus recursos en entregar productos e ideas al mercado en un tiempo récord en lugar de las tecnologías subyacentes. La amplia gama de soluciones de Penguin Computing para AI/ML/Analytics, HPC, DataOps y tecnologías nativas de la nube se puede personalizar y combinar no solo para satisfacer las necesidades actuales, sino también para adaptarse rápidamente a las necesidades futuras y los cambios tecnológicos. Penguin Computing Professional and Managed Services ayuda con la integración, implementación y administración de soluciones. Penguin Computing Hosting Services puede ayudar con el "dónde" del entorno informático al brindar a las organizaciones opciones de propiedad y la flexibilidad para ejecutarse en las instalaciones, en una nube pública o dedicada, alojada o como servicio.

Gracias por la excelente entrevista, los lectores que deseen obtener más información deben visitar Computación pingüino.

Socio fundador de unite.AI y miembro de la consejo de tecnología de forbes, antoine es un futurista apasionado por el futuro de la IA y la robótica.

También es el fundador de Valores.io, un sitio web que se centra en invertir en tecnología disruptiva.