Connect with us

Entrevistas

Kevin Tubbs, PhD, Vicepresidente Senior del Grupo de Soluciones Estratégicas en Penguin Computing – Serie de Entrevistas

mm

Kevin Tubbs, PhD, es el Vicepresidente Senior del Grupo de Soluciones Estratégicas en Penguin Computing. Penguin Computing diseña soluciones personalizadas agnósticas, de extremo a extremo (hardware/software/nube/servicios) para resolver los complejos problemas científicos, analíticos y de ingeniería que enfrentan las empresas Fortune 500, las startups, las instituciones académicas y las organizaciones federales de hoy en día.

¿Qué te atrajo inicialmente al campo de la informática?

Mis padres me compraron una computadora cuando era muy joven, y siempre he tenido interés y habilidad para las computadoras y la experimentación. A través de mi educación, me incliné consistentemente hacia los campos STEM y eso me llevó a querer participar en un campo más aplicado. Mi background es en física y Computación de Alto Rendimiento (HPC). Tener un amor por las computadoras desde el principio me permitió mantener la informática en el frente de cualquier otro interés en ciencia, matemáticas o ingeniería que haya tenido, lo que me ha llevado a donde estoy hoy.

Penguin Computing trabaja en estrecha colaboración con el Proyecto Open Compute (OCP) – ¿qué es exactamente?

Desde el inicio del movimiento Open Compute Project (OCP), Penguin Computing ha sido un adoptador temprano, partidario y contribuyente importante para llevar los beneficios de OCP a la Computación de Alto Rendimiento (HPC) y la inteligencia artificial (AI).

El enfoque de OCP es reunir a una comunidad global de desarrolladores para crear un ecosistema completo de tecnología de infraestructura reinventada para ser más eficiente, flexible y escalable. Penguin Computing se unió a OCP debido a las tecnologías abiertas y la idea de una comunidad. Lo que hemos hecho con el tiempo es asegurarnos de que el patrimonio y las tecnologías de la HPC tradicional y las tendencias emergentes en AI y Análisis puedan escalar de manera eficiente – Penguin Computing impulsa esas cosas en OCP.

Una de las ventajas de OCP es que reduce el costo total de propiedad (TCO) – gastos de capital más bajos, gracias a la eliminación de todos los elementos de vanidad, y gastos de operación más bajos debido al servicio desde el frente, la energía compartida y otros cambios de diseño – lo que hace que la tecnología basada en OCP sea perfecta para la escalabilidad.

Penguin Computing tiene varios productos OCP, incluyendo la Plataforma de Escala Extrema Tundra de Penguin Computing y la Plataforma Tundra AP de Penguin Computing. Las plataformas Tundra también son compatibles con cargas de trabajo de HPC y AI.

Tundra AP, la última generación de nuestra plataforma de supercomputación Tundra de alta densidad, combina el poder de procesamiento de los procesadores Intel® Xeon® Scalable 9200 series con el servidor Relion XO1122eAP de Penguin Computing en un factor de forma OCP que entrega una alta densidad de núcleos de CPU por rack.

¿Cuándo se trata de grandes datos, para optimizar los niveles de rendimiento los usuarios necesitan eliminar los cuellos de botella que ralentizan su acceso a los datos? ¿Cómo aborda Penguin Computing este problema?

Penguin Computing ha aprovechado nuestra capacidad para utilizar tecnologías abiertas y avanzar rápidamente con las tendencias actuales – una de las cuales es el crecimiento de los datos y las cargas de trabajo impulsadas por datos. En respuesta a eso, hemos construido nuestro Grupo de Soluciones Estratégicas para abordar este problema de frente.

Al abordar el problema, hemos encontrado que la mayoría de las cargas de trabajo, incluso de la computación técnica tradicional, están motivadas para ser más impulsadas por datos. Como resultado, Penguin Computing diseña soluciones de extremo a extremo completas tratando de entender la carga de trabajo del usuario. Para crear una solución de extremo a extremo optimizada para la carga de trabajo, nos centramos en la capa de software optimizada para la carga de trabajo, que incluye la orquestación y la entrega de la carga de trabajo. Esencialmente, necesitamos entender cómo el usuario utilizará la infraestructura.

A continuación, tratamos de centrarnos en la infraestructura de cómputo optimizada para la carga de trabajo. Hay diferentes niveles de desafíos de datos y E/S que ejercen mucha presión sobre la parte de cómputo. Por ejemplo, diferentes cargas de trabajo requieren diferentes combinaciones de infraestructura de cómputo acelerada desde CPUs, GPUs, ancho de banda de memoria y redes que permiten que los datos fluyan y se calculen.

Finalmente, necesitamos averiguar qué tipos de soluciones nos permitirán entregar esos datos. Examinamos las infraestructuras de datos optimizadas para la carga de trabajo para entender cómo la carga de trabajo interactúa con los datos, qué son los requisitos de capacidad y los patrones de E/S. Una vez que tenemos esa información, nos ayuda a diseñar un sistema optimizado para la carga de trabajo.

Una vez que tenemos toda la información, aprovechamos nuestra experiencia interna en Penguin Computing para arquitectar un diseño y una solución completa. Sabiendo que está diseñado desde una perspectiva de rendimiento, necesitamos entender dónde se despliega (en las instalaciones, en la nube, en el borde, combinación de todos, etc.). Esa es la aproximación de Penguin Computing para entregar una solución optimizada para cargas de trabajo impulsadas por datos.

¿Podrías discutir la importancia de utilizar una GPU en lugar de una CPU para el aprendizaje profundo?

Una de las tendencias más grandes que he visto en cuanto a la importancia de las GPUs para el Aprendizaje Profundo (DL) fue el paso de utilizar GPUs de propósito general (GPGPU) como un hardware de procesamiento paralelo que nos permitió acelerar enormemente la cantidad de núcleos de cómputo que se pueden entregar para resolver un problema de cómputo paralelo. Esto ha estado sucediendo durante los últimos diez años.

Participé en las primeras etapas de la programación GPGPU cuando estaba en la escuela de posgrado y al comienzo de mi carrera. Creo que tener ese salto en la densidad de cómputo, donde una GPU proporciona una gran cantidad de núcleos de cómputo y análisis densos en un dispositivo y permite obtener más en un espacio de servidor y poder reutilizar algo que originalmente estaba destinado a gráficos para un motor de cómputo fue una tendencia real en las comunidades HPC y AI.

Sin embargo, mucho de eso dependió de convertir y optimizar el código para que se ejecutara en GPUs en lugar de CPUs. A medida que hicimos todo ese trabajo, estábamos esperando el concepto de la aplicación asesina – la aplicación o caso de uso que realmente despega o es habilitado por una GPU. Para la comunidad GPGPU, DL fue esa aplicación asesina que galvanizó los esfuerzos y el desarrollo en la aceleración de cargas de trabajo HPC y AI.

Con el tiempo, hubo un resurgimiento de la IA y el aprendizaje automático (ML), y DL entró en juego. Nos dimos cuenta de que entrenar una red neuronal utilizando DL se mapeaba muy bien con el diseño subyacente de una GPU. Creo que una vez que esas dos cosas convergieron, tienes la capacidad de hacer el tipo de DL que no era posible anteriormente con procesadores CPU y, en última instancia, limitó nuestra capacidad para hacer IA tanto a escala como en la práctica.

Una vez que las GPUs entraron en escena, realmente reenergizaron la comunidad de investigación y desarrollo en torno a la IA y DL porque simplemente no tenías el nivel de cómputo para hacerlo de manera eficiente y no estaba democratizado. La GPU realmente te permite entregar un cómputo más denso que, en su núcleo, está diseñado bien para DL y lo trajo a un nivel de soluciones de arquitectura de hardware que lo hizo más fácil para que más investigadores y científicos lo obtuvieran. Creo que esa es una de las grandes razones por las que las GPUs son mejores para estudiar DL.

¿Cuáles son algunas de las soluciones de cómputo aceleradas por GPU que ofrece Penguin Computing?

Penguin Computing se centra actualmente en soluciones de extremo a extremo que están siendo trabajadas por nuestro Grupo de Soluciones Estratégicas, particularmente con la Práctica de IA y Análisis de Penguin Computing. Dentro de esta práctica, nos centramos en tres enfoques de alto nivel para soluciones aceleradas por GPU.

Primero, ofrecemos una arquitectura de referencia para análisis de borde, donde estamos diseñando soluciones que se ajustan a centros de datos no tradicionales (en el borde o cerca del borde). Esto puede incluir centros de datos de borde de telecomunicaciones, instalaciones minoristas, estaciones de servicio y más. Estas son soluciones de inferencia basadas en IA. Algunas soluciones están orientadas hacia el análisis de video para el seguimiento de contactos y el reconocimiento de gestos para determinar si alguien se lava las manos o lleva una mascarilla. Estas son aplicaciones de soluciones completas que incluyen hardware acelerado por GPU que está afinado para despliegues no tradicionales o de borde, así como las pilas de software para permitir que los investigadores y los usuarios finales las utilicen de manera efectiva.

La siguiente clase de soluciones de Penguin Computing están diseñadas para referencia de arquitectura de entrenamiento y inferencia de IA en centros de datos y nube. Podrías pensar en sentarte dentro de un gran centro de datos o en la nube (Nube de Penguin Computing) donde algunos de nuestros clientes están haciendo entrenamiento a gran escala utilizando miles de GPUs para acelerar DL. Examinamos cómo entregamos soluciones y arquitecturas de referencia completas que admiten todas estas cargas de trabajo de software y contenerización a través del diseño y la disposición de GPU, todo el camino hasta los requisitos de infraestructura de datos que lo soportan.

La tercera clase de arquitecturas de referencia en esta práctica es una combinación de las dos anteriores. Lo que estamos buscando en nuestra tercera familia de arquitecturas de referencia es cómo creamos los tejidos de datos y las vías y los flujos de trabajo para permitir el aprendizaje continuo para que podamos ejecutar inferencia utilizando nuestras soluciones aceleradas por GPU de borde, empujar esos datos a la nube privada o pública, continuar entrenando en ellos, y cuando los nuevos modelos de entrenamiento se actualizan, empujarlos de regreso a la inferencia. De esta manera, tenemos un ciclo iterativo de aprendizaje continuo y modelos de IA.

Penguin Computing desplegó recientemente un nuevo supercomputador para LLNL en asociación con Intel y CoolIT. ¿Podrías hablarnos sobre este supercomputador y para qué fue diseñado?

El supercomputador Magma, desplegado en LLNL, fue adquirido a través del contrato Commodity Technology Systems (CTS-1) con la Administración Nacional de Seguridad Nuclear (NNSA) y es uno de los primeros despliegues de procesadores Intel Xeon Platinum 9200 series con soporte de CoolIT Systems de enfriamiento líquido directo y la interconexión Omni-Path.

Financiado a través del programa Advanced Simulation & Computing (ASC) de la NNSA, Magma apoyará el Programa de Extensión de Vida de la NNSA y los esfuerzos críticos para garantizar la seguridad, la seguridad y la confiabilidad de las armas nucleares de la nación en ausencia de pruebas subterráneas.

El supercomputador Magma es un sistema HPC que se ve mejorado por la inteligencia artificial y es una plataforma convergente que permite que la IA acelere la modelización HPC. Magma se clasificó en la lista Top500 de junio de 2020, entrando en el top 100, en el puesto #80.

Bajo el contrato CTS-1, Penguin Computing ha entregado más de 22 petaflops de capacidad de cómputo para apoyar el programa ASC en los laboratorios tripartitos de la NNSA en Lawrence Livermore, Los Alamos y Sandia National Laboratories.

¿Cuáles son algunas de las diferentes maneras en que Penguin Computing está apoyando la lucha contra el COVID-19?

En junio de 2020, Penguin Computing se asoció oficialmente con AMD para entregar capacidades HPC a investigadores en tres de las principales universidades de EE. UU. – Universidad de Nueva York (NYU), Instituto de Tecnología de Massachusetts (MIT) y Universidad de Rice – para ayudar en la lucha contra el COVID-19.

Penguin Computing se asoció directamente con el Fondo HPC de COVID-19 de AMD para proporcionar a las instituciones de investigación recursos informáticos significativos para acelerar la investigación médica sobre el COVID-19 y otras enfermedades. Penguin Computing y AMD están colaborando para entregar una constelación de soluciones HPC basadas en las instalaciones y en la nube a NYU, MIT y la Universidad de Rice para ayudar a elevar las capacidades de investigación de cientos de científicos que, en última instancia, contribuirán a una mayor comprensión del coronavirus novel.

Impulsados por los procesadores AMD EPYC de segunda generación y los aceleradores de GPU Radeon Instinct MI50, los sistemas donados a las universidades están diseñados para proporcionar más de un petaflop de rendimiento de cómputo. Una capacidad de cómputo adicional de cuatro petaflops estará disponible para los investigadores a través de nuestro servicio de nube HPC, Penguin Computing On-Demand (POD). Combinados, los sistemas donados proporcionarán a los investigadores más de siete petaflops de potencia de cómputo acelerada por GPU que se pueden aplicar para combatir el COVID-19.

Las universidades receptoras están esperadas para utilizar la nueva capacidad de cómputo en una variedad de cargas de trabajo relacionadas con la pandemia, incluyendo la genómica, el desarrollo de vacunas, la ciencia de la transmisión y la modelización.

¿Hay algo más que te gustaría compartir sobre Penguin Computing?

Durante más de dos décadas, Penguin Computing ha estado entregando soluciones personalizadas, innovadoras y abiertas al mundo de la informática de alto rendimiento y técnica. Las soluciones de Penguin Computing dan a las organizaciones la agilidad y la libertad que necesitan para aprovechar las últimas tecnologías en sus entornos de cómputo. Las organizaciones pueden centrar sus recursos en entregar productos e ideas al mercado en tiempo récord en lugar de en las tecnologías subyacentes. Las soluciones amplias de Penguin Computing para AI/ML/Análisis, HPC, DataOps y tecnologías nativas de la nube se pueden personalizar y combinar para adaptarse no solo a las necesidades actuales, sino también para adaptarse rápidamente a las necesidades y los cambios tecnológicos futuros. Los Servicios Profesionales y Administrados de Penguin Computing ayudan con la integración, implementación y administración de soluciones. Los Servicios de Hosting de Penguin Computing pueden ayudar con el “dónde” del entorno de cómputo, dando a las organizaciones opciones de propiedad y la flexibilidad para ejecutar en las instalaciones, en la nube pública o dedicada, alojada o como servicio.

Gracias por la gran entrevista, los lectores que deseen aprender más deben visitar Penguin Computing.

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un empresario serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI. Como un futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.