Interviuri
Kevin Tubbs, PhD, SVP Strategic Solutions Group la Penguin Computing – Interviu

Kevin Tubbs, PhD, este Senior Vice President al Strategic Solutions Group la Penguin Computing. Penguin Computing proiectează soluții personalizate, agnostice, de la capăt la capăt (hardware/software/cloud/servicii) pentru a rezolva problemele științifice, analitice și de inginerie complexe cu care se confruntă companiile Fortune 500, startup-urile, instituțiile academice și organizațiile federale de astăzi.
Ce v-a atras inițial în domeniul științei calculatoarelor?
Mama și tata mi-au cumpărat un calculator când eram foarte tânăr, și am avut întotdeauna un interes și o înclinație pentru calculatoare și experimente. Prin educația mea, am fost atras constant către domeniile STEM și asta m-a determinat să fiu implicat într-un domeniu mai aplicat. Fondalul meu este fizică și Calcul de Înaltă Performanță (HPC). Având o dragoste pentru calculatoare de la o vârstă fragedă, mi-a permis să păstrez știința calculatoarelor în fruntea oricărui alt interes științific, matematic sau de inginerie pe care l-am avut, ceea ce m-a condus unde sunt astăzi.
Penguin Computing lucrează îndeaproape cu Open Compute Project (OCP) – ce este exact?
De la începutul mișcării Open Compute Project (OCP), Penguin Computing a fost un adoptator timpuriu, susținător și contribuitor major la efortul de a aduce beneficiile OCP în Calculul de Înaltă Performanță (HPC) și inteligența artificială (AI).
Focalizarea OCP este de a aduna o comunitate globală de dezvoltatori pentru a crea un ecosistem complet de tehnologie de infrastructură reimaginat pentru a fi mai eficient, flexibil și escalabil. Penguin Computing s-a alăturat OCP din cauza tehnologiilor deschise și a ideii de comunitate. Ce am făcut de-a lungul timpului este să ne asigurăm că moștenirea și tehnologiile din HPC tradițional și tendințele emergente în AI și Analitică pot fi escalate eficient – Penguin Computing conduce aceste lucruri în OCP.
Unul dintre beneficiile OCP este că reduce costul total de proprietate (TCO) – cheltuieli de capital mai mici, datorită eliminării tuturor elementelor de vanitate, și cheltuieli de operare mai mici datorită serviciului de la față, putere partajată și alte modificări de design – ceea ce face tehnologia bazată pe OCP perfectă pentru scalare.
Penguin Computing are mai multe produse OCP, inclusiv Penguin Computing Tundra Extreme Scale Platform și Penguin Computing Tundra AP. Platformele Tundra sunt, de asemenea, compatibile cu HPC și AI.
Tundra AP, cea mai recentă generație a platformei noastre de supercalculatoare Tundra, combină puterea de procesare a procesoarelor Intel® Xeon® Scalable 9200 serie cu serverul Relion XO1122eAP Server al Penguin Computing într-un factor de formă OCP care oferă o densitate ridicată de nuclee CPU pe raft.
Când vine vorba de big data, pentru a optimiza nivelurile de performanță, utilizatorii trebuie să înlăture blocajele care încetinesc accesul la date. Cum abordează Penguin Computing această problemă?
Penguin Computing a valorificat capacitatea noastră de a utiliza tehnologii deschise și de a ne mișca rapid cu tendințele actuale – una dintre acestea fiind big data sau creșterea datelor și a sarcinilor de lucru bazate pe date. Ca răspuns la aceasta, am construit Grupul nostru de Soluții Strategice pentru a aborda această problemă direct.
În abordarea problemei, am descoperit că majoritatea sarcinilor de lucru, chiar și din calculul tehnic tradițional, sunt motivate să fie mai bazate pe date. Ca urmare, Penguin Computing proiectează soluții complete de la capăt la capăt, încercând să înțelegem sarcina de lucru a utilizatorului. Pentru a crea o soluție completă de la capăt la capăt, optimizată pentru sarcină de lucru, ne concentrăm pe stratul de software optimizat pentru sarcină de lucru, care include orchestrarea și livrarea sarcinii de lucru. Esențial, trebuie să înțelegem cum utilizatorul va face uz de infrastructură.
Următorul pas este să ne concentrăm pe infrastructura de calcul optimizată pentru sarcină de lucru. Există niveluri diferite de date și provocări de IO care pun o presiune mare pe partea de calcul. De exemplu, sarcini de lucru diferite necesită combinații diferite de infrastructură de calcul accelerată de la CPU, GPU, lățime de bandă de memorie și rețea care permite ca datele să fie transmise și calculate.
În final, trebuie să determinăm ce tipuri de soluții ne vor permite să livrăm aceste date. Examinăm infrastructurile de date optimizate pentru sarcină de lucru pentru a înțelege cum sarcina de lucru interacționează cu datele, ce sunt cerințele de capacitate și modelele de IO. Odată ce avem aceste informații, ne ajută să proiectăm un sistem optimizat pentru sarcină de lucru.
Odată ce avem toate informațiile, valorificăm expertiza noastră internă de la Penguin Computing pentru a proiecta o soluție completă. Știind că este proiectat din perspectiva performanței, trebuie să înțelegem unde este implementat (în locație, cloud, margine, combinație a tuturor, etc.). Acesta este abordarea Penguin Computing pentru livrarea unei soluții optimizate pentru sarcini de lucru bazate pe date.
Ar putea discuta despre importanța utilizării unui GPU în loc de un CPU pentru învățarea profundă?
Una dintre cele mai mari tendințe pe care le-am văzut în ceea ce privește importanța GPU-urilor pentru Învățarea Profundă (DL) a fost mutarea de la utilizarea GPU-urilor generale (GPGPU) ca piesă de hardware paralel care ne-a permis să accelerăm masiv numărul de nuclee de calcul pe care le putem livra pentru a rezolva o problemă de calcul paralel. Acest lucru s-a întâmplat în ultimii zece ani.
Am participat la etapele inițiale ale programării GPGPU când eram la școala doctorală și la începutul carierei mele. Cred că avansul în densitatea de calcul, unde un GPU oferă multe nuclee de calcul și analitică dense pe un dispozitiv și ne permite să obținem mai mult într-un spațiu de server și să putem reutiliza ceva care a fost inițial destinat graficii ca motor de calcul a fost o tendință reală de deschidere a ochilor în lumea HPC și, în cele din urmă, în comunitățile AI.
Cu toate acestea, multe dintre acestea s-au bazat pe conversia și optimizarea codului pentru a rula pe GPU-uri în loc de CPU-uri. Pe măsură ce am făcut toată această muncă, am așteptat conceptul de aplicație ucigătoare – aplicația sau cazul de utilizare care să devină realmente popular sau să fie facilitat de un GPU. Pentru comunitatea GPGPU, DL a fost acea aplicație ucigătoare care a galvanizat eforturile și dezvoltarea în accelerarea sarcinilor de lucru HPC și AI.
De-a lungul timpului, a existat o renaștere a inteligenței artificiale și a învățării automate (ML), și DL a intrat în joc. Am realizat că antrenarea unei rețele neuronale utilizând DL se potrivea foarte bine cu proiectarea subiacentă a unui GPU. Cred că odată ce aceste două lucruri s-au convergent, aveți capacitatea de a face DL care nu a fost posibilă anterior prin procesoare CPU și, în cele din urmă, ne-a limitat capacitatea de a face AI atât la scară, cât și în practică.
Odată ce GPU-urile au apărut, au reenergizat comunitatea de cercetare și dezvoltare din jurul inteligenței artificiale și DL, deoarece nu aveai nivelul de calcul pentru a face acest lucru eficient și nu era democratizat. GPU-ul ne permite să livrăm un calcul mai dens, care în esență este proiectat bine pentru DL și a adus la un nivel de soluții de arhitectură hardware care a făcut mai ușor să ajungă la mai mulți cercetători și oameni de știință. Cred că acesta este unul dintre motivele majore pentru care GPU-urile sunt mai bune pentru studiul DL.
Ce soluții de calcul accelerate de GPU oferă Penguin Computing?
Penguin Computing se concentrează în prezent pe soluții de la capăt la capăt, lucrate de Grupul nostru de Soluții Strategice, în special cu Practica noastră de AI și Analitică. În cadrul acestei practici, ne concentrăm pe trei abordări de nivel înalt pentru soluții accelerate de GPU.
Primul, oferim o arhitectură de referință pentru analiza de margine, unde căutăm să proiectăm soluții care se potrivesc în centre de date neconvenționale (la margine sau lângă margine). Acest lucru poate include centre de date de margine ale companiilor de telecomunicații, facilități de retail, stații de benzină și multe altele. Acestea sunt toate soluții de inferență AI. Unele soluții sunt orientate către analiza video pentru urmărirea contactelor și recunoașterea gesturilor pentru a determina dacă cineva se spală pe mâini sau poartă o mască. Acestea sunt aplicații de soluții complete care includ hardware accelerate de GPU, fin optimizate pentru implementări neconvenționale sau de margine, precum și stivele de software pentru a permite cercetătorilor și utilizatorilor finali să le utilizeze eficient.
Următoarea clasă de soluții Penguin Computing sunt construite pentru arhitecturi de referință de antrenare și inferență AI în centre de date și cloud. Puteți gândi despre situația în care vă aflați într-un centru de date de mari dimensiuni sau în cloud (Penguin Computing Cloud), unde unii dintre clienții noștri fac antrenarea la scară largă utilizând mii de GPU-uri pentru a accelera DL. Ne uităm la modul în care livrăm soluții complete și arhitecturi de referință care susțin toate aceste sarcini de lucru software și containerizare prin proiectarea și layout-ul GPU, pe tot parcursul infrastructurii de date care o susține.
A treia clasă de arhitecturi de referință în această practică este o combinație a celor două anterioare. Ceea ce căutăm în a treia noastră familie de arhitecturi de referință este cum putem crea țesături de date și căi și fluxuri de lucru pentru a permite învățarea continuă, astfel încât să puteți rula inferență utilizând soluțiile noastre accelerate de GPU de margine, să trimiteți aceste date către cloud privat sau public, să continuați să antrenați și, pe măsură ce noile modele de antrenare sunt actualizate, să le trimiteți înapoi către inferență. Astfel, avem un ciclu iterativ de învățare continuă și modele AI.
Penguin Computing a implementat recent un nou supercalculator pentru LLNL, în parteneriat cu Intel și CoolIT. Ne puteți spune despre acest supercalculator și la ce a fost proiectat?
Supercalculatorul Magma, implementat la LLNL, a fost achiziționat prin contractul Commodity Technology Systems (CTS-1) cu Administrația Națională de Securitate Nucleară (NNSA) și este una dintre primele implementări ale procesoarelor Intel Xeon Platinum 9200 serie, cu suport de la CoolIT Systems pentru răcire lichidă directă și interconectare Omni-Path.
Finanțat prin programul Advanced Simulation & Computing (ASC) al NNSA, Magma va susține programul de prelungire a vieții și eforturile critice pentru a asigura siguranța, securitatea și fiabilitatea armelor nucleare ale națiunii, în absența testelor subterane.
Supercalculatorul Magma este un sistem HPC care este îmbunătățit de inteligență artificială și este o platformă convergentă care permite inteligenței artificiale să accelereze modelarea HPC. Magma a fost clasificat în lista Top500 din iunie 2020, intrând în top 100, pe locul #80.
Sub contractul CTS-1, Penguin Computing a livrat mai mult de 22 de petaflopuri de capacitate de calcul pentru a susține programul ASC la laboratoarele triunghiului NNSA de la Lawrence Livermore, Los Alamos și Sandia National Laboratories.
Ce sunt unele dintre modurile în care Penguin Computing sprijină lupta împotriva COVID-19?
În iunie 2020, Penguin Computing a încheiat oficial un parteneriat cu AMD pentru a livra capacități HPC cercetătorilor de la trei universități de top din SUA – New York University (NYU), Massachusetts Institute of Technology (MIT) și Rice University – pentru a ajuta în lupta împotriva COVID-19.
Penguin Computing s-a asociat direct cu fondul HPC COVID-19 al AMD pentru a furniza instituțiilor de cercetare resurse de calcul semnificative pentru a accelera cercetarea medicală pe COVID-19 și alte boli. Penguin Computing și AMD colaborează pentru a livra o constelație de soluții HPC pe premise și bazate pe cloud către NYU, MIT și Rice University pentru a ajuta la îmbunătățirea capacităților de cercetare ale sute de oameni de știință care vor contribui, în cele din urmă, la o înțelegere mai mare a noului coronavirus.
Echipate cu procesoarele AMD EPYC de a doua generație și acceleratoarele GPU Radeon Instinct MI50, sistemele donate universităților sunt așteptate să ofere fiecare peste un petaflop de performanță de calcul. O capacitate de calcul suplimentară de patru petaflopuri va fi pusă la dispoziția cercetătorilor prin serviciul nostru de cloud HPC, Penguin Computing On-Demand (POD). Împreună, sistemele donate vor oferi cercetătorilor mai mult de șapte petaflopuri de putere de calcul accelerată de GPU care pot fi aplicate pentru a lupta împotriva COVID-19.
Universitățile beneficiare sunt așteptate să utilizeze noua capacitate de calcul pentru o gamă largă de sarcini de lucru legate de pandemie, inclusiv genomica, dezvoltarea de vaccinuri, știința transmiterii și modelarea.
Mai aveți ceva de împărtășit despre Penguin Computing?
De mai bine de două decenii, Penguin Computing a livrat soluții personalizate, inovatoare și deschise lumii calculului de înaltă performanță și tehnic. Soluțiile Penguin Computing oferă organizațiilor agilitatea și libertatea de a valorifica cele mai recente tehnologii în mediile lor de calcul. Organizațiile pot concentra resursele lor pe livrarea de produse și idei pe piață în timp record, în loc de pe tehnologiile subiacente. Gama largă de soluții Penguin Computing pentru AI/ML/Analitică, HPC, DataOps și tehnologii native cloud poate fi personalizată și combinată pentru a se potrivi nevoilor actuale, dar și pentru a se adapta rapid la nevoile și schimbările tehnologice viitoare. Serviciile profesionale și gestionate de Penguin Computing pot ajuta la integrarea, implementarea și gestionarea soluțiilor. Serviciile de găzduire ale Penguin Computing pot ajuta cu “unde” a mediului de calcul, oferind organizațiilor opțiuni de proprietate și flexibilitatea de a rula pe premise, pe cloud public sau dedicat, găzduit sau ca serviciu.
Mulțumim pentru acest interviu, cititorii care doresc să afle mai multe trebuie să viziteze Penguin Computing.












