Intervjuer
Kevin Tubbs, PhD, SVP Strategic Solutions Group på Penguin Computing – Intervju-serie

Kevin Tubbs, PhD, är Senior Vice President för Strategic Solutions Group på Penguin Computing. Penguin Computing designar anpassade, agnostiska, slut-till-slut-lösningar (maskinvara/mjukvara/moln/tjänster) för att lösa de komplexa vetenskapliga, analytiska och tekniska problem som dagens Fortune 500-företag, startup-företag, akademiska institutioner och federala organisationer står inför
Vad var det som initialt drog dig till datavetenskapens område?
Min mamma och pappa köpte en dator åt mig när jag var mycket ung, och jag har alltid haft ett intresse och en fallenhet för datorer och att pyssla. Genom min utbildning drogs jag konsekvent till STEM-områden, och det ledde mig till att vilja engagera mig i ett mer tillämpat område. Min bakgrund är fysik och högpresterande datorberäkning (HPC). Att ha en kärlek till datorer tidigt har möjliggjort för mig att hålla datavetenskap i förgrunden för alla andra vetenskaps-, matematik- eller teknikintressen som jag har haft, vilket har lett mig till där jag är idag.
Penguin Computing samarbetar nära med Open Compute Project (OCP) – vad är det exakt?
Sedan starten av Open Compute Project (OCP)-rörelsen har Penguin Computing varit en tidig anhängare, supporter och stor bidragsgivare till insatsen att bringa OCP-fördelarna till högpresterande datorberäkning (HPC) och artificiell intelligens (AI).
Fokus för OCP är att samla en global utvecklarkommunitet för att skapa ett fullständigt ekosystem av infrastrukturtillämpningar som är omformade för att vara mer effektiva, flexibla och skalbara. Penguin Computing gick med i OCP på grund av de öppna teknologierna och idén om en gemenskap. Vad vi har gjort över tid är att se till att arvet och teknologierna från traditionell HPC och framväxande trender inom AI och Analytics kan skalas effektivt – Penguin Computing driver dessa saker in i OCP.
En av fördelarna med OCP är att det sänker den totala ägandekostnaden (TCO) – lägre kapitalutgifter tack vare borttagning av alla yttre element, och lägre driftskostnader på grund av service från framsidan, delad effekt och andra designförändringar – vilket gör OCP-baserad teknik perfekt för skala ut.
Penguin Computing har flera OCP-produkter, inklusive Penguin Computing Tundra Extreme Scale Platform och Penguin Computing Tundra AP. Tundra-plattformarna är också kompatibla med HPC- och AI-arbetsbelastningar.
Tundra AP, den senaste generationen av vår högtäta Tundra-superdatorplattform, kombinerar bearbetningskraften från Intel® Xeon® Scalable 9200-seriens processorer med Penguin Computings Relion XO1122eAP Server i en OCP-formfaktor som levererar en hög densitet av CPU-kärnor per hylla.
När det gäller stora mängder data, för att optimera prestandanivåerna behöver användare ta bort flaskhalsar som sakta ner deras tillgång till data. Hur närmar sig Penguin Computing detta problem?
Penguin Computing har utnyttjat vår förmåga att använda öppna teknologier och röra oss snabbt med aktuella trender – en av dem är stora mängder data eller tillväxten av data och data-drivna arbetsbelastningar. Som svar på detta har vi byggt ut vår Strategic Solutions Group för att ta itu med detta problem direkt.
Vid att ta itu med problemet har vi funnit att de flesta arbetsbelastningar, även från traditionell teknisk beräkning, är alla motiverade att bli mer data-drivna. Som ett resultat designar Penguin Computing kompletta slut-till-slut-lösningar genom att försöka förstå användarens arbetsbelastning. För att skapa en arbetsbelastnings-optimerad slut-till-slut-lösning fokuserar vi på den arbetsbelastnings-optimerade programvarulagret som inkluderar orkestrering och arbetsbelastningsleverans. I princip behöver vi förstå hur användaren kommer att använda infrastrukturen.
Sedan försöker vi fokusera på arbetsbelastnings-optimerad beräkningsinfrastruktur. Det finns varierande nivåer av data och IO-utmaningar som sätter ett stort tryck på beräkningsdelen. Till exempel kräver olika arbetsbelastningar olika kombinationer av accelererad beräkningsinfrastruktur från CPU, GPU, minnesbandbredd och nätverk som möjliggör att data kan flöda genom och beräknas.
Till sist behöver vi ta reda på vilka typer av lösningar som kommer att möjliggöra för oss att leverera den datan. Vi tittar på arbetsbelastnings-optimerad data-infrastruktur för att förstå hur arbetsbelastningen interagerar med datan, vad kapacitetskraven och IO-mönster är. När vi har den informationen hjälper det oss att designa ett arbetsbelastnings-optimerat system.
När vi har all information utnyttjar vi vår interna expertis på Penguin Computing för att arkitektera en design och en komplett lösning. Vetande att det är utformat från ett prestandaperspektiv, behöver vi förstå var det distribueras (på plats, moln, kant, kombination av allt, etc.). Det är Penguin Computings tillvägagångssätt för att leverera en optimerad lösning för data-drivna arbetsbelastningar.
Kunde du diskutera vikten av att använda en GPU istället för en CPU för djupinlärning?
En av de största trenderna jag har sett i fråga om vikten av GPU för djupinlärning (DL) var övergången från att använda allmänna GPU (GPGPU) som en dataparallell styckehårdvara som tillät oss att kraftigt accelerera mängden beräkningskärnor som du kan leverera för att lösa ett parallellt datorproblem. Detta har pågått under de senaste tio åren.
Jag deltog i de tidiga stadierna av GPGPU-programmering när jag var i grundskolan och tidigt i min karriär. Jag tror att ha den där ökningen i beräkningsdensitet, där en GPU tillhandahåller en stor mängd tät beräkning och analytiska kärnor på en enhet och tillåter dig att få mer i en serverutrymme och kunna återanvända något som ursprungligen var tänkt för grafik till en beräkningsmotor var en riktig ögonöppnare-trend inom HPC och så småningom AI-samhällen.
Men mycket av det byggde på att konvertera och optimera kod för att köra på GPU istället för CPU. Medan vi gjorde allt det arbetet, väntade vi på konceptet med den så kallade “killerappen” – den applikation eller användningsfall som verkligen tar fart eller är aktiverad av en GPU. För GPGPU-gemenskapen var DL den där “killerappen” som galvaniserade ansträngningar och utveckling i att accelerera HPC- och AI-arbetsbelastningar.
Över tid var det en återupplivning av AI och maskinlärande (ML), och DL kom in i spel. Vi insåg att utbildning av ett neuronnät med hjälp av DL faktiskt kartlade mycket väl över den underliggande designen av en GPU. Jag tror att när de två sakerna konvergerade har du förmågan att göra den typ av DL som inte var möjlig tidigare genom CPU-processorer och slutligen begränsade vår förmåga att göra AI både i skala och i praktiken.
När GPU kom in på plats gjorde det faktiskt om den forsknings- och utvecklingsgemenskapen kring AI och DL, eftersom du bara inte hade den där nivån av beräkning för att göra det effektivt och det var inte demokratiserat. GPU tillåter dig att leverera en tätare beräkning som i sin kärna är utformad väl för DL och förde det till en nivå av hårdvarulösningar som gjorde det lättare att komma till fler forskare och vetenskapsmän. Jag tror att det är en av de stora anledningarna till att GPU är bättre för att studera DL.
Vilka är några av de GPU-accelererade datorlösningarna som erbjuds av Penguin Computing?
Penguin Computing fokuserar för närvarande på slut-till-slut-lösningar som arbetas med av vår Strategic Solutions Group, särskilt med Penguin Computings AI- och Analytics-praxis. Inom denna praxis fokuserar vi på tre högnivå-tillvägagångssätt för GPU-accelererade lösningar.
Först erbjuder vi en referensarkitektur för edge-analys, där vi försöker designa lösningar som passar i icke-traditionella datacenter (ute vid kanten eller nära kanten). Detta kan inkludera Teleco-kantdatacenter, butikslokaler, bensinstationer och mer. Dessa är alla inferensbaserade AI-lösningar. Vissa lösningar är inriktade på videoanalys för kontaktspårning och gestigenkänning för att bestämma om någon tvättar händerna eller bär en mask. Dessa är tillämpningar av kompletta lösningar som inkluderar GPU-accelererad hårdvara som är finjusterad för icke-traditionella eller kantdistributioner samt programvarustacken för att möjliggöra för forskare och slutanvändare att använda dem effektivt.
Den nästa klassen av Penguin Computing-lösningar är byggda för datacenter och kärn-AI-utbildning och inferens-referensarkitekturer. Du kan tänka dig att sitta inne i ett stort datacenter eller i molnet (Penguin Computing Cloud) där några av våra kunder gör storskalig utbildning med användning av tusentals GPU för att accelerera DL. Vi tittar på hur vi levererar kompletta lösningar och referensarkitekturer som stöder alla dessa programvaru-arbetsbelastningar och containrar genom GPU-design och layout, hela vägen genom data-infrastrukturfördelarna som stöder det.
Den tredje klassen av referensarkitekturer i denna praxis är en kombination av de två föregående. Vad vi letar efter i vår tredje referensarkitekturfamilj är hur vi kan skapa data-tyger och vägar och arbetsflöden för att möjliggöra kontinuerligt lärande så att du kan köra inferens med våra kant-GPU-accelererade lösningar, trycka på den datan till privat eller offentligt moln, fortsätta att utbilda på den och när de nya utbildningsmodellerna uppdateras, trycka tillbaka ut till inferens. På det sättet har vi en iterativ cykel av kontinuerligt lärande och AI-modeller.
Penguin Computing distribuerade nyligen en ny superdator för LLNL i samarbete med Intel och CoolIT. Kunde du berätta om den här superdatorn och vad den var utformad för?
Magma-superdatorn, distribuerad vid LLNL, inköptes genom Commodity Technology Systems (CTS-1)-kontraktet med National Nuclear Security Administration (NNSA) och är en av de första distributionerna av Intel Xeon Platinum 9200-seriens processorer med stöd från CoolIT Systems komplett direkt vätskekylnings- och Omni-Path-interconnect.
Finansierad genom NNSA:s Advanced Simulation & Computing (ASC)-program kommer Magma att stödja NNSA:s Life Extension Program och ansträngningar som är kritiska för att säkerställa säkerheten, säkerheten och tillförlitligheten hos nationens kärnvapen i avsaknad av underjordiska tester.
Magma-superdatorn är ett HPC-system som förbättras av artificiell intelligens och är en konvergerad plattform som tillåter AI att accelerera HPC-modellering. Magma rankades i juni 2020 Top500-listan, och bröt in i topp 100, komma in på #80.
Under CTS-1-kontraktet har Penguin Computing levererat mer än 22 petaflops av beräkningsförmåga för att stödja ASC-programmet vid NNSA Tri-Labs i Lawrence Livermore, Los Alamos och Sandia National Laboratories.
Vad är några av de olika sätten som Penguin Computing stöder kampen mot COVID-19?
I juni 2020 samarbetade Penguin Computing officiellt med AMD för att leverera HPC-förmåga till forskare vid tre toppuniversitet i USA – New York University (NYU), Massachusetts Institute of Technology (MIT) och Rice University – för att hjälpa till i kampen mot COVID-19.
Penguin Computing samarbetade direkt med AMD:s COVID-19 HPC-fond för att tillhandahålla forskningsinstitutioner med betydande beräkningsresurser för att accelerera medicinsk forskning om COVID-19 och andra sjukdomar. Penguin Computing och AMD samarbetar för att leverera en konstellation av lokala och molnbaserade HPC-lösningar till NYU, MIT och Rice University för att hjälpa till att höja forskningsförmågan hos hundratals forskare som slutligen kommer att bidra till en större förståelse av det nya coronaviruset.
Drivna av de senaste 2:a generationens AMD EPYC-processorer och Radeon Instinct MI50 GPU-acceleratorer förväntas systemen som doneras till universiteten var och en förse forskare med över en petaflops beräkningsprestanda. Ytterligare fyra petaflops av beräkningskapacitet kommer att göras tillgängliga för forskare genom vår HPC-molntjänst, Penguin Computing On-Demand (POD). Kombinerat kommer de donerade systemen att ge forskare mer än sju petaflops av GPU-accelererad beräkningskraft som kan appliceras för att bekämpa COVID-19.
Mottagaruniversiteten förväntas använda den nya beräkningskapaciteten över ett brett spektrum av pandemi-relaterade arbetsbelastningar, inklusive genetik, vaccinutveckling, överföringsvetenskap och modellering.
Finns det något annat du vill dela om Penguin Computing?
Under mer än två decennier har Penguin Computing levererat anpassade, innovativa och öppna lösningar till den högpresterande och tekniska datorvärlden. Penguin Computings lösningar ger organisationer den smidighet och frihet de behöver för att utnyttja de senaste teknologierna i sina beräkningsmiljöer. Organisationer kan fokusera sina resurser på att leverera produkter och idéer till marknaden i rekordtid istället för på de underliggande teknologierna. Penguin Computings breda utbud av lösningar för AI/ML/Analytics, HPC, DataOps och molnbaserade teknologier kan anpassas och kombineras för att inte bara passa nuvarande behov, utan också snabbt anpassa sig till framtida behov och teknologiförändringar. Penguin Computings professionella och hanterade tjänster hjälper till med att integrera, implementera och hantera lösningar. Penguin Computings värdtjänster kan hjälpa till med “var” i beräkningsmiljön genom att ge organisationer äganderätt och flexibilitet att köra på plats, på offentligt eller dedikerat moln, värd eller som en tjänst.
Tack för den utmärkta intervjun, läsare som vill lära sig mer bör besöka Penguin Computing.












