Wywiady

Doktor Kevin Tubbs, wiceprezes grupy rozwiązań strategicznych w Penguin Computing – seria wywiadów

Opublikowany

4 lat temu

1 października 2020 r.

Doktor Kevin Tubbs jest starszym wiceprezesem Strategic Solutions Group w firmie Obliczanie pingwinów. Penguin Computing projektuje niestandardowe, kompleksowe rozwiązania (sprzęt/oprogramowanie/chmura/usługi) w celu rozwiązywania złożonych problemów naukowych, analitycznych i inżynieryjnych, przed którymi stoją dzisiejsze firmy, start-upy, instytucje akademickie i organizacje federalne z listy Fortune 500

Co początkowo przyciągnęło Cię do dziedziny informatyki?

Moja mama i tata kupili mi komputer, gdy byłem bardzo młody, a ja zawsze interesowałem się komputerami i majsterkowaniem, a także miałem talent do nich. W trakcie mojej edukacji konsekwentnie skłaniałem się ku dziedzinom STEM, co skłoniło mnie do chęci zaangażowania się w dziedzinę bardziej stosowaną. Moje wykształcenie to fizyka i obliczenia dużej wydajności (HPC). Wczesna miłość do komputerów pozwoliła mi utrzymać informatykę w czołówce wszystkich innych zainteresowań związanych z naukami ścisłymi, matematyką i inżynierią, co doprowadziło mnie do miejsca, w którym jestem dzisiaj.

Penguin Computing ściśle współpracuje z Open Compute Project (OCP) – co to dokładnie jest?

Od początku Otwórz projekt obliczeniowy (OCP), firma Penguin Computing jako pierwsza przyjęła, wspiera i wnosi główny wkład w wysiłki mające na celu wykorzystanie zalet OCP w obliczeniach dużej wydajności (HPC) i sztucznej inteligencji (AI).

Celem OCP jest zjednoczenie globalnej społeczności programistów w celu stworzenia pełnego ekosystemu technologii infrastrukturalnej, zaprojektowanej na nowo tak, aby była bardziej wydajna, elastyczna i skalowalna. Penguin Computing dołączył do OCP ze względu na otwarte technologie i ideę społeczności. Z biegiem czasu udało nam się zapewnić efektywne skalowanie dziedzictwa i technologii tradycyjnych HPC oraz pojawiających się trendów w sztucznej inteligencji i analityce – firma Penguin Computing wprowadza te elementy do OCP.

Jedną z zalet OCP jest obniżenie całkowitego kosztu posiadania (TCO) – niższe wydatki kapitałowe dzięki usunięciu wszystkich elementów wyposażenia oraz niższe koszty operacyjne ze względu na obsługę od przodu, współdzielone zasilanie i inne zmiany projektowe – co sprawia, że Technologia oparta na OCP, idealna do skalowania.

Penguin Computing oferuje kilka produktów OCP, w tym platformę Penguin Computing Tundra Extreme Scale i Penguin Computing Tundra AP. Platformy Tundra są również kompatybilne z obciążeniami HPC i AI.

Tundra AP, najnowsza generacja naszej platformy superkomputerowej Tundra o dużej gęstości, łączy moc obliczeniową procesorów Intel® Xeon® Scalable z serii 9200 z technologią Penguin Computing Serwer Relion XO1122eAP w formacie OCP, który zapewnia dużą gęstość rdzeni procesora na szafę.

Jeśli chodzi o duże zbiory danych, aby zoptymalizować poziom wydajności, użytkownicy muszą usunąć wąskie gardła, które spowalniają ich dostęp do danych. Jak firma Penguin Computing podchodzi do tego problemu?

Firma Penguin Computing wykorzystała naszą zdolność do korzystania z otwartych technologii i szybko dopasowywała się do aktualnych trendów – jednym z nich są duże zbiory danych lub wzrost liczby danych i obciążeń opartych na danych. W odpowiedzi na to utworzyliśmy naszą Grupę Rozwiązań Strategicznych, aby bezpośrednio zająć się tym problemem.

Rozwiązując ten problem, odkryliśmy, że większość obciążeń, nawet związanych z tradycyjnymi obliczeniami technicznymi, jest motywowana do większego wykorzystania danych. W rezultacie Penguin Computing projektuje kompletne, kompleksowe rozwiązania, starając się zrozumieć obciążenie pracą użytkowników. Aby stworzyć kompleksowe rozwiązanie zoptymalizowane pod kątem obciążenia, skupiamy się na warstwie oprogramowania zoptymalizowanej pod kątem obciążenia, która obejmuje orkiestrację i dostarczanie obciążenia. Zasadniczo musimy zrozumieć, w jaki sposób użytkownik będzie korzystał z infrastruktury.

Następnie staramy się skupić na infrastrukturze obliczeniowej zoptymalizowanej pod kątem obciążenia. Istnieją różne poziomy wyzwań związanych z danymi i operacjami we/wy, które wywierają duży nacisk na część obliczeniową. Na przykład różne obciążenia wymagają różnych kombinacji przyspieszonej infrastruktury obliczeniowej obejmującej procesory CPU, procesory graficzne, przepustowość pamięci i sieć, która umożliwia przepływ danych i obliczenia.

Na koniec musimy dowiedzieć się, jakiego rodzaju rozwiązania pozwolą nam dostarczać te dane. Przyglądamy się infrastrukturze danych zoptymalizowanej pod kątem obciążenia, aby zrozumieć, w jaki sposób obciążenie wchodzi w interakcję z danymi, jakie są wymagania dotyczące pojemności i wzorce operacji we/wy. Gdy zdobędziemy te informacje, pomoże nam to zaprojektować system zoptymalizowany pod kątem obciążenia.

Kiedy już zdobędziemy wszystkie informacje, wykorzystujemy naszą wewnętrzną wiedzę w Penguin Computing, aby zaprojektować projekt i kompletne rozwiązanie. Wiedząc, że jest zaprojektowany z punktu widzenia wydajności, musimy zrozumieć, gdzie jest wdrożony (w środowisku lokalnym, w chmurze, na brzegu, w kombinacji wszystkich itp.). Takie jest podejście firmy Penguin Computing do dostarczania zoptymalizowanych rozwiązań dla obciążeń opartych na danych.

Czy mógłbyś omówić znaczenie używania procesora graficznego zamiast procesora do głębokiego uczenia się?

Jednym z największych trendów, jakie zaobserwowałem, jeśli chodzi o znaczenie procesorów graficznych dla głębokiego uczenia się (DL), było odejście od używania procesorów graficznych ogólnego przeznaczenia (GPGPU) jako sprzętu do równoległego przesyłania danych, co pozwoliło nam znacznie przyspieszyć ilość obliczeń rdzenie, które można dostarczyć w celu rozwiązania problemu obliczeń równoległych. To się dzieje przez ostatnie dziesięć lat.

Brałem udział we wczesnych etapach programowania GPGPU, gdy byłem na studiach i na początku mojej kariery. Wierzę, że skok w gęstości obliczeniowej, gdy procesor graficzny zapewnia dużo gęstych rdzeni obliczeniowych i analitycznych na urządzeniu, pozwala uzyskać więcej miejsca na serwerze i móc zmienić przeznaczenie czegoś, co pierwotnie było przeznaczone dla grafiki, na silnik obliczeniowy był naprawdę otwierającym oczy trendem w społecznościach HPC, a ostatecznie AI.

Jednak wiele z nich opierało się na konwersji i optymalizacji kodu do działania na procesorach graficznych, a nie na procesorach. Wykonując całą tę pracę, czekaliśmy na koncepcję zabójczej aplikacji – aplikacji lub przypadku użycia, która naprawdę działa lub jest obsługiwana przez procesor graficzny. Dla społeczności GPGPU DL była zabójczą aplikacją, która pobudziła wysiłki i rozwój w zakresie przyspieszania obciążeń HPC i AI.

Z biegiem czasu nastąpił odrodzenie sztucznej inteligencji i uczenia maszynowego (ML), a w grę wchodzi DL. Zdaliśmy sobie sprawę, że szkolenie sieci neuronowej przy użyciu DL w rzeczywistości bardzo dobrze odpowiada podstawowej konstrukcji procesora graficznego. Wierzę, że gdy te dwie rzeczy się połączą, będziemy w stanie wykonywać operacje DL, które nie były wcześniej możliwe dzięki procesorom CPU, co ostatecznie ograniczyło naszą zdolność do stosowania sztucznej inteligencji zarówno na dużą skalę, jak i w praktyce.

Kiedy procesory graficzne weszły na rynek, ponownie ożywiło to społeczność badawczo-rozwojową wokół sztucznej inteligencji i DL, ponieważ po prostu nie było wystarczającego poziomu mocy obliczeniowej, aby robić to wydajnie, i nie było to zdemokratyzowane. Procesor graficzny naprawdę pozwala na zapewnienie gęstszych obliczeń, których rdzeń jest dobrze zaprojektowany dla DL i doprowadził go do poziomu rozwiązań architektury sprzętowej, który ułatwił dotarcie do większej liczby badaczy i naukowców. Uważam, że jest to jeden z głównych powodów, dla których procesory graficzne są lepsze do nauki DL.

Jakie rozwiązania obliczeniowe akcelerowane przez GPU są oferowane przez Penguin Computing?

Penguin Computing koncentruje się obecnie na kompleksowych rozwiązaniach, nad którymi pracuje nasza Grupa ds. Rozwiązań Strategicznych, w szczególności w ramach praktyki AI i Analytics firmy Penguin Computing. W ramach tej praktyki koncentrujemy się na trzech ogólnych podejściach do rozwiązań akcelerowanych przez GPU.

Po pierwsze, oferujemy architekturę referencyjną do analityki brzegowej, w ramach której chcemy zaprojektować rozwiązania pasujące do nietradycyjnych centrów danych (na obrzeżach lub w pobliżu brzegów). Może to obejmować centra danych Edge firmy Teleco, obiekty handlowe, stacje benzynowe i nie tylko. Wszystko to są rozwiązania AI oparte na wnioskowaniu. Niektóre rozwiązania są nastawione na analizę wideo w celu śledzenia kontaktów i rozpoznawania gestów w celu ustalenia, czy ktoś myje ręce lub nosi maskę. Są to zastosowania kompletnych rozwiązań obejmujących sprzęt z akceleracją GPU, dostosowany do nietradycyjnych lub brzegowych wdrożeń, a także stosy oprogramowania umożliwiające badaczom i użytkownikom końcowym efektywne korzystanie z nich.

Następna klasa rozwiązań Penguin Computing jest przeznaczona dla centrów danych i podstawowych architektur referencyjnych do szkolenia i wnioskowania w zakresie sztucznej inteligencji. Można pomyśleć o siedzeniu w dużym centrum danych lub w chmurze (Penguin Computing Cloud), gdzie niektórzy z naszych klientów przeprowadzają szkolenia na dużą skalę w zakresie używania tysięcy procesorów graficznych do przyspieszania DL. Przyglądamy się, jak dostarczamy kompletne rozwiązania i architektury referencyjne, które obsługują wszystkie obciążenia oprogramowania i konteneryzację poprzez projekt i układ procesora graficznego, aż po wymagania dotyczące infrastruktury danych, która je obsługuje.

Trzecia klasa architektur referencyjnych w tej praktyce jest połączeniem dwóch poprzednich. To, czego szukamy w naszej trzeciej rodzinie architektur referencyjnych, to sposób, w jaki tworzymy struktury danych, ścieżki i przepływy pracy, aby umożliwić ciągłe uczenie się, dzięki czemu można uruchamiać wnioskowanie przy użyciu naszych brzegowych rozwiązań akcelerowanych przez procesor graficzny, przesyłać te dane do chmury prywatnej lub publicznej , kontynuuj szkolenie w tym zakresie, a gdy nowe modele uczenia się zostaną zaktualizowane, przesuń to z powrotem do wnioskowania. W ten sposób mamy iteracyjny cykl ciągłego uczenia się i modeli sztucznej inteligencji.

Firma Penguin Computing wdrożyła niedawno nowy superkomputer dla LLNL we współpracy z firmami Intel i CoolIT. Czy mógłbyś nam opowiedzieć o tym superkomputerze i do czego został zaprojektowany?

Superkomputer Magma wdrożony w LLNL został zakupiony w ramach kontraktu Commodity Technology Systems (CTS-1) z Narodową Administracją Bezpieczeństwa Jądrowego (NNSA) i jest jednym z pierwszych wdrożeń procesorów Intel Xeon Platinum z serii 9200 przy całkowitym bezpośrednim wsparciu firmy CoolIT Systems chłodzenie cieczą i interkonekt Omni-Path.

Finansowana w ramach programu Advanced Simulation & Computing (ASC) NNSA, Magma będzie wspierać program przedłużania życia NNSA i wysiłki mające kluczowe znaczenie dla zapewnienia bezpieczeństwa, ochrony i niezawodności krajowej broni nuklearnej w przypadku braku podziemnych testów.

Magma Supercomputer to system HPC wzmocniony sztuczną inteligencją i stanowiący konwergentną platformę, która umożliwia AI przyspieszanie modelowania HPC. Magma znalazła się na liście Top2020 z czerwca 500 r., wchodząc do pierwszej setki i zajmując 100. miejsce.

W ramach kontraktu CTS-1 firma Penguin Computing zapewniła ponad 22 petaflopy mocy obliczeniowej na potrzeby programu ASC w laboratoriach NNSA Tri-Labs w Lawrence Livermore, Los Alamos i Sandia National Laboratories.

W jaki sposób firma Penguin Computing wspiera walkę z Covid-19?

W czerwcu 2020 r. firma Penguin Computing oficjalnie nawiązała współpracę z firmą AMD, aby zapewnić możliwości HPC badaczom z trzech czołowych uniwersytetów w USA – New York University (NYU), Massachusetts Institute of Technology (MIT) i Rice University – aby pomóc w walce z Covid-19. XNUMX.

Firma Penguin Computing nawiązała bezpośrednią współpracę z funduszem AMD COVID-19 HPC Fund, aby zapewnić instytucjom badawczym znaczne zasoby obliczeniowe w celu przyspieszenia badań medycznych nad COVID-19 i innymi chorobami. Penguin Computing i AMD współpracują w celu dostarczenia konstelacji lokalnych i opartych na chmurze rozwiązań HPC dla uniwersytetów NYU, MIT i Rice University, aby pomóc w podniesieniu możliwości badawczych setek naukowców, którzy ostatecznie przyczynią się do lepszego zrozumienia nowego koronaawirusa.

Oczekuje się, że każdy z systemów przekazanych uniwersytetom, wyposażony w najnowsze procesory AMD EPYC drugiej generacji i akceleratory graficzne Radeon Instinct MI2, zapewni ponad jeden petaflop wydajności obliczeniowej. Dodatkowe cztery petaflopy mocy obliczeniowej zostaną udostępnione badaczom za pośrednictwem naszej usługi w chmurze HPC, Penguin Computing® On-Demand™ (POD). Łącznie przekazane systemy zapewnią naukowcom ponad siedem petaflopów mocy obliczeniowej przyspieszanej przez procesor graficzny, którą można zastosować do walki z Covid-50.

Oczekuje się, że uniwersytety będące beneficjentami wykorzystają nową moc obliczeniową do szeregu zadań związanych z pandemią, w tym genomiki, opracowywania szczepionek, nauk o transmisji i modelowania.

Czy chciałbyś podzielić się czymś jeszcze na temat Penguin Computing?

Od ponad dwudziestu lat Penguin Computing dostarcza niestandardowe, innowacyjne i otwarte rozwiązania dla świata obliczeń o wysokiej wydajności i technicznych. Rozwiązania Penguin Computing zapewniają organizacjom elastyczność i swobodę, których potrzebują, aby wykorzystać najnowsze technologie w swoich środowiskach obliczeniowych. Organizacje mogą skoncentrować swoje zasoby na dostarczaniu produktów i pomysłów na rynek w rekordowym czasie, zamiast na technologiach leżących u ich podstaw. Szeroką gamę rozwiązań firmy Penguin Computing w zakresie AI/ML/Analytics, HPC, DataOps i technologii natywnych w chmurze można dostosowywać i łączyć tak, aby nie tylko odpowiadały bieżącym potrzebom, ale także szybko dostosowywały się do przyszłych potrzeb i zmian technologicznych. Usługi profesjonalne i zarządzane firmy Penguin Computing pomagają w integracji, wdrażaniu i zarządzaniu rozwiązaniami. Usługi hostingowe Penguin Computing mogą pomóc w określeniu „gdzie” środowiska obliczeniowego, zapewniając organizacjom opcje własności i elastyczność działania lokalnie, w chmurze publicznej lub dedykowanej, hostowanej lub jako usługa.

Dziękuję za wspaniały wywiad. Czytelnicy chcący dowiedzieć się więcej powinni odwiedzić nas Obliczanie pingwinów.

Powiązane tematy:Wywiad linux

W przyszłym

Kel Guerin, założyciel i dyrektor techniczny READY Robotics – seria wywiadów

Nie przegap

Michael Schrage, autor silników rekomendacji (The MIT Press) – seria wywiadów

Antoniego Tardif

Partner-założyciel unite.AI i członek Rada Technologiczna Forbesa, Antoine jest futurysta który jest pasjonatem przyszłości sztucznej inteligencji i robotyki.

Jest także Założycielem Securities.io, witryna internetowa skupiająca się na inwestowaniu w przełomowe technologie.

Zjednoczyć.AI

Doktor Kevin Tubbs, wiceprezes grupy rozwiązań strategicznych w Penguin Computing – seria wywiadów

Wywiady

Doktor Kevin Tubbs, wiceprezes grupy rozwiązań strategicznych w Penguin Computing – seria wywiadów

Spis treści

Zjednoczyć.AI

Doktor Kevin Tubbs, wiceprezes grupy rozwiązań strategicznych w Penguin Computing – seria wywiadów

Spis treści

Możesz polubić