Інтерв’ю
Кевін Таббс, PhD, Старший Віце-Президент Стратегічної Групи Рішень у Penguin Computing – Серія Інтерв’ю

Кевін Таббс, PhD, є Старшим Віце-Президентом Стратегічної Групи Рішень у Penguin Computing. Penguin Computing розробляє індивідуальні, агностичні рішення “від початку до кінця” (апаратне/програмне/хмарне/сервісне) для вирішення складних наукових, аналітичних та інженерних проблем, з якими стикаються компанії Fortune 500, стартапи, академічні установи та федеральні організації сьогодні
Що спочатку привернуло вашу увагу до галузі комп’ютерних наук?
Моя мама і тато купили мені комп’ютер, коли мені було дуже молодо, і у мене завжди був інтерес і талант до комп’ютерів і експериментів. Через моє навчання я постійно схилявся до STEM-області і це привело мене до бажання бути залученим у більш прикладну галузь. Мій досвід у фізиці та високопродуктивних обчисленнях (HPC). Любов до комп’ютерів з раннього віку дозволила мені тримати комп’ютерні науки на передньому плані будь-яких інших наук, математики чи інженерних інтересів, які у мене були, що привело мене до того, де я зараз знаходжуся.
Penguin Computing працює у тісній співпраці з Проектом Відкритих Обчислень (OCP) – що це саме?
Від початку руху Проекту Відкритих Обчислень (OCP), Penguin Computing був одним з перших, хто підтримав і зробив значний внесок у зусилля по приведенню вигод OCP до високопродуктивних обчислень (HPC) та штучного інтелекту (AI).
Фокус OCP полягає у об’єднанні глобальної спільноти розробників для створення повного екосистеми інфраструктурної технології, переосмисленої для більшої ефективності, гнучкості та масштабованості. Penguin Computing приєднався до OCP через відкриті технології та ідею спільноти. Що ми зробили з часом, то забезпечили те, що спадщина та технології традиційного HPC та нових тенденцій у AI та Аналітиці можуть бути масштабовані ефективно – Penguin Computing рухає ці речі до OCP.
Однією з вигод OCP є те, що воно знижує загальну вартість володіння (TCO) – нижчі капітальні витрати, завдяки видаленню всіх елементів ваніті, і нижчі операційні витрати завдяки обслуговуванню з передньої частини, спільній потужності та іншим змінам дизайну – що робить технологію на основі OCP ідеальною для масштабування.
Penguin Computing має кілька продуктів OCP, включаючи платформу Penguin Computing Tundra Extreme Scale та Penguin Computing Tundra AP. Платформи Tundra також сумісні з HPC та AI-навантаженнями.
Tundra AP, останнє покоління нашої високогустинної платформи суперкомп’ютерів Tundra, поєднує потужність процесорів Intel® Xeon® Scalable 9200 серії з сервером Relion XO1122eAP Server від Penguin Computing у форматі OCP, який забезпечує високу густину ядер CPU на стійку.
Коли мова йде про великі дані, для оптимізації рівнів продуктивності користувачам потрібно видалити вузькі місця, які сповільнюють їхній доступ до даних. Як підходить до цього проблеми Penguin Computing?
Penguin Computing використав нашу здатність використовувати відкриті технології та швидко рухатися з поточними тенденціями – однією з яких є великі дані або зростання даних та даних, керованих навантаженнями. У відповідь на це, ми побудували нашу Стратегічну Групу Рішень, щоб вирішити цю проблему безпосередньо.
При вирішенні проблеми, ми виявили, що більшість навантажень, навіть з традиційного технічного обчислення, мотивовані бути більш даних, керованими. Як результат, Penguin Computing розробляє повні рішення “від початку до кінця” шляхом спроби зрозуміти навантаження користувача. Для створення оптимізованого рішення “від початку до кінця” ми фокусуємося на оптимізованому програмному шарі, який включає оркестрацію та доставку навантаження. По суті, нам потрібно зрозуміти, як користувач буде використовувати інфраструктуру.
Далі ми намагаємось сконцентруватися на оптимізованому комп’ютерному обладнанні. Є різні рівні даних та проблем IO, які створюють великий тиск на частину обчислень. Наприклад, різні навантаження вимагають різних комбінацій прискореного комп’ютерного обладнання від CPU, GPU, пропускної здатності пам’яті та мережі, яка дозволяє цим даним бути переданими та обробленими.
Нарешті, нам потрібно визначити, які рішення дозволять нам доставити ці дані. Ми розглядаємо оптимізовані інфраструктури даних, щоб зрозуміти, як навантаження взаємодіє з даними, які є вимогами до місткості та шаблонами IO. Як тільки ми маємо цю інформацію, це допомагає нам розробити оптимізовану систему.
Як тільки ми маємо всю інформацію, ми використовуємо наш внутрішній досвід у Penguin Computing, щоб розробити дизайн та повне рішення. Знаючи, що воно розроблено з точки зору продуктивності, нам потрібно зрозуміти, де воно розгортається (в місці, в хмарі, на краю, комбінація всіх тощо). Це підхід Penguin Computing до доставки оптимізованого рішення для даних, керованих навантаженнями.
Чи можете ви обговорити важливість використання GPU замість CPU для глибокого навчання?
Однією з найбільших тенденцій, яку я бачив щодо важливості GPU для Глибокого Навчання (DL), було переміщення від використання загального призначення GPU (GPGPU) як даних паралельного апаратного забезпечення, яке дозволяє нам сильно прискорити кількість обчислювальних ядер, які ви можете доставити для вирішення паралельної обчислювальної проблеми. Це відбувається протягом останніх десяти років.
Я брав участь у ранніх стадіях програмування GPGPU, коли я був у аспірантурі та на початку своєї кар’єри. Я вважаю, що такий стрибок у густині обчислень, коли GPU забезпечує велику густину обчислень та аналітичних ядер на пристрої, і дозволяє вам отримати більше в серверному просторі, і бути здатним перепрофілювати щось, що було спочатку призначено для графіки, у комп’ютерний двигун, було справжнім відкриттям у сфері HPC та згодом у спільноті AI.
Однак, багато з цього залежало від конвертації та оптимізації коду для запуску на GPU замість CPU. Коли ми зробили всю цю роботу, ми чекали на концепцію вбивчої програми – програми або випадку, який справді запускається або уможливлюється GPU. Для спільноти GPGPU DL було тією вбивчою програмою, яка галванізувала зусилля та розвиток у прискоренні HPC та AI-навантажень.
З часом відбулося відродження AI та машинного навчання (ML), і DL увійшло в гру. Ми зрозуміли, що навчання нейронної мережі за допомогою DL фактично добре відображається на основі дизайну GPU. Я вважаю, що як тільки ці дві речі збіглися, ви маєте можливість робити той вид DL, який раніше не був можливий завдяки процесорам CPU, і в кінцевому підсумку обмежував нашу здатність робити AI як у масштабі, так і на практиці.
Як тільки GPU зайняли своє місце, це фактично відновило дослідження та розвиток спільноти навколо AI та DL, оскільки у вас просто не було рівня обчислень, щоб зробити це ефективно, і це не було демократизовано. GPU дійсно дозволяє вам доставити густіше обчислення, яке за своєю суттю добре підходить для DL, і привело це до рівня апаратних рішень, які зробили його легшим для отримання дослідниками та вченими. Я вважаю, що це одна з великих причин, чому GPU краще підходить для вивчення DL.
Які деякі з GPU-прискорених обчислювальних рішень, які пропонуються компанією Penguin Computing?
Penguin Computing зараз зосереджується на повних рішеннях, які розробляються нашою Стратегічною Групою Рішень, особливо з практикою AI та Аналітики у Penguin Computing. У цій практиці ми зосереджені на трьох високорівневих підходах до GPU-прискорених рішень.
По-перше, ми пропонуємо референс-архітектуру для аналітики країв, де ми намагаємось розробити рішення, які пасують до нетрадиційних центрів даних (на краю або біля краю). Це може включати телекомунікаційні центри даних країв, роздрібні приміщення, бензозаправні станції та інше. Це всі рішення, засновані на висновках AI. Деякі рішення спрямовані на відеоаналітику для контактного трасування та розпізнавання жестів, щоб визначити, чи митьє людина руки або носить маску. Це застосування повних рішень, які включають GPU-прискорене апаратне забезпечення, яке налаштоване для нетрадиційних або розгортань країв, а також програмні стеки, які дозволяють дослідникам та кінцевим користувачам використовувати їх ефективно.
Наступний клас рішень Penguin Computing розроблений для центрів даних та основних архітектур навчання та висновку AI. Ви можете подумати про те, що сидите всередині великомасштабного центру даних або у хмарі (хмара Penguin Computing), де деякі з наших клієнтів роблять великомасштабне навчання, використовуючи тисячі GPU для прискорення DL. Ми розглядаємо, як ми доставляємо повні рішення та референс-архітектури, які підтримують всі ці програмні навантаження та контейнеризацію через дизайн та макет GPU, весь шлях через вимоги до інфраструктури даних, які підтримують це.
Третій клас референс-архітектур у цій практиці є комбінацією двох попередніх. Що ми шукаємо у нашій третій сім’ї референс-архітектур, то як ми створюємо тканини даних та шляхи та робочі процеси, щоб дозволити безперервне навчання, так що ви можете запускати висновок, використовуючи наші рішення GPU-прискореного краю, передавати ці дані до приватного або публічного хмари, продовжувати навчання на ньому, і коли оновлені навчальні моделі будуть оновлені, передавати їх назад до висновку. Таким чином, у нас є ітеративний цикл безперервного навчання та моделей AI.
Penguin Computing недавно розгорнув новий суперкомп’ютер для LLNL у партнерстві з Intel та CoolIT. Чи можете ви розповісти нам про цей суперкомп’ютер та для чого він був розроблений?
Суперкомп’ютер Magma, розгорнутий у LLNL, був придбаний через контракт Commodity Technology Systems (CTS-1) з Національною адміністрацією ядерної безпеки (NNSA) і є одним з перших розгортань процесорів Intel Xeon Platinum 9200 серії з підтримкою системи прямого рідкого охолодження CoolIT Systems та інтерконнекта Omni-Path.
Фінансований через програму NNSA Advanced Simulation & Computing (ASC), Magma буде підтримувати програму NNSA Life Extension та зусилля, критичні для забезпечення безпеки, безпеки та надійності ядерної зброї країни в умовах відсутності підземних випробувань.
Суперкомп’ютер Magma є системою HPC, яку підсилює штучний інтелект, і є зібраною платформою, яка дозволяє AI прискорити HPC-моделювання. Magma був включений до списку Top500 у червні 2020 року, зайнявши 80-е місце.
Під контрактом CTS-1 Penguin Computing доставив понад 22 петафлопс обчислювальної потужності для підтримки програми ASC у лабораторіях NNSA Tri-Labs у Лоуренс-Ліверморі, Лос-Аламосі та Сандійському національному інституті.
Які деякі з різних способів, якими Penguin Computing підтримує боротьбу з COVID-19?
У червні 2020 року Penguin Computing офіційно партнерував з AMD, щоб доставити можливості HPC дослідникам у трьох топ-університетах США – Нью-Йоркському університеті (NYU), Масачусетському технологічному інституті (MIT) та Райсівському університеті – для допомоги у боротьбі з COVID-19.
Penguin Computing партнерував безпосередньо з фондом AMD COVID-19 HPC, щоб забезпечити дослідницькі установи значними обчислювальними ресурсами для прискорення медичних досліджень щодо COVID-19 та інших захворювань. Penguin Computing та AMD співпрацюють, щоб доставити сузір’я на-преміз та хмарних рішень HPC дослідницьким установам у NYU, MIT та Райсівському університеті, щоб допомогти підвищити дослідницькі можливості сотень вчених, які в кінцевому підсумку внесуть свій внесок у більше розуміння нового коронавірусу.
Підтримувані останнім процесором 2-го покоління AMD EPYC та прискорювачами GPU Radeon Instinct MI50, системи, пожертвувані університетом, кожна очікується забезпечити понад один петафлопс обчислювальної продуктивності. Додаткові чотири петафлопси обчислювальної потужності будуть доступні дослідникам через нашу хмарну службу HPC, Penguin Computing On-Demand (POD). Всього пожертвувані системи забезпечать дослідникам понад сім петафлопсів GPU-прискореної обчислювальної потужності, яку можна застосувати для боротьби з COVID-19.
Очікується, що університетські установи, які отримали допомогу, будуть використовувати нову обчислювальну потужність для різних пов’язаних з пандемією навантажень, включаючи геноміку, розробку вакцин, науку про передачу та моделювання.
Чи є ще щось, що ви хотіли б поділитися про Penguin Computing?
Більше двох десятиліть Penguin Computing доставляє індивідуальні, інноваційні та відкриті рішення світу високопродуктивних та технічних обчислень. Рішення Penguin Computing дають організаціям гнучкість та свободу, яку вони потребують для використання останніх технологій у своїх обчислювальних середовищах. Організації можуть зосередити свої ресурси на доставці продуктів та ідей на ринок у рекордний час, а не на основі технологій. Широкий спектр рішень Penguin Computing для AI/ML/Аналітики, HPC, DataOps та хмарних технологій може бути налаштований та поєднаний, щоб не тільки відповідати поточним потребам, але й швидко адаптуватися до майбутніх потреб та змін технологій. Професійні та керовані служби Penguin Computing допомагають з інтеграцією, впровадженням та керуванням рішеннями. Служби хостингу Penguin Computing можуть допомогти з “де” обчислювального середовища, надаючи організаціям варіанти власності та гнучкість для запуску на-преміз, на публічній або приватній хмарі, хостингу або як сервісу.
Дякую за велике інтерв’ю, читачам, які бажають дізнатися більше, повинні відвідати Penguin Computing.












