potongan Kevin Tubbs, PhD, SVP Strategic Solutions Group di Penguin Computing - Seri Wawancara - Unite.AI
Terhubung dengan kami

wawancara

Kevin Tubbs, PhD, SVP Strategic Solutions Group di Penguin Computing – Interview Series

mm

Diterbitkan

 on

Kevin Tubbs, PhD, adalah Wakil Presiden Senior Grup Solusi Strategis di Komputasi Pinguin. Penguin Computing mendesain solusi agnostik, end-to-end (perangkat keras/perangkat lunak/cloud/layanan) untuk memecahkan masalah ilmiah, analitik, dan teknik kompleks yang dihadapi perusahaan, perusahaan rintisan, lembaga akademik, dan organisasi federal Fortune 500 saat ini

Apa yang awalnya membuat Anda tertarik pada bidang ilmu komputer?

Ibu dan ayah saya membelikan saya komputer ketika saya masih sangat muda, dan saya selalu memiliki minat dan bakat untuk komputer dan mengutak-atik. Melalui pendidikan saya, saya secara konsisten tertarik pada bidang STEM dan itu membuat saya ingin terlibat dalam bidang yang lebih terapan. Latar belakang saya adalah fisika dan Komputasi Kinerja Tinggi (HPC). Memiliki kecintaan pada komputer sejak dini memungkinkan saya untuk menjaga ilmu komputer di garis depan minat sains, matematika, atau teknik lainnya yang pernah saya miliki, yang telah membawa saya ke posisi saya saat ini.

Penguin Computing bekerja erat dengan Open Compute Project (OCP) – apa tepatnya itu?

Sejak awal Buka Proyek Compute (OCP), Penguin Computing telah menjadi pengadopsi awal, pendukung dan kontributor utama dalam upaya membawa manfaat OCP ke Komputasi Kinerja Tinggi (HPC) dan kecerdasan buatan (AI).

Fokus OCP adalah menyatukan komunitas pengembang global untuk menciptakan ekosistem lengkap teknologi infrastruktur yang dirancang ulang agar lebih efisien, fleksibel, dan dapat diskalakan. Penguin Computing bergabung dengan OCP karena teknologi Open dan ide komunitas. Apa yang telah kami lakukan dari waktu ke waktu adalah memastikan bahwa warisan dan teknologi dari HPC tradisional dan tren yang muncul dalam AI dan Analitik dapat diskalakan secara efisien – Penguin Computing mendorong hal-hal tersebut ke dalam OCP.

Salah satu manfaat OCP adalah menurunkan total biaya kepemilikan (TCO) – biaya modal yang lebih rendah, berkat penghilangan semua elemen batil, dan biaya pengoperasian yang lebih rendah karena layanan dari depan, daya bersama, dan perubahan desain lainnya – yang membuat Teknologi berbasis OCP sempurna untuk skala.

Penguin Computing memiliki beberapa produk OCP antara lain Penguin Computing Tundra Extreme Scale Platform dan Penguin Computing Tundra AP. Platform Tundra juga kompatibel dengan beban kerja HPC dan AI.

Tundra AP, generasi terbaru dari platform superkomputer Tundra kami yang sangat padat, memadukan kekuatan pemrosesan prosesor Intel® Xeon® yang Dapat Diskalakan seri 9200 dengan komputer Penguin Computing Server Relion XO1122eAP dalam faktor bentuk OCP yang menghadirkan kepadatan tinggi inti CPU per rak.

Dalam hal data besar, untuk mengoptimalkan tingkat kinerja, pengguna perlu menghilangkan hambatan yang memperlambat akses mereka ke data. Bagaimana Komputasi Penguin mendekati masalah ini?

Komputasi Penguin telah memanfaatkan kemampuan kami untuk menggunakan teknologi Terbuka dan bergerak cepat dengan tren saat ini – salah satunya adalah data besar atau pertumbuhan data dan beban kerja yang digerakkan oleh data. Menanggapi hal itu, kami telah membangun Grup Solusi Strategis kami untuk mengatasi masalah ini secara langsung.

Dalam mengatasi masalah tersebut, kami menemukan bahwa sebagian besar beban kerja, bahkan dari komputasi teknis tradisional, semuanya termotivasi untuk lebih digerakkan oleh data. Akibatnya, Komputasi Penguin merancang solusi end-to-end yang lengkap dengan mencoba memahami beban kerja pengguna. Untuk membuat solusi end-to-end yang dioptimalkan untuk beban kerja, kami fokus pada lapisan perangkat lunak yang dioptimalkan untuk beban kerja yang mencakup orkestrasi dan pengiriman beban kerja. Intinya, kita perlu memahami bagaimana pengguna akan menggunakan infrastruktur.

Selanjutnya, kami mencoba untuk fokus pada infrastruktur komputasi yang dioptimalkan untuk beban kerja. Ada berbagai tingkat data dan tantangan IO yang memberi banyak tekanan pada bagian komputasi. Misalnya, beban kerja yang berbeda memerlukan kombinasi yang berbeda dari infrastruktur komputasi yang dipercepat dari CPU, GPU, bandwidth memori, dan jaringan yang memungkinkan data mengalir dan dikomputasi.

Terakhir, kami perlu mencari tahu jenis solusi apa yang memungkinkan kami mengirimkan data tersebut. Kami melihat infrastruktur data yang dioptimalkan beban kerja untuk memahami bagaimana beban kerja berinteraksi dengan data, apa persyaratan kapasitas dan pola IO. Setelah kami memiliki informasi itu, ada baiknya kami merancang sistem yang dioptimalkan untuk beban kerja.

Setelah kami memiliki semua informasi, kami memanfaatkan keahlian internal kami di Penguin Computing untuk merancang desain dan solusi lengkap. Mengetahui itu dirancang dari perspektif kinerja, kita perlu memahami di mana itu diterapkan (di tempat, cloud, edge, kombinasi semuanya, dll.). Itulah pendekatan Penguin Computing untuk memberikan solusi optimal untuk beban kerja berbasis data.

Bisakah Anda mendiskusikan pentingnya menggunakan GPU daripada CPU untuk pembelajaran mendalam?

Salah satu tren terbesar yang pernah saya lihat sehubungan dengan pentingnya GPU untuk Deep Learning (DL) adalah peralihan dari penggunaan GPU tujuan umum (GPGPU) sebagai perangkat keras paralel data yang memungkinkan kami mempercepat jumlah komputasi secara besar-besaran core yang dapat Anda berikan untuk memecahkan masalah komputasi paralel. Ini telah berlangsung selama sepuluh tahun terakhir.

Saya berpartisipasi dalam tahap awal pemrograman GPGPU ketika saya masih di sekolah pascasarjana dan di awal karir saya. Saya percaya memiliki lompatan dalam kepadatan komputasi, di mana GPU menyediakan banyak komputasi padat dan inti analitik pada perangkat dan memungkinkan Anda untuk mendapatkan lebih banyak di ruang server dan dapat menggunakan kembali sesuatu yang awalnya dimaksudkan untuk grafik ke mesin komputasi adalah tren yang benar-benar membuka mata di komunitas HPC dan akhirnya AI.

Namun, banyak yang bergantung pada konversi dan pengoptimalan kode untuk berjalan di GPU, bukan di CPU. Saat kami melakukan semua pekerjaan itu, kami menunggu konsep aplikasi pembunuh – aplikasi atau kasus penggunaan yang benar-benar lepas landas atau diaktifkan oleh GPU. Bagi komunitas GPGPU, DL adalah aplikasi pembunuh yang menggembleng upaya dan pengembangan dalam mempercepat beban kerja HPC dan AI.

Seiring waktu, AI dan pembelajaran mesin (ML) bangkit kembali, dan DL pun ikut berperan. Kami menyadari bahwa melatih jaringan saraf menggunakan DL sebenarnya sangat cocok dengan desain dasar GPU. Saya yakin setelah kedua hal tersebut menyatu, Anda akan memiliki kemampuan untuk melakukan jenis DL yang sebelumnya tidak dimungkinkan oleh prosesor CPU dan pada akhirnya membatasi kemampuan kita untuk melakukan AI baik dalam skala besar maupun dalam praktik.

Begitu GPU hadir, itu benar-benar memberi energi kembali pada komunitas penelitian dan pengembangan di sekitar AI dan DL karena Anda tidak memiliki tingkat komputasi untuk melakukannya secara efisien dan itu tidak didemokratisasi. GPU benar-benar memungkinkan Anda menghadirkan komputasi yang lebih padat yang pada intinya dirancang dengan baik untuk DL dan membawanya ke tingkat solusi arsitektur perangkat keras yang memudahkan untuk menjangkau lebih banyak peneliti dan ilmuwan. Saya yakin itulah salah satu alasan utama GPU lebih baik untuk mempelajari DL.

Apa saja solusi komputasi berakselerasi GPU yang ditawarkan oleh Penguin Computing?

Komputasi Penguin saat ini berfokus pada solusi ujung ke ujung yang sedang dikerjakan oleh Grup Solusi Strategis kami, khususnya dengan AI dan Praktik Analisis Penguin Computing. Dalam praktik ini, kami berfokus pada tiga pendekatan tingkat tinggi untuk solusi yang dipercepat GPU.

Pertama, kami menawarkan arsitektur referensi untuk analitik edge, di mana kami ingin merancang solusi yang sesuai dengan pusat data non-tradisional (di tepi atau dekat tepi). Ini dapat mencakup pusat data Teleco edge, fasilitas ritel, pom bensin, dan lainnya. Ini semua adalah solusi AI berbasis inferensi. Beberapa solusi diarahkan pada analitik video untuk pelacakan kontak dan pengenalan gerakan untuk menentukan apakah seseorang sedang mencuci tangan atau memakai topeng. Ini adalah aplikasi solusi lengkap yang mencakup perangkat keras yang dipercepat GPU yang disesuaikan untuk penerapan non-tradisional atau edge serta tumpukan perangkat lunak untuk memungkinkan peneliti dan pengguna akhir menggunakannya secara efektif.

Kelas berikutnya dari solusi Komputasi Penguin dibangun untuk pusat data dan pelatihan inti AI serta arsitektur referensi inferensi. Anda dapat membayangkan duduk di dalam pusat data berskala besar atau di cloud (Penguin Computing Cloud) di mana beberapa pelanggan kami melakukan pelatihan berskala besar tentang penggunaan ribuan GPU untuk mempercepat DL. Kami melihat bagaimana kami memberikan solusi lengkap dan arsitektur referensi yang mendukung semua beban kerja perangkat lunak dan kontainerisasi ini melalui desain dan tata letak GPU, hingga persyaratan infrastruktur data yang mendukungnya.

Arsitektur referensi kelas ketiga dalam praktik ini adalah kombinasi dari dua yang sebelumnya. Apa yang kami cari dalam keluarga arsitektur referensi ketiga kami adalah bagaimana kami membuat struktur data dan jalur serta alur kerja untuk mengaktifkan pembelajaran berkelanjutan sehingga Anda dapat menjalankan inferensi menggunakan solusi percepatan GPU edge kami, mendorong data tersebut ke cloud pribadi atau publik , lanjutkan melatihnya, dan saat model pelatihan baru diperbarui, dorong kembali ke inferensi. Dengan cara ini kami memiliki siklus iteratif pembelajaran berkelanjutan dan model AI.

Penguin Computing baru-baru ini menerapkan superkomputer baru untuk LLNL dalam kemitraan dengan Intel dan CoolIT. Bisakah Anda memberi tahu kami tentang superkomputer ini dan untuk apa ia dirancang?

Superkomputer Magma, yang diterapkan di LLNL, diperoleh melalui kontrak Commodity Technology Systems (CTS-1) dengan National Nuclear Security Administration (NNSA) dan merupakan salah satu penerapan pertama prosesor Intel Xeon Platinum seri 9200 dengan dukungan langsung lengkap dari CoolIT Systems pendingin cair dan interkoneksi Omni-Path.

Didanai melalui program Advanced Simulation & Computing (ASC) NNSA, Magma akan mendukung Program Perpanjangan Hidup NNSA dan upaya penting untuk memastikan keselamatan, keamanan, dan keandalan senjata nuklir negara tanpa adanya pengujian bawah tanah.

Magma Supercomputer adalah sistem HPC yang disempurnakan oleh kecerdasan buatan dan merupakan platform terkonvergensi yang memungkinkan AI mempercepat pemodelan HPC. Magma menduduki peringkat dalam daftar Top2020 Juni 500, menembus 100 teratas, masuk di #80.

Di bawah kontrak CTS-1, Penguin Computing telah memberikan lebih dari 22 petaflop kemampuan komputasi untuk mendukung program ASC di NNSA Tri-Labs Lawrence Livermore, Los Alamos dan Sandia National Laboratories.

Apa saja cara Penguin Computing mendukung perang melawan COVID-19?

Pada bulan Juni 2020, Penguin Computing secara resmi bermitra dengan AMD untuk memberikan kemampuan HPC kepada para peneliti di tiga universitas terkemuka di AS – Universitas New York (NYU), Institut Teknologi Massachusetts (MIT), dan Universitas Rice – untuk membantu memerangi COVID- 19.

Penguin Computing bermitra langsung dengan COVID-19 HPC Fund dari AMD untuk menyediakan lembaga penelitian dengan sumber daya komputasi yang signifikan untuk mempercepat penelitian medis tentang COVID-19 dan penyakit lainnya. Penguin Computing dan AMD berkolaborasi untuk menghadirkan konstelasi solusi HPC berbasis cloud dan on-premise ke NYU, MIT, dan Rice University untuk membantu meningkatkan kemampuan penelitian ratusan ilmuwan yang pada akhirnya akan berkontribusi pada pemahaman yang lebih baik tentang novel coronavirus.

Didukung oleh prosesor AMD EPYC Generasi ke-2 terbaru dan akselerator GPU Radeon Instinct MI50, sistem yang disumbangkan ke universitas masing-masing diharapkan dapat memberikan kinerja komputasi lebih dari satu petaflop. Kapasitas komputasi empat petaflop tambahan akan tersedia bagi para peneliti melalui layanan cloud HPC kami, Penguin Computing® On-Demand™ (POD). Jika digabungkan, sistem yang disumbangkan akan memberi para peneliti lebih dari tujuh petaflop daya komputasi akselerasi GPU yang dapat diterapkan untuk melawan COVID-19.

Universitas penerima diharapkan untuk menggunakan kapasitas komputasi baru di berbagai beban kerja terkait pandemi termasuk genomik, pengembangan vaksin, ilmu transmisi, dan pemodelan.

Ada lagi yang ingin Anda bagikan tentang Penguin Computing?

Selama lebih dari dua dekade, Penguin Computing telah memberikan solusi khusus, inovatif, dan terbuka untuk dunia komputasi teknis dan kinerja tinggi. Solusi Penguin Computing memberi organisasi kelincahan dan kebebasan yang mereka butuhkan untuk memanfaatkan teknologi terbaru di lingkungan komputasi mereka. Organisasi dapat memfokuskan sumber daya mereka untuk mengirimkan produk dan ide ke pasar dalam waktu singkat, bukan pada teknologi yang mendasarinya. Berbagai solusi Penguin Computing untuk teknologi AI/ML/Analytics, HPC, DataOps, dan Cloud native dapat disesuaikan, dan digabungkan agar tidak hanya sesuai dengan kebutuhan saat ini, tetapi dengan cepat beradaptasi dengan kebutuhan masa depan dan perubahan teknologi. Penguin Computing Professional and Managed Services membantu mengintegrasikan, mengimplementasikan, dan mengelola solusi. Penguin Computing Hosting Services dapat membantu "di mana" lingkungan komputasi dengan memberikan opsi kepemilikan dan fleksibilitas kepada organisasi untuk berjalan di tempat, di cloud publik atau khusus, dihosting atau sebagai layanan.

Terima kasih atas wawancara yang luar biasa, pembaca yang ingin belajar lebih banyak harus mengunjungi Komputasi Pinguin.

Mitra pendiri unite.AI & anggota Dewan Teknologi Forbes, anto adalah seorang futuris yang bersemangat tentang masa depan AI & robotika.

Dia juga Pendiri Sekuritas.io, situs web yang berfokus pada investasi dalam teknologi disruptif.