Phỏng vấn

Kevin Tubbs, PhD, Phó Chủ tịch Tập đoàn Giải pháp Chiến lược tại Penguin Computing – Loạt Phỏng vấn

Published October 1, 2020

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Kevin Tubbs, PhD, là Phó Chủ tịch Tập đoàn Giải pháp Chiến lược tại Penguin Computing. Penguin Computing thiết kế tùy chỉnh các giải pháp toàn diện (hardware/software/cloud/services) để giải quyết các vấn đề khoa học, phân tích và kỹ thuật phức tạp mà các công ty Fortune 500, startup, cơ sở giáo dục và tổ chức liên bang đang phải đối mặt ngày nay

Điều gì ban đầu thu hút bạn đến lĩnh vực khoa học máy tính?

Mẹ và bố tôi mua cho tôi một chiếc máy tính khi tôi còn rất nhỏ, và tôi luôn có sự quan tâm và khả năng với máy tính và việc tìm tòi. Thông qua quá trình giáo dục, tôi luôn bị thu hút bởi các lĩnh vực STEM và điều đó dẫn tôi đến muốn tham gia vào một lĩnh vực ứng dụng hơn. Nền tảng của tôi là vật lý và Máy tính Hiệu suất cao (HPC). Việc yêu thích máy tính từ sớm cho phép tôi giữ khoa học máy tính ở vị trí hàng đầu so với bất kỳ lĩnh vực khoa học, toán học hoặc kỹ thuật nào khác mà tôi đã theo đuổi, điều này đã dẫn tôi đến nơi tôi đang ngày hôm nay.

Penguin Computing làm việc chặt chẽ với Dự án Máy tính Mở (OCP) – đó chính xác là gì?

Kể từ khi Dự án Máy tính Mở (OCP) bắt đầu, Penguin Computing đã trở thành một trong những người采用 và hỗ trợ sớm nhất, cũng như là một trong những người đóng góp chính cho nỗ lực mang lại lợi ích của OCP đến Máy tính Hiệu suất cao (HPC) và trí tuệ nhân tạo (AI).

Trọng tâm của OCP là đưa together một cộng đồng toàn cầu các nhà phát triển để tạo ra một hệ sinh thái công nghệ cơ sở hạ tầng được tưởng tượng lại để trở nên hiệu quả, linh hoạt và có khả năng mở rộng hơn. Penguin Computing tham gia OCP vì công nghệ Mở và ý tưởng về một cộng đồng. Những gì chúng tôi đã làm theo thời gian là đảm bảo rằng di sản và công nghệ từ HPC truyền thống và các xu hướng mới trong AI và Phân tích có thể mở rộng hiệu quả – Penguin Computing thúc đẩy những điều đó vào OCP.

Một trong những lợi ích của OCP là nó giảm tổng chi phí sở hữu (TCO) – chi phí vốn thấp hơn, nhờ việc loại bỏ tất cả các yếu tố trang trí, và chi phí hoạt động thấp hơn do dịch vụ từ phía trước, chia sẻ nguồn điện và các thay đổi thiết kế khác – điều này làm cho công nghệ dựa trên OCP trở nên hoàn hảo cho việc mở rộng quy mô.

Penguin Computing có một số sản phẩm OCP, bao gồm Nền tảng Tundra Extreme Scale của Penguin Computing và Tundra AP. Các nền tảng Tundra cũng tương thích với các công việc HPC và AI.

Tundra AP, thế hệ mới nhất của nền tảng siêu máy tính Tundra dày đặc của chúng tôi, kết hợp sức mạnh xử lý của bộ xử lý Intel Xeon Scalable 9200 series với Máy chủ Relion XO1122eAP của Penguin Computing trong một yếu tố hình thức OCP cung cấp mật độ lõi CPU cao trên mỗi giá đỡ.

Khi nói đến dữ liệu lớn, để tối ưu hóa hiệu suất, người dùng cần loại bỏ các nút thắt làm chậm truy cập dữ liệu của họ. Làm thế nào Penguin Computing tiếp cận vấn đề này?

Penguin Computing đã tận dụng khả năng sử dụng Công nghệ Mở và di chuyển nhanh với các xu hướng hiện tại – một trong số đó là dữ liệu lớn hoặc sự tăng trưởng của dữ liệu và các công việc được thúc đẩy bởi dữ liệu. Để đáp ứng điều đó, chúng tôi đã xây dựng Nhóm Giải pháp Chiến lược để giải quyết vấn đề này một cách trực diện.

Trong việc giải quyết vấn đề, chúng tôi đã phát hiện ra rằng đa số các công việc, thậm chí từ tính toán kỹ thuật truyền thống, đều được thúc đẩy để trở nên dữ liệu hơn. Kết quả là, Penguin Computing thiết kế các giải pháp toàn diện từ đầu đến cuối bằng cách cố gắng hiểu công việc của người dùng. Để tạo ra một giải pháp toàn diện từ đầu đến cuối được tối ưu hóa cho công việc, chúng tôi tập trung vào lớp phần mềm được tối ưu hóa cho công việc, bao gồm điều phối và giao tiếp công việc. Về cơ bản, chúng tôi cần hiểu cách người dùng sẽ sử dụng cơ sở hạ tầng.

Tiếp theo, chúng tôi cố gắng tập trung vào cơ sở hạ tầng tính toán được tối ưu hóa cho công việc. Có nhiều mức độ khác nhau của dữ liệu và thách thức IO, điều này tạo ra nhiều áp lực cho phần tính toán. Ví dụ, các công việc khác nhau yêu cầu các kết hợp khác nhau của cơ sở hạ tầng tính toán được tăng tốc từ CPU, GPU, băng thông bộ nhớ và mạng cho phép dữ liệu được truyền và tính toán.

Cuối cùng, chúng tôi cần tìm ra những loại giải pháp nào sẽ cho phép chúng tôi cung cấp dữ liệu đó. Chúng tôi xem xét cơ sở hạ tầng dữ liệu được tối ưu hóa cho công việc để hiểu cách công việc tương tác với dữ liệu, yêu cầu về khả năng và mẫu IO. Một khi chúng tôi có thông tin đó, nó sẽ giúp chúng tôi thiết kế một hệ thống được tối ưu hóa cho công việc.

Một khi chúng tôi có tất cả thông tin, chúng tôi tận dụng chuyên môn nội bộ của Penguin Computing để thiết kế và xây dựng một giải pháp toàn diện. Biết rằng nó được thiết kế từ góc độ hiệu suất, chúng tôi cần hiểu nó được triển khai ở đâu (trên cơ sở, đám mây, cạnh, kết hợp tất cả, v.v.). Đó là cách tiếp cận của Penguin Computing để cung cấp một giải pháp được tối ưu hóa cho các công việc được thúc đẩy bởi dữ liệu.

Bạn có thể thảo luận về tầm quan trọng của việc sử dụng GPU thay vì CPU cho học sâu?

Một trong những xu hướng lớn nhất mà tôi đã thấy liên quan đến tầm quan trọng của GPU cho Học sâu (DL) là việc chuyển từ sử dụng GPU chung (GPGPU) như một phần cứng song song cho phép chúng tôi tăng tốc đáng kể số lượng lõi tính toán mà bạn có thể cung cấp để giải quyết một vấn đề tính toán song song. Điều này đã diễn ra trong hơn một thập kỷ.

Tôi đã tham gia vào các giai đoạn đầu của lập trình GPGPU khi tôi còn là sinh viên sau đại học và sớm trong sự nghiệp của mình. Tôi tin rằng việc có một bước nhảy vọt về mật độ tính toán, nơi GPU cung cấp nhiều lõi tính toán và phân tích dày đặc trên một thiết bị và cho phép bạn có được nhiều hơn trong không gian máy chủ và có thể tái sử dụng một thứ gì đó ban đầu được thiết kế cho đồ họa thành một động cơ tính toán là một xu hướng thực sự mở mắt trong cộng đồng HPC và sau đó là AI.

Tuy nhiên, rất nhiều điều đó phụ thuộc vào việc chuyển đổi và tối ưu hóa mã để chạy trên GPU thay vì CPU. Khi chúng tôi làm tất cả công việc đó, chúng tôi đang chờ đợi khái niệm ứng dụng giết người – ứng dụng hoặc trường hợp sử dụng thực sự cất cánh hoặc được kích hoạt bởi GPU. Đối với cộng đồng GPGPU, DL là ứng dụng giết người đó, điều này đã đoàn kết nỗ lực và phát triển trong việc tăng tốc các công việc HPC và AI.

Theo thời gian, có một sự phục hồi của AI và học máy (ML), và DL đã trở thành hiện thực. Chúng tôi nhận ra rằng việc đào tạo một mạng lưới thần kinh sử dụng DL thực sự phù hợp rất tốt với thiết kế cơ bản của GPU. Tôi tin rằng một khi hai điều đó hội tụ, bạn có khả năng thực hiện DL mà trước đây không thể thực hiện được bằng các bộ xử lý CPU và cuối cùng hạn chế khả năng của chúng tôi để thực hiện AI cả về quy mô và trong thực tế.

Một khi GPU được đưa vào vị trí, nó thực sự đã tái tạo lại cộng đồng nghiên cứu và phát triển xung quanh AI và DL vì bạn chỉ không có mức độ tính toán để làm điều đó một cách hiệu quả và nó không được dân chủ hóa. GPU thực sự cho phép bạn cung cấp một tính toán dày đặc hơn, ở cốt lõi được thiết kế tốt cho DL và mang nó đến một mức độ giải pháp kiến trúc phần cứng mà làm cho nó dễ dàng hơn để đến được nhiều nhà nghiên cứu và nhà khoa học. Tôi tin rằng đó là một trong những lý do lớn mà GPU tốt hơn cho việc nghiên cứu DL.

Một số giải pháp tính toán được tăng tốc bởi GPU mà Penguin Computing cung cấp là gì?

Penguin Computing hiện đang tập trung vào các giải pháp toàn diện đang được xây dựng bởi Nhóm Giải pháp Chiến lược, đặc biệt là với Thực hành AI và Phân tích của Penguin Computing. Trong thực hành này, chúng tôi tập trung vào ba cách tiếp cận cấp cao để giải pháp tăng tốc bởi GPU.

Đầu tiên, chúng tôi cung cấp một kiến trúc tham chiếu cho phân tích cạnh, nơi chúng tôi đang thiết kế các giải pháp phù hợp với các trung tâm dữ liệu không truyền thống (ở cạnh hoặc gần cạnh). Điều này có thể bao gồm trung tâm dữ liệu edge của nhà cung cấp dịch vụ viễn thông, cơ sở bán lẻ, trạm xăng và nhiều hơn. Đây là tất cả các giải pháp AI dựa trên suy luận. Một số giải pháp được thiết kế cho phân tích video để theo dõi liên lạc và nhận dạng cử chỉ để xác định xem ai đó có rửa tay hoặc đeo mặt nạ hay không. Đây là các ứng dụng của các giải pháp hoàn chỉnh bao gồm phần cứng tăng tốc bởi GPU được tinh chỉnh cho các triển khai không truyền thống hoặc cạnh cũng như các ngăn xếp phần mềm để cho phép các nhà nghiên cứu và người dùng cuối sử dụng chúng một cách hiệu quả.

Lớp giải pháp tiếp theo của Penguin Computing được xây dựng cho các kiến trúc tham chiếu đào tạo và suy luận AI cốt lõi và trung tâm dữ liệu. Bạn có thể nghĩ về việc ngồi bên trong một trung tâm dữ liệu lớn hoặc trên đám mây (Dịch vụ đám mây Penguin Computing) nơi một số khách hàng của chúng tôi đang thực hiện đào tạo lớn bằng cách sử dụng hàng nghìn GPU để tăng tốc DL. Chúng tôi xem xét cách chúng tôi cung cấp các giải pháp và kiến trúc tham chiếu hoàn chỉnh hỗ trợ tất cả các công việc phần mềm và container hóa thông qua thiết kế và bố cục GPU, tất cả các yêu cầu về cơ sở hạ tầng dữ liệu hỗ trợ nó.

Lớp kiến trúc tham chiếu thứ ba trong thực hành này là sự kết hợp của hai lớp trước. Những gì chúng tôi đang tìm kiếm trong gia đình kiến trúc tham chiếu thứ ba là làm thế nào chúng tôi tạo ra các vải và đường dẫn dữ liệu và công việc để cho phép học tập liên tục để bạn có thể chạy suy luận bằng cách sử dụng các giải pháp tăng tốc bởi GPU của chúng tôi ở cạnh, đẩy dữ liệu đó đến đám mây riêng hoặc công cộng, tiếp tục đào tạo trên nó, và khi các mô hình đào tạo mới được cập nhật, đẩy nó trở lại suy luận. Điều này cho phép chúng tôi có một chu kỳ lặp lại của học tập liên tục và mô hình AI.

Penguin Computing gần đây đã triển khai một siêu máy tính mới cho LLNL trong quan hệ đối tác với Intel và CoolIT. Bạn có thể cho chúng tôi biết về siêu máy tính này và nó được thiết kế cho gì?

Siêu máy tính Magma, được triển khai tại LLNL, được mua thông qua hợp đồng Hệ thống Công nghệ Hàng hóa (CTS-1) với Cơ quan An ninh Hạt nhân Quốc gia (NNSA) và là một trong những triển khai đầu tiên của bộ xử lý Intel Xeon Platinum 9200 series với hỗ trợ từ hệ thống làm mát trực tiếp bằng chất lỏng CoolIT và liên kết Omni-Path.

Được tài trợ thông qua chương trình Mô phỏng và Tính toán Tiên tiến (ASC) của NNSA, Magma sẽ hỗ trợ Chương trình Kéo dài Tuổi thọ và các nỗ lực quan trọng để đảm bảo sự an toàn, bảo mật và độ tin cậy của kho vũ khí hạt nhân của quốc gia trong sự vắng mặt của các thử nghiệm ngầm.

Siêu máy tính Magma là một hệ thống HPC được tăng cường bởi trí tuệ nhân tạo và là một nền tảng hội tụ cho phép AI tăng tốc HPC. Magma đã được xếp hạng trong danh sách Top500 tháng 6 năm 2020, phá vỡ top 100, đứng ở vị trí #80.

Theo hợp đồng CTS-1, Penguin Computing đã cung cấp hơn 22 petaflops khả năng tính toán để hỗ trợ chương trình ASC tại các phòng thí nghiệm quốc gia NNSA Tri-Labs của Lawrence Livermore, Los Alamos và Sandia.

Penguin Computing đang hỗ trợ cuộc chiến chống lại COVID-19 như thế nào?

Vào tháng 6 năm 2020, Penguin Computing đã chính thức hợp tác với AMD để cung cấp khả năng HPC cho các nhà nghiên cứu tại ba trường đại học hàng đầu tại Hoa Kỳ – Đại học New York (NYU), Viện Công nghệ Massachusetts (MIT) và Đại học Rice – để giúp chống lại COVID-19.

Penguin Computing đã hợp tác trực tiếp với Quỹ HPC COVID-19 của AMD để cung cấp cho các cơ sở nghiên cứu các nguồn lực tính toán đáng kể để tăng tốc nghiên cứu y học về COVID-19 và các bệnh khác. Penguin Computing và AMD đang hợp tác để cung cấp một loạt các giải pháp HPC trên cơ sở và dựa trên đám mây cho NYU, MIT và Đại học Rice để giúp nâng cao khả năng nghiên cứu của hàng trăm nhà khoa học sẽ đóng góp vào sự hiểu biết lớn hơn về virus corona mới.

Được trang bị bởi các bộ xử lý AMD EPYC thế hệ thứ 2 mới nhất và tăng tốc GPU Radeon Instinct MI50, các hệ thống được tặng cho các trường đại học dự kiến sẽ cung cấp hơn một petaflops hiệu suất tính toán. Một khả năng tính toán bổ sung bốn petaflops sẽ được cung cấp cho các nhà nghiên cứu thông qua dịch vụ đám mây HPC của chúng tôi, Penguin Computing On-Demand (POD). Kết hợp lại, các hệ thống được tặng sẽ cung cấp cho các nhà nghiên cứu hơn bảy petaflops công suất tính toán được tăng tốc bởi GPU có thể được áp dụng để chống lại COVID-19.

Các trường đại học nhận được dự kiến sẽ sử dụng khả năng tính toán mới này trên một loạt các công việc liên quan đến đại dịch, bao gồm genomics, phát triển vắc-xin, khoa học truyền播 và mô hình hóa.

Có gì khác bạn muốn chia sẻ về Penguin Computing?

Trong hơn hai thập kỷ, Penguin Computing đã cung cấp các giải pháp tùy chỉnh, sáng tạo và mở cho thế giới tính toán hiệu suất cao và kỹ thuật. Các giải pháp của Penguin Computing mang lại cho các tổ chức sự linh hoạt và tự do mà họ cần để tận dụng các công nghệ mới nhất trong môi trường tính toán của họ. Các tổ chức có thể tập trung nguồn lực của mình vào việc đưa sản phẩm và ý tưởng ra thị trường trong thời gian kỷ lục thay vì tập trung vào các công nghệ cơ bản. Các giải pháp rộng rãi của Penguin Computing cho AI/ML/Phân tích, HPC, DataOps và công nghệ bản địa đám mây có thể được tùy chỉnh và kết hợp để phù hợp không chỉ với nhu cầu hiện tại mà còn có thể thích nghi nhanh chóng với nhu cầu và thay đổi công nghệ trong tương lai. Dịch vụ Chuyên nghiệp và Quản lý của Penguin Computing giúp tích hợp, triển khai và quản lý các giải pháp. Dịch vụ Hosting của Penguin Computing có thể giúp với “nơi” của môi trường tính toán bằng cách cung cấp cho các tổ chức các tùy chọn sở hữu và sự linh hoạt để chạy trên cơ sở, trên đám mây công cộng hoặc chuyên dụng, được lưu trữ hoặc dưới dạng dịch vụ.

Cảm ơn vì cuộc phỏng vấn tuyệt vời, những người đọc muốn tìm hiểu thêm nên truy cập Penguin Computing.

Unite.AI

Kevin Tubbs, PhD, Phó Chủ tịch Tập đoàn Giải pháp Chiến lược tại Penguin Computing – Loạt Phỏng vấn

You may like