Συνεντεύξεις
Kevin Tubbs, PhD, SVP Strategic Solutions Group tại Penguin Computing – Interview Series

Ο Kevin Tubbs, PhD, είναι ο Αντιπρόεδρος της Strategic Solutions Group στην Penguin Computing. Η Penguin Computing σχεδιάζει εξατομικευμένες, αισθητικές, λύσεις (hardware/λογισμικό/cloud/υπηρεσίες) για να λύσει τα σύνθετα επιστημονικά, αναλυτικά και μηχανικά προβλήματα που αντιμετωπίζουν οι εταιρείες Fortune 500, οι νεοφυείς εταιρείες, τα ακαδημαϊκά ιδρύματα και οι ομοσπονδιακές οργανώσεις.
Τι σας έκανε να ενδιαφερθείτε αρχικά για το πεδίο της επιστήμης των υπολογιστών;
Οι γονείς μου αγόρασαν έναν υπολογιστή όταν ήμουν πολύ μικρός, και πάντα είχα ενδιαφέρον και ικανότητα για τους υπολογιστές και την πειραματική τους χρήση. Μέσω της εκπαίδευσής μου, συνεχώς έτρεχα προς τα STEM πεδία και αυτό με οδήγησε να θέλω να συμμετάσχω σε ένα πιο εφαρμοσμένο πεδίο. Η背景 μου είναι φυσική και Υψηλής Απόδοσης Υπολογισμοί (HPC). Το γεγονός ότι αγαπούσα τους υπολογιστές από νωρίς, μου επέτρεψε να διατηρήσω την επιστήμη των υπολογιστών στο επίκεντρο κάθε άλλου επιστημονικού, μαθηματικού ή μηχανικού ενδιαφέροντος που είχα, και αυτό με οδήγησε στο σημείο όπου είμαι σήμερα.
Η Penguin Computing συνεργάζεται στενά με το Open Compute Project (OCP) – τι είναι ακριβώς;
Από την αρχή του κινήματος Open Compute Project (OCP), η Penguin Computing ήταν ένας πρώιμος υιοθετητής, υποστηρικτής και σημαντικός συνεισφέρων στην προσπάθεια να φέρει τα οφέλη του OCP στα Υψηλής Απόδοσης Υπολογισμοί (HPC) και την τεχνητή νοημοσύνη (AI).
Ο στόχος του OCP είναι να φέρει μαζί μια παγκόσμια κοινότητα αναπτυξιακών για να δημιουργήσει ένα πλήρες οικοσύστημα υποδομής τεχνολογίας που να είναι πιο αποτελεσματική, ευέλικτη και κλιμακωτή. Η Penguin Computing εντάχθηκε στο OCP λόγω των ανοιχτών τεχνολογιών και της ιδέας της κοινότητας. Αυτό που έχουμε κάνει με την πάροδο του χρόνου είναι να διασφαλίσουμε ότι η κληρονομιά και οι τεχνολογίες από τις παραδοσιακές HPC και τις αναδυόμενες τάσεις στην AI και την ανάλυση μπορούν να κλιμακωθούν αποτελεσματικά – η Penguin Computing οδηγεί αυτά τα πράγματα στο OCP.
Ένα από τα οφέλη του OCP είναι ότι μειώνει το συνολικό κόστος ιδιοκτησίας (TCO) – χαμηλότερα κεφαλαια έξοδα, χάρη στην αφαίρεση όλων των στοιχείων Vanity, και χαμηλότερα λειτουργικά έξοδα λόγω υπηρεσίας από το μπροστινό μέρος, κοινόχρηστοι πόροι και άλλες αλλαγές σχεδιασμού – που καθιστά την τεχνολογία OCP-based ιδανική για κλιμάκωση.
Η Penguin Computing έχει πολλά προϊόντα OCP, συμπεριλαμβανομένων των Penguin Computing Tundra Extreme Scale Platform και Penguin Computing Tundra AP. Οι πλατφόρμες Tundra είναι επίσης συμβατές με HPC και AI workloads.
Tundra AP, η τελευταία γενιά της υψηλής πυκνότητας πλατφόρμας Tundra, συνδυάζει την επεξεργαστική ισχύ των Intel® Xeon® Scalable 9200 series επεξεργαστών με τον сервер Relion XO1122eAP Server της Penguin Computing σε μια μορφή OCP που παρέχει υψηλή πυκνότητα πυρήνων CPU ανά ράφι.
Όταν πρόκειται για μεγάλα δεδομένα, για να βελτιώσετε τα επίπεδα απόδοσης, οι χρήστες πρέπει να αφαιρέσουν τα εμπόδια που επιβραδύνουν την πρόσβασή τους στα δεδομένα. Πώς αντιμετωπίζει η Penguin Computing αυτό το πρόβλημα;
Η Penguin Computing έχει αξιοποιήσει την ικανότητά μας να χρησιμοποιούμε ανοιχτές τεχνολογίες και να προχωρούμε γρήγορα με τις τρέχουσες τάσεις – μια από τις οποίες είναι τα μεγάλα δεδομένα ή η αύξηση των δεδομένων και των δεδομενο-κίνητων workloads. Σε απάντηση σε αυτό, έχουμε χτίσει την Strategic Solutions Group για να αντιμετωπίσουμε αυτό το πρόβλημα.
Στην αντιμετώπιση του προβλήματος, βρήκαμε ότι η πλειοψηφία των workloads, ακόμη και από παραδοσιακούς τεχνικούς υπολογισμούς, είναι όλες мотιβées να είναι πιο δεδομενο-κίνητες. Ως αποτέλεσμα, η Penguin Computing σχεδιάζει πλήρεις λύσεις από άκρο σε άκρο, προσπαθώντας να κατανοήσει το workload του χρήστη. Για να δημιουργήσουμε μια βελτιστοποιημένη λύση από άκρο σε άκρο, εστιάζουμε στο βελτιστοποιημένο λογισμικό επίπεδο που περιλαμβάνει την ορχήστρα και την παράδοση του workload. Ουσιαστικά, πρέπει να κατανοήσουμε πώς ο χρήστης θα χρησιμοποιήσει την υποδομή.
Επόμενο, προσπαθούμε να εστιάσουμε στο βελτιστοποιημένο υπολογιστικό επίπεδο. Υπάρχουν διάφορα επίπεδα δεδομένων και προκλήσεις IO που applies πολλή πίεση στο υπολογιστικό μέρος. Για παράδειγμα, διαφορετικά workloads απαιτούν διαφορετικές συνδυασίες επιταχυμένων υπολογιστικών υποδομών από CPUs, GPUs, εύρος ζώνης μνήμης και δικτύωσης που επιτρέπει στα δεδομένα να ρέουν και να υπολογίζονται.
Τέλος, πρέπει να βρούμε ποια είδη λύσεων θα μας επιτρέψουν να παραδώσουμε αυτά τα δεδομένα. Εξετάζουμε τις βελτιστοποιημένες υποδομές δεδομένων για να κατανοήσουμε πώς το workload αλληλεπιδρά με τα δεδομένα, ποια είναι οι απαιτήσεις ικανότητας και IO patterns. Μόλις έχουμε αυτή την πληροφορία, μας βοηθά να σχεδιάσουμε ένα βελτιστοποιημένο σύστημα.
Μόλις έχουμε όλες τις πληροφορίες, αξιοποιούμε την εσωτερική μας εμπειρία στην Penguin Computing για να αρχιτεκτονήσουμε einen σχεδιασμό και μια πλήρη λύση. Γνωρίζοντας ότι είναι σχεδιασμένο από μια προοπτική απόδοσης, πρέπει να κατανοήσουμε πού θα αναπτυχθεί (σε προμνημονεύσεις, cloud, edge, συνδυασμός όλων, κ.λπ.). Αυτή είναι η προσέγγιση της Penguin Computing για την παράδοση μιας βελτιστοποιημένης λύσης για δεδομενο-κίνητα workloads.
Μπορείτε να συζητήσετε τη σημασία της χρήσης μιας GPU αντί για μια CPU για βαθιά μάθηση;
Μια από τις μεγαλύτερες τάσεις που έχω δει σχετικά με τη σημασία των GPU για τη βαθιά μάθηση (DL) ήταν η μετατόπιση από τη χρήση γενικής χρήσης GPU (GPGPU) ως ενός τμήματος δεδομένων που επιτρέπει να επιταχύνουμε μαζικά την ποσότητα των πυρήνων υπολογισμού που μπορούμε να παραδώσουμε για να λύσουμε ένα παράλληλο πρόβλημα υπολογισμού. Αυτό έχει συμβεί τα τελευταία δέκα χρόνια.
Συμμετείχα στις πρώτες φάσεις της GPGPU προγραμματισμού όταν ήμουν στο μεταπτυχιακό και στις αρχές της καριέρας μου. Πιστεύω ότι η αύξηση της πυκνότητας υπολογισμού, όπου μια GPU παρέχει πολλές πυκνές υπολογιστικές και αναλυτικές πυρήνες σε μια συσκευή και επιτρέπει να παραλάβουμε περισσότερα σε ένα χώρο διακομιστή και να ξαναχτίσουμε κάτι που αρχικά προοριζόταν για γραφικά σε einen υπολογιστικό κινητήρα, ήταν μια πραγματική ανοιχτή τάση στην HPC και τελικά στην AI κοινότητα.
Ωστόσο, πολύ από αυτό το έργο βασίζονταν στην μετατροπή και βελτιστοποίηση του κώδικα για να τρέξει σε GPU αντί για CPUs. Όσο κάναμε όλα αυτά τα έργα, περιμέναμε την концепτία του killer app – την εφαρμογή ή την περίπτωση χρήσης που πραγματικά ξεκινά ή είναι ενεργοποιημένη από μια GPU. Για την GPGPU κοινότητα, η DL ήταν αυτή η εφαρμογή που γαλβανίζει τις προσπάθειες και την ανάπτυξη στην επιτάχυνση των HPC και AI workloads.
Με την πάροδο του χρόνου, υπήρξε μια αναβίωση της AI και της μηχανικής μάθησης (ML), και η DL ήρθε σε παιχνίδι. Καταλάβαμε ότι η εκπαίδευση ενός νευρωνικού δικτύου χρησιμοποιώντας DL χαρτογραφείται πολύ καλά στην υποκείμενη σχεδίαση μιας GPU. Πιστεύω ότι όταν αυτά τα δύο πράγματα συναντήθηκαν, έχετε την ικανότητα να κάνετε τα είδη DL που δεν ήταν δυνατά προηγουμένως από τους επεξεργαστές CPU και τελικά μας περιόρισε την ικανότητα να κάνουμε AI και σε κλίμακα και στην πράξη.
Μόλις οι GPU ήρθαν στη θέση τους, πραγματικά αναζωογόνησαν την έρευνα και την ανάπτυξη κοινότητας γύρω από την AI και την DL, γιατί απλώς δεν είχατε το επίπεδο υπολογισμού για να το κάνετε αποτελεσματικά και δεν ήταν δημοκρατισμένο. Η GPU πραγματικά σας επιτρέπει να παραδώσετε eine πυκνή υπολογιστική που στο κέντρο είναι σχεδιασμένη καλά για DL και την έφερε σε ένα επίπεδο λύσεων υλικού αρχιτεκτονικής που έκανε πιο εύκολη την πρόσβαση σε περισσότερους ερευνητές και επιστήμονες. Πιστεύω ότι αυτό είναι ένας από τους μεγάλους λόγους που οι GPU είναι καλύτεροι για τη μελέτη της DL.
Τι είναι κάποια από τα GPU-επιταχυνόμενα υπολογιστικά λύσεις που προσφέρονται από την Penguin Computing;
Η Penguin Computing εστιάζεται τώρα σε λύσεις από άκρο σε άκρο που εργάζονται από την Strategic Solutions Group, ιδιαίτερα με την πρακτική AI και Analytics της Penguin Computing. Μέσα σε αυτήν την πρακτική, εστιάζουμε σε τρεις υψηλού επιπέδου προσεγγίσεις για GPU-επιταχυνόμενες λύσεις.
Πρώτα, προσφέρουμε μια αναφορά αρχιτεκτονικής για την ανάλυση edge, όπου κοιτάμε να σχεδιάσουμε λύσεις που ταιριάζουν σε μη παραδοσιακούς κέντρους δεδομένων (έξω στο edge ή κοντά στο edge). Αυτό μπορεί να περιλαμβάνει κέντρα δεδομένων Teleco edge, εγκαταστάσεις λιανικής, σταθμοί بنζίνης και πολλά άλλα. Αυτές είναι όλες εφαρμογές πλήρης λύσεων που περιλαμβάνουν GPU-επιταχυνόμενο υλικό που είναι fine-调 για μη παραδοσιακές ή edge αναπτύξεις, καθώς και τα λογισμικά stacks για να επιτρέψουν στους ερευνητές και τους τελικούς χρήστες να τα χρησιμοποιήσουν αποτελεσματικά.
Η επόμενη τάξη λύσεων της Penguin Computing είναι χτισμένη για κέντρα δεδομένων και πυρήνα AI εκπαίδευσης και inference αναφορά αρχιτεκτονικές. Μπορείτε να σκεφτείτε να καθίσετε μέσα σε ένα lớn κέντρο δεδομένων ή στο cloud (Penguin Computing Cloud) όπου κάποιοι από τους πελάτες μας κάνουν μεγάλης κλίμακας εκπαίδευση χρησιμοποιώντας χιλιάδες GPU για να επιταχύνουν την DL. Κοιτάμε πώς να παραδώσουμε πλήρεις λύσεις και αναφορά αρχιτεκτονικές που υποστηρίζουν όλα αυτά τα λογισμικά workloads και containerization μέσω GPU σχεδιασμού και διάταξης, όλα τα way μέχρι τις απαιτήσεις υποδομής δεδομένων που τις υποστηρίζουν.
Η τρίτη τάξη αναφορά αρχιτεκτονικής σε αυτήν την πρακτική είναι ένας συνδυασμός των δύο προηγουμένων. Τι ψάχνουμε στην τρίτη αναφορά αρχιτεκτονικής οικογένεια είναι πώς να δημιουργήσουμε τα δεδομένα fabrics και pathways και workflows για να ενεργοποιήσουμε τη συνεχή μάθηση, ώστε να μπορέσουμε να τρέξουμε inference χρησιμοποιώντας τις edge GPU-επιταχυνόμενες λύσεις μας, να推 đẩy τα δεδομένα σε ιδιωτικό ή δημόσιο cloud, να συνεχίσουμε να εκπαιδεύουμε σε αυτά, και όταν τα νέα μοντέλα εκπαίδευσης ενημερώνονται, να τα推 đẩy πίσω στο inference. Έτσι έχουμε έναν ιεραρχικό κύκλο συνεχούς μάθησης και AI μοντέλων.
Η Penguin Computing έχει αναπτύξει πρόσφατα einen νέο υπερυπολογιστή για το LLNL σε συνεργασία με την Intel και την CoolIT. Μπορείτε να μας πείτε για αυτόν τον υπερυπολογιστή και τι ήταν σχεδιασμένος για;
Ο Magma Supercomputer, αναπτυγμένος στο LLNL μέσω της σύμβασης Commodity Technology Systems (CTS-1) με την Εθνική Υπηρεσία Πυρηνικής Ασφάλειας (NNSA) και είναι μια από τις πρώτες αναπτύξεις των Intel Xeon Platinum 9200 series επεξεργαστών με υποστήριξη από το CoolIT Systems πλήρες direct liquid cooling και Omni-Path interconnect.
Χρηματοδοτούμενο από το πρόγραμμα NNSA’s Advanced Simulation & Computing (ASC), ο Magma θα υποστηρίξει το πρόγραμμα Life Extension της NNSA και τις προσπάθειες που είναι κρίσιμες για την εγγύηση της ασφάλειας, της ασφάλειας και της αξιοπιστίας των πυρηνικών όπλων της χώρας σε απουσία υπόγειας δοκιμής.
Ο Magma Supercomputer είναι ένα σύστημα HPC που είναι ενισχυμένο με την τεχνητή νοημοσύνη και είναι μια συγκλίνουσα πλατφόρμα που επιτρέπει στην AI να επιταχύνει την HPC μοντελοποίηση. Ο Magma κατετάγη στη λίστα Top500 του Ιουνίου 2020, μπαίνοντας στο top 100, έρχεται στο #80.
Υπό τη σύμβαση CTS-1, η Penguin Computing έχει παραδώσει περισσότερα από 22 petaflops υπολογιστικής ικανότητας για να υποστηρίξει το πρόγραμμα ASC στο NNSA Tri-Labs του Lawrence Livermore, Los Alamos και Sandia National Laboratories.
Τι είναι κάποια από τα διαφορετικά τρόπους με τους οποίους η Penguin Computing υποστηρίζει τον αγώνα κατά του COVID-19;
Τον Ιούνιο του 2020, η Penguin Computing συνεργάστηκε επίσημα με την AMD για να παραδώσει ικανότητες HPC σε ερευνητές σε τρία κορυφαία πανεπιστήμια στις ΗΠΑ – New York University (NYU), Massachusetts Institute of Technology (MIT) και Rice University – για να βοηθήσει στον αγώνα κατά του COVID-19.
Η Penguin Computing συνεργάστηκε trực tiếp με το AMD’s COVID-19 HPC Fund για να παραδώσει ερευνητικές ιδρύματα με σημαντικές υπολογιστικές πόρους για να επιταχύνουν την ιατρική έρευνα για το COVID-19 και άλλες ασθένειες. Η Penguin Computing και η AMD συνεργάζονται για να παραδώσουν ένα σύμπλεγμα από on-premises και cloud-βασισμένες λύσεις HPC σε NYU, MIT και Rice University για να βοηθήσουν στην αναβάθμιση των ερευνητικών ικανοτήτων εκατοντάδων επιστημόνων που θα συμβάλλουν τελικά σε μια μεγαλύτερη κατανόηση του νέου κοροναϊού.
Ενεργοποιημένα από τους τελευταίους 2nd Generation AMD EPYC επεξεργαστές και Radeon Instinct MI50 GPU επιταχυντές, τα συστήματα που δωρήθηκαν στα πανεπιστήμια είναι κάθε ένα αναμενόμενο να παρέχει πάνω από ένα petaflop υπολογιστικής απόδοσης. Ένα επιπλέον τέσσερα petaflops υπολογιστικής ικανότητας θα είναι διαθέσιμο στους ερευνητές μέσω της υπηρεσίας HPC cloud, Penguin Computing® On-Demand™ (POD). Συνολικά, τα δωρημένα συστήματα θα παρέχουν στους ερευνητές περισσότερα από επτά petaflops GPU-επιταχυνόμενης υπολογιστικής δύναμης που μπορούν να εφαρμοστούν για να πολεμήσουν το COVID-19.
Τα πανεπιστήμια που λαμβάνουν τα δωρημένα συστήματα αναμένεται να τα χρησιμοποιήσουν σε eine σειρά από pandemic-σχετικές workloads, συμπεριλαμβανομένων γενωμικής, ανάπτυξης εμβολίου, επιστήμης μετάδοσης και μοντελοποίησης.
Υπάρχει κάτι άλλο που θα ήθελε να μοιραστεί για την Penguin Computing;
Για περισσότερο από δύο δεκαετίες, η Penguin Computing έχει παραδώσει εξατομικευμένες, καινοτόμες και ανοιχτές λύσεις στον κόσμο της υψηλής απόδοσης και των τεχνικών υπολογισμών. Οι λύσεις της Penguin Computing δίνουν στις οργανώσεις την ευελιξία και την ελευθερία που χρειάζονται για να αξιοποιήσουν τις τελευταίες τεχνολογίες στα περιβάλλοντα υπολογισμού τους. Οι οργανώσεις μπορούν να εστιάσουν τους πόρους τους στην παράδοση προϊόντων και ιδεών στην αγορά σε ρεκόρ χρόνου αντί να στις υποκείμενες τεχνολογίες. Οι λύσεις της Penguin Computing για AI/ML/Analytics, HPC, DataOps και Cloud-γενικές τεχνολογίες μπορούν να προσαρμοστούν και να συνδυαστούν για να ταιριάζουν nicht μόνο στις τρέχουσες ανάγκες, αλλά και να προσαρμοστούν γρήγορα στις μελλοντικές ανάγκες και τις αλλαγές τεχνολογίας. Οι υπηρεσίες Penguin Computing Professional και Managed Services βοηθούν με την ενσωμάτωση, την εφαρμογή και τη διαχείριση λύσεων. Οι υπηρεσίες Penguin Computing Hosting μπορούν να βοηθήσουν με το “πού” του περιβάλλοντος υπολογισμού, δίνοντας στις οργανώσεις επιλογές ιδιοκτησίας και την ευελιξία να τρέξουν on-premises, σε δημόσιο ή αφιερωμένο cloud, hosted ή ως υπηρεσία.
Ευχαριστούμε για τη μεγάλη συνέντευξη, οι αναγνώστες που θέλουν να μάθουν περισσότερα πρέπει να επισκεφθούν Penguin Computing.












