Συνεντεύξεις
Corey Sanders, Αντιπρόεδρος Προϊόντων στην CoreWeave – Σειρά Συνεντεύξεων

Corey Sanders, Αντιπρόεδρος Προϊόντων στην CoreWeave, ηγείται της στρατηγικής και εκτέλεσης προϊόντων για μια από τις ταχύτερα αναπτυσσόμενες πλατφόρμες cloud που επικεντρώνονται στο AI. Είναι υπεύθυνος για την κλιμάκωση της καινοτομίας, τη διαμόρφωση λύσεων που είναι σχεδιασμένες για τους πελάτες και την ενίσχυση της θέσης της CoreWeave στην αγορά υποδομής AI. Προηγουμένως, ο Sanders worked στη Microsoft για δύο δεκαετίες σε υψηλά επίπεδα ηγεσίας, καλύπτοντας το cloud engineering, τις βιομηχανικές πλατφόρμες, τη στρατηγική εμπορικών λύσεων και τις μεγάλες επιχειρηματικές συνεργασίες, με βαθιά εμπειρία στη γέφυρα μεταξύ τεχνικής εκτέλεσης και στρατηγικής go-to-market.
CoreWeave είναι ένας πάροχος cloud που είναι φτιαγμένος για υψηλής απόδοσης υπολογισμούς και μεγάλης κλίμακας εργασίες искусственного νοημοσύνης. Η εταιρεία λειτουργεί μια γρήγορα επεκτεινόμενη ποδοπάτημα από κέντρα δεδομένων σε όλη την Αμερική και την Ευρώπη, παρέχοντας υποδομή και λογισμικό που είναι σχεδιασμένο για εκπαίδευση AI, inference και προηγμένα υπολογιστικά σενάρια. Με την εστίαση στην αρχιτεκτονική που είναι σχεδιασμένη για τον σκοπό, αντί για γενικού σκοπού cloud, η CoreWeave έχει γίνει κρίσιμος συνεργάτης υποδομής για εργαστήρια AI και επιχειρήσεις που αναζητούν απόδοση, κλιμάκωση και αποτελεσματικότητα σε κλίμακα.
Πέρασες περισσότερο από 20 χρόνια στη Microsoft, εργαζόμενος σε διάφορα τμήματα, όπως το Windows engineering, η στρατηγική πωλήσεων cloud και το Microsoft Cloud για Βιομηχανίες. Τι σας taught αυτή η εξέλιξη σχετικά με το τι οδηγεί真正 την υιοθέτηση επιχειρήσεων και πώς εφαρμόζετε αυτά τα μαθήματα σήμερα στην CoreWeave;
Η υιοθέτηση επιχειρήσεων ξεκινά με την επίλυση ενός συγκεκριμένου προβλήματος του πελάτη. Η καινοτομία για τον ίδιο της καινοτομίας δεν είναι πραγματικά τόσο κρίσιμη για τις επιχειρήσεις. Είναι σχετικά με το να βάζεις τον εαυτό σου στα παπούτσια τους για να κατανοήσεις τι πραγματικά τους προκαλεί προβλήματα—είτε είναι το κόστος υποστήριξης, οι оперατικές сложности, η σύνδεση με τους πελάτες ή η διαχείριση των παγκόσμιων ομάδων και των νέων προϊόντων—και στη συνέχεια να παρέχεις υπηρεσίες που βοηθούν. Οι πελάτες συχνά είναι πρόθυμοι να είναι καινοτόμοι στη προσέγγισή τους, αλλά η πιο κρίσιμη σκέψη είναι να τους βοηθήσετε να λύσουν το πρόβλημά τους. Το πιο συχνό λάθος που έχω δει στη σχεδίαση προϊόντων είναι να γίνεσαι πολύ εθισμένος στο πόσο cool είναι ένα προϊόν. Ενώ αυτό έχει βάρος στο χώρο καταναλωτών, οι επιχειρηματικοί πελάτες, στο τέλος, νοιάζονται πολύ περισσότερο για τη χρησιμότητα παρά για το πόσο cool είναι.
Η CoreWeave περιγράφεται συχνά ως πάροχος υποδομής AI που είναι σχεδιασμένη για τον σκοπό. Σε πρακτικούς όρους, τι σημαίνει αυτό από την πλευρά του προϊόντος και πού οι γενικού σκοπού cloud πλατφόρμες δυσκολεύονται με τις εργασίες AI;
Το μεγαλύτερο πλεονέκτημα του να είσαι σχεδιασμένος για τον σκοπό είναι η ικανότητα να εστιάσεις και να παρέχεις υπηρεσίες χωρίς να χρειάζεται να λύσεις κάθε γενικό περίπτωση. Θα δώσω δύο παραδείγματα: ένα στο λογισμικό και ένα στο hardware.
Στην πλευρά του λογισμικού, η προσφορά μας Object Storage με LOTA cache είναι εστιασμένη συγκεκριμένα στην κέισινγκ για εργασίες AI. Εγκαθιστάται απευθείας στα nodes GPU, παρέχει ένα S3 endpoint για την εφαρμογή και απαντά σε αιτήσεις GPU διασχίζοντας την κέισινγκ σε πολλαπλά nodes. Αυξάνει την απόδοση έως και 7 GB/s, πολύ περισσότερο από ό,τι προσφέρουν οι γενικού σκοπού cloud. Μπορούμε να το επιτύχουμε αυτό γιατί κάνουμε υποθέσεις σχεδιασμού γύρω από τις εργασίες AI, τις αναλογίες ανάγνωσης/εγγραφής και τις διατάξεις cluster. Αν ένας πελάτης χρησιμοποιούσε αυτό για τη φιλοξενία μιας βάσης δεδομένων ή ενός e-commerce site, δεν θα είχε την ίδια επίδραση. Αυτό είναι η ορισμός του σχεδιασμού για τον σκοπό.
Το παράδειγμα του hardware είναι παρόμοιο. Δεδομένου του εκτενούς μας déploymenet των τελευταίων NVIDIA SKUs—πολλά από τα οποία απαιτούν ψυκτρα—η CoreWeave έχει xây dựngει ειδικές γνώσεις και σχεδιασμό κέντρων δεδομένων για να υποστηρίξει αυτές τις ανάγκες. Σε αντίθεση με μεγαλύτερες cloud που xây dựngουν για fungibility και στη συνέχεια πρέπει να προσθέσουν ψυκτρα, η CoreWeave xây dựngει κέντρα δεδομένων που είναι εστιασμένα στο AI από την αρχή. Αυτό οδηγεί σε χαμηλότερα κόστη και υψηλότερη διαθεσιμότητα για τα τελευταία SKU τύποι.
Παρακάτω είναι μια εικόνα του LOTA cache που αναφέρθηκε.

Όταν οι πελάτες σκέφτονται να κλιμακώσουν το AI, πολλοί πιστεύουν ότι χρειάζονται μόνο πρόσβαση σε GPUs. Τι συνειδητοποιούν ότι λείπουν συνήθως μια φορά ξεκινήσουν την εκπαίδευση ή την εξυπηρέτηση μοντέλων σε κλίμακα;
Δεδομένου του πολυσύνθετου χαρακτήρα της εκτέλεσης εργασιών σε μεγάλους GPU clusters, οι περιβάλλουσες υπηρεσίες γίνονται οι πραγματικοί οδηγοί της επιτυχίας. Αυτό περιλαμβάνει τις προφανείς, όπως η αποθήκευση και η δικτύωση, αλλά και κρίσιμες λειτουργικές υπηρεσίες όπως η παρατηρησιμότητα, η ορχήστρα και η ασφάλεια. Εδώ είναι όπου η CoreWeave πραγματικά ξεχωρίζει με την προσφορά μας Mission Control. Παρέχει στους πελάτες μια βαθιά κατανόηση της υγείας των nodes και της εκτέλεσης σε όλη την舰 τους, ενσωματώνοντας αυτή τη γνώση απευθείας στο μηχανισμό ορχήστρας. Αυτό επιτρέπει στον πελάτη να αντιμετωπίζει την υποδομή του όχι ως 1.000個μονάδες GPU, αλλά ως ένα ενιαίο, συνολικό οντότητα εργασίας.
Ποια είναι τα κορυφαία προτεραιότητά σας για προϊόντα αυτή τη στιγμή για τη βελτίωση των αποτελεσμάτων των πελατών, είτε αυτό είναι απόδοση, αξιοπιστία, προβλέψιμη κόστος ή εμπειρία προγραμματιστή;
Στην πυρήνα πλατφόρμα, εστιάζουμε συνεχώς στην απόδοση, την αξιοπιστία και την παρατηρησιμότητα. Πρέπει να διασφαλίσουμε ότι οι πελάτες μπορούν να εκτελούν εργασίες με έναν επαναλαμβανόμενο, προβλέψιμο τρόπο, tận dụng πλήρως κάθε TFLOP σε κάθε GPU. Πέρα από αυτό, εργαζόμαστε για την απλοποίηση της ενσωμάτωσης για πελάτες που μπορεί να μην είναι εξοικειωμένοι με κάθε καμπάνα και σφυρί σε ένα εργαλείο όπως το SLURM (το οποίο όλοι χρησιμοποιούν, αλλά σχεδόν όλοι μισούν). Τέλος, αναπτύσσουμε πρόσθετες υπηρεσίες και μοντέλα χρέωσης για να κάνουμε πιο εύκολη την καινοτομία και την εκκίνηση. Αυτή τη στιγμή, η πειραματική διαδικασία είναι आश्चημάστως δύσκολη λόγω υψηλών εμποδίων εισόδου, όπως οι περιορισμοί ικανότητας, οι δεσμεύσεις τριών ετών και η ανάγκη για εξειδικευμένους εμπειρογνώμονες μόνο για να ξεκινήσετε. Θέλουμε να φέρουμε πίσω την ευκολία της καινοτομίας στην πλατφόρμα AI.
Όσο περισσότερες εργασίες AI μετατοπίζονται από την εκπαίδευση σε inference, πώς επηρεάζει αυτή η μετάβαση τον σχεδιασμό υποδομής και τις αποφάσεις οδικού χάρτη προϊόντων;
Δημιουργεί σημαντικές ευκαιρίες να εφαρμόσουμε την υφιστάμενη διαφοροποίηση της CoreWeave στις απαιτήσεις inference. Για παράδειγμα, η LOTA cache που ανέφερα εστιάζεται συγκεκριμένα στην τροφοδοσία των GPU κατά την εκπαίδευση. Ωστόσο, μπορούμε να πάρουμε αυτή τη τεχνολογία, να την ενσωματώσουμε σε πράγματα όπως το KVCache και να τη μετατρέψουμε σε einen ισχυρό διαφοροποιητή inference. Παρόμοια, εργαλεία όπως το Mission Control γίνονται ακόμη πιο κρίσιμα για inference, καθώς η παρατήρηση της υγείας των GPU είναι κρίσιμη για την εκτέλεση υψηλά διαθέσιμων εφαρμογών.
Στους επόμενους ένα έως δύο χρόνια, τι θα ορίσει την ηγεσία στην αγορά cloud AI, και ποιες ικανότητες θα μετράνε περισσότερο για τους πελάτες;
Πιστεύω ότι η ηγεσία θα οριστεί από δύο πράγματα. Το πρώτο είναι η παράδοση των αυξανόμενων απαιτήσεων κλίμακας για την εκπαίδευση. Αυτό θα απαιτήσει προόδους στην παρατηρησιμότητα, την υγεία, την παρακολούθηση και την αυτόματη ανάκαμψη. Όταν μετατοπίζεστε από εκατοντάδες σε δεκάδες χιλιάδες GPUs που διανέμονται παγκοσμίως, η χειροκίνητη απάντηση στις αποτυχίες είναι ένα non-starter.
Το δεύτερο είναι η παράδοση των σωστών υπηρεσιών για inference και εργασίες agentic. Αυτό απαιτεί ικανότητες ανάπτυξης σε παγκόσμιο επίπεδο και επιχειρηματικά μοντέλα που ενθαρρύνουν την πειραματική διαδικασία. Αυτό το μοτίβο χρήσης ήταν αυτό που βοήθησε την ανάπτυξη του cloud αρχικά και έχει χάσει κάπως στην εποχή του AI. Χρειαζόμαστε να το φέρουμε πίσω μέσω καλύτερης υποστήριξης πλατφόρμας, ικανοτήτων multi-cloud και ευκολίας χρήσης σε πολλαπλά επίπεδα.
Προηγουμένως, ηγήθηκες πρωτοβουλίες cloud που были ειδικές για βιομηχανίες όπως η υγεία, το λιανικό εμπόριο, οι χρηματοοικονομικές υπηρεσίες, η производία και η κυρίαρχη cloud. Ποια μαθήματα από αυτές τις βιομηχανίες μεταφράζονται直接 στην υποδομή AI, και ποια όχι;
Οι γενεαλογικές μετατοπίσεις των GPU συνεχίζουν να εισάγουν νέες phứcικότητες. Κάθε νέα έκδοση φέρνει αυξημένη διασύνδεση, υψηλότερη μνήμη και μεγαλύτερες ανάγκες ισχύος, όλες οι οποίες απαιτούν από εμάς να επανεξετάσουμε τις υποθέσεις μας σχετικά με το πώς οι κόμβοι συνδέονται και το πώς το λογισμικό παραδίδεται. Πρέπει να παραμείνουμε αμείλικτοι εδώ για να διατηρήσουμε την ηγεσία μας. Από την άλλη πλευρά, ο τομέας που βελτιώνεται πιο γρήγορα είναι η καθαρή κλίμακα του τι μπορούν να επιτύχουν οι πελάτες. Η ταχύτητα με την οποία προσαρμόζονται σε μεγαλύτερα υπολογιστικά footprints είναι εντυπωσιακή.
Όσο τα κέντρα δεδομένων και οι cluster AI συνεχίζουν να κλιμακώνονται, ποια λειτουργικά προκλήματα αποδεικνύονται πιο δύσκολα να λυθούν σήμερα, και ποια βελτιώνονται πιο γρήγορα;
Οι γενεαλογικές μετατοπίσεις των GPU συνεχίζουν να δημιουργούν νέες phứcικότητες στο σχεδιασμό και το λογισμικό. Κάθε νέα έκδοση GPU έρχεται με αυξημένες ικανότητες διασύνδεσης, υψηλότερη μνήμη, μεγαλύτερες ανάγκες ισχύος κ.λπ. που απαιτούν από εμάς να επανεξετάσουμε τις υποθέσεις μας σχετικά με το πώς οι κόμβοι συνδέονται, το πώς οι ράφτες διαχειρίζονται και το πώς το λογισμικό παραδίδεται. Θα πρέπει να συνεχίσουμε να επικεντρωνόμαστε σε αυτό το έργο για να διατηρήσουμε την ηγετική μας θέση. Αυτά που βελτιώνονται πιο γρήγορα είναι αυτά που μπορούν να επιτύχουν οι πελάτες με την αυξανόμενη κλίμακα υπολογισμών.
Στην υποδομή AI, η αξιοπιστία πηγαίνει πέρα από την uptime. Πώς ορίζει η CoreWeave την αξιοπιστία, και ποιες ενδείξεις αντανακλούν καλύτερα την επιτυχία από την πλευρά του πελάτη;
Σε κλίμακα, η μεγαλύτερη σκέψη για einen πελάτη είναι απλά να ολοκληρώσει την εργασία. Σε μεγάλες επιχειρήσεις, οι ατομικές αποτυχίες ή οι επιβράδυνσεις είναι αναμενόμενες. Το κλειδί είναι πώς ανιχνεύουμε και απαντάμε αυτόματα σε αυτά τα ζητήματα για να διασφαλίσουμε ότι η εργασία ολοκληρώνεται παρά τις προκλήσεις. Αυτός είναι ο λόγος για τον οποίο ενσωματώνουμε το Mission Control σε υψηλότερες υπηρεσίες όπως το SUNK (Slurm on Kubernetes). Επιτρέπει στους πελάτες να απαντούν σε αποτυχίες αυτόματα χωρίς να χάνουν ώρες ή εβδομάδες εργασίας. Για εμάς, η επιτυχία δεν είναι μόνο για την uptime των nodes, αλλά για την επιτυχία της εργασίας.
Προσβλέποντας, ποια μεγάλη μετατόπιση στην υποδομή AI πιστεύετε ότι είναι ακόμη υποτιμημένη, είτε σχετικά με την εξέλιξη του hardware, την εξειδίκευση των στοιχείων, τις απαιτήσεις κυριαρχίας ή τα νέα μοντέλα ανάπτυξης;
Πιστεύω ότι η έλευση του Reinforcement Learning (RL) ως ανανεωμένου μέρους του στοιχείου AI είναι ακόμη υποτιμημένη. Ενώ δεν είναι ένα νέο πεδίο μελέτης, ήταν σε μεγάλο βαθμό επισκιασμένο κατά τη διάρκεια της αρχικής κυμάτων της ανάπτυξης LLM. Το RL κάνει μια επανεμφάνιση και θα παίξει einen κρίσιμο ρόλο στην κάνωντας τις υπηρεσίες AI πιο ανταποκρίσιμες στις μεταβαλλόμενες τοπографίες των χρηστών. Λόγω αυτού, είμαστε πολύ ενθουσιασμένοι για την προσφορά serverless RL που έχουμε σήμερα.
Ευχαριστώ για τη μεγάλη συνέντευξη, οι αναγνώστες που θέλουν να μάθουν περισσότερα πρέπει να επισκεφθούν CoreWeave.












