Connect with us

Corey Sanders, Senior Vice President Product at CoreWeave – Interview Series

Interviste

Corey Sanders, Senior Vice President Product at CoreWeave – Interview Series

mm

Corey Sanders, Senior Vice President Product at CoreWeave, guida la strategia e l’esecuzione del prodotto per una delle piattaforme cloud focalizzate sull’AI in più rapida crescita. È responsabile della scalabilità dell’innovazione, della creazione di soluzioni adatte allo scopo con i clienti e del rafforzamento della posizione di CoreWeave nel mercato dell’infrastruttura AI. Prima di unirsi a CoreWeave, Sanders ha trascorso due decenni in ruoli di leadership senior in Microsoft, coprendo ingegneria cloud, piattaforme specifiche per settore, strategia di soluzione commerciale e partnership aziendali su larga scala, con una profonda esperienza nel collegare l’esecuzione tecnica e la strategia di go-to-market.

CoreWeave è un fornitore di servizi cloud nativi AI costruito specificamente per il calcolo ad alte prestazioni e i carichi di lavoro di intelligenza artificiale su larga scala. La società opera una rete di data center in rapida espansione in tutto il territorio degli Stati Uniti e in Europa, offrendo infrastrutture e software accelerati da GPU progettati per l’addestramento AI, l’inferenza e casi d’uso di calcolo avanzato. Concentrandosi su un’architettura progettata appositamente piuttosto che su un cloud generico, CoreWeave è diventata un partner infrastrutturale critico per laboratori AI e aziende che cercano prestazioni, scalabilità ed efficienza su larga scala.

Ha trascorso più di 20 anni in Microsoft lavorando su ingegneria Windows, strategia di vendita cloud e Microsoft Cloud per settore. Cosa ha imparato da questa progressione su cosa spinga realmente l’adozione aziendale e come sta applicando queste lezioni oggi a CoreWeave?

L’adozione aziendale inizia con la risoluzione di un problema specifico del cliente. L’innovazione fine a se stessa non è poi così cruciale per le aziende. Si tratta di mettersi nei loro panni per capire cosa li affligge veramente – se si tratta del costo del supporto, delle complessità operative, del collegamento con i clienti o della gestione di team e linee di prodotto globali – e poi fornire servizi che aiutino. Spesso sono disposti a essere innovativi nel loro approccio, ma la considerazione più cruciale è aiutarli a risolvere il loro problema. L’errore più frequente che ho visto nella progettazione del prodotto è quello di essere troppo coinvolti nella “coolness” del prodotto. Sebbene questo abbia un certo peso nello spazio consumer, i clienti aziendali, alla fine, si preoccupano molto più dell’utilità che della “coolness”.

CoreWeave è spesso descritta come un’offerta di infrastrutture AI progettate appositamente. In termini pratici, cosa significa essere progettati appositamente da una prospettiva di prodotto e dove le piattaforme cloud general-purpose lottano con i carichi di lavoro AI?

Il maggior vantaggio di essere progettati appositamente è la capacità di concentrarsi e fornire servizi senza dover risolvere ogni caso d’uso generico. Posso fornire due esempi: uno nel software e uno nel hardware.

Sul lato software, la nostra offerta di Object Storage con LOTA cache è focalizzata specificamente sulla memorizzazione nella cache per carichi di lavoro AI. Si distribuisce direttamente sui nodi GPU, fornisce un endpoint S3 per l’applicazione e risponde alle richieste GPU estendendo la sua cache su più nodi. Ciò aumenta il throughput verso la GPU fino a 7 GB/s, superando di gran lunga ciò che offrono le piattaforme cloud general-purpose. Possiamo raggiungere questo perché facciamo assunzioni di progettazione attorno a carichi di lavoro AI specifici, split di lettura/scrittura e layout del cluster. Se un cliente utilizzasse questo per ospitare un database o un sito di e-commerce, non avrebbe lo stesso impatto. Questa è la definizione di software progettato appositamente.

L’esempio hardware è simile. Dato il nostro ampio dispiegamento degli ultimi SKU NVIDIA – molti dei quali richiedono raffreddamento a liquido – CoreWeave ha costruito competenze specifiche e progetti di data center per supportare tali esigenze. A differenza delle piattaforme cloud più grandi che costruiscono per la fungibilità e poi devono aggiungere retroattivamente il raffreddamento a liquido, CoreWeave costruisce data center progettati per l’AI fin dall’inizio. Ciò si traduce in costi più bassi e maggiore disponibilità per gli ultimi tipi di SKU.

Di seguito è riportata un’immagine della cache LOTA menzionata.

Quando i clienti iniziano a pensare alla scalabilità dell’AI, molti credono di avere bisogno solo di accedere a GPU. Cosa si rendono conto di stare mancando una volta iniziano l’addestramento o la messa in servizio di modelli su larga scala?

Data la complessità dell’esecuzione di carichi di lavoro su enormi cluster GPU, i servizi circostanti diventano i veri driver del successo. Ciò include quelli ovvi, come archiviazione e rete, ma anche servizi operativi critici come osservabilità, orchestrazione e sicurezza. È qui che CoreWeave eccelle veramente con la nostra offerta Mission Control. Fornisce ai clienti una profonda consapevolezza della salute del nodo e del runtime in tutta la loro flotta, integrando quella conoscenza direttamente nel motore di orchestrazione. Ciò consente al cliente di trattare la propria infrastruttura non come 1.000 GPU individuali, ma come un’unica entità di lavoro coesa.

Quali sono le principali priorità di prodotto su cui si concentra attualmente per migliorare i risultati dei clienti, che sia in termini di prestazioni, affidabilità, prevedibilità dei costi o esperienza dello sviluppatore?

Nella piattaforma core, ci concentriamo costantemente sulle prestazioni, sull’affidabilità e sull’osservabilità. Dobbiamo assicurarci che i clienti possano eseguire lavori in modo ripetibile e prevedibile, sfruttando appieno ogni TFLOP in ogni GPU. Oltre a ciò, stiamo lavorando per semplificare l’onboarding per i clienti che potrebbero non essere familiari con ogni campanello e fischio in uno strumento come SLURM (che tutti usano, ma che quasi tutti odiano). Infine, stiamo sviluppando servizi e modelli di fatturazione aggiuntivi per rendere più facile innovare e iniziare con piccoli passi. Attualmente, sperimentare è sorprendentemente difficile a causa delle alte barriere all’ingresso, come vincoli di capacità, impegni triennali e la necessità di esperti specializzati solo per iniziare. Vogliamo riportare la facilità di innovazione sulla piattaforma AI.

Man mano che i carichi di lavoro AI si spostano da addestramento intensivo a inferenza intensiva, come questo passaggio influenza le decisioni di progettazione dell’infrastruttura e del roadmap del prodotto?

Crea significative opportunità per applicare la differenziazione esistente di CoreWeave alle esigenze di inferenza. Ad esempio, la cache LOTA che ho menzionato si concentra specificamente sull’alimentazione delle GPU durante l’addestramento; tuttavia, possiamo prendere quella stessa tecnologia, integrarla in cose come il KVCache e trasformarla in un potente differenziale di inferenza. Allo stesso modo, strumenti come Mission Control diventano ancora più vitali per l’inferenza, poiché osservare la salute della GPU è cruciale per l’esecuzione di applicazioni agentiche ad alta disponibilità.

Nel prossimo anno o due, cosa definirà il leadership nel mercato cloud AI e quali capacità saranno più importanti per i clienti?

Credo che il leadership sarà definito da due cose. La prima è la consegna delle sempre crescenti esigenze di scala per l’addestramento. Ciò richiederà progressi nell’osservabilità, nel monitoraggio della salute e nel recupero automatico. Quando si passa da centinaia a decine di migliaia di GPU distribuite a livello globale, la risposta manuale ai guasti è un non-starter.

La seconda è la consegna dei servizi giusti per i carichi di lavoro di inferenza e agentic. Ciò richiede capacità di distribuzione globale e modelli di business che incoraggino l’esperimentazione. Questo modello di utilizzo è stato ciò che ha aiutato la crescita del cloud in origine ed è stato in qualche modo perso nell’era dell’AI. Dobbiamo riportarlo attraverso un miglior supporto di piattaforma, capacità multi-cloud e facilità di utilizzo multi-regione.

Ha guidato in precedenza iniziative cloud specifiche per settore in sanità, retail, servizi finanziari, manifattura e cloud sovrano. Quali lezioni da quei settori verticali si traducono direttamente in infrastrutture AI e quali no?

I passaggi generazionali dei GPU continuano a introdurre nuove complessità. Ogni nuovo rilascio porta una maggiore interconnessione, una maggiore memoria e una maggiore necessità di potenza, tutte le quali richiedono di rivedere le nostre ipotesi su come i nodi sono connessi e su come il software viene consegnato. Dobbiamo rimanere implacabili in questo per mantenere la nostra leadership. Dall’altro lato, l’area che migliora più rapidamente è la pura e semplice scala di ciò che i clienti possono realizzare; la velocità con cui stanno adattandosi a grandi impronte di calcolo è impressionante.

Man mano che i data center e i cluster AI continuano a scalare, quali sfide operative si stanno rivelando più difficili da risolvere oggi e quali stanno migliorando più rapidamente?

I passaggi generazionali dei GPU continuano a creare nuove complessità nel design e nel software. Ogni nuovo rilascio di GPU arriva con capacità di interconnessione aumentate, memoria più alta, maggiori esigenze di potenza, ecc. che richiedono di rivedere le ipotesi attorno a come i nodi sono connessi, come i rack vengono gestiti e come il software viene consegnato. Dovremo continuare a concentrarci su questo lavoro per assicurarci di mantenere la nostra posizione di leadership. Quelli che migliorano più rapidamente sono ciò che i clienti possono realizzare con la crescente scala del calcolo.

In infrastrutture AI, l’affidabilità va oltre il tempo di attività. Come definisce CoreWeave l’affidabilità e quali indicatori riflettono meglio il successo dalla prospettiva del cliente?

In scala, la considerazione più grande per un cliente è semplicemente ottenere il lavoro fatto. In operazioni massive, fallimenti o rallentamenti individuali sono previsti. La chiave è come rileviamo e rispondiamo automaticamente a quei problemi per assicurarci che il lavoro venga completato nonostante le sfide. È per questo che integreremo Mission Control in servizi di livello superiore come SUNK (Slurm su Kubernetes). Ciò consente ai clienti di rispondere ai fallimenti in modo automatico senza perdere ore o settimane di lavoro. Per noi, il successo non è solo questione di tempo di attività del nodo; è questione di successo del lavoro.

Guardando avanti, quale grande passaggio in infrastrutture AI crede che sia ancora sottovalutato, sia esso legato all’evoluzione hardware, alla specializzazione degli stack, alle esigenze di sovranità o a nuovi modelli di distribuzione?

Credo che l’avvento dell’apprendimento per rinforzo (RL) come parte rinnovata dello stack AI sia ancora sottovalutato. Sebbene non sia un campo di studio nuovo, è stato in gran parte oscurato durante l’onda iniziale di sviluppo LLM. RL sta facendo un ritorno e giocherà un ruolo vitale nel rendere i servizi AI più rispondenti ai mutevoli paesaggi dei loro utenti. A causa di ciò, siamo molto entusiasti dell’offerta serverless RL che abbiamo oggi.

Grazie per la grande intervista, i lettori che desiderano saperne di più possono visitare CoreWeave.

Antoine è un leader visionario e socio fondatore di Unite.AI, guidato da una passione incrollabile per plasmare e promuovere il futuro dell'AI e della robotica. Un imprenditore seriale, crede che l'AI sarà altrettanto disruptiva per la società quanto l'elettricità, e spesso viene colto a parlare con entusiasmo del potenziale delle tecnologie disruptive e dell'AGI.
Come futurist, è dedicato a esplorare come queste innovazioni plasmeranno il nostro mondo. Inoltre, è il fondatore di Securities.io, una piattaforma focalizzata sugli investimenti in tecnologie all'avanguardia che stanno ridefinendo il futuro e ridisegnando interi settori.