Connect with us

Corey Sanders, Senior Vice President Product bij CoreWeave – Interview Series

Interviews

Corey Sanders, Senior Vice President Product bij CoreWeave – Interview Series

mm

Corey Sanders, Senior Vice President Product bij CoreWeave, leidt de productstrategie en -uitvoering voor een van de snelst groeiende AI-georiënteerde cloudplatforms. Hij is verantwoordelijk voor het schalen van innovatie, het vormgeven van op maat gemaakte oplossingen met klanten en het versterken van de positie van CoreWeave op de AI-infrastructuurmarkt. Voordat hij bij CoreWeave kwam, werkte Sanders twee decennia bij Microsoft in senior leiderschapsrollen op het gebied van cloudengineering, branche-specifieke platforms, commerciële oplossingsstrategie en grote ondernemingspartnerschappen, met diepe ervaring in het combineren van technische uitvoering en go-to-marktstrategie.

CoreWeave is een AI-native cloudprovider die specifiek is gebouwd voor high-performance computing en grote artificiële intelligentie-workloads. Het bedrijf exploiteert een snel uitbreidende voetafdruk van datacenters in de VS en Europa, en levert GPU-geaccelereerde infrastructuur en software die zijn ontworpen voor AI-training, inferentie en geavanceerde compute-use cases. Door te focussen op op maat gemaakte architectuur in plaats van algemene cloud, is CoreWeave een kritieke infrastructuurpartner geworden voor AI-labs en ondernemingen die prestaties, schaalbaarheid en efficiëntie op grote schaal zoeken.

U hebt meer dan 20 jaar bij Microsoft gewerkt aan Windows-engineering, cloudverkoopstrategie en Microsoft Cloud for Industry. Wat heeft die ontwikkeling u geleerd over wat echt de adoptie van ondernemingen drijft, en hoe past u die lessen vandaag toe bij CoreWeave?

De adoptie van ondernemingen begint met het oplossen van een specifiek klantprobleem. Innovatie omwille van innovatie is niet echt cruciaal voor ondernemingen. Het gaat erom uzelf in hun schoenen te plaatsen om te begrijpen wat hen echt dwarszit – of het nu gaat om de kosten van ondersteuning, operationele complexiteiten, het verbinden met klanten of het beheren van globale teams en nieuwe productlijnen – en dan diensten te leveren die helpen. Ze zijn vaak bereid om innovatief te zijn in hun aanpak, maar de meest cruciale overweging is hen helpen hun probleem op te lossen. De meest voorkomende fout die ik heb gezien in productontwerp is te veel opgaan in de coolness van een product. Terwijl dat gewicht heeft in de consumentenruimte, geven ondernemingsklanten uiteindelijk veel meer om functionaliteit dan coolness.

CoreWeave wordt vaak omschreven als een aanbieder van op maat gemaakte AI-infrastructuur. Wat betekent op maat gemaakt vanuit een productperspectief, en waar worstelen algemene cloudplatforms met AI-workloads?

Het grootste voordeel van op maat gemaakt zijn is de mogelijkheid om diensten te leveren zonder dat u voor elk algemeen gebruik hoeft te hoeven oplossen. Ik zal twee voorbeelden geven: een in software en een in hardware.

Aan de softwarekant is onze Object Storage met LOTA-cache specifiek gericht op caching voor AI-workloads. Het wordt rechtstreeks op de GPU-knooppunten geïmplementeerd, levert een S3-eindpunt voor de toepassing en reageert op GPU-aanvragen door de cache over meerdere knooppunten uit te breiden. Dit verhoogt de doorvoer naar de GPU tot 7 GB/s, veruit het hoogste wat algemene cloudaanbieders bieden. We kunnen dit bereiken omdat we ontwerpveronderstellingen maken rond AI-specifieke workloads, read/write-splits en clusterlayouts. Als een klant dit zou gebruiken voor het hosten van een database of een e-commerce-site, zou het niet hetzelfde effect hebben. Dat is de definitie van op maat gemaakte software.

Het hardwarevoorbeeld is vergelijkbaar. Gezien onze uitgebreide implementatie van de nieuwste NVIDIA-SKU’s – waarvan veel vloeistofkoeling vereisen – heeft CoreWeave specifieke expertise en datacenterontwerpen opgebouwd om in die behoeften te voorzien. In tegenstelling tot grotere clouds die voor fungibiliteit bouwen en vervolgens vloeistofkoeling moeten toevoegen, bouwt CoreWeave datacenters die vanaf het begin zijn gericht op AI. Dit resulteert in lagere kosten en hogere beschikbaarheid voor de nieuwste SKU-typen.

Hieronder ziet u een afbeelding van de LOTA-cache die ik noemde.

Wanneer klanten voor het eerst nadenken over het schalen van AI, denken ze vaak dat ze alleen toegang nodig hebben tot GPU’s. Wat realiseren ze meestal dat ze missen zodra ze beginnen met het trainen of serveren van modellen op grote schaal?

Gezien de complexiteit van het uitvoeren van workloads op massive GPU-clusters, worden de omliggende diensten de echte drijvende kracht achter het succes. Dit omvat de voor de hand liggende dingen, zoals opslag en netwerken, maar ook kritieke operationele diensten zoals observatie, orchestratie en beveiliging. Hier blinkt CoreWeave echt uit met onze Mission Control-aanbod. Het biedt klanten een diep inzicht in knooppuntgezondheid en runtime over hun vloot, en integreert die kennis rechtstreeks in de orchestratie-engine. Dit stelt de klant in staat om hun infrastructuur niet te behandelen als 1.000 individuele GPU’s, maar als één, samenhangend job-entity.

Wat zijn de belangrijkste productprioriteiten waar u zich op dit moment op richt om de resultaten van klanten te verbeteren, of het nu gaat om prestaties, betrouwbaarheid, kostenvoorspelbaarheid of ontwikkelaarservaring?

In het core-platform zijn we constant gefocust op prestaties, betrouwbaarheid en observatie. We moeten ervoor zorgen dat klanten hun banen op een herhaalbare, voorspelbare manier kunnen uitvoeren en volledig gebruik kunnen maken van elke TFLOP in elke GPU. Daarnaast werken we aan het vereenvoudigen van de onboarding voor klanten die mogelijk niet bekend zijn met elke bel en fluitje in een tool zoals SLURM (die iedereen gebruikt, maar bijna iedereen haat). Ten slotte ontwikkelen we extra diensten en factuurmodellen om het gemakkelijker te maken om te innoveren en klein te beginnen. Op dit moment is experimenteren verrassend moeilijk vanwege hoge toetredingsbarrières, zoals capaciteitsbeperkingen, driejarige verbintenissen en de behoefte aan gespecialiseerde experts om alleen maar te beginnen. We willen het gemak van innovatie terugbrengen naar het AI-platform.

Naarmate meer AI-workloads verschuiven van trainingszwaar naar inferentiezwaar, hoe beïnvloedt die overgang de infrastructuurontwerp- en productroadmapbeslissingen?

Het creëert significante kansen om CoreWeave’s bestaande differentiatie toe te passen op inferentievereisten. Bijvoorbeeld, de LOTA-cache die ik noemde, is gericht op het voeden van GPU’s tijdens training; echter, we kunnen diezelfde technologie nemen, integreren in dingen zoals de KVCache en het omzetten in een krachtige inferentie-differentiator. Vergelijkbare tools zoals Mission Control worden nog vitaler voor inferentie, omdat het observeren van GPU-gezondheid cruciaal is voor het uitvoeren van hoog beschikbare agentic-toepassingen.

Binnen één tot twee jaar, wat zal de leiderschap in de AI-cloudmarkt definiëren, en welke capaciteiten zullen het meest voor klanten tellen?

Ik denk dat leiderschap zal worden gedefinieerd door twee dingen. Het eerste is het leveren van de steeds groeiende schaalvereisten voor training. Dit zal vereisen vooruitgang in observatie, gezondheidsmonitoring en automatische herstel. Wanneer u van honderden naar tienduizenden GPU’s verspreid over de hele wereld gaat, is handmatige reactie op fouten geen optie.

Het tweede is het leveren van de juiste diensten voor inferentie- en agentic-workloads. Dit vereist globale implementatiecapaciteiten en bedrijfsmodellen die experimenteren stimuleren. Dit gebruikspatroon was wat de groei van de cloud oorspronkelijk hielp, en het is enigszins verloren gegaan in de leeftijd van AI. We moeten het terugbrengen via betere platformsupport, multi-cloud-capaciteiten en multi-regio-eenvoudig gebruik.

U leidde eerder branche-specifieke cloudinitiatieven in de gezondheidszorg, detailhandel, financiële diensten, fabricage en soevereine cloud. Welke lessen uit die verticale markten vertalen zich rechtstreeks naar AI-infrastructuur, en welke niet?

Generatieverschuivingen in GPU’s introduceren voortdurend nieuwe complexiteiten. Elke nieuwe release brengt meer interconnectiviteit, hogere geheugen en grotere stroombehoeften met zich mee, die allemaal vereisen dat we onze veronderstellingen over hoe knooppunten zijn verbonden en hoe software wordt geleverd, opnieuw bekijken. We moeten hier onverbiddelijk in blijven om onze leiderschapspositie te behouden. Aan de andere kant is het gebied dat het snelst verbetert, de pure schaal van wat klanten kunnen bereiken; de snelheid waarmee ze zich aanpassen aan grotere compute-voetafdrukken is indrukwekkend.

Naarmate AI-datacenters en -clusters blijven groeien, welke operationele uitdagingen blijken het moeilijkst te zijn om vandaag op te lossen, en welke verbeteren het snelst?

De generatieverschuivingen van de GPU’s blijven nieuwe complexiteiten creëren in het ontwerp en de software. Elke nieuwe GPU-release komt met meer interconnectiviteitsmogelijkheden, hogere geheugen, meer stroombehoeften, enz., die allemaal vereisen dat we onze veronderstellingen over hoe knooppunten zijn verbonden, hoe racks worden beheerd en hoe software wordt geleverd, opnieuw bekijken. We zullen ons moeten blijven concentreren op dit werk om onze leiderschapspositie te behouden. Degenen die het snelst verbeteren, zijn wat klanten kunnen bereiken met de groeiende schaal van compute.

In AI-infrastructuur gaat betrouwbaarheid verder dan uptime. Hoe definieert CoreWeave betrouwbaarheid, en welke indicatoren weerspiegelen het beste succes vanuit het perspectief van de klant?

Op grote schaal is de grootste overweging voor een klant simpelweg de taak klaren. In massive operaties zijn individuele fouten of vertragingen verwacht. De sleutel is hoe we automatisch detecteren en reageren op die problemen om ervoor te zorgen dat de taak wordt voltooid ondanks de uitdagingen. Dit is waarom we Mission Control integreren in hogere diensten zoals SUNK (Slurm on Kubernetes). Het stelt klanten in staat om automatisch te reageren op fouten zonder uren of weken van werk te verliezen. Voor ons is succes niet alleen uptime; het is taaksucces.

Kijkend naar de toekomst, wat is de belangrijkste verschuiving in AI-infrastructuur die u nog ondergewaardeerd acht, of het nu gaat om hardware-evolutie, specialisatie van stacks, soevereiniteitsvereisten of nieuwe implementatiemodellen?

Ik geloof dat de opkomst van Reinforcement Learning (RL) als een vernieuwend deel van de AI-stack nog ondergewaardeerd wordt. Hoewel het geen nieuw onderzoeksgebied is, werd het grotendeels overschaduwd tijdens de eerste golf van LLM-ontwikkeling. RL maakt een comeback en zal een vitale rol spelen in het maken van AI-diensten meer responsief op de veranderende landschappen van hun gebruikers. Omdat van dit, zijn we erg enthousiast over de serverless RL-aanbod die we vandaag hebben.

Bedankt voor het geweldige interview, lezers die meer willen leren, moeten CoreWeave bezoeken.

Antoine is een visionaire leider en oprichtend partner van Unite.AI, gedreven door een onwankelbare passie voor het vormgeven en promoten van de toekomst van AI en robotica. Een seriële ondernemer, hij gelooft dat AI net zo disruptief voor de samenleving zal zijn als elektriciteit, en wordt vaak betrapt op het enthousiast praten over het potentieel van disruptieve technologieën en AGI. Als een futurist, is hij toegewijd aan het onderzoeken van hoe deze innovaties onze wereld zullen vormgeven. Bovendien is hij de oprichter van Securities.io, een platform dat zich richt op investeren in cutting-edge technologieën die de toekomst opnieuw definiëren en hele sectoren herschappen.