Intervjuer
Corey Sanders, Senior Vice President Product i CoreWeave – Intervju-serie

Corey Sanders, Senior Vice President Product i CoreWeave, leder produktstrategi og gjennomføring for en av de raskest voksende AI-fokuserte skyplattformene. Han er ansvarlig for å skalerer innovasjon, forme formål-bygde løsninger med kunder og styrke CoreWeaves posisjon i AI-infrastrukturmarkedet. Før CoreWeave, tilbrakte Sanders to tiår i Microsoft i senior ledelsesroller som omfatter skyingeniør, bransjespesifikke plattformer, kommersiell løsningsstrategi og storstilte bedriftspartnerskap, med dyptgående erfaring i å kombinere teknisk gjennomføring og markedsstrategi.
CoreWeave er en AI-nativ skytjenestebygger som er bygget spesifikt for høy-ytelsesregning og storskala kunstig intelligens-arbeidsbelastninger. Selskapet opererer en raskt voksende fotavtrykk av datasteder over hele USA og Europa, og leverer GPU-akselerert infrastruktur og programvare designet for AI-trening, inferens og avansert beregningsbruk. Ved å fokusere på formål-bygde arkitektur i stedet for generell sky, har CoreWeave blitt en kritisk infrastrukturpartner for AI-laboratorier og bedrifter som søker ytelse, skalerbarhet og effektivitet i stor skala.
Du tilbrakte mer enn 20 år i Microsoft og arbeidet med Windows-ingeniørarbeid, sky-salgstrategi og Microsoft Cloud for Industry. Hva lærte denne fremgangen deg om hva som virkelig driver bedrifts-tilpasning, og hvordan anvender du disse lekser i dag i CoreWeave?
Bedrifts-tilpasning starter med å løse et spesifikt kunde-problem. Innovasjon for innovasjons skyld er ikke faktisk så kritisk for bedrifter. Det handler om å sette seg selv i deres sko for å forstå hva som virkelig plager dem – enten det er kostnaden for support, operasjonelle kompleksiteter, å knytte til kunder eller å håndtere globale team og nye produktlinjer – og deretter levere tjenester som hjelper. De er ofte villige til å være innovative i sin tilnærming, men den viktigste overveielsen er å hjelpe dem med å løse deres problem. Den vanligste feilen jeg har sett i produkt-design er å bli for opptatt av produktets “coolness”. Mens dette bærer vekt i forbrukerrommet, bryr bedriftskunder seg i slutten mer om nytte enn “coolness”.
CoreWeave beskrives ofte som å tilby formål-bygde AI-infrastrukturer. I praktisk forstand, hva betyr formål-bygde fra et produkt-perspektiv, og hvor sliter generelle skyplattformer med AI-arbeidsbelastninger?
Den største fordelen med å være formål-bygde er evnen til å fokusere og levere tjenester uten å måtte løse for hver generell brukssak. Jeg vil gi to eksempler: ett i programvare og ett i maskinvare.
På programvaresiden er vårt Object Storage-tilbud med LOTA-cache spesifikt rettet mot caching for AI-arbeidsbelastninger. Det deployes direkte på GPU-nodene, leverer en S3-endepunkt for applikasjonen og responderer til GPU-forespørsler ved å spre sin cache over flere noder. Dette øker gjennomstrømmingen til GPU opp til 7 GB/s, langt over hva generelle skyer tilbyr. Vi kan oppnå dette fordi vi gjør design-antagelser rundt AI-spesifikke arbeidsbelastninger, les/skriv-delinger og cluster-layout. Hvis en kunde brukte dette for å hoste en database eller en e-handels-side, ville det ikke ha samme effekt. Det er definisjonen av formål-bygde programvare.
Eksemplet i maskinvare er lignende. Gitt vår omfattende deployering av de nyeste NVIDIA-SKU-ene – mange av dem krever væskeavkjøling – har CoreWeave bygget spesifikke ekspertise og data-senter-design for å støtte disse behovene. I motsetning til større skyer som bygger for fungibilitet og deretter må legge til væskeavkjøling, bygger CoreWeave data-sentre som er fokusert på AI fra bunnen av. Dette resulterer i lavere kostnader og høyere tilgjengelighet for de nyeste SKU-typene.
Under er et bilde av LOTA-cachen nevnt.

Når kunder først tenker på å skalerer AI, tror mange at de bare trenger tilgang til GPU-er. Hva innser de vanligvis at de mangler når de begynner å trene eller betjene modeller i stor skala?
Gitt kompleksiteten ved å kjøre arbeidsbelastninger over massive GPU-kluster, blir de omgivende tjenestene de virkelige drivkreftene for suksess. Dette inkluderer de åpenbare, som lagring og nettverk, men også kritiske operasjonelle tjenester som observasjon, orkestrering og sikkerhet. Her skinner CoreWeave virkelig med vårt Mission Control-tilbud. Det gir kundene en dyp forståelse av node-helse og kjøretid over deres flåte, og integrerer denne kunnskapen direkte i orkestreringsmotoren. Dette tillater kunden å behandle sin infrastruktur ikke som 1 000 enkelt-GPU-er, men som en enkelt, samlet arbeidsenhet.
Hva er de viktigste produkt-prioritetene du fokuserer på nå for å forbedre kunde-resultater, enten det er ytelse, pålitelighet, kostnadsprediktor eller utvikler-erfaring?
I kjernen av plattformen er vi konstant fokusert på ytelse, pålitelighet og observasjon. Vi må sikre at kundene kan kjøre jobber på en gjentakende, forutsigbar måte samtidig som de tar fullt utbytte av hver TFLOP i hver GPU. Ut over dette arbeider vi med å forenkle påmelding for kunder som kanskje ikke er familiære med hver enkelt bjelle og hvirvel i et verktøy som SLURM (som alle bruker, men nesten alle hater). Til slutt utvikler vi ytterligere tjenester og faktureringsmodeller for å gjøre det enklere å innovere og starte smått. Nå er det overraskende vanskelig å eksperimentere på grunn av høye inngangs-barrierer, som kapasitetsbegrensninger, tre-års forpliktelser og behov for spesialiserte eksperter bare for å komme i gang. Vi ønsker å bringe tilbake lettheten av innovasjon til AI-plattformen.
Som flere AI-arbeidsbelastninger skifter fra trening-til inference-til, hvordan påvirker denne overgangen infrastruktur-design og produkt-vei-kart-beslutninger?
Det skaper betydelige muligheter til å anvende CoreWeaves eksisterende differensiering til inference-krav. For eksempel fokuserer LOTA-cachen jeg nevnte tidligere på å mate GPU-er under trening; imidlertid kan vi ta samme teknologi, integrere den i ting som KVCache og omdanne den til en kraftfull inference-differensierer. Liknende verktøy som Mission Control blir enda mer vitalt for inference, ettersom å observere GPU-helse er kritisk for å kjøre høyt tilgjengelige agente-applikasjoner.
Over de neste ett til to årene, hva vil definere lederskap i AI-sky-markedet, og hvilke evner vil være viktigst for kundene?
Jeg tror lederskap vil bli definert av to ting. Den første er å levere de stadig voksende skala-kravene for trening. Dette vil kreve fremgang i observasjon, helse-overvåking og automatisk gjenoppretting. Når du flytter fra hundrevis til titusener av GPU-er distribuert globalt, er manuell respons på feil en non-starter.
Den andre er å levere riktige tjenester for inference- og agente-arbeidsbelastninger. Dette krever globale deployeringsmuligheter og forretningsmodeller som oppmuntrer til eksperimentering. Denne bruksmønsteret var det som hjalp skyen til å vokse opprinnelig, og det har blitt noe tapt i AI-alderen. Vi må bringe det tilbake gjennom bedre plattform-støtte, multi-sky-kapasiteter og multi-region lett bruk.
Du ledet tidligere industrispesifikke sky-initiativer over helse, detaljhandel, finansielle tjenester, produksjon og suveren sky. Hvilke lekser fra disse vertikale overføres direkte til AI-infrastruktur, og hvilke gjør det ikke?
Generasjons-skift i GPU-er fortsetter å introdusere nye kompleksiteter. Hver ny utgave bringer økt interkonnektivitet, høyere minne og større kraft-behov, alle av dem krever at vi må se på våre antagelser om hvordan noder er koblet sammen og hvordan programvare leveres. Vi må forbli ubøydige her for å opprettholde vårt lederskap. På den andre siden er området som forbedrer seg raskest skalaen av hva kundene kan oppnå; hastigheten ved hvilken de tilpasser seg større beregnings-fotavtrykk er imponerende.
Som AI-data-sentre og -kluster fortsetter å skalerer, hva er de operasjonelle utfordringene som viser seg å være hardest å løse i dag, og hvilke er forbedring raskest?
Generasjons-skiftene i GPU-er fortsetter å skape nye kompleksiteter i design og programvare. Hver ny GPU-utgave kommer med økt interkonnektivitet, høyere minne og større kraft-behov, alle av dem krever at vi må se på våre antagelser om hvordan noder er koblet sammen, hvordan rackene håndteres og hvordan programvaren leveres. Vi må fortsette å fokusere på dette arbeidet for å sikre at vi opprettholder vårt lederskaps-posisjon. De som forbedrer seg raskest er hva kundene kan oppnå med den voksende skalaen av beregning.
I AI-infrastruktur, går pålitelighet utover opp-tid. Hvordan definerer CoreWeave pålitelighet, og hva er de beste indikatorene for suksess fra kundens perspektiv?
I stor skala er den største overveielsen for en kunde å få jobben gjort. I massive operasjoner er enkelt-feil eller nedetid forventet. Nøkkelen er hvordan vi oppdager og automatisk responderer til disse problemene for å sikre at jobben fullføres til tross for utfordringene. Dette er hvorfor vi integrerer Mission Control i høyere-nivå-tjenester som SUNK (Slurm på Kubernetes). Det tillater kundene å responderer til feil automatisk uten å tape timer eller uker med arbeid. For oss er suksess ikke bare om node-opp-tid; det er om jobb-suksess.
Ser fremover, hva er den største skiftet i AI-infrastruktur du tror fortsatt er under-verdsatt, enten det er relatert til maskin-vare-utvikling, spesialisering av staker, suverenitets-krav eller nye deployerings-modeller?
Jeg tror at fremkomsten av Forsterkings-læring (RL) som en fornyende del av AI-staken er under-verdsatt. Mens det ikke er et nytt felt av studier, ble det i stor grad overskygget under den første bølgen av LLM-utvikling. RL gjør comeback og vil spille en vital rolle i å gjøre AI-tjenester mer responsive til de endrede landskapene til deres brukere. Fordi dette er tilfelle, er vi svært glade for den server-løse RL-tilbudet vi har i dag.
Takk for det flotte intervjuet, lesere som ønsker å lære mer bør besøke CoreWeave.












