Interviuri
Corey Sanders, Vicepreședinte Senior pentru Produs la CoreWeave – Seria de Interviuri

Corey Sanders, Vicepreședinte Senior pentru Produs la CoreWeave, conduce strategia și execuția produsului pentru una dintre cele mai rapide platforme cloud axate pe inteligență artificială. El este responsabil pentru scalarea inovației, modelarea soluțiilor personalizate împreună cu clienții și consolidarea poziției CoreWeave pe piața infrastructurii de inteligență artificială. Înainte de a se alătura CoreWeave, Sanders a petrecut două decenii la Microsoft în roluri de conducere senior, cuprinzând inginerie cloud, platforme specifice industriilor, strategie de soluții comerciale și parteneriate întreprinderi de mare anvergură, cu o experiență profundă în legătura dintre execuția tehnică și strategia de piață.
CoreWeave este un furnizor de cloud nativ pentru inteligență artificială, construit special pentru calcul de înaltă performanță și sarcini de inteligență artificială de mare anvergură. Compania operează o rețea în expansiune rapidă de centre de date în Statele Unite și Europa, oferind infrastructură și software accelerate de GPU, proiectate pentru antrenarea, inferența și utilizările avansate de calcul. Prin concentrarea asupra arhitecturii personalizate, mai degrabă decât asupra cloud-ului general-purpose, CoreWeave a devenit un partener cheie de infrastructură pentru laboratoarele de inteligență artificială și întreprinderile care caută performanță, scalabilitate și eficiență la scară largă.
Ați petrecut peste 20 de ani la Microsoft, lucrând în diverse domenii, de la ingineria Windows la strategia de vânzări cloud și Microsoft Cloud pentru Industrie. Ce v-a învățat această evoluție despre ceea ce stimulează cu adevărat adoptarea la nivel de întreprindere și cum aplicați aceste lecții astăzi la CoreWeave?
Adoptarea la nivel de întreprindere începe cu rezolvarea unei probleme specifice a clientului. Inovația pentru sake-ul inovației nu este de fapt atât de crucială pentru întreprindere. Este vorba despre a te pune în papucii lor pentru a înțelege ce îi deranjează cu adevărat – fie că este vorba de costul suportului, complexitățile operaționale, conectarea cu clienții sau gestionarea echipelor globale și a noilor linii de produse – și apoi oferirea de servicii care ajută. Ei sunt adesea dispuși să fie inovatori în abordarea lor, dar considerația cea mai crucială este ajutarea lor să-și rezolve problema. Cea mai frecventă greșeală pe care am văzut-o în proiectarea produsului este aceea de a te lăsa prea mult prins în “coolness”-ul unui produs. Deși acest lucru are greutate în spațiul consumatorilor, clienții din întreprinderi se preocupă, în cele din urmă, mult mai mult de utilitate decât de “coolness”.
CoreWeave este adesea descrisă ca oferind infrastructură de inteligență artificială personalizată. În termeni practici, ce înseamnă personalizat din perspectiva produsului și unde se confruntă platformele cloud general-purpose cu dificultăți în ceea ce privește sarcinile de inteligență artificială?
Cel mai mare beneficiu al faptului de a fi personalizat este capacitatea de a se concentra și de a oferi servicii fără a trebui să rezolve fiecare caz de utilizare general. Voi da două exemple: unul în software și unul în hardware.
Pe partea de software, oferta noastră de stocare a obiectelor cu LOTA cache se axează în mod specific pe caching pentru sarcini de inteligență artificială. Se implementează direct pe nodurile GPU, oferă un punct de terminare S3 pentru aplicație și răspunde la solicitările GPU prin extinderea cache-ului pe multiple noduri. Acest lucru crește debitul către GPU până la 7 GB/s, mult peste ceea ce oferă cloud-urile general-purpose. Putem realiza acest lucru pentru că facem presupuneri de proiectare în jurul sarcinilor de inteligență artificială, împărțirii citirii/scrierii și dispoziției clusterului. Dacă un client ar folosi acest lucru pentru găzduirea unei baze de date sau a unui site de comerț electronic, nu ar avea același impact. Acesta este definiția software-ului personalizat.
Exemplul hardware este similar. Având în vedere desfășurarea noastră extinsă a celor mai recente SKU-uri NVIDIA – multe dintre acestea necesitând răcire lichidă – CoreWeave a dezvoltat o expertiză specifică și proiectează centre de date pentru a susține aceste nevoi. În contrast cu cloud-urile mai mari care construiesc pentru fungibilitate și apoi trebuie să adauge răcirea lichidă în mod retroactiv, CoreWeave construiește centre de date axate pe inteligență artificială de la zero. Acest lucru duce la costuri mai mici și o disponibilitate mai mare pentru cele mai recente tipuri de SKU.
Mai jos este o imagine a cache-ului LOTA menționat.

Când clienții încep să se gândească la scalarea inteligenței artificiale, mulți cred că au nevoie doar de acces la GPU. Ce realizează ei de obicei că le lipsește odată ce încep să antreneze sau să servească modele la scară?
Având în vedere complexitatea rulării sarcinilor pe clusteruri masive de GPU, serviciile care înconjoară devin adevărații factori de succes. Acesta include servicii evidente, cum ar fi stocarea și rețelele, dar și servicii operaționale critice, cum ar fi observabilitatea, orchestrarea și securitatea. Aici CoreWeave strălucește cu a noastră ofertă Mission Control. Acesta oferă clienților o conștientizare profundă a sănătății nodului și a timpului de rulare pe întreaga flotă, integrând această cunoaștere direct în motorul de orchestrare. Acest lucru permite clientului să trateze infrastructura nu ca 1.000 de GPU individual, ci ca o singură entitate de lucru coerentă.
Care sunt principalele priorități de produs pe care le urmăriți în acest moment pentru a îmbunătăți rezultatele clienților, fie că este vorba de performanță, fiabilitate, previzibilitatea costurilor sau experiența dezvoltatorului?
În platforma de bază, ne concentrăm constant pe performanță, fiabilitate și observabilitate. Trebuie să ne asigurăm că clienții pot rula sarcini în mod repetabil și previzibil, folosind pe deplin fiecare TFLOP din fiecare GPU. Dincolo de acest lucru, lucrăm la simplificarea procesului de înscriere pentru clienții care nu sunt familiarizați cu fiecare clopoțel și fluierător dintr-un instrument precum SLURM (pe care toată lumea îl folosește, dar pe care aproape toată lumea îl urăște). În cele din urmă, dezvoltăm servicii și modele de facturare suplimentare pentru a face mai ușoară inovarea și începerea de la zero. În acest moment, experimentarea este surprinzător de dificilă din cauza barierelor ridicate la intrare, cum ar fi constrângerile de capacitate, angajamentele pe trei ani și nevoia de experți specializați doar pentru a începe. Vrem să readucem ușurința inovării pe platforma de inteligență artificială.
Pe măsură ce sarcinile de inteligență artificială se mută de la antrenament la inferență, cum influențează această tranziție proiectarea infrastructurii și deciziile de planificare a produsului?
Acest lucru creează oportunități semnificative de a aplica diferențierea existentă a CoreWeave pentru cerințele de inferență. De exemplu, cache-ul LOTA pe care l-am menționat se axează pe alimentarea GPU în timpul antrenamentului; cu toate acestea, putem lua aceeași tehnologie, o integrăm în lucruri precum KVCache și o transformăm într-un diferențiator puternic de inferență. În mod similar, instrumente precum Mission Control devin și mai vitale pentru inferență, deoarece observarea sănătății GPU este crucială pentru rularea aplicațiilor agenților de înaltă disponibilitate.
În următorii unu până la doi ani, ce va defini conducerea pe piața cloud de inteligență artificială și care vor fi capacitățile care vor conta cel mai mult pentru clienți?
Cred că conducerea va fi definită de două lucruri. Primul este livrarea cerințelor de scară în creștere pentru antrenament. Acest lucru va necesita progrese în observabilitate, monitorizarea sănătății și recuperarea automată. Când treci de la sute la zeci de mii de GPU distribuite la nivel global, răspunsul manual la eșecuri nu este o opțiune.
Al doilea este livrarea serviciilor potrivite pentru inferență și sarcini agențiale. Acest lucru necesită capacități de implementare globală și modele de afaceri care încurajează experimentarea. Acest model de utilizare a fost cel care a ajutat cloud-ul să crească inițial și a fost pierdut în era inteligenței artificiale. Trebuie să îl readucem prin suportul mai bun al platformei, capacități multi-cloud și ușurința utilizării multi-regiunii.
Ați condus anterior inițiative de cloud specifice industriilor, cuprinzând sănătate, retail, servicii financiare, producție și cloud suveran. Care dintre lecțiile din aceste verticale se traduc direct în infrastructura de inteligență artificială și care nu?
Schimbările de generație ale GPU continuă să introducă noi complexități. Fiecare lansare nouă aduce interconectivitate crescută, memorie mai mare și nevoi de putere mai mari, toate acestea necesitându-ne să reevaluăm ipotezele noastre despre cum sunt conectate nodurile și cum este livrat software-ul. Trebuie să rămânem neîncetați aici pentru a menține poziția noastră de conducere. În schimb, domeniul care se îmbunătățește cel mai rapid este pur și simplu scara la care clienții pot realiza sarcini; viteza cu care se adaptează la calcule mai mari este impresionantă.
Pe măsură ce centrele de date și clusterurile de inteligență artificială continuă să crească, care sunt provocările operaționale care se dovedesc a fi cele mai greu de rezolvat în prezent și care dintre ele se îmbunătățește cel mai rapid?
Schimbările de generație ale GPU continuă să creeze complexități noi în proiectare și software. Fiecare lansare nouă de GPU vine cu capacități de interconectare crescute, memorie mai mare și nevoi de putere mai mari, toate acestea necesitându-ne să reevaluăm ipotezele despre cum sunt conectate nodurile, cum sunt gestionate rafturile și cum este livrat software-ul. Trebuie să ne concentrăm în mod constant pe această muncă pentru a ne menține poziția de conducere. Cele care se îmbunătățesc cel mai rapid sunt ceea ce clienții pot realiza cu scara în creștere a calculelor.
În infrastructura de inteligență artificială, fiabilitatea merge dincolo de timpul de funcționare. Cum definește CoreWeave fiabilitatea și care sunt indicatorii care reflectă cel mai bine succesul din perspectiva clientului?
La scară largă, cea mai mare considerație pentru un client este pur și simplu să finalizeze sarcina. În operațiuni masive, eșecurile individuale sau încetinirile sunt așteptate. Cheia este cum detectăm și răspundem automat la aceste probleme pentru a ne asigura că sarcina se finalizează în ciuda provocărilor. De aceea, integrăm Mission Control în servicii de nivel superior, cum ar fi SUNK (Slurm pe Kubernetes). Acest lucru permite clienților să răspundă la eșecuri în mod automat, fără a pierde ore sau săptămâni de muncă. Pentru noi, succesul nu este doar despre timpul de funcționare al nodului; este despre succesul sarcinii.
Privind înainte, ce schimbare majoră în infrastructura de inteligență artificială credeți că este încă subapreciată, legată de evoluția hardware-ului, specializarea stivelor, cerințele de suveranitate sau noile modele de implementare?
Cred că apariția învățării prin întărire (RL) ca o parte reînnoită a stivei de inteligență artificială este încă subapreciată. Deși nu este un domeniu nou de studiu, a fost în mare măsură umbrit în timpul primei valuri de dezvoltare a LLM. RL face o revenire și va juca un rol vital în a face serviciile de inteligență artificială mai receptive la peisajele în schimbare ale utilizatorilor. Din cauza acestui fapt, suntem foarte entuziasmați de oferta noastră serverless RL pe care o avem în prezent.
Mulțumim pentru acest interviu minunat; cititorii care doresc să afle mai multe despre CoreWeave ar trebui să viziteze CoreWeave.












