Wywiady
Corey Sanders, Senior Vice President Product at CoreWeave – Wywiad z serii

Corey Sanders, Senior Vice President Product at CoreWeave, kieruje strategią produktu i jego realizacją w jednej z najszybciej rozwijających się platform chmurowych skupionych na sztucznej inteligencji. Odpowiada za skalowanie innowacji, kształtowanie rozwiązań dostosowanych do potrzeb klientów oraz wzmacnianie pozycji CoreWeave na rynku infrastruktury AI. Przed dołączeniem do CoreWeave, Sanders spędził dwie dekady w Microsoft, pełniąc różne role kierownicze, w tym w dziedzinie inżynierii chmury, platform branżowych, strategii rozwiązań komercyjnych oraz partnerstw przedsiębiorstw, z głębokim doświadczeniem w łączeniu wykonania technicznego i strategii wejścia na rynek.
CoreWeave to dostawca chmury rodzimej dla sztucznej inteligencji, zbudowany specjalnie dla obliczeń o wysokiej wydajności i dużych zestawów danych sztucznej inteligencji. Firma prowadzi szybko rozwijający się zakres centrów danych w Stanach Zjednoczonych i Europie, dostarczając infrastrukturę i oprogramowanie przyspieszane przez GPU, zaprojektowane dla szkolenia AI, inferencji i zaawansowanych przypadków użycia. Poprzez koncentrowanie się na architekturze dostosowanej do potrzeb zamiast ogólnej chmury, CoreWeave stał się kluczowym partnerem infrastrukturalnym dla laboratoriów AI i przedsiębiorstw poszukujących wydajności, skalowalności i efektywności w skali.
Spędziłeś ponad 20 lat w Microsoft, pracując w różnych dziedzinach, w tym inżynierii systemu Windows, strategii sprzedaży chmury i Microsoft Cloud for Industry. Co ta ewolucja nauczyła cię o tym, co naprawdę napędza przyjęcie przez przedsiębiorstwa, i w jaki sposób stosujesz te lekcje dzisiaj w CoreWeave?
Przyjęcie przez przedsiębiorstwa zaczyna się od rozwiązania konkretnego problemu klienta. Innowacje dla samej innowacji nie są tak naprawdę istotne dla przedsiębiorstw. Chodzi o to, by włożyć się w ich buty i zrozumieć, co ich naprawdę dręczy — czy to jest koszt wsparcia, złożoność operacyjna, łączenie się z klientami, czy zarządzanie zespołami na całym świecie i nowymi liniami produktów — a następnie dostarczyć usługi, które im pomogą. Często są skłonne do innowacyjnego podejścia, ale najważniejszym rozważaniem jest pomoc im w rozwiązaniu ich problemu. Najczęstszym błędem, jaki widzę w projektowaniu produktu, jest zbyt wielkie zaangażowanie w “fajność” produktu. Podczas gdy to ma znaczenie w przestrzeni konsumenckiej, klienci przedsiębiorstw na końcu bardziej dbają o użyteczność niż o “fajność”.
CoreWeave jest często opisywany jako oferujący infrastrukturę AI dostosowaną do potrzeb. W praktyce, co oznacza dostosowanie do potrzeb z perspektywy produktu, i gdzie ogólne platformy chmurowe mają trudności z obciążeniami AI?
Największą zaletą bycia dostosowanym do potrzeb jest możliwość skupienia się i dostarczania usług bez potrzeby rozwiązywania każdego ogólnego przypadku użycia. Dam dwa przykłady: jeden w oprogramowaniu, a drugi w sprzęcie.
Po stronie oprogramowania nasza oferta Object Storage z pamięcią podręczną LOTA jest skoncentrowana specjalnie na buforowaniu dla obciążeń AI. Wdrożenie bezpośrednio na węzłach GPU, dostarcza punkt końcowy S3 dla aplikacji i odpowiada na żądania GPU, rozciągając swoją pamięć podręczną na wiele węzłów. Zwiększa to przepływność do GPU nawet do 7 GB/s, znacznie przewyższając to, co oferują ogólne chmury. Możemy to osiągnąć, ponieważ robimy założenia dotyczące projektowania określonych obciążeń AI, podziału odczytów i zapisów oraz układów klastrów. Jeśli klient użyłby tego do hostowania bazy danych lub strony e-commerce, nie miałoby to takiego samego wpływu. To jest definicja oprogramowania dostosowanego do potrzeb.
Przykład sprzętowy jest podobny. Biorąc pod uwagę nasz rozległy wdrożenie najnowszych jednostek NVIDIA — wiele z nich wymaga chłodzenia cieczą — CoreWeave zbudował specjalistyczną wiedzę i projekty centrów danych, aby wesprzeć te potrzeby. W przeciwieństwie do większych chmur, które budują na fungibilność, a następnie muszą dodatkowo dodać chłodzenie cieczą, CoreWeave buduje centra danych dostosowane do AI od podstaw. To skutkuje niższymi kosztami i wyższą dostępnością dla najnowszych modeli.
Poniżej znajduje się obraz pamięci podręcznej LOTA, o której wspomniałem.

Gdy klienci po raz pierwszy myślą o skalowaniu AI, wielu z nich uważa, że potrzebują jedynie dostępu do GPU. Co zwykle zdają się oni rozumieć, że brakuje im, gdy zaczynają szkolić lub obsługiwać modele w skali?
Biorąc pod uwagę złożoność uruchamiania obciążeń na ogromnych klastrach GPU, otaczające usługi stają się prawdziwymi czynnikami sukcesu. Obejmuje to oczywiste, takie jak pamięć masowa i sieć, ale także krytyczne usługi operacyjne, takie jak obserwowalność, orchestracja i bezpieczeństwo. To właśnie tutaj CoreWeave naprawdę błyszczy z naszą ofertą Mission Control. Dostarcza klientom głębokiej świadomości stanu węzła i czasu wykonywania w całej ich flotylli, integrując tę wiedzę bezpośrednio z silnikiem orchestracji. Pozwala to klientowi traktować swoją infrastrukturę nie jako 1000 indywidualnych GPU, ale jako pojedynczą, spójną jednostkę zadania.
Na jakie najważniejsze priorytety produktowe koncentrujesz się obecnie, aby poprawić wyniki klientów, niezależnie od tego, czy jest to wydajność, niezawodność, przewidywalność kosztów, czy doświadczenie deweloperów?
W rdzeniu platformy stale koncentrujemy się na wydajności, niezawodności i obserwowalności. Musimy zapewnić, by klienci mogli uruchamiać zadania w powtarzalny, przewidywalny sposób, korzystając w pełni z każdego TFLOP w każdym GPU. Poza tym pracujemy nad uproszczeniem procesu wdrożenia dla klientów, którzy mogą nie być zaznajomieni z każdym dzwonkiem i sygnałem w narzędziu takim jak SLURM (które wszyscy używają, ale którego prawie nikt nie lubi). Wreszcie, rozwijamy dodatkowe usługi i modele rozliczeniowe, aby ułatwić innowacje i rozpoczęcie pracy na małą skalę. Obecnie eksperymentowanie jest niespodziewanie trudne ze względu na wysokie bariery wejścia, takie jak ograniczenia pojemności, zobowiązania trzyletnie i potrzeba specjalistów, aby tylko zacząć. Chcemy przywrócić łatwość innowacji na platformie AI.
Jak przejście obciążeń AI z ukierunkowania na szkolenie na ukierunkowanie na inferencję wpływa na decyzje dotyczące projektu infrastruktury i produktu?
Tworzy to znaczne możliwości zastosowania istniejącej różnicy CoreWeave do wymagań inferencji. Na przykład, pamięć podręczna LOTA, o której wspomniałem, koncentruje się na zasilaniu GPU podczas szkolenia; jednak możemy wziąć tę samą technologię, zintegrować ją z rzeczami takimi jak KVCache i przekształcić ją w potężny differentiator inferencji. Podobnie, narzędzia takie jak Mission Control stają się jeszcze bardziej istotne dla inferencji, ponieważ obserwacja stanu zdrowia GPU jest kluczowa dla uruchamiania wysoko dostępnych aplikacji agentywnych.
W ciągu najbliższych jednego do dwóch lat, co będzie definiowało przywództwo na rynku chmury AI, a które możliwości będą najważniejsze dla klientów?
Uważam, że przywództwo będzie definiowane przez dwie rzeczy. Po pierwsze, dostarczanie rosnących wymagań skali dla szkolenia. To będzie wymagało postępów w obserwowalności, monitorowaniu stanu zdrowia i automatycznym odzyskiwaniu. Gdy przechodzimy od setek do dziesiątków tysięcy GPU rozproszonych na całym świecie, manualna reakcja na awarie jest niemożliwa.
Po drugie, dostarczanie odpowiednich usług dla inferencji i obciążeń agentywnych. To wymaga możliwości wdrożenia globalnego oraz modeli biznesowych, które zachęcają do eksperymentowania. Ten wzorzec użycia pomógł chmurze rosnąć pierwotnie i został częściowo utracony w erze AI. Musimy to przywrócić poprzez lepsze wsparcie platformy, możliwości wielochmurowe i łatwość użycia w wielu regionach.
Poprzednio kierowałeś inicjatywami chmury dla branż, takich jak opieka zdrowotna, handel detaliczny, usługi finansowe, produkcja i chmura suwerenna. Jakie lekcje z tych pionów bezpośrednio tłumaczą się na infrastrukturę AI, a które nie?
Przeskoki pokoleniowe w GPU nadal wprowadzają nowe złożoności. Każde nowe wydanie przywozi większą łączność, wyższą pamięć i większe potrzeby mocy, wszystkie z nich wymagają od nas ponownego rozważenia naszych założeń dotyczących tego, jak węzły są połączone i jak oprogramowanie jest dostarczane. Musimy pozostać bezwzględni w tym zakresie, aby utrzymać naszą pozycję przywódczą. Z drugiej strony, obszar, który poprawia się najszybciej, to po prostu skala tego, co klienci mogą osiągnąć; szybkość, z jaką adaptują się do większych śladów obliczeniowych, jest imponująca.
Jak centra danych i klastry AI nadal rosną w skali, jakie wyzwania operacyjne okazują się najtrudniejsze do rozwiązania obecnie, a które z nich poprawiają się najszybciej?
Przeskoki pokoleniowe GPU nadal tworzą nowe złożoności w projekcie i oprogramowaniu. Każde nowe wydanie GPU przychodzi z większymi możliwościami łączności, wyższą pamięć, większymi potrzebami mocy itd., które wymagają od nas ponownego rozważenia założeń dotyczących tego, jak węzły są połączone, jak szafy są zarządzane i jak oprogramowanie jest dostarczane. Będziemy musieli nadal koncentrować się na tej pracy, aby zapewnić, że utrzymamy naszą pozycję przywódczą. Te, które poprawiają się najszybciej, to to, co klienci są w stanie osiągnąć dzięki rosnącej skali obliczeń.
W infrastrukturze AI, niezawodność wykracza poza czas pracy. Jak CoreWeave definiuje niezawodność, a które wskaźniki najlepiej odzwierciedlają sukces z perspektywy klienta?
W skali, największym rozważaniem dla klienta jest po prostu wykonanie zadania. W ogromnych operacjach indywidualne awarie lub spowolnienia są oczekiwane. Kluczem jest to, jak wykrywamy i automatycznie reagujemy na te problemy, aby zapewnić, że zadanie zostanie wykonane pomimo wyzwań. Dlatego integrujemy Mission Control z usługami wyższego poziomu, takimi jak SUNK (Slurm na Kubernetes). Pozwala to klientom reagować na awarie automatycznie bez utraty godzin lub tygodni pracy. Dla nas sukces nie jest tylko kwestią czasu pracy węzła; jest to kwestia powodzenia zadania.
Spójrzając w przyszłość, jaki główny przesunięcie w infrastrukturze AI uważasz, że jest nadal niedoceniane, niezależnie od tego, czy jest to ewolucja sprzętu, specjalizacja stosów, wymagania suwerenności, czy nowe modele wdrożeniowe?
Uważam, że pojawienie się uczenia wzmocnionego (RL) jako odnowionej części stosu AI jest nadal niedoceniane. Chociaż nie jest to nowa dziedzina badań, była ona w dużej mierze zdominowana przez pierwszą falę rozwoju LLM. RL powraca i odegra kluczową rolę w czynieniu usług AI bardziej responsywnymi na zmieniające się krajobrazy ich użytkowników. Z tego powodu jesteśmy bardzo podekscytowani naszą ofertą serwerless RL, którą mamy dzisiaj.
Dziękujemy za wspaniały wywiad. Czytelnicy, którzy chcą dowiedzieć się więcej, powinni odwiedzić CoreWeave.












