인터뷰
Corey Sanders, CoreWeave의 시니어 부사장 – 인터뷰 시리즈

Corey Sanders, CoreWeave의 시니어 부사장, 가장 빠르게 성장하는 AI 중심 클라우드 플랫폼 중 하나의 제품 전략 및 실행을 이끌고 있습니다. 그는 고객과 함께 목적을 위한 솔루션을 구상하고, AI 인프라 시장에서 CoreWeave의 입지를 강화하는 데 책임이 있습니다. CoreWeave에 합류하기 전, Sanders는 20년 동안 Microsoft에서 클라우드 엔지니어링, 산업별 플랫폼, 상업용 솔루션 전략 및 대규모 기업 파트너십을 포함한 고위급 리더십 역할을 수행했으며, 기술 실행과 시장 전략을 연결하는 경험을 쌓았습니다.
CoreWeave는 고성능 컴퓨팅 및 대규모 인공 지능 워크로드를 위해 특별히 설계된 AI 네이티브 클라우드 제공업체입니다. 이 회사는 미국과 유럽 전역에 걸쳐 데이터 센터를 빠르게 확장하고 있으며, AI 훈련, 추론 및 고급 컴퓨팅 사용 사례를 위한 GPU 가속 인프라와 소프트웨어를 제공합니다. 일반-purpose 클라우드가 아닌 목적을 위한 아키텍처에 초점을 맞춤으로써 CoreWeave는 성능, 확장성 및 효율성을 추구하는 AI 연구소와 기업을 위한 중요한 인프라 파트너가 되었습니다.
Microsoft에서 20년 이상 근무하면서 Windows 엔지니어링, 클라우드 판매 전략, Microsoft Cloud for Industry를 포함한 다양한 역할을 수행했습니다. 이 경험이 기업의 채택에真正로 어떤 영향을 미치는지에 대해 무엇을 가르쳤으며, 어떻게 이러한 교훈을 오늘날 CoreWeave에서 적용하고 있습니까?
기업의 채택은 특정 고객 문제를 해결하는 것으로 시작됩니다. 혁신 자체는 기업에게 그렇게 중요하지 않습니다. 고객의 입장에서真正로 무엇이 그들을 괴롭히는지 이해하는 것이 중요합니다. 그것이 지원 비용, 운영 복잡성, 고객과의 연결, 또는 글로벌 팀 및 새로운 제품 라인의 관리일 수 있습니다. 그리고 그런 다음 고객을 도와주는 서비스를 제공하는 것입니다. 고객은 종종 혁신적인 접근 방식을 사용할 의향이 있지만, 가장 중요한 고려 사항은 고객의 문제를 해결하는 것입니다. 제품 설계에서 가장 흔한 실수는 제품의 멋지기 때문에 너무 매료되는 것입니다. 소비자 공간에서는 중요하지만, 기업 고객은 궁극적으로는 멋지기보다 유용성에 더 관심이 있습니다.
CoreWeave는 종종 목적을 위한 AI 인프라를 제공하는 것으로 설명됩니다. 실제로 제품 관점에서 목적을 위한 것이 무엇인지, 그리고 일반-purpose 클라우드 플랫폼이 AI 워크로드에서 어려움을 겪는 이유는 무엇입니까?
목적을 위한 가장 큰 이점은 모든 일반 사용 사례를 해결할 필요 없이 서비스를 제공하고 집중할 수 있는 능력입니다. 소프트웨어와 하드웨어의 두 가지 예를 들겠습니다.
소프트웨어 측면에서, 우리의 Object Storage 오퍼링은 LOTA 캐시를 사용하여 AI 워크로드를 위한 캐싱에 중점을 둡니다. 이것은 직접 GPU 노드에 배포되고, 애플리케이션에 대한 S3 엔드포인트를 제공하며, 여러 노드에 걸쳐 캐시를 확장하여 GPU 요청에 응답합니다. 이것은 일반-purpose 클라우드가 제공하는 것보다 GPU로의 처리량을 7 GB/s까지 높여줍니다. 우리는 AI 특정 워크로드, 읽기/쓰기 분할, 클러스터 레이아웃에 대한 설계 가정으로 인해 이를 달성할 수 있습니다. 고객이 이것을 데이터베이스 또는 전자 상거래 사이트를 호스팅하는 데 사용하는 경우 동일한 영향을 미치지 않을 것입니다. 이것이 목적을 위한 소프트웨어의 정의입니다.
하드웨어 예는 유사합니다. 최신 NVIDIA SKU의 광범위한 배포, 많은 경우 액체 냉각이 필요한 경우, CoreWeave는 이러한 요구 사항을 지원하기 위한 특정 전문 지식과 데이터 센터 설계를 구축했습니다. 더 큰 클라우드가 가용성을 높이고 비용을 낮추기 위해 후에 액체 냉각을 추가하는 반면, CoreWeave는 처음부터 AI를 위한 데이터 센터를 구축합니다. 이것은 최신 SKU 유형에 대해 더 낮은 비용과 더 높은 가용성을 제공합니다.
아래는 언급된 LOTA 캐시의 그림입니다.

고객이 처음으로 AI를 확장할 때, 많은 고객은 GPU에만 접근할 수 있으면 된다고 생각합니다. 그러나 모델을 대규모로 훈련하거나 제공할 때 일반적으로 무엇이 부족한지 실감합니다?
大量의 GPU 클러스터에서 워크로드를 실행하는 복잡성으로 인해, 주변 서비스가真正로 성공의 원동력이 됩니다. 이것은 저장소, 네트워킹과 같은 명백한 것뿐만 아니라, 관찰 가능성, 오케스트레이션, 보안과 같은 중요한 운영 서비스도 포함합니다. 이것이 CoreWeave의 Mission Control 오퍼링이真正로 빛나는 곳입니다. 고객에게 노드 상태 및 런타임에 대한 깊은 인식을 제공하고, 이러한 지식을 직접 오케스트레이션 엔진에 통합합니다. 이것은 고객이 인프라를 1,000개의 개별 GPU로 처리하는 것이 아니라, 하나의 일관된 작업 개체로 처리할 수 있도록 허용합니다.
현재 고객의 결과를 개선하기 위한 상위 제품 우선순위를 무엇으로 설정하고 있습니까? 성능, 신뢰성, 비용 예측 가능성, 개발자 경험 중 하나입니까?
코어 플랫폼에서 우리는 항상 성능, 신뢰성 및 관찰 가능성에 집중하고 있습니다. 우리는 고객이 예측 가능한 방식으로 작업을 실행하고 모든 GPU의 모든 TFLOP를 완전히 활용할 수 있도록 해야 합니다. 그 외에도, 우리는 SLURM과 같은 도구(누구나 사용하지만, 거의 모두가 싫어합니다)에서 모든 종류의 벨과 휘슬을 다루지 않고 고객이 쉽게 온보딩할 수 있도록簡素화하는 데 집중하고 있습니다. 마지막으로, 우리는 고객이 혁신을 시작하고 작은 규모로 시작할 수 있도록 추가 서비스 및 청구 모델을 개발 중입니다. 현재, 실험하는 것은 놀랍게도 어려울 수 있습니다. 높은 진입 장벽, 3년간의 약정, 시작하기 위해 전문가가 필요한 등으로 인해 어려울 수 있습니다. 우리는 AI 플랫폼에서 혁신의 용이성을 다시 가져오고 싶습니다.
AI 워크로드가 훈련 중심에서 추론 중심으로 이동함에 따라, 이것이 인프라 설계 및 제품 로드맵 결정에 어떻게 영향을 미칩니까?
CoreWeave의 기존 차별화를 추론 요구 사항에 적용할 수 있는重大한 기회를 창조합니다. 예를 들어, 이전에 언급한 LOTA 캐시는 훈련 중에 GPU를 공급하는 데 중점을 둡니다. 그러나 우리는 동일한 기술을 사용하여 KVCache와 같은 것을 통합하고, 강력한 추론 차별화를 만들 수 있습니다. 또한, Mission Control과 같은 도구는 추론에 대해 더욱 중요해집니다. GPU 상태를 관찰하는 것이 고가용성의 에이전트 애플리케이션을 실행하는 데 중요하기 때문입니다.
1~2년 내에, AI 클라우드 시장에서 리더십을 정의하는 것은 무엇이며, 고객에게 가장 중요한 능력은 무엇입니까?
리더십은 두 가지로 정의될 것입니다. 첫 번째는 훈련을 위한 점점 더 큰 규모의 요구 사항을 충족하는 것입니다. 이것은 관찰 가능성, 상태 모니터링 및 자동 복구의 발전에 필요합니다. 수백 개에서 수만 개의 GPU로 분산된 글로벌 환경으로 이동할 때, 수동으로 실패에 응답하는 것은 시작할 수 없습니다.
두 번째는 추론 및 에이전트 워크로드를 위한 올바른 서비스를 제공하는 것입니다. 이것은 글로벌 배포 기능 및 실험을 장려하는 비즈니스 모델이 필요합니다. 이 사용 패턴은 클라우드가 처음으로 성장하는 데 도움이 되었으며, 어느 정도 AI의 시대에 잃어버렸습니다. 우리는 플랫폼 지원, 멀티 클라우드 기능 및 멀티 지역 사용의 용이성을 통해 이것을 다시 가져오고 싶습니다.
이전에 산업별 클라우드 이니셔티브를 이끌었으며, 헬스케어, 소매, 금융 서비스, 제조 및 주권 클라우드를 포함한 다양한 산업을 담당했습니다. 이러한 산업에서 얻은 교훈은 AI 인프라에 직접적으로 적용되며, 어떤 것은 적용되지 않습니까?
GPU의 世代별 전환은 계속해서 새로운 복잡성을 도입합니다. 각 새로운 릴리스는 더 높은 상호 연결성, 더 높은 메모리, 더 높은 전력需求을 가져오며, 노드가 연결되는 방식과 소프트웨어가 제공되는 방식에 대한 우리의 가정에 다시 방문할 필요가 있습니다. 우리는 리더십을 유지하기 위해 이러한 작업에 계속 집중해야 합니다. 가장 빠르게 개선되는 분야는 고객이 달성할 수 있는 것입니다. 컴퓨팅 규모가 커짐에 따라 고객이 달성할 수 있는 속도가 놀랍습니다.
AI 데이터 센터와 클러스터가 계속 확장함에 따라, 현재 가장 어려운 운영적인 도전은 무엇이며, 어떤 것은 가장 빠르게 개선되고 있습니까?
GPU의 世代별 전환은 계속해서 디자인과 소프트웨어에 새로운 복잡성을 도입합니다. 각 새로운 GPU 릴리스는 더 높은 상호 연결성, 더 높은 메모리, 더 높은 전력需求을 가져오며, 노드가 연결되는 방식, 랙이 관리되는 방식, 소프트웨어가 제공되는 방식에 대한 우리의 가정에 다시 방문할 필요가 있습니다. 우리는 리더십을 유지하기 위해 이러한 작업에 계속 집중해야 합니다. 가장 빠르게 개선되는 분야는 고객이 달성할 수 있는 것입니다. 컴퓨팅 규모가 커짐에 따라 고객이 달성할 수 있는 속도가 놀랍습니다.
AI 인프라에서 신뢰성은 가용성 이상을 의미합니다. CoreWeave는 신뢰성을 어떻게 정의하며, 고객의 관점에서 성공을 반영하는 지표는 무엇입니까?
대규모 운영에서 고객에게 가장 중요한 고려 사항은 작업을 완료하는 것입니다.大量의 작업에서 개별 실패 또는 느림은 예상됩니다. 핵심은 이러한 문제를 자동으로 탐지하고 응답하여 작업이 어려움에도 불구하고 완료되도록 하는 것입니다. 이것이 Mission Control을 더 높은 수준의 서비스인 SUNK(슬럼 온 쿠버네티스)와 통합하는 이유입니다. 고객이 수동으로 실패에 응답하지 않고도 작업을 자동으로 완료할 수 있도록 허용합니다. 우리에게 성공은 노드 가용성에 관한 것이 아니라 작업 성공에 관한 것입니다.
앞으로, AI 인프라에서 아직 과소평가된 주요 전환은 무엇이며, 하드웨어 발전, 스택의 전문화, 주권 요구 사항 또는 새로운 배포 모델과 관련이 있습니까?
강화 학습(RL)의 도입이 AI 스택의 재생 부분으로서 아직 과소평가된 것으로 믿습니다. 초기 LLM 개발의 물결 동안 어느 정도 가려졌던 분야이지만, RL은 사용자 환경의 변화를 반응하는 AI 서비스를 만들기 위해 중요한 역할을 할 것입니다. 이것으로 인해 우리는 현재 제공하는 서버리스 RL 오퍼링에 대해 매우 흥미를 느끼고 있습니다.
위대한 인터뷰에 감사드립니다. 더 많은 정보를 원하는 독자는 CoreWeave를 방문해야 합니다.












