Connect with us

Corey Sanders, CoreWeave’de Ürün İcrası Başkan Yardımcısı – Röportaj Serisi

Röportajlar

Corey Sanders, CoreWeave’de Ürün İcrası Başkan Yardımcısı – Röportaj Serisi

mm

Corey Sanders, CoreWeave’de Ürün İcrası Başkan Yardımcısı, hızlı büyüyen AI odaklı bulut platformlarının birinin ürün stratejisi ve icrasını yönetiyor. Müşterilerle birlikte amaçlarına uygun çözümler şekillendirmek, inovasyonu ölçeklemek ve CoreWeave’in AI altyapısı pazarındaki konumunu güçlendirmekle sorumludur. CoreWeave’e katılmadan önce Sanders, iki thập yıl boyunca Microsoft’ta çeşitli senior liderlik rollerinde bulunmuş, bulut mühendisliği, endüstriye özgü platformlar, ticari çözüm stratejisi ve büyük ölçekli kurumsal ortaklıklar gibi alanlarda derin deneyim kazanmıştır.

CoreWeave yüksek performanslı hesaplama ve büyük ölçekli yapay zeka iş yükleri için özel olarak tasarlanmış bir AI-yerli bulut sağlayıcısıdır. Şirket, ABD ve Avrupa’da hızla genişleyen bir veri merkezi ağı işletmektedir ve AI eğitimi, çıkarımı ve gelişmiş hesaplamalar için tasarlanmış GPU hızlandırılmış altyapı ve yazılım sunmaktadır. CoreWeave, genel amaçlı bulut yerine amaçlarına uygun mimariye odaklanarak, AI laboratuvarları ve entreprises için performans, ölçeklenebilirlik ve verimlilik sağlayan kritik altyapı ortağı haline gelmiştir.

Microsoft’ta 20 yılı aşkın bir süre boyunca Windows mühendisliği, bulut satış stratejisi ve Microsoft Bulut için Endüstri gibi alanlarda çalıştınız. Bu ilerleme, size kurumsal benimsemeyi gerçekten nelerın sürüklediğini öğretti ve bu dersleri bugün CoreWeave’de nasıl uyguluyorsunuz?

Kurumsal benimseme, belirli bir müşteri sorununu çözmeyle başlar. İnovasyonun kendisi için değil, müşterinin gerçekten neler tarafından rahatsız edildiğini anlamak önemlidir – bu, destek maliyeti, operasyonel karmaşıklık, müşteri bağlantısı veya küresel ekipleri ve yeni ürün hatlarını yönetme olabilir – ve sonra müşterilere yardımcı olan hizmetleri sunmak önemlidir. Müşteriler, yaklaşımında yenilikçi olmaya thường istekli olurlar, ancak en önemli consideration, onların sorununu çözme yeteneğidir. Ürün tasarımında en sık yapılan hata, ürünün coolest方面ına çok fazla odaklanmaktır. Tüketici alanında bu önemli olabilir, ancak kurumsal müşteriler, sonunda, coolness’dan çok faydayı önemserler.

CoreWeave, genellikle amaçlarına uygun AI altyapısı sunan bir şirket olarak tanımlanmaktadır. Pratik anlamda, amaçlarına uygun ne anlama geliyor ve genel amaçlı bulut platformları AI iş yükleriyle ilgili olarak hangi zorluklarla karşılaşıyorlar?

Amaçlarına uygun olmanın en büyük avantajı, her genel kullanım durumunu çözmeye gerek kalmadan hizmetleri sunabilme yeteneğidir. İki örnek vereceğim: biri yazılım, diğeri donanım方面ında.

Yazılım açısından, AI iş yükleri için özel olarak tasarlanmış Object Storage teklifimiz ve LOTA önbelleği, GPU düğümlerine doğrudan dağıtılır, uygulama için bir S3 uç noktası sunar ve GPU isteklerine birden fazla düğüm boyunca önbelleğini yayarak yanıt verir. Bu, GPU’ya olan veri akışını 7 GB/s’ye kadar artırır, bu da genel amaçlı bulutların sunduğının çok üzerindedir. Bunu, AI-specific iş yükleri, okuma/yazma bölünmeleri ve küme düzenleri вокругunda tasarım varsayımları yaparak başarabiliriz. Müşteri, bunu bir veritabanı veya e-ticaret sitesi barındırmak için kullanırsa, aynı etkiye sahip olmayacaktır. Bu, amaçlarına uygun yazılımın tanımıdır.

Donanım örneği benzerdir. Son nesil NVIDIA SKU’larının geniş dağıtımı – birçokları sıvı soğutma gerektirir – CoreWeave, bu gereksinimleri desteklemek için özel uzmanlık ve veri merkezi tasarımları geliştirmiştir. Diğer büyük bulutlar, ilk olarak değişmezlik için inşa edip sonra sıvı soğutma eklerken, CoreWeave veri merkezlerini AI için temelinden itibaren inşa etmektedir. Bu, en son SKU türleri için daha düşük maliyetler ve daha yüksek kullanılabilirlik anlamına gelir.

Aşağıda, bahsedilen LOTA önbelleği görüntülenmiştir.

Müşteriler AI’yi ölçeklendirirken, genellikle yalnızca GPU’lara erişim ihtiyacı duyduklarını düşünürler. Ancak müşteriler, modelleri büyük ölçekte eğittiklerinde veya sunduklarında genellikle neyi kaçırdıklarını fark ederler?

Büyük ölçekli GPU kümeleri üzerinde iş yükleri çalıştırmadaki karmaşıklık nedeniyle, çevre hizmetleri真正 başarı sürücüsü haline gelir. Bunlar, depolama ve ağ gibi açık olanlar kadar, gözlemlenebilirlik, orkestrasyon ve güvenlik gibi kritik operasyonel hizmetleri de içerir. CoreWeave, Mission Control teklifimizle bu方面ında gerçekten parlar. Müşterilere, node sağlığı ve çalışma zamanı hakkında derin bir farkındalık sağlar ve bu bilgiyi doğrudan orkestrasyon motoruna entegre eder. Bu, müşterilerin altyapıyı 1.000 ayrı GPU olarak değil, tek bir, tutarlı iş birimi olarak tedavi etmesine olanak tanır.

Şu anda müşteri sonuçlarını iyileştirmek için odaklandığınız en önemli ürün öncelikleri nelerdir, bu performans, güvenilirlik, maliyet öngörülebilirliği veya geliştirici deneyimi olabilir?

Temel platformda, performans, güvenilirlik ve gözlemlenebilirlik üzerinde sürekli olarak odaklanıyoruz. Müşterilerin, her bir GPU’dan tam olarak yararlanarak işleri tekrar eden ve öngörülebilir bir şekilde çalıştırabilmesini sağlamak zorundayız. Bunun ötesinde, müşterilerin her bir aracın tüm çan ve çıngırağını bilmelerine gerek kalmadan SLURM (herkesin kullandığı, ancak neredeyse herkesin nefret ettiği) gibi bir aracı kullanmasını kolaylaştırmaya çalışıyoruz. Son olarak, müşterilerin yenilikçi olmalarını ve küçük ölçekte başlamalarını kolaylaştırmak için ek hizmetler ve faturalama modelleri geliştiriyoruz. Şu anda, deney yapmak şaşırtıcı bir şekilde zordur, çünkü yüksek giriş engelleri, üç yıllık taahhütler ve başlamadan önce uzmanlara ihtiyaç duyulur. AI platformunda yenilikçiliğin kolaylığını geri getirmek istiyoruz.

Daha fazla AI iş yükü eğitim-ağırlıklıdan çıkarıma dayalı olarak değişirken, bu geçiş, altyapı tasarımını ve ürün yol haritası kararlarını nasıl etkiler?

CoreWeave’in mevcut farklılıklarını çıkarım gereksinimlerine uygulamak için önemli fırsatlar yaratır. Örneğin, daha önce bahsettiğim LOTA önbelleği, eğitim için GPU’lara veri beslemeye odaklanır; ancak aynı teknolojiyi alabilir, KVCache gibi şeylere entegre edebilir ve güçlü bir çıkarım farklılaştırıcısı haline getirebiliriz. Ayrıca, Mission Control gibi araçlar, çıkarım için daha da önemli hale gelir, çünkü GPU sağlığını gözlemlemek, yüksek kullanılabilirlikte ajanslı uygulamaları çalıştırmak için kritiktir.

Bir sonraki bir ila iki yıl içinde, AI bulut pazarındaki liderliği hangi faktörler tanımlayacaktır ve müşteriler için hangi yetenekler en önemli olacaktır?

Liderliğin, iki şey tarafından tanımlanacağını düşünüyorum. Birincisi, eğitimi ölçeklendirme gereksinimlerini karşılamaktır. Bu, gözlemlenebilirlik, sağlık izleme ve otomatik kurtarma alanlarında ilerlemeleri gerektirecektir. Yüzlerce GPU’dan on binlerce GPU’ya global olarak dağıldığınızda, hatalara manuel yanıt verilmesi imkansız hale gelir.

İkincisi, çıkarım ve ajanslı iş yükleri için doğru hizmetleri sunmaktır. Bu, global dağıtım yetenekleri ve deneyimi teşvik eden iş modelleri gerektirir. Bu kullanım modeli, bulutun ilk olarak büyümesine yardımcı olan şeydi ve AI çağında biraz kaybolmuştur. Platform desteği, çok bulut yetenekleri ve çok bölge kolaylığı aracılığıyla geri getirmemiz gerekiyor.

Önceden, sağlık hizmetleri, perakende, finansal hizmetler, imalat ve egemen bulut gibi endüstriye özgü bulut girişimlerini yönetmiştiniz. Bu dikeylerden AI altyapısına hangi dersler doğrudan uygulanır ve hangileri uygulanmaz?

GPU’lerin nesil değişiklikleri, yeni karmaşıklıklar sunmaya devam etmektedir. Her yeni sürüm, artan etkileşimli bağlantı, daha yüksek bellek ve daha fazla güç ihtiyacı getirir, tüm bunlar node’ların nasıl bağlandığı ve yazılımın nasıl sunulduğu konusunda varsayımlarımızı yeniden değerlendirmemizi gerektirir. Liderliğimizi korumak için bu konuda ısrarlı olmamız gerekiyor. En hızlı gelişen alan, müşterilerin başarmaya çalıştıkları şeylerin ölçeğidir; büyük hesaplama ayak izlerine uyum sağlamak için aldıkları hız etkileyicidir.

AI veri merkezleri ve kümeleri devam ettikçe, hangi operasyonel zorluklar en zorlu şekilde çözülüyor ve hangileri en hızlı şekilde gelişiyor?

GPU’lerin nesil değişiklikleri, tasarım ve yazılım açısından yeni karmaşıklıklar yaratmaya devam etmektedir. Her yeni GPU sürümü, artan etkileşimli bağlantı, daha yüksek bellek, daha fazla güç ihtiyacı gibi özellikler getirir ve node’ların nasıl bağlandığı, rafların nasıl yönetildiği ve yazılımın nasıl sunulduğu konusunda varsayımlarımızı yeniden değerlendirmemizi gerektirir. Liderliğimizi korumak için bu konuda odaklanmaya devam etmeliyiz. En hızlı gelişen alan, müşterilerin başarmaya çalıştıkları şeylerin ölçeğidir; büyük hesaplama ayak izlerine uyum sağlamak için aldıkları hız etkileyicidir.

AI altyapısında güvenilirlik, sadece çalışma zamanını aşar. CoreWeave güvenilirliği nasıl tanımlar ve müşteri açısından başarıyı en iyi şekilde yansıtan göstergeler nelerdir?

Büyük ölçekte, müşteriler için en önemli consideration, işin bitirilmesidir. Büyük operasyonlarda, bireysel hatalar veya yavaşlamalar beklenenden daha azdır. Anahtar, bu sorunlara nasıl otomatik olarak tespit edip yanıt verdiğimizdir, böylece iş bitirilir. Bu pourquoi Mission Control’u daha yüksek düzeyde hizmetlere entegre ediyoruz, örneğin SUNK (Slurm on Kubernetes). Müşterilerin, hatalara otomatik olarak yanıt vermesini sağlar, böylece saatlerce veya haftalarca çalışmadan kaybetmezler. Bizim için başarı, yalnızca node çalışma zamanı değil, iş başarısıdır.

İleriye bakıldığında, AI altyapısında hala az bilinen büyük bir değişim olduğuna inanıyorsunuz, bu donanım evrimi, yığın spécializationı, egemenlik gereksinimleri veya yeni dağıtım modelleri ile ilgili olabilir?

Peşinde olduğumuz AI yığınının bir parçası olarak Takviye Öğrenimi’nin (RL) geri dönüşünü hala az bilinen bir gelişme olarak görüyorum.虽然 bu, yeni bir araştırma alanı değil, ancak ilk LLM geliştirme dalgası sırasında büyük ölçüde gölgelendi. RL, kullanıcıların değişen çevrelerine daha duyarlı AI hizmetleri sunmak için hayati bir rol oynayacaktır. Bu nedenle, bugün sunduğumuz sunucusuz RL teklifinden çok heyecan duyuyoruz.

Harika röportaj için teşekkür ederiz, daha fazla bilgi öğrenmek isteyen okuyucular CoreWeave ziyaret edebilir.

Antoine bir vizyoner lider ve Unite.AI'in kurucu ortağıdır ve AI ve robotik geleceğini şekillendirmek ve tanıtmak için sarsılmaz bir tutkuyla hareket etmektedir. Bir seri girişimci olarak, toplum için elektrik kadar yıkıcı olacağına inandığı AI'nin potansiyeli hakkında sık sık konuşur ve coşkusunu dile getirir.
Bir futurist olarak, bu yeniliklerin dünyamızı nasıl şekillendireceğini keşfetmeye adanmıştır. Ayrıca, Securities.io kurucusudur, bu platform geleceği yeniden tanımlayan ve tüm sektörleri yeniden şekillendiren teknolojilere yatırım yapmaya odaklanmıştır.