Röportajlar
Ben Koska, SF Tensor’ın Kurucusu ve CEO’su – Röportaj Serisi

Ben Koska, SF Tensor’ın kurucusu ve CEO’su, yüksek performanslı hesaplama, çekirdek optimizasyonu ve verimli model eğitimi konularındaki çalışmaları ile bilinen bir AI araştırmacısı ve sistem mühendisidir. Geçmişi, düşük seviyeli AI altyapısı geliştirme, eğitim verimliliğini artırma ve gelişmiş model geliştirmeyi ağır bir mühendislik yükü olmadan erişilebilir kılan araçlar tasarlamayı içerir. Heterojen donanım boyunca hız, taşınabilirlik ve güvenilirlik sınırlarını zorlayan sistemler oluşturmaya odaklanıyor.
SF Tensor bu felsefeyi pratik bir platforma dönüştürmek için liderlik ettiği şirkettir. Birleştirilmiş bir programlama modeli, bir çekirdek optimizatörü ve dağıtılmış AI iş yüklerinin karmaşıklığını ortadan kaldırmak için tasarlanmış bir çapraz-bulut düzenleme katmanı sunar. Platform, mühendislerin temiz, donanım-bağımsız bir ortamda yazma, her yerde dağıtma ve otomatik olarak yüksek performans elde etme imkânı sunmayı hedefliyor. SF Tensor’ın misyonu, AI hesabını dramatically daha hızlı, daha kolay yönetilebilir ve satıcı kilidinden özgür hale getirmektir.
SF Tensor’ı 19 yaşında, birden fazla startup’ta mühendislik liderliği yaptıktan sonra kurdu. AI altyapısını bu kadar erken yaşta yeniden inşa etme challenge’ını almaya seni ne ilham verdi?
Çözümünü sağladığımız problem, ben de çok önem verdiğim bir problem çünkü kendim de karşılaştım. SF Tensor’ın çekirdek yığınını geliştirdiğimizde, ticari bir proje üzerinde değil, aslında bir akademik girişimdimiz vardı. Bazı gerçekten ilginç araştırmalar yapmak için bir hibe almıştık, ancak zamanımızın büyük çoğunluğunu altyapı ve optimizasyonlarla boğuşarak geçirdik, araştırma yapmak yerine. İnsanların evrensel olarak bizim araştırma projesinden çok altyapı teknolojisimize ilgi duyduklarını keşfettik.
SF Tensor, AI’deki en zor sorunlardan biri olan NVIDIA’nın CUDA hakimiyetinden kurtulmayı ele alıyor. Performansı bozmadan gerçek donanım taşınabilirliği elde edebilecek bir sistem tasarlamak için nasıl bir yaklaşım izledin?
Sonuçta, tüm AI basit matematiklere indirgenebilir. Her model temel olarak hesaplanması gereken matematiksel operasyonlar setidir. Bunu öncelikle bir bilgisayar bilimi problemi değil, bir matematik problemi olarak ele alarak, hesaplamaların en küçük setini tanımlayabilir ve milyonlarca veya milyarlarca farklı hesaplama yolunu makine koduna dönüştürebilir, en hızlı olanı bulabiliriz. Bu, kolayca söylenebilir, ancak yapılmaz, çünkü milyarlarca farklı programı çalıştırarak en hızlı olanını bulamayız, bu nedenle arama alanımızı budamak için, bir verilen programın bir verilen donanım için hızını tahmin edebilecek bir matematiksel model geliştirmek zorunda kaldık, bu da bugün bizim yaptığımız şeyin możli olmasını sağlayan temel yeniliklerden biridir.
Şirketin blog’u, derleyici optimizasyonu ve çapraz-bulut düzenleme etrafındaki yenilikleri vurguluyor. SF Tensor’ın yaklaşımı, PyTorch veya JAX gibi mevcut çerçevelerden nasıl farklı?
Henüz teknik bir blog yazmadık, ancak PyTorch ve JAX gibi çerçeveleri destekliyoruz ve kodlarının bizim yığınımız tarafından optimize edilmesine izin veriyoruz. JAX ve PyTorch’un, bizim yığınımızdan ayıran beberapa mimari karar vardır, ancak en önemli olanı, tüm modeli çözülmesi gereken tek bir hesaplama olarak ele almamızdır, bireysel olarak optimize edilmesi gereken modüller yerine. Bu nedenle, geleneksel derleyici optimizasyonu tekniklerini uygulamaya çalışmak ve her bir optimizasyonu bireysel olarak uygulamaya çalışmak yerine, milyonlarca veya bazen milyarlarca potansiyel çekirdekten oluşan bir arama alanını oluşturur ve hiçbir insanın, herhangi bir kodu en hızlı hale getirebilecek bir set kural geliştiremeyeceğini iddia ederiz, bu nedenle sadece her bir kombinasyonu oluşturup en hızlı olanını tanımlamalıyız.
Çok sayıda startup, eğitim verimliliğine odaklanıyor, ancak sen “altyapı vergisi” – araştırmacıların inovasyon yerine hesaplama yönetmek için kaybettiği zaman – vurguladın. SF Tensor bu dengesizliği nasıl ele alıyor?
Her iki problemi de ele alması gerektiğine inanıyorum ve bizim çok çalışmamız, eğitim verimliliğini ele almaya gidiyor, ancak gelecekteki herhangi bir yenilikten önce çözülebilecek en acil problem, altyapı vergisidir, çünkü bu zaten bizim için çözülmüş bir problem.
Sen, eğitim maliyetlerinde %80’e varan azaltmaya ulaştığını söyledin. Bu azaltmayı mümkün kılan özel optimizasyonlar veya mimari yenilikler neler?
Tüm yazılım yığınımız, bir arama tabanlı derleyicinin her zaman insan tarafından oluşturulmuş kuralları yeneceği fikrine dayanır. Şimdiye kadar bu derleyicilerin en büyük kısıtlaması, milyarlarca veya hatta milyonlarca çekirdeği benchmark ve sıralayamama olasılığıdır. Bu nedenle, bir hesaplama veya hesaplamalar setinin bir verilen donanım üzerinde alacağı zamanı tahmin edebilecek bir matematiksel model oluşturmamız gerekliydi. Bunu yaparak, arama alanımızı genişletebilir ve sonra budayabiliriz, bu da en hızlı çekirdekleri tutarlı bir şekilde bulmak için bir gerekliliktir.
Emma programlama dilini oluşturma geçmişin, SF Tensor’ın mimarisini ve performansına ve soyutlamasına yönelik felsefesini nasıl etkiledi?
Yatırımcılarıma söyleme, ancak ben hala bir derleyici mühendisiyim. Her zaman şeyleri biraz daha hızlı yapmanın yollarını bulmaya ilgi duydum. Emma’yı geliştirirken, derleyiciyi 4 veya 5 kez completely attık; her defasında, uygulayamadığımız bir optimizasyonla karşılaştığımız için sistemi yeniden tasarlamak zorunda kaldık, bu da daha genel olmasını ve aynı zamanda gerekli olduğunda en düşük seviyeye optimizasyon yapılmasına izin vermesini sağladı. Bu öğrenimler ve oluşan mimari, neredeyse iki yıl süren küçük optimizasyonların ve yanlış bahislerin bir bileşimi, şimdi daha hızlı ilerlememizi ve daha iyi optimizasyon yapmamızı sağlayan bir sistem oluşturdu.
4.000’den fazla GPU üzerinde büyük ölçekli eğitim çalıştırmaları yaptın – bu ölçekte hesaplama yönetmekten elde ettiğin en büyük dersler neler?
Bunlardan biri, donanım arızalarının çok daha yaygın ve çok daha problemli olduğudur. Geleneksel programlar ve derleyicilerle çalışırken, genel olarak, bir bilgisayar size söylenenleri yapar ve bir şey yanlış giderse, bu genellikle kodu yazan kişinin hatasıdır. Öte yandan, GPU’lar, özellikle de çok büyük kümelerde dağıtılmış eğitim çalıştırmalarında, donanım arızaları sık görülen bir olaydır. Bununla birlikte, CPU’lar genellikle deterministik ve öngörülebilir bir şekilde davranırken, GPU’lar bazen hiçbir açık neden olmadan saat hızlarını düşürerek tüm eğitim sürecini yavaşlatabilir.
Y Combinator, teknolojinin en dönüştürücü altyapı şirketlerinin bazılarını destekledi. SF Tensor’ın ürününü ve vizyonunu ölçeklendirme yaklaşımını nasıl şekillendirdi?
Y Combinator’a girdiğimde, o zamanlar yapmak istediğimiz bahislerin iddialı olduğunu düşündüm. Ancak sadece birkaç hafta sonra, bizim için iddialı olan tanımımız radikal olarak değişti ve daha büyük bir bahse odaklandık. Bir diğeri, öğrenme ve sorunları ele alma şeklimizi değiştiren, neredeyse herhangi bir şirket veya kişi ile telefonla veya e-posta ile iletişim kurup birkaç saat veya gün içinde yanıt ve tavsiye alabileceğimiz topluluk ve öğrenme duygusudur.
İleriye bakarken, non-LLM modelleri, robotik ve sentetik veri alanlarına ilgi duyduğunu ifade ettin. Bu alanlar şirketin uzun vadeli vizyonuna nasıl uyuyor?
LLM’ler kesinlikle ilginç bir teknolojidir ve gelecekte dünyanın nasıl görüneceğinde önemli bir rol oynayacaklar, ancak bu kadar gelişmiş olmalarının nedeni, principalmente bu teknolojinin geliştirilmesine çok para yatırılması ve yeterli sayıda insanın bu problem üzerinde işbirliği yapmasıdır. Şayet altyapı vergisini düşürerek, araştırmacıların, özellikle de kısıtlı kaynaklara ve optimizasyon bilgisi olmayanların, araştırmasını möglich olduğunca ucuz ve verimli bir şekilde yapmalarına izin verebilirsek, LLM’ler için optimize edilmemiş ancak fiziksel dünya ile etkileşime giren veya dilde ifade edilemeyen sorunları çözebilecek yeni bir model neslinin ortaya çıkacağına inanıyorum.
Beş yıl içinde AI altyapı yığınının nasıl görüneceğini düşünüyorsun ve SF Tensor bu yığın içindeki rolünü nasıl görüyorsun?
Beş yıl içinde, birçok şirketin kendi özel çiplerini geliştireceğini ve araştırmacıların bu çipleri, var olduklarını bilmeye veya özel olarak kod yazmaya gerek kalmadan kullanabileceğini umuyorum. İşte bizim çalıştığımız ve önemli bir rol oynayacağımıza inandığım gelecek.
Harika bir röportaj için teşekkür ederiz, daha fazla bilgi edinmek isteyen okuyucular SF Tensor sitesini ziyaret edebilir.












