Interviews
Ben Koska, Oprichter en CEO van SF Tensor – Interviewreeks

Ben Koska, Oprichter en CEO van SF Tensor, is een AI-onderzoeker en systeemingenieur die bekend staat om zijn werk aan high-performance compute, kernel-optimalisatie en efficiënte modeltraining. Zijn achtergrond omvat het ontwikkelen van low-level AI-infrastructuur, het verbeteren van de trainingsdoorvoer en het ontwerpen van tools die geavanceerde modelontwikkeling toegankelijk maken zonder zware engineeringskosten. Hij richt zich op het bouwen van systemen die de limieten van snelheid, portabiliteit en betrouwbaarheid over heterogene hardware pushen.
SF Tensor is het bedrijf dat hij leidt om die filosofie om te zetten in een praktisch platform. Het introduceert een unified programming model, een kernel-optimalisator en een cross-cloud orchestratielaag die ontworpen is om de complexiteit van distributed AI-workloads te verwijderen. Het platform heeft als doel om engineers een schone, hardware-agnostische omgeving te geven waarin ze één keer kunnen schrijven, overal kunnen implementeren en automatisch hoge prestaties kunnen bereiken. De missie van SF Tensor is om AI-compute dramatisch sneller, gemakkelijker te beheren en vrij te maken van vendor lock-in.
U hebt SF Tensor opgericht op 19-jarige leeftijd, nadat u al leiding had gegeven aan meerdere startups. Wat inspireerde u om de uitdaging aan te gaan om AI-infrastructuur te vernieuwen zo vroeg in uw carrière?
Het probleem dat we oplossen, is een probleem waar ik me diep om bekommer. Toen we wat nu de core stack van SF Tensor is, ontwikkelden, werkten we niet aan een commercieel project, maar aan een academisch project. We hadden een subsidie ontvangen om interessant onderzoek te doen, maar we besteedden de meeste tijd aan het wringen met infrastructuur en optimalisaties, in plaats van onderzoek te doen. We ontdekten dat mensen universeel meer geïnteresseerd waren in onze infrastructuurtechnologie dan in ons onderzoeksproject.
SF Tensor tackelt een van de moeilijkste problemen in AI — het breken van NVIDIA’s CUDA-dominantie. Hoe benaderde u het ontwerpen van een systeem dat ware hardware-portabiliteit kon bereiken zonder prestaties te compromitteren
Uiteindelijk komt alle AI neer op eenvoudige wiskunde. Elk model is essentieel een set van wiskundige operaties die we moeten berekenen. Door het primair te behandelen als een wiskundig probleem in plaats van een computerwetenschappelijk probleem, kunnen we de kleinste set van beperkingen op de berekeningen identificeren, en dan miljoenen tot miljarden verschillende manieren vinden om die berekeningen om te zetten in machinecode, en de snelste vinden. Dat is gemakkelijker gezegd dan gedaan, aangezien we niet daadwerkelijk miljarden verschillende programma’s kunnen uitvoeren om de snelste te vinden, dus om onze zoekruimte te snoeien, moesten we een accurate wiskundig model ontwikkelen om de snelheid van een gegeven programma voor een gegeven hardware te schatten, wat een van de core-innovaties is die ons werk vandaag mogelijk maken.
Het bedrijfsblog benadrukt innovaties rond compiler-optimalisatie en cross-cloud orchestratie. Kunt u uitleggen hoe SF Tensor’s aanpak verschilt van bestaande frameworks zoals PyTorch of JAX?
We hebben nog geen technisch blog over het onderwerp geschreven, maar we ondersteunen daadwerkelijk frameworks zoals PyTorch en JAX, waardoor code die in deze frameworks is geschreven, kan worden geoptimaliseerd door onze stack. Er zijn verschillende architectonische beslissingen die JAX en PyTorch hebben genomen die hen onderscheiden van onze stack, maar de meest significante is dat we de hele model als een enkele berekening behandelen die moet worden opgelost, in plaats van individuele modules die afzonderlijk en vervolgens gezamenlijk moeten worden geoptimaliseerd. In die zin passen we geen traditionele compiler-optimalisatietechnieken toe en proberen we geen individuele optimalisaties toe te passen, maar creëren we in plaats daarvan een zoekruimte van miljoenen tot soms miljarden potentieel kernels en doen we de bewering dat geen enkele mens een set van regels kan bedenken om elke gegeven code om te zetten in de snelste, dus moeten we gewoon elke combinatie creëren en vervolgens de snelste identificeren.
Veel startups zijn gefocust op trainings-efficiëntie, maar u hebt de “infrastructuurtax” benadrukt — de tijd die onderzoekers verliezen met het beheren van compute in plaats van innovatie. Hoe adresseert SF Tensor deze onevenwichtigheid?
We geloven dat beide problemen aangepakt moeten worden, en een groot deel van ons werk is gericht op het aanpakken van trainings-efficiëntie, maar het meest acute probleem dat we nu kunnen oplossen zonder afhankelijk te zijn van toekomstige innovaties, is de infrastructuurtax, omdat het een probleem is dat we al voor onszelf hebben opgelost.
U hebt vermeld dat u tot 80% reductie in trainingskosten kunt bereiken. Welke specifieke optimalisaties of architectonische doorbraken maken dit mogelijk?
Onze hele software-stack is gebouwd op het idee dat een search-based compiler altijd beter zal zijn dan door mensen gemaakte regels. Tot nu toe is de grootste beperking op deze compilers het feit dat het niet mogelijk is om miljarden of zelfs miljoenen kernels te benchmarken en te rangschikken. Het was dus noodzakelijk voor ons om een wiskundig model van compute te creëren dat in staat is om de tijd die een gegeven berekening of set van berekeningen zal duren op een gegeven hardware, nauwkeurig te schatten. Door dit te doen, kunnen we onze zoekruimte uitbreiden en vervolgens snoeien, wat een noodzaak is als we de snelste kernels consistent willen vinden.
Hoe beïnvloedt uw achtergrond in het bouwen van de Emma-programmeertaal de architectuur en filosofie van SF Tensor ten aanzien van prestaties en abstractie?
Vertel het mijn investeerders niet, maar in mijn hart ben ik nog steeds een compiler-ingenieur. Ik ben altijd geïnteresseerd geweest in het vinden van verschillende manieren om dingen nog maar een beetje sneller te maken. Bij het ontwikkelen van Emma hebben we de hele compiler 4 of 5 keer weggegooid; we zijn van scratch begonnen, elke keer omdat we een optimalisatie tegenkwamen die we niet konden implementeren gegeven de huidige beperkingen, waardoor we het systeem moesten herschrijven om nog meer algemeen te zijn, terwijl we nog steeds in staat waren om naar het laagste niveau van optimalisatie te gaan wanneer nodig, vaak tegen de gebruikelijke principes van compiler- en taalontwerp in gaand. Die kennis en de resulterende architectuur, gecombineerd met bijna twee jaar van wat leek op kleine optimalisaties en verkeerde weddenschappen, hebben zich opgestapeld in een systeem dat ons nu in staat stelt om sneller te itereren en beter te optimaliseren dan enig van de systemen die de gebruikelijke principes volgden, omdat die principes fundamenteel zijn ontworpen voor CPUs, niet voor GPUs en AI-modellen.
U hebt gewerkt aan grote trainingsruns over 4.000+ GPUs — wat waren enkele van de grootste lessen die u hebt geleerd over het beheren van compute op die schaal?
Een belangrijke les is dat hardware-falen veel vaker voorkomt en veel problematischer is dan men zou vermoeden. Ik heb veel tijd besteed aan het werken met traditionele programma’s en compilers, en over het algemeen doet een computer precies wat hem wordt opgedragen, en als er iets misgaat, is het bijna altijd de schuld van de persoon die de code heeft geschreven. Met GPUs is hardware-falen daarentegen een veel voorkomend probleem, vooral in distributed trainingsruns op extreem grote clusters. Daarbij gaat het feit dat, in tegenstelling tot CPUs die over het algemeen deterministisch en voorspelbaar gedragen, GPUs soms onverklaarbaar dingen doen zoals het verlagen van de kloksnelheid zonder aanwijsbare reden, waardoor het hele trainingsproces vertraagt omdat een enkele chip langzamer loopt.
Y Combinator heeft enkele van de meest transformatieve infrastructuurbedrijven in de technologie gesponsord. Hoe heeft die ervaring uw aanpak beïnvloed om SF Tensor’s product en visie te schalen?
Toen ik bij Y Combinator begon, dacht ik dat de weddenschap die we wilden maken toen ambitieus was. Na een paar weken was onze definitie van ambitieus echter drastisch veranderd, en we hebben ons ingezet voor een nog grotere weddenschap. Voor een ander, het gevoel van gemeenschap en leren dat ik de telefoon kan pakken of een e-mail kan sturen naar vrijwel elk bedrijf of iemand daarbuiten en binnen een paar uur tot een paar dagen antwoord en advies kan krijgen, heeft de manier veranderd waarop we problemen aanpakken en een veel meer collaboratieve aanpak omarmen.
Kijkend naar de toekomst, u hebt interesse getoond in non-LLM-modellen, robotica en synthetische data. Hoe passen deze gebieden in uw langetermijnvisie voor het bedrijf?
LLM’s zijn absoluut een interessante technologie en zullen een integraal onderdeel zijn van hoe de wereld er in de toekomst uitziet, maar de reden waarom ze zo veel verder ontwikkeld zijn dan enig ander gebied van AI, komt voornamelijk door het feit dat er veel geld in hun ontwikkeling wordt geïnvesteerd, en er genoeg mensen samenwerken aan het probleem dat ze redelijk geoptimaliseerd zijn. Stel dat we de drempel naar beneden kunnen brengen, waardoor onderzoekers over de hele wereld, zelfs met beperkte middelen en weinig tot geen kennis van optimalisaties, hun onderzoek zo goedkoop en efficiënt mogelijk kunnen uitvoeren. In dat geval denk ik dat we een hele nieuwe generatie modellen zullen zien die problemen aanpakken waar LLM’s niet voor zijn ontworpen, ofwel omdat ze met de fysieke wereld interactie aangaan, ofwel omdat het problemen zijn die niet goed in taal kunnen worden uitgedrukt.
Wat denkt u dat de AI-infrastructuurstapel over vijf jaar zal zijn — en waar ziet u SF Tensor’s rol daarin?
Over vijf jaar hoop ik dat veel meer bedrijven hun eigen gespecialiseerde chips hebben ontwikkeld en uitgebracht, en dat onderzoekers in staat zullen zijn om deze te benutten en te gebruiken zonder dat ze specifieke code voor hen hoeven te schrijven, idealiter zonder zelfs maar te weten dat ze bestaan. Dat is de toekomst waar we naar toe werken en die ik geloof dat we een significante rol in zullen spelen.
Bedankt voor het geweldige interview, lezers die meer willen leren, moeten bezoeken SF Tensor.












