Interviuri
Ben Koska, Fondator și CEO al SF Tensor – Seria de Interviuri

Ben Koska, Fondator și CEO al SF Tensor, este un cercetător în domeniul inteligenței artificiale și inginer sistemist, cunoscut pentru munca sa în domeniul calculului de înaltă performanță, optimizării kernel-ului și antrenării eficiente a modelului. Fondul său cuprinde dezvoltarea de infrastructuri de bază pentru inteligență artificială, îmbunătățirea debitului de antrenament și proiectarea unor instrumente care fac dezvoltarea modelului avansat accesibilă fără a necesita o suprastructură inginerească greoaie. El se concentrează pe construirea unor sisteme care împing limitele vitezei, portabilității și fiabilității pe hardware eterogen.
SF Tensor este compania pe care o conduce pentru a transforma această filozofie într-o platformă practică. Introduce un model de programare unificat, un optimizator de kernel și un strat de orchestrare cross-cloud proiectat pentru a elimina complexitatea sarcinilor de lucru distribuite ale inteligenței artificiale. Platforma își propune să ofere inginerilor un mediu curat, independent de hardware, în care pot scrie odată, implementa oriunde și atinge automat performanțe ridicate. Misiunea SF Tensor este de a face calculul inteligenței artificiale dramatic mai rapid, mai ușor de gestionat și liber de blocarea furnizorului.
Ai fondat SF Tensor la doar 19 ani, după ce ai condus deja ingineria la mai multe startup-uri. Ce te-a inspirat să iei provocarea de a reinventa infrastructura inteligenței artificiale atât de devreme în cariera ta?
Problema pe care o rezolvăm este una pentru care eu îmi pasă profund, pentru că este una cu care m-am confruntat și eu. Când am dezvoltat ceea ce este acum stiva centrală a SF Tensor, nu lucram la un proiect comercial, ci la un proiect academic. Am primit o subvenție pentru a efectua unele cercetări interesante, dar am petrecut cea mai mare parte a timpului nostru luptându-ne cu infrastructura și optimizările, în loc să facem cercetare. Am descoperit că oamenii erau universal mai interesați de tehnologia noastră de infrastructură, nu de proiectul nostru de cercetare.
SF Tensor abordează una dintre cele mai dificile probleme ale inteligenței artificiale — înlăturarea dominanței NVIDIA CUDA. Cum ai abordat proiectarea unui sistem care să poată atinge o portabilitate reală a hardware-ului fără a compromite performanța
La sfârșitul zilei, toată inteligența artificială se reduce la simple matematici. Fiecare model este esențialmente un set de operații matematice pe care trebuie să le calculăm pentru a obține rezultatele. Prin tratarea acesteia în primul rând ca o problemă matematică și nu ca o problemă de știință a calculatoarelor, putem identifica cel mai mic set de constrângeri asupra calculelor, apoi genera milioane până la miliarde de moduri diferite de a transforma aceste calcule în cod de mașină, găsind cel mai rapid. Acest lucru este mai ușor de spus decât de făcut, deoarece nu putem rula efectiv miliarde de programe diferite pentru a găsi cel mai rapid, așa că pentru a reduce spațiul nostru de căutare, am trebuit să concepem un model matematic precis pentru a estima viteza unui anumit program pentru un anumit hardware, ceea ce este una dintre inovațiile de bază care fac posibil ceea ce facem astăzi.
Blogul companiei prezintă inovații în jurul optimizării compilatorului și orchestrării cross-cloud. Poți explica cum abordarea SF Tensor se diferențiază de cadrele existente, cum ar fi PyTorch sau JAX?
Nu am scris încă un blog tehnic despre asta, dar de fapt, susținem cadre precum PyTorch și JAX, permițând codului scris în acestea să fie optimizat de stiva noastră. Există mai multe decizii arhitecturale pe care JAX și PyTorch le-au făcut care le diferențiază de stiva noastră, dar cea mai semnificativă este că tratăm întregul model ca o singură calculare de rezolvat, și nu module individuale care trebuie optimizate individual și apoi împreună. În acest sens, în loc să aplicăm tehnici tradiționale de optimizare a compilatorului și să încercăm să aplicăm fiecare optimizare individuală, creăm în schimb un spațiu de căutare de milioane până la miliarde de kerneluri potențiale și susținem că niciun om nu poate posibil să conceapă un set de reguli pentru a transforma orice cod în cel mai rapid, așa că trebuie pur și simplu să creăm toate combinațiile și apoi să identificăm cel mai rapid.
Multe startup-uri se concentrează pe eficiența antrenării, dar tu ai subliniat “taxa de infrastructură” — timpul pe care cercetătorii îl pierd gestionând calculul în loc de a inova. Cum abordează SF Tensor acest dezechilibru?
Credem că ambele probleme trebuie abordate, și o mare parte din munca noastră se axează pe rezolvarea eficienței antrenării, dar problema cea mai acută pe care o putem rezolva în acest moment fără a fi condiționați de inovații viitoare este taxa de infrastructură, deoarece este o problemă pe care am rezolvat-o deja pentru noi înșine.
Ai menționat realizarea unor reduceri de până la 80% ale costurilor de antrenare. Care sunt optimizările sau inovațiile arhitecturale specifice care fac posibil acest lucru?
Întreaga noastră stivă de software este construită pe ideea că un compilator bazat pe căutare va bate întotdeauna regulile create de oameni. Până acum, cea mai mare constrângere pentru acești compilați a fost faptul că nu este posibil să testați și să clasificați miliarde sau chiar milioane de kerneluri. A fost, prin urmare, necesar pentru noi să creăm un model matematic al calculului care să poată estima cu acuratețe timpul necesar pentru a efectua o anumită calculare sau un set de calcule pe un anumit hardware. Prin a face acest lucru, putem extinde spațiul nostru de căutare și apoi să-l reducem, ceea ce este o necesitate dacă vrei să găsești kernelurile cele mai rapide în mod constant.
Cum influențează fundalul tău în construirea limbajului de programare Emma arhitectura și filozofia SF Tensor către performanță și abstracție?
Nu spuneți investitorilor mei, dar în inimă, eu sunt încă un inginer de compilatoare. Am fost întotdeauna interesat de găsirea unor moduri diferite de a face lucrurile și mai rapide, chiar și cu doar o îmbunătățire incrementală. În timpul dezvoltării lui Emma, am aruncat întregul compilator de 4 sau 5 ori; am început de la zero, de fiecare dată, pentru că am dat peste o optimizare pe care nu o puteam implementa având în vedere constrângerile actuale, ceea ce ne-a forțat să reinginerizăm sistemul pentru a fi și mai general, permițându-ne să coborâm la nivelul cel mai de jos de optimizare atunci când a fost necesar, adesea mergând împotriva principiilor comune de proiectare a compilatorului și a limbajului. Aceste învățăminte și arhitectura rezultată, combinate cu aproape doi ani de ceea ce părea pentru mulți o optimizare minoră și pariuri greșite, s-au transformat într-un sistem care ne permite acum să iterăm mai rapid și să optimizăm mai bine decât orice sistem care a urmat principiile comune, deoarece aceste principii sunt fundamental proiectate pentru procesoare, nu pentru GPU-uri și modele de inteligență artificială.
Ai lucrat la rulări de antrenare la scară largă pe peste 4.000 de GPU-uri — care au fost unele dintre cele mai importante lecții învățate din gestionarea calculului la acea scară?
Una dintre ele este că defectarea hardware-ului este mult mai frecventă și mai problematică decât s-ar putea crede. Având în vedere timpul petrecut lucrând cu programe tradiționale și compilați, de obicei, un calculator face exact ce i se spune, și dacă ceva merge prost, este aproape întotdeauna vina persoanei care a scris codul. Cu GPU-urile, pe de altă parte, defectarea hardware-ului este o apariție obișnuită, mai ales în rulările de antrenare distribuite pe clusteruri extrem de mari. Însoțind acest lucru este faptul că, spre deosebire de CPU-urile care funcționează în general într-un mod determinist și previzibil, GPU-urile vor face uneori lucruri inexplicabile, cum ar fi reducerea vitezei ceasului fără niciun motiv aparent, încetinind întregul proces de antrenare, pentru că un singur chip rulează mai lent.
Y Combinator a sprijinit unele dintre cele mai transformaționale companii de infrastructură din tehnologie. Cum a influențat această experiență abordarea ta de a scala produsul și viziunea SF Tensor?
Intrând în Y Combinator, credeam că pariu pe care îl voiam să îl facem atunci era ambițios. După doar câteva săptămâni, definiția noastră de ambiție s-a schimbat drastic, și am dublat pariul pe un pariu și mai mare. Pentru altceva, sentimentul de comunitate și învățare pe care îl pot lua telefonul sau pot trimite un e-mail către aproape orice companie sau persoană de acolo și pot primi un răspuns și sfaturi în decurs de ore până la zile, a schimbat modul în care gândim despre abordarea problemelor și adoptarea unei abordări colaborative semnificativ mai mari.
Privind înainte, ai exprimat interes pentru modele non-LLM, robotică și date sintetice. Cum se încadrează aceste domenii în viziunea ta pe termen lung pentru companie?
LLM-urile sunt cu siguranță o tehnologie interesantă și vor juca un rol integral în modul în care va arăta lumea în viitor, dar motivul pentru care sunt atât de mult mai avansate decât orice alt domeniu al inteligenței artificiale provine în principal din faptul că există o mulțime de bani investiți în dezvoltarea lor, și există suficienți oameni care colaborează la rezolvarea acestei probleme, astfel încât au devenit destul de optimizați. Presupunând că putem reduce bariera de intrare, permițând cercetătorilor din întreaga țară și planetă, chiar și celor cu resurse limitate și cunoștințe minime în optimizări, să-și desfășoare cercetarea la fel de ieftin și eficient ca posibil. În acest caz, cred că vom vedea o întreagă nouă generație de modele care vor aborda probleme pe care LLM-urile nu sunt potrivite să le rezolve, fie pentru că interacționează cu lumea fizică, fie pentru că sunt probleme care nu pot fi exprimate corespunzător în limbaj.
Ce crezi că va arăta stiva de infrastructură a inteligenței artificiale peste cinci ani — și unde vezi rolul SF Tensor în cadrul acesteia?
Peste cinci ani, sper că multe alte companii vor fi dezvoltat și lansat propriile procesoare specializate, și că cercetătorii vor putea să le valorifice și să le utilizeze fără a trebui să scrie cod special pentru ele, ideal fără a fi nevoiți să știe măcar că există. Acesta este viitorul pe care îl construim și în care cred că vom juca un rol semnificativ.
Mulțumim pentru acest interviu minunat; cititorii care doresc să afle mai multe trebuie să viziteze SF Tensor.












